隨機捨入

Stochastic Rounding

低精度訓練的捨入方式

詳細解釋

隨機捨入(Stochastic Rounding)是量化訓練中的捨入技術,以概率方式捨入到最近量化級別,保持量化誤差無偏,改善低精度訓練的收斂性。

與確定性捨入的對比:

  • 最近捨入(Round-to-Nearest):總是捨入到最近的量化級別
  • 問題:系統性偏差,梯度累積誤差
  • 隨機捨入:按距離比例概率捨入
  • 優勢:無偏估計,保持期望值

工作原理:

  • 計算:x 在兩個量化級別 q1 < x < q2 之間
  • 距離:d1 = x - q1, d2 = q2 - x
  • 概率:捨入到q1的概率 = d2/(d1+d2)
  • 結果:期望E[round(x)] = x(無偏)

在量化訓練中的作用:

優勢:

  • 無偏性:不引入系統誤差
  • 收斂性:比確定捨入更易收斂
  • 數值穩定:減少梯度累積誤差
  • 理論保證:統計學上的良好性質

應用場景:

  • 分布式訓練:梯度壓縮和通信
  • 邊緣訓練:低精度設備上的訓練
  • 聯邦學習:通信效率優化
  • 大規模訓練:記憶體和帶寬節省

與其他技術的結合:

  • 混合精度:FP16訓練的數值穩定
  • 梯度壓縮:減少通信帶寬
  • 量化梯度:極低精度梯度傳輸

實現考量:

  • 隨機數生成:硬件隨機數生成器加速
  • 確定性:可選固定種子保證可重現
  • 硬件支援:專用硬件加速

理論基礎:

  • 統計學:無偏估計量
  • 隨機近似:隨機算法的收斂理論
  • 量化噪聲:將量化視為噪聲處理

隨機捨入是低精度計算的關鍵數值技術。

探索更多AI詞彙

查看所有分類,繼續學習AI知識