梯度爆炸 (Exploding Gradient)

Gradient Explosion (Exploding Gradient)

深層網絡梯度急劇增大

詳細解釋

梯度爆炸(Gradient Explosion)是深度神經網絡訓練中梯度值變得極大(NaN或Inf)的現象,導致模型參數更新失控和訓練失敗。

發生原因:

  • 梯度連乘:反向傳播時梯度連乘,值指數增長
  • 深層網絡:層數越多,連乘次數越多
  • 長序列:RNN處理長序列時尤其嚴重
  • 大權重:初始化或更新導致的權重過大
  • 激活函數:某些激活函數導數較大

症狀:

  • 損失突然變為NaN或極大值
  • 參數變為Inf或NaN
  • 訓練過程崩潰
  • 模型輸出無意義

與梯度消失的對比:

  • 梯度爆炸:梯度太大,參數更新過度
  • 梯度消失:梯度太小,參數不更新
  • 兩者都是深層網絡的訓練挑戰

解決方案:

  • 梯度裁剪:裁剪梯度范數
  • 層正規化:穩定每層輸入
  • 殘差連接:跳過連接減少梯度連乘
  • 更好的初始化:Xavier、He初始化
  • 更短序列:截斷反向傳播時間
  • 門控機制:LSTM、GRU替代簡單RNN

預防策略:

  • 梯度檢查:監測梯度范數
  • 損失監測:異常值時停止並調整
  • 較小學習率:減少更新幅度
  • 批次正規化:穩定每層分布

梯度爆炸是深度學習訓練必須理解和處理的關鍵問題。

亦稱「Exploding Gradient」。

探索更多AI詞彙

查看所有分類,繼續學習AI知識