詳細解釋
梯度爆炸(Gradient Explosion)是深度神經網絡訓練中梯度值變得極大(NaN或Inf)的現象,導致模型參數更新失控和訓練失敗。
發生原因:
- 梯度連乘:反向傳播時梯度連乘,值指數增長
- 深層網絡:層數越多,連乘次數越多
- 長序列:RNN處理長序列時尤其嚴重
- 大權重:初始化或更新導致的權重過大
- 激活函數:某些激活函數導數較大
症狀:
- 損失突然變為NaN或極大值
- 參數變為Inf或NaN
- 訓練過程崩潰
- 模型輸出無意義
與梯度消失的對比:
- 梯度爆炸:梯度太大,參數更新過度
- 梯度消失:梯度太小,參數不更新
- 兩者都是深層網絡的訓練挑戰
解決方案:
- 梯度裁剪:裁剪梯度范數
- 層正規化:穩定每層輸入
- 殘差連接:跳過連接減少梯度連乘
- 更好的初始化:Xavier、He初始化
- 更短序列:截斷反向傳播時間
- 門控機制:LSTM、GRU替代簡單RNN
預防策略:
- 梯度檢查:監測梯度范數
- 損失監測:異常值時停止並調整
- 較小學習率:減少更新幅度
- 批次正規化:穩定每層分布
梯度爆炸是深度學習訓練必須理解和處理的關鍵問題。
亦稱「Exploding Gradient」。