詳細解釋
收斂(Convergence)在機器學習中指優化算法逐漸接近最優解的過程,損失函數值不再顯著下降或達到穩定狀態。
收斂指標:
- 損失穩定:訓練損失變化小於某個閾值(如1e-4)
- 梯度范數:參數更新量變得極小
- 驗證性能:驗證集指標不再提升
- 固定epoch:達到預設的訓練輪數
收斂類型:
- 全域收斂:達到全局最優(凸問題可保證)
- 局部收斂:達到局部最優(非凸問題常見)
- 鞍點停滯:在非凸問題中收斂到鞍點
- 發散:損失變大,通常是學習率過大
影響收斂的因素:
監測和診斷:
- 損失曲線:可視化訓練過程
- 學習曲線:訓練vs驗證性能
- 梯度范數:檢查梯度爆炸或消失
- 激活分布:監測梯度消失 (Vanishing Gradient)或梯度爆炸 (Exploding Gradient)
收斂問題處理:
- 梯度裁剪:防止梯度爆炸
- 學習率調度:逐步降低學習率
- 更好的初始化:Xavier 初始化、He 初始化 (Kaiming 初始化)
- 架構改進:殘差連接、層正規化
收斂不保證找到好解,需要結合過擬合 (過度擬合 / 過適)監測。