學習率調度

Learning Rate Schedule

訓練過程中調整學習率的方法

詳細解釋

學習率調度(Learning Rate Schedule)是在訓練過程中動態調整學習率的策略,對模型收斂和最終性能有重要影響。

為何需要調度:

  • 初期:大學習率快速接近最優區域
  • 後期:小學習率精細調整參數
  • 固定學習率:可能震盪或收斂慢

常見策略:

  1. 衰減策略:
  • 階梯衰減(Step Decay):每N個epoch乘以係數(如0.1)
  • 指數衰減:學習率按指數函數下降
  • 余弦退火(Cosine Annealing):平滑的週期性衰減
  1. 自適應策略:
  • ReduceLROnPlateau:驗證損停滯時降低學習率
  • Adam優化器AdamW:自適應優化器內建調整
  1. 預熱(Warmup):
  1. 週期性策略:
  • SGDR:帶重啟的隨機梯度下降
  • 學習率周期性升高再降低
  • 幫助跳出局部最優

與批次大小的關係:

  • 線性縮放規則:批次大小翻倍,初始學習率也翻倍
  • 大批次需要warmup更長

實踐建議:

學習率調度是模型優化的重要藝術。

探索更多AI詞彙

查看所有分類,繼續學習AI知識