學習率排程

Learning Rate Scheduler

動態調整學習率

詳細解釋

學習率排程(Learning Rate Scheduler)是根據訓練進度動態調整學習率的策略,對模型收斂和最終性能有重要影響。

常見策略:

  1. 階梯衰減(Step Decay):
  • 每N個epoch將學習率乘以係數(如0.1)
  • 簡單有效,最常用
  • 例如:初始0.1,30epoch後0.01,60epoch後0.001
  1. 指數衰減(Exponential Decay):
  • lr = lr₀ × exp(-kt)
  • 平滑連續的衰減
  • 適合長期訓練
  1. 余弦退火(Cosine Annealing):
  1. 帶重啟的余弦退火(Cosine Annealing with Warm Restarts):
  • 週期性重設學習率到高值
  • 幫助跳出局部最優
  • 也稱SGDR(Stochastic Gradient Descent with Warm Restarts)
  1. ReduceLROnPlateau:
  • 驗證損失停滯時降低學習率
  • 自適應,不需要預設epoch

與其他技術的結合:

  • 熱身:先warmup再衰減
  • 早停法:學習率調度與早停配合
  • 週期性學習率:Cyclical LR,學習率在範圍內週期變化

實踐建議:

  • 預訓練:余弦退火常用,訓練1-3epoch
  • 微調:較小學習率,較短warmup
  • 監測損失曲線:調整策略
  • 預設值:通常從Step Decay開始

深度學習框架:

學習率排程是訓練深度模型的關鍵藝術。

探索更多AI詞彙

查看所有分類,繼續學習AI知識