學習率

Learning Rate

梯度下降時每步更新參數的步長

詳細解釋

學習率(Learning Rate)是優化器每次更新參數的步長大小,是最重要的超參數,決定收斂速度和質量。

作用:

  • 步長控制:
  • 太大:震盪不收斂
  • 太小:收斂極慢
  • 合適:穩定快速收斂

調度策略:

  • 固定:簡單,但非最優
  • 衰減:
  • Step:每N輪乘以係數
  • Exponential:指數衰減
  • Cosine:余弦退火
  • 自適應:
  • ReduceLROnPlateau
  • 根據驗證損失調整
  • Warmup:預熱階段從小開始

經驗法則:

  • 預訓練:較大(1e-4到1e-3)
  • 微調:較小(1e-5到1e-4)
  • 大批次:相應增大
  • 測試:Learning Rate Finder

與優化器的關係:

  • SGD:對學習率敏感
  • Adam:自適應,相對不敏感
  • 調度:與優化器配合使用

學習率是調參的首要焦點。

探索更多AI詞彙

查看所有分類,繼續學習AI知識