詳細解釋
學習率(Learning Rate)是優化器每次更新參數的步長大小,是最重要的超參數,決定收斂速度和質量。
作用:
- 步長控制:
- 太大:震盪不收斂
- 太小:收斂極慢
- 合適:穩定快速收斂
調度策略:
- 固定:簡單,但非最優
- 衰減:
- Step:每N輪乘以係數
- Exponential:指數衰減
- Cosine:余弦退火
- 自適應:
- ReduceLROnPlateau
- 根據驗證損失調整
- Warmup:預熱階段從小開始
經驗法則:
- 預訓練:較大(1e-4到1e-3)
- 微調:較小(1e-5到1e-4)
- 大批次:相應增大
- 測試:Learning Rate Finder
與優化器的關係:
- SGD:對學習率敏感
- Adam:自適應,相對不敏感
- 調度:與優化器配合使用
學習率是調參的首要焦點。