熱身

Warmup

訓練初期漸進提高學習率的技巧

詳細解釋

熱身(Warmup)是訓練初期學習率從小逐漸增加到目標值的策略,幫助模型穩定啟動並避免早期大梯度破壞預訓練權重。

為何需要:

  • 初期不穩定:模型權重隨機初始化或預訓練,梯度可能很大
  • 保護預訓練:微調大模型時,大學習率會破壞已學知識
  • 穩定收斂:小學習率讓模型適應數據分布
  • 大批次必需:大批次訓練必須配合warmup

常見策略:

  • 常數Warmup:先常數小學習率,再跳躍到目標值
  • 漸進Warmup:多階段逐步增加

典型設置:

與學習率調度的關係:

  • Warmup + Cosine Decay:先增後減的平滑曲線
  • Warmup + Linear Decay:預熱後線性下降
  • Warmup + Constant:預熱後保持

實踐建議:

  • 預訓練:較長warmup(數千到數萬步)
  • 微調:較短warmup(總步數的5-10%)
  • 監測損失:如果初期震盪,增加warmup

Warmup是穩定訓練大模型的關鍵技術。

探索更多AI詞彙

查看所有分類,繼續學習AI知識