🚀 2026 全民被動收入指南，賺錢就是 Easy Job

關於我們聯絡我們

易賺AiEasyJobAi

2初級訓練與優化

學習率調度

Learning Rate Schedule

訓練過程中調整學習率的方法

詳細解釋

學習率調度（Learning Rate Schedule）是在訓練過程中動態調整學習率的策略，對模型收斂和最終性能有重要影響。

為何需要調度：

初期：大學習率快速接近最優區域
後期：小學習率精細調整參數
固定學習率：可能震盪或收斂慢

常見策略：

衰減策略：

階梯衰減（Step Decay）：每N個epoch乘以係數（如0.1）
指數衰減：學習率按指數函數下降
余弦退火（Cosine Annealing）：平滑的週期性衰減

自適應策略：

ReduceLROnPlateau：驗證損停滯時降低學習率
Adam優化器、AdamW：自適應優化器內建調整

預熱（Warmup）：

初期從小學習率線性增加到目標值
防止初期大梯度破壞預訓練權重
特別重要於大模型微調和Transformer架構 (變換器 / 注意力模型) (Switch Transformer)訓練

週期性策略：

SGDR：帶重啟的隨機梯度下降
學習率周期性升高再降低
幫助跳出局部最優

與批次大小的關係：

線性縮放規則：批次大小翻倍，初始學習率也翻倍
大批次需要warmup更長

實踐建議：

監督學習：通常1-3個epoch後開始衰減
預訓練：大型語言模型 (大語言模型 / 大模型)常使用cosine schedule訓練1-3 epoch
微調：較小學習率，較少warmup
監測損失曲線：調整策略

學習率調度是模型優化的重要藝術。

相關詞彙

梯度下降 (梯度遞減)3

透過梯度逐步調整參數以最小化損失的優化方法

探索更多AI詞彙

查看所有分類，繼續學習AI知識

基礎概念模型架構技術工具應用場景全部詞彙