權重衰減

Weight Decay

L2正則化防止過擬合

詳細解釋

權重衰減(Weight Decay)是一種正則化技術,在每次更新時將權重乘以一個小於1的係數,懲罰大權重值,防止過擬合。

與L2正則化的關係:

  • 數學等價:在標準SGD中,權重衰減等同於L2正則化
  • L2形式:損失函數增加 λ/2 × ||w||²
  • 權重衰減形式:w = (1 - ηλ) × w - η × 梯度
  • 但在自適應優化器(Adam)中不等價,需用AdamW

為何有效:

  • 偏好小權重:懲罰大參數值
  • 減少模型複雜度:簡化決策邊界
  • 防止過擬合:減少對訓練數據的過度記憶
  • 幾何解釋:限制參數空間的搜尋範圍

典型設置:

  • 值域:1e-4 到 1e-2
  • 預設:0.01是常見起點
  • 較大任務(如預訓練):0.1或更高
  • 微調:通常較小(1e-5到1e-4)

應用注意:

與其他正則化的比較:

  • 隨機失活:隨機丟棄神經元
  • L1正規化:產生稀疏性
  • 權重衰減(L2):產生小權重
  • 通常同時使用多種

權重衰減是防止過擬合的基礎技術。

探索更多AI詞彙

查看所有分類,繼續學習AI知識