L2正規化

L2 Regularization

Ridge,權重衰減

詳細解釋

L2正則化(Ridge/權重衰減)是最常用的正則化技術,通過懲罰權重平方和,防止模型過度依賴單個特徵,提升泛化能力。

數學定義:

L = Loss + λ × Σwᵢ²

  • Loss:原始損失(如交叉熵均方誤差
  • λ:正則化強度(通常0.001-0.1)
  • wᵢ²:權重的平方
  • L2範數:權重向量的歐氏距離平方

與權重衰減的關係:

  • 標準SGD:L2正則化等價於權重衰減
  • 自適應優化器:在Adam中不等價,需用AdamW
  • 效果:每步更新時權重乘以(1-ηλ)縮小

為何有效:

  • 偏好小權重:大權重受更大懲罰(平方關係)
  • 平滑決策邊界:減少模型複雜度
  • 減少過擬合:限制模型對訓練數據的過度記憶
  • 數值穩定:防止權重變得極大

與L1的比較:

  • L1正規化:產生稀疏解(部分權重=0)
  • L2:產生小權重(所有權重都小但非零)
  • L2更常用,除非需要特徵選擇

幾何解釋:

  • 約束區域:圓形(2D)或球形(高維)
  • 最優解:約束邊界與損失函數等值線的切點
  • 權重衰減:約束中心在原點,鼓勵小權重

應用場景:

  • 幾乎所有模型:默認添加L2正則化
  • 線性回歸:Ridge回歸
  • 邏輯回歸:防止過擬合
  • 神經網絡:權重衰減的標準實踐
  • 核方法:防止核矩陣病態

參數選擇:

  • 交叉驗證:用驗證集選擇最佳λ
  • 網格搜索:嘗試多個值(如[0.0001, 0.001, 0.01, 0.1])
  • 層級差異:不同層可用不同強度

L2正則化是機器學習的基礎防過擬合技術。

探索更多AI詞彙

查看所有分類,繼續學習AI知識