詳細解釋
L2正則化(Ridge/權重衰減)是最常用的正則化技術,通過懲罰權重平方和,防止模型過度依賴單個特徵,提升泛化能力。
數學定義:
L = Loss + λ × Σwᵢ²
與權重衰減的關係:
- 標準SGD:L2正則化等價於權重衰減
- 自適應優化器:在Adam中不等價,需用AdamW
- 效果:每步更新時權重乘以(1-ηλ)縮小
為何有效:
- 偏好小權重:大權重受更大懲罰(平方關係)
- 平滑決策邊界:減少模型複雜度
- 減少過擬合:限制模型對訓練數據的過度記憶
- 數值穩定:防止權重變得極大
與L1的比較:
- L1正規化:產生稀疏解(部分權重=0)
- L2:產生小權重(所有權重都小但非零)
- L2更常用,除非需要特徵選擇
幾何解釋:
- 約束區域:圓形(2D)或球形(高維)
- 最優解:約束邊界與損失函數等值線的切點
- 權重衰減:約束中心在原點,鼓勵小權重
應用場景:
- 幾乎所有模型:默認添加L2正則化
- 線性回歸:Ridge回歸
- 邏輯回歸:防止過擬合
- 神經網絡:權重衰減的標準實踐
- 核方法:防止核矩陣病態
參數選擇:
- 交叉驗證:用驗證集選擇最佳λ
- 網格搜索:嘗試多個值(如[0.0001, 0.001, 0.01, 0.1])
- 層級差異:不同層可用不同強度
L2正則化是機器學習的基礎防過擬合技術。