詳細解釋
權重衰減(Weight Decay)是一種正則化技術,在每次更新時將權重乘以一個小於1的係數,懲罰大權重值,防止過擬合。
與L2正則化的關係:
- 數學等價:在標準SGD中,權重衰減等同於L2正則化
- L2形式:損失函數增加 λ/2 × ||w||²
- 權重衰減形式:w = (1 - ηλ) × w - η × 梯度
- 但在自適應優化器(Adam)中不等價,需用AdamW
為何有效:
- 偏好小權重:懲罰大參數值
- 減少模型複雜度:簡化決策邊界
- 防止過擬合:減少對訓練數據的過度記憶
- 幾何解釋:限制參數空間的搜尋範圍
典型設置:
- 值域:1e-4 到 1e-2
- 預設:0.01是常見起點
- 較大任務(如預訓練):0.1或更高
- 微調:通常較小(1e-5到1e-4)
應用注意:
- 偏向和歸一化層:通常不應用權重衰減
- 批次正規化 (Batch Norm / BN)的γ和β:通常排除
- 嵌入層:通常也排除
- AdamW:正確實現權重衰減的首選
與其他正則化的比較:
權重衰減是防止過擬合的基礎技術。