🚀 2026 全民被動收入指南，賺錢就是 Easy Job

關於我們聯絡我們

易賺AiEasyJobAi

2初級訓練與優化

權重衰減

Weight Decay

L2正則化防止過擬合

詳細解釋

權重衰減（Weight Decay）是一種正則化技術，在每次更新時將權重乘以一個小於1的係數，懲罰大權重值，防止過擬合。

與L2正則化的關係：

數學等價：在標準SGD中，權重衰減等同於L2正則化
L2形式：損失函數增加 λ/2 × ||w||²
權重衰減形式：w = (1 - ηλ) × w - η × 梯度
但在自適應優化器（Adam）中不等價，需用AdamW

為何有效：

偏好小權重：懲罰大參數值
減少模型複雜度：簡化決策邊界
防止過擬合：減少對訓練數據的過度記憶
幾何解釋：限制參數空間的搜尋範圍

典型設置：

值域：1e-4 到 1e-2
預設：0.01是常見起點
較大任務（如預訓練）：0.1或更高
微調：通常較小（1e-5到1e-4）

應用注意：

偏向和歸一化層：通常不應用權重衰減
批次正規化 (Batch Norm / BN)的γ和β：通常排除
嵌入層：通常也排除
AdamW：正確實現權重衰減的首選

與其他正則化的比較：

隨機失活：隨機丟棄神經元
L1正規化：產生稀疏性
權重衰減（L2）：產生小權重
通常同時使用多種

權重衰減是防止過擬合的基礎技術。

相關詞彙

泛指防止模型過擬合的約束技術

探索更多AI詞彙

查看所有分類，繼續學習AI知識

基礎概念模型架構技術工具應用場景全部詞彙