詳細解釋
L1正則化(Lasso)是一種產生稀疏解的正則化技術,通過懲罰權重絕對值之和,使不重要特徵的權重精確為零。
數學定義:
L = Loss + λ × Σ|wᵢ|
- Loss:原始損失函數
- λ:正則化強度
- |wᵢ|:權重的絕對值
- L1範數:權重向量的曼哈頓距離
與L2的關鍵區別:
為何產生稀疏性:
- 幾何解釋:L1約束區域是菱形,最優解常在頂點(某些坐標=0)
- 梯度:|w|的導數是sign(w),梯度幅度不隨w減小而減小
- 快速降至零:小權重受到與大權重相同的懲罰力度
應用場景:
- 特徵選擇:自動選擇重要特徵,去除無關特徵
- 高維數據:基因數據、文本分類(詞袋模型)
- 模型解釋性:識別關鍵影響因素
- 壓縮模型:減少非零參數數量
優化特性:
- 非光滑:|w|在0點不可導
- 次梯度法:在0點次梯度為[-1, 1]區間
- 坐標下降:逐坐標優化高效
- 軟閾值:迭代收縮閾值算法(ISTA)
與嵌入式特徵選擇的關係:
- Lasso (L1 正則化迴歸):L1正則化的線性回歸
- 彈性網絡(Elastic Net):L1 + L2組合
- 嵌入式:訓練同時選擇特徵
局限性:
- 高維相關特徵:可能只選一個,遺漏其他
- 非凸問題:多個局部最優
- 穩定性:數據小變化可能導致不同特徵被選
L1正則化是自動特徵選擇的強大工具。