詳細解釋
Huber損失是一種結合均方誤差和平均絕對誤差優點的回歸損失函數,小誤差時像MSE(平滑可微),大誤差時像MAE(對異常值魯棒)。
數學定義:
Lδ(a) = { 0.5 × a² if |a| ≤ δ
{ δ × (|a| - 0.5δ) if |a| > δ
- a = y - ŷ(預測誤差)
- δ:超參數,控制從二次到線性的過渡點
特性:
- |a| ≤ δ:二次(類似MSE),平滑可微
- |a| > δ:線性(類似MAE),對異常值魯棒
- 處處可微:在a=δ處平滑過渡
- 參數δ:通常1.0-2.0
為何有效:
- 梯度不消失:大誤差時梯度為常數(非零)
- 不像MSE放大異常值
- 不像MAE在0點不可微
- 數值穩定:訓練過程更穩定
選擇δ:
- 太小:近似MSE,失去魯棒性
- 太大:近似MAE,優化困難
- 通常:1.0-2.0,或基於數據標準差
應用:
- 回歸任務:特別是可能有異常值的數據
- 強化學習:Q-learning的損失
- 計算機視覺:某些回歸問題
- 替代MAE:需要可微分時
與其他損失的比較:
- MSE:對異常值敏感,優化快
- MAE:魯棒,優化慢(次梯度)
- Huber:平衡兩者,通常首選
Huber損失是回歸任務的魯棒選擇。