詳細解釋
欠擬合(Underfitting)是模型過於簡單,無法捕捉數據中的潛在模式,導致在訓練數據和測試數據上都表現不佳的現象。
症狀:
- 訓練損高:訓練集上損失大,準確率低
- 驗證損也高:測試集同樣表現差
- 學習不足:模型沒有學到有效模式
- 過於簡化:決策邊界過於簡單
原因:
- 模型簡單:容量不足以學習複雜模式
- 訓練不足:Epoch太少,未充分訓練
- 學習率小:優化過慢
- 正則化強:過度懲罰模型複雜度
- 特徵不足:輸入特徵信息量不夠
檢測:
- 學習曲線:訓練和驗證損失都高
- 訓練準確率:遠未達到可接受水平
- 殘差分析:系統性錯誤模式
解決方法:
- 增加模型容量:更多層、更多神經元
- 更長訓練:更多Epoch
- 更大學習率:加速收斂
- 減弱正則化:降低L2、減小Dropout
- 特徵工程:更好的輸入特徵
- 減少約束:放寬模型限制
- 更複雜架構:從線性到非線性,簡單CNN到ResNet
與過擬合的對比:
- 欠擬合:簡單,高偏差
- 過擬合 (過度擬合 / 過適):複雜,高方差
- 目標:找到恰當的平衡
學習曲線診斷:
- 欠擬合:訓練和驗證曲線都高且接近
- 過擬合:訓練低但驗證高,差距大
- 良好:兩條曲線都低且接近
實踐建議:
- 先避免欠擬合:確保模型能學習
- 再避免過擬合:添加正則化
- 順序:先複雜化,再簡化
欠擬合是模型無法學習的基礎問題。