詳細解釋
全域最小值(Global Minimum)是函數在整個定義域內的最低點,是優化的理論目標,但在深度學習中通常無法找到且不必找到。
數學定義:
- 對於f(x),點x*是全局最小值如果:
- 對於所有x,f(x*) ≤ f(x)
- 唯一性:可能有多個全局最小值(值相同但x不同)
在深度學習中的情況:
- 神經網絡非凸:存在多個全局最小值(參數冗餘)
- 無法找到:沒有算法能保證找到
- 不必找到:良好局部最小值已足夠
- 泛化更重要:低訓練損失≠好泛化
為何難以找到:
- 參數空間巨大:數百萬到數十億維度
- 非凸性:無法用凸優化方法
- 計算成本:即使可能,成本也無法承受
- 噪聲:隨機梯度下降提供的是近似解
理論研究:
- 過參數化:參數多於樣本時,所有全局最小值連通
- 損失景觀:高維空間中局部最小值接近全局最小值
- 雙重下降:過參數化使找到好解更容易
- 彩票假說:大網絡中存在好子網絡
實踐觀點:
- 收斂就足夠:優化到驗證集性能不再提升即可停止
- 早停(早停法):有時不完全收斂泛化更好
- 平坦最小值:偏好寬泛而非尖銳的最小值
- 解釋性:找到「為何」模型有效比找到全局最優更重要
與泛化的關係:
- 訓練損失零:可能嚴重過擬合
- 適度訓練損失:更好的泛化
- 全局最小值可能不是目標
全域最小值是理論理想,實踐中局部最小值已足夠好。