全域最小值

Global Minimum

函數的整體最小值

詳細解釋

全域最小值(Global Minimum)是函數在整個定義域內的最低點,是優化的理論目標,但在深度學習中通常無法找到且不必找到。

數學定義:

  • 對於f(x),點x*是全局最小值如果:
  • 對於所有x,f(x*) ≤ f(x)
  • 唯一性:可能有多個全局最小值(值相同但x不同)

在深度學習中的情況:

  • 神經網絡非凸:存在多個全局最小值(參數冗餘)
  • 無法找到:沒有算法能保證找到
  • 不必找到:良好局部最小值已足夠
  • 泛化更重要:低訓練損失≠好泛化

為何難以找到:

  • 參數空間巨大:數百萬到數十億維度
  • 非凸性:無法用凸優化方法
  • 計算成本:即使可能,成本也無法承受
  • 噪聲:隨機梯度下降提供的是近似解

理論研究:

  • 過參數化:參數多於樣本時,所有全局最小值連通
  • 損失景觀:高維空間中局部最小值接近全局最小值
  • 雙重下降:過參數化使找到好解更容易
  • 彩票假說:大網絡中存在好子網絡

實踐觀點:

  • 收斂就足夠:優化到驗證集性能不再提升即可停止
  • 早停(早停法):有時不完全收斂泛化更好
  • 平坦最小值:偏好寬泛而非尖銳的最小值
  • 解釋性:找到「為何」模型有效比找到全局最優更重要

與泛化的關係:

  • 訓練損失零:可能嚴重過擬合
  • 適度訓練損失:更好的泛化
  • 全局最小值可能不是目標

全域最小值是理論理想,實踐中局部最小值已足夠好。

探索更多AI詞彙

查看所有分類,繼續學習AI知識