海森矩陣

Hessian Matrix

多變數函數的二階偏導矩陣

詳細解釋

海森矩陣(Hessian Matrix)是多元函數的二階偏導數組成的方陣,描述函數的局部曲率特性。

定義:

對於函數 f: Rⁿ → R,海森矩陣H是一個 n×n 對稱矩陣:

Hᵢⱼ = ∂²f / (∂xᵢ ∂xⱼ)

幾何意義:

  • 曲率描述:函數在某點的「彎曲程度」
  • 正定:局部最小值(函數向上凹)
  • 負定:局部最大值(函數向下凹)
  • 不定:鞍點(某些方向向上,某些向下)

在優化中的應用:

  • 牛頓法:使用海森矩陣的逆進行更快的收斂
  • 擬牛頓法:BFGS、L-BFGS近似海森降低計算成本
  • 收斂分析:判斷臨界點的性質
  • 正則化:利用曲率信息進行更穩定的優化

與機器學習的關係:

  • 損失函數分析:理解優化曲面的結構
  • 平坦最小值 (Flat Minima):尋找寬泛的最小值以提高泛化
  • 神經網絡:分析損失景觀的複雜性
  • 貝葉斯神經網絡:拉普拉斯近似中的協方差估計

計算挑戰:

  • 維度詛咒:n個參數需要O(n²)存儲
  • 計算成本:精確計算對深度網絡不現實
  • 近似方法:Hessian-向量積、隨機近似

海森矩陣提供了優化問題的二階信息,加速收斂並改善穩定性。

探索更多AI詞彙

查看所有分類,繼續學習AI知識