詳細解釋
海森矩陣(Hessian Matrix)是多元函數的二階偏導數組成的方陣,描述函數的局部曲率特性。
定義:
對於函數 f: Rⁿ → R,海森矩陣H是一個 n×n 對稱矩陣:
Hᵢⱼ = ∂²f / (∂xᵢ ∂xⱼ)
幾何意義:
- 曲率描述:函數在某點的「彎曲程度」
- 正定:局部最小值(函數向上凹)
- 負定:局部最大值(函數向下凹)
- 不定:鞍點(某些方向向上,某些向下)
在優化中的應用:
- 牛頓法:使用海森矩陣的逆進行更快的收斂
- 擬牛頓法:BFGS、L-BFGS近似海森降低計算成本
- 收斂分析:判斷臨界點的性質
- 正則化:利用曲率信息進行更穩定的優化
與機器學習的關係:
- 損失函數分析:理解優化曲面的結構
- 平坦最小值 (Flat Minima):尋找寬泛的最小值以提高泛化
- 神經網絡:分析損失景觀的複雜性
- 貝葉斯神經網絡:拉普拉斯近似中的協方差估計
計算挑戰:
- 維度詛咒:n個參數需要O(n²)存儲
- 計算成本:精確計算對深度網絡不現實
- 近似方法:Hessian-向量積、隨機近似
海森矩陣提供了優化問題的二階信息,加速收斂並改善穩定性。