詳細解釋
鞍點(Saddle Point)是梯度為零但不是極值點的臨界點,在某些方向上向上凹,在其他方向上向下凹,是優化過程中常遇到的停滯點。
數學定義:
- ∇f(x) = 0(梯度為零)
- Hessian矩陣(海森矩陣)有正有負的特徵值
- 某些方向是局部最小值方向
- 某些方向是局部最大值方向
直觀例子:
- 馬鞍:騎手坐的方向是局部最小值
- 前後方向是局部最大值
- 形狀像馬鞍而得名
在高維優化中的普遍性:
- 高維空間:鞍點比局部最小值更常見
- 隨機矩陣理論:隨機Hessian大多是鞍點
- 深度學習:損失景觀充滿鞍點而非局部最小值
優化挑戰:
- 梯度為零:梯度下降停滯
- 曲率信息:需要二階信息判斷是鞍點還是最小值
- 逃離困難:某些方向需要向上走(違反直覺)
- 停滯時間:可能在鞍點附近徘徊很久
逃離鞍點的方法:
- 動量(動量):累積速度越過鞍點
- 隨機梯度噪聲:自然噪聲提供逃離動力
- 二階方法:利用Hessian信息選擇上升方向
- 擾動:添加隨機擾動打破對稱
與局部最小值的區別:
- 區域最小值:所有方向都向上,難以逃離
- 鞍點:可以逃離,但需要正確方向
- 實踐中:鞍點比局部最小值問題小
理論結果:
- 梯度下降:在適當條件下能逃離鞍點
- 隨機初始化:幾乎肯定不收斂到嚴格鞍點
- 時間複雜度:逃離鞍點可能需要多項式時間
鞍點是理解高維優化的關鍵概念。