詳細解釋
隨機梯度下降(Stochastic Gradient Descent, SGD)是機器學習中最基礎且廣泛使用的優化算法,通過迭代更新參數來最小化損失函數。
核心思想:
- 梯度下降:沿損失函數負梯度方向更新參數
- 隨機性:每次使用單個或小批次樣本估計梯度
- 計算效率:相比全批次梯度下降大幅減少計算量
更新規則:
θ = θ - η × ∇L(θ; xᵢ, yᵢ)
- θ:模型參數
- η:學習率
- ∇L:損失函數對參數的梯度
- (xᵢ, yᵢ):單個或小批次樣本
優勢:
- 計算高效:每次迭代成本低
- 逃離局部最優:噪聲有助於跳出淺層局部最優
- 在線學習:可處理流式數據
- 簡單通用:適用於各種模型和損失函數
挑戰:
- 梯度方差大:單樣本梯度是 noisy 的
- 學習率調度:需要仔細調整學習率
- 收斂緩慢:特徵尺度差異大時表現差
- 鞍點問題:高維空間中可能停滯
改進變體:
在深度學習中的地位:
- 雖有Adam優化器等自適應方法,SGD+momentum在圖像任務仍有競爭力
- 理論分析更成熟
- 大規模訓練的事實標準
SGD是機器學習優化的基石算法。