隨機梯度下降

SGD

每批樣本更新參數的梯度下降變體

詳細解釋

隨機梯度下降(Stochastic Gradient Descent, SGD)是機器學習中最基礎且廣泛使用的優化算法,通過迭代更新參數來最小化損失函數。

核心思想:

  • 梯度下降:沿損失函數負梯度方向更新參數
  • 隨機性:每次使用單個或小批次樣本估計梯度
  • 計算效率:相比全批次梯度下降大幅減少計算量

更新規則:

θ = θ - η × ∇L(θ; xᵢ, yᵢ)

  • θ:模型參數
  • η:學習率
  • ∇L:損失函數對參數的梯度
  • (xᵢ, yᵢ):單個或小批次樣本

優勢:

  • 計算高效:每次迭代成本低
  • 逃離局部最優:噪聲有助於跳出淺層局部最優
  • 在線學習:可處理流式數據
  • 簡單通用:適用於各種模型和損失函數

挑戰:

  • 梯度方差大:單樣本梯度是 noisy 的
  • 學習率調度:需要仔細調整學習率
  • 收斂緩慢:特徵尺度差異大時表現差
  • 鞍點問題:高維空間中可能停滯

改進變體:

  • 動量:累積動量加速收斂
  • Adam優化器:自適應學習率
  • AdamW:解耦權重衰減
  • 學習率衰減:隨時間降低學習率

在深度學習中的地位:

  • 雖有Adam優化器等自適應方法,SGD+momentum在圖像任務仍有競爭力
  • 理論分析更成熟
  • 大規模訓練的事實標準

SGD是機器學習優化的基石算法。

探索更多AI詞彙

查看所有分類,繼續學習AI知識