🚀 2026 全民被動收入指南，賺錢就是 Easy Job

關於我們聯絡我們

易賺AiEasyJobAi

3中級訓練與優化

隨機梯度下降

SGD

每批樣本更新參數的梯度下降變體

詳細解釋

隨機梯度下降（Stochastic Gradient Descent, SGD）是機器學習中最基礎且廣泛使用的優化算法，通過迭代更新參數來最小化損失函數。

核心思想：

梯度下降：沿損失函數負梯度方向更新參數
隨機性：每次使用單個或小批次樣本估計梯度
計算效率：相比全批次梯度下降大幅減少計算量

更新規則：

θ = θ - η × ∇L(θ; xᵢ, yᵢ)

θ：模型參數
η：學習率
∇L：損失函數對參數的梯度
(xᵢ, yᵢ)：單個或小批次樣本

優勢：

計算高效：每次迭代成本低
逃離局部最優：噪聲有助於跳出淺層局部最優
在線學習：可處理流式數據
簡單通用：適用於各種模型和損失函數

挑戰：

梯度方差大：單樣本梯度是 noisy 的
學習率調度：需要仔細調整學習率
收斂緩慢：特徵尺度差異大時表現差
鞍點問題：高維空間中可能停滯

改進變體：

動量：累積動量加速收斂
Adam優化器：自適應學習率
AdamW：解耦權重衰減
學習率衰減：隨時間降低學習率

在深度學習中的地位：

雖有Adam優化器等自適應方法，SGD+momentum在圖像任務仍有競爭力
理論分析更成熟
大規模訓練的事實標準

SGD是機器學習優化的基石算法。

相關詞彙

梯度下降 (梯度遞減)3

透過梯度逐步調整參數以最小化損失的優化方法

探索更多AI詞彙

查看所有分類，繼續學習AI知識

基礎概念模型架構技術工具應用場景全部詞彙