🚀 2026 全民被動收入指南，賺錢就是 Easy Job

關於我們聯絡我們

易賺AiEasyJobAi

4高級訓練與優化

非凸優化

Non-convex Optimization

目標函數非凸的優化問題

詳細解釋

非凸優化（Non-Convex Optimization）是目標函數有多個局部最優的優化問題，是深度學習中的常見挑戰，因為神經網絡的損失函數通常非凸。

與凸優化的對比：

凸優化：任何局部最優都是全局最優，有高效算法保證
非凸優化：多個局部最優，可能陷入其中
深度學習：幾乎所有問題都是非凸

為何神經網絡非凸：

激活函數：ReLU、Sigmoid等引入非線性
層次組合：多層函數組合產生複雜曲面
參數冗餘：同一函數多種參數表示
對稱性：神經元排列組合產生等價解

挑戰：

局部最小值：優化可能停在非全局最優
鞍點：梯度為零但不是極值點（某些方向上凸，某些方向下凸）
平台區：梯度極小的平坦區域，優化停滯
曲率變化：Hessian矩陣條件數差，優化困難

實際觀察：

局部最小值問題不大：大量實驗表明不同初始化收斂到相似性能
鞍點更常見：尤其在參數量大的網絡中
損失景觀複雜：但隨機梯度下降似乎能找到好解

應對策略：

隨機初始化：多次運行選擇最佳
隨機梯度下降（隨機梯度下降）：噪聲幫助跳出淺層局部最優
動量（動量）：累積動量越過小障礙
學習率調度：初期大學習率探索，後期小學習率精細調整
批次正規化（批次正規化 (Batch Norm / BN)）：平滑損失曲面

理論研究：

過參數化：參數多於樣本時，局部最優接近全局最優
無壞局部最小值：某些條件下所有局部最優都好
雙重下降：過參數化可能先升後降

實踐建議：

不必擔心找到全局最優
專注於找到好的泛化解
使用標準優化器和實踐

非凸優化是深度學習的理論挑戰，但實踐中SGD效果良好。

相關詞彙

梯度下降 (梯度遞減)3

透過梯度逐步調整參數以最小化損失的優化方法

探索更多AI詞彙

查看所有分類，繼續學習AI知識

基礎概念模型架構技術工具應用場景全部詞彙