詳細解釋
Sigmoid是經典的S型激活函數,將輸入映射到(0,1)範圍,歷史上廣泛用於神經網絡,但現代深度學習中已被ReLU取代,主要用於輸出層的概率建模。
數學定義:
- σ(x) = 1 / (1 + e^(-x))
- 輸出範圍:(0, 1)
- 中心對稱:σ(0) = 0.5
特性:
- 平滑可微:處處可導
- S型曲線:兩端飽和,中間線性
- 梯度:σ'(x) = σ(x)(1 - σ(x))
歷史應用:
- 隱藏層激活:早期神經網絡的標準
- 邏輯回歸:實際上是單層sigmoid網絡
- 輸出層:二分類的概率輸出
問題(為何現代不使用):
- 梯度消失:|x|大時梯度→0
- 深層網絡無法訓練
- 輸出不以0為中心:均為正,影響梯度更新
- 計算昂貴:指數運算
- 飽和殺死梯度:初始化不當時容易飽和
現代用途:
- 輸出層:
- 二分類的最後一層
- 門控機制(LSTM、GRU)
- 注意力:計算注意力權重
- 概率建模:需要(0,1)輸出的場景
與Softmax的關係:
- Sigmoid:二分類的單個概率
- Softmax:多分類的概率分布
- 多標籤:每個標籤獨立sigmoid
與Tanh的比較:
- Sigmoid:(0, 1)
- Tanh:(-1, 1),以0為中心
- Tanh通常優於Sigmoid作為隱藏層激活
數學性質:
- 導數可用自身表示:便於計算
- 反函數:logit函數
- 對數似然:邏輯回歸的基礎
Sigmoid是神經網絡歷史上的重要激活函數,現代主要用於特定輸出場景。