Sigmoid

Sigmoid

將輸入壓縮到 0-1 範圍的 S 型激活函數

詳細解釋

Sigmoid是經典的S型激活函數,將輸入映射到(0,1)範圍,歷史上廣泛用於神經網絡,但現代深度學習中已被ReLU取代,主要用於輸出層的概率建模。

數學定義:

  • σ(x) = 1 / (1 + e^(-x))
  • 輸出範圍:(0, 1)
  • 中心對稱:σ(0) = 0.5

特性:

  • 平滑可微:處處可導
  • S型曲線:兩端飽和,中間線性
  • 梯度:σ'(x) = σ(x)(1 - σ(x))

歷史應用:

  • 隱藏層激活:早期神經網絡的標準
  • 邏輯回歸:實際上是單層sigmoid網絡
  • 輸出層:二分類的概率輸出

問題(為何現代不使用):

  • 梯度消失:|x|大時梯度→0
  • 深層網絡無法訓練
  • 輸出不以0為中心:均為正,影響梯度更新
  • 計算昂貴:指數運算
  • 飽和殺死梯度:初始化不當時容易飽和

現代用途:

  • 輸出層:
  • 二分類的最後一層
  • 門控機制(LSTM、GRU)
  • 注意力:計算注意力權重
  • 概率建模:需要(0,1)輸出的場景

與Softmax的關係:

  • Sigmoid:二分類的單個概率
  • Softmax:多分類的概率分布
  • 多標籤:每個標籤獨立sigmoid

與Tanh的比較:

  • Sigmoid:(0, 1)
  • Tanh:(-1, 1),以0為中心
  • Tanh通常優於Sigmoid作為隱藏層激活

數學性質:

  • 導數可用自身表示:便於計算
  • 反函數:logit函數
  • 對數似然:邏輯回歸的基礎

Sigmoid是神經網絡歷史上的重要激活函數,現代主要用於特定輸出場景。

探索更多AI詞彙

查看所有分類,繼續學習AI知識