激活函數

Activation Function

為神經元引入非線性的函數

詳細解釋

激活函數(Activation Function)是神經網絡中引入非線性的函數,決定神經元是否激活及輸出強度,使網絡能學習複雜模式。

為何需要:

  • 非線性:
  • 無激活:多層等價於單層
  • 有激活:可逼近任意函數
  • 表達能力:
  • 學習非線性決策邊界
  • 複雜模式識別

常用激活函數:

  • ReLU:
  • f(x) = max(0, x)
  • 最常用,計算簡單
  • 可能出現dying ReLU
  • Sigmoid:
  • f(x) = 1/(1+e^(-x))
  • 輸出0-1
  • 二分類輸出層
  • Tanh:
  • 輸出-1到1
  • 以0為中心
  • Softmax:
  • 多分類概率
  • 輸出層使用
  • GELU、Swish:
  • 平滑變體
  • Transformer常用

選擇指南:

  • 隱藏層:ReLU、GELU
  • 二分類輸出:Sigmoid
  • 多分類輸出:Softmax
  • 回歸輸出:線性
  • 現代LLM:GELU/Swish

特性考量:

  • 計算效率
  • 梯度流動
  • 輸出範圍
  • 可微性

激活函數是神經網絡非線性的來源。

探索更多AI詞彙

查看所有分類,繼續學習AI知識