詳細解釋
激活函數(Activation Function)是神經網絡中引入非線性的函數,決定神經元是否激活及輸出強度,使網絡能學習複雜模式。
為何需要:
- 非線性:
- 無激活:多層等價於單層
- 有激活:可逼近任意函數
- 表達能力:
- 學習非線性決策邊界
- 複雜模式識別
常用激活函數:
- ReLU:
- f(x) = max(0, x)
- 最常用,計算簡單
- 可能出現dying ReLU
- Sigmoid:
- f(x) = 1/(1+e^(-x))
- 輸出0-1
- 二分類輸出層
- Tanh:
- 輸出-1到1
- 以0為中心
- Softmax:
- 多分類概率
- 輸出層使用
- GELU、Swish:
- 平滑變體
- Transformer常用
選擇指南:
- 隱藏層:ReLU、GELU
- 二分類輸出:Sigmoid
- 多分類輸出:Softmax
- 回歸輸出:線性
- 現代LLM:GELU/Swish
特性考量:
- 計算效率
- 梯度流動
- 輸出範圍
- 可微性
激活函數是神經網絡非線性的來源。