詳細解釋
SiLU(Sigmoid Linear Unit)又稱Swish,是平滑非單調的激活函數,Google在2017年提出並驗證其有效性。
定義:SiLU(x) = x × sigmoid(x)
特性:
- 平滑:處處可微
- 非單調:負區間先下後上
- 自門控:sigmoid作為門控信號
- 無上界、有下界
與ReLU (線性整流單元)的比較:
- ReLU:硬截斷、單調
- SiLU:平滑、非單調
- SiLU在深度網絡中通常表現更好
- 計算成本稍高(需sigmoid)
應用:
- Transformer架構 (變換器 / 注意力模型) (Switch Transformer):部分實現使用
- 現代LLM:如SwiGLU的組件
- EfficientNet等架構
Swish發現:
- 用神經架構搜索(NAS)發現
- 簡單手工設計的激活函數
- 證明平滑非單調的價值
是激活函數研究的重要進展,影響了後續GELU等的採用。