詳細解釋
前饋網絡(FFN, Feed-Forward Network)是Transformer中每個位置獨立處理的兩層全連接子模組,增強非線性變換能力。
結構:
- 兩層線性變換 + 激活函數
- 中間維度通常為4×輸入維度(如2048 for 512)
- 每個token獨立處理,不與其他位置交互
- 公式:FFN(x) = activation(xW₁ + b₁)W₂ + b₂
作用:
- 非線性變換:注意力是線性組合,FFN引入非線性
- 特徵轉換:將注意力輸出轉換為更有用的表示
- 位置級別處理:每個位置的獨特變換
激活函數:
與注意力的分工:
- 注意力:位置間資訊交互
- FFN:位置內特徵變換
- 兩者交替,層次抽象
參數占比:
- FFN占Transformer總參數約2/3
- 是模型容量的主要部分