詳細解釋
逐位置前饋網路(Position-wise FFN)是Transformer中每個位置獨立應用的兩層全連接網路,每個token單獨變換。
結構:
- 輸入:每個位置的表示(d_model維)
- 第一層:d_model → d_ff(通常4×)
- 激活:ReLU/GELU/SwiGLU
- 第二層:d_ff → d_model
- 輸出:變換後的表示
為何獨立:
- 注意力已處理位置間交互
- FFN專注位置內非線性變換
- 分工明確,效果互補
與前饋網絡的關係:
- 是FFN在Transformer中的具體應用
- Position-wise強調每位置獨立
參數占比:
- 占Transformer總參數約2/3
- d_ff = 4 × d_model是常見設置
- 是模型容量的主要部分
現代改進:
- 參數共享:跨層共享FFN
- 稀疏激活:如MoE中的專家
- 低秩近似:減少參數