逐位置前饋網路

Position-wise Feed-Forward

Transformer中每位置獨立的前饋層

詳細解釋

逐位置前饋網路(Position-wise FFN)是Transformer中每個位置獨立應用的兩層全連接網路,每個token單獨變換。

結構:

  • 輸入:每個位置的表示(d_model維)
  • 第一層:d_model → d_ff(通常4×)
  • 激活:ReLU/GELU/SwiGLU
  • 第二層:d_ff → d_model
  • 輸出:變換後的表示

為何獨立:

  • 注意力已處理位置間交互
  • FFN專注位置內非線性變換
  • 分工明確,效果互補

前饋網絡的關係:

  • 是FFN在Transformer中的具體應用
  • Position-wise強調每位置獨立

參數占比:

  • 占Transformer總參數約2/3
  • d_ff = 4 × d_model是常見設置
  • 是模型容量的主要部分

現代改進:

  • 參數共享:跨層共享FFN
  • 稀疏激活:如MoE中的專家
  • 低秩近似:減少參數

Transformer架構 (變換器 / 注意力模型) (Switch Transformer)的標準組件。

探索更多AI詞彙

查看所有分類,繼續學習AI知識