前饋網絡

FFN

Transformer中的兩層全連接子模組

詳細解釋

前饋網絡(FFN, Feed-Forward Network)是Transformer中每個位置獨立處理的兩層全連接子模組,增強非線性變換能力。

結構:

  • 兩層線性變換 + 激活函數
  • 中間維度通常為4×輸入維度(如2048 for 512)
  • 每個token獨立處理,不與其他位置交互
  • 公式:FFN(x) = activation(xW₁ + b₁)W₂ + b₂

作用:

  • 非線性變換:注意力是線性組合,FFN引入非線性
  • 特徵轉換:將注意力輸出轉換為更有用的表示
  • 位置級別處理:每個位置的獨特變換

激活函數:

  • 原始:ReLU
  • 現代:GELU(BERT、GPT-2)
  • 最新:SwiGLU(Llama、PaLM等)

與注意力的分工:

  • 注意力:位置間資訊交互
  • FFN:位置內特徵變換
  • 兩者交替,層次抽象

參數占比:

  • FFN占Transformer總參數約2/3
  • 是模型容量的主要部分

Transformer架構 (變換器 / 注意力模型) (Switch Transformer)不可或缺的組件。

探索更多AI詞彙

查看所有分類,繼續學習AI知識