Pre-Norm

Pre-Normalization

注意力前做正規化

詳細解釋

Pre-Norm是Transformer的一種正規化配置,在注意力/前饋子層之前應用LayerNorm,更穩定易訓練。

架構:

  • x' = x + Sublayer(LayerNorm(x))
  • 先正規化,再過子層
  • 跳過連接繞過正規化

與Post-Norm的對比:

  • Post-Norm:x' = LayerNorm(x + Sublayer(x))
  • Pre-Norm:殘差路徑乾淨,梯度流更好
  • Pre-Norm更穩定,適合深層模型

優勢:

  • 訓練穩定:梯度不爆炸/消失
  • 無需學習率預熱
  • 收斂更快
  • 適合超深層(100+層)

Post-Norm的問題:

  • 殘差路徑經過正規化
  • 深層時梯度衰減
  • 需仔細調整學習率

現代趨勢:

是Transformer訓練穩定性的重要改進。

探索更多AI詞彙

查看所有分類,繼續學習AI知識