Post-Norm

Post-Normalization

注意力後做正規化

詳細解釋

Post-Norm是Transformer的原始正規化配置,在注意力/前饋子層之後應用LayerNorm,是原始論文設計。

架構:

  • x' = LayerNorm(x + Sublayer(x))
  • 先過子層,再正規化
  • 殘差路徑經過正規化

歷史:

  • 原始Transformer論文使用
  • BERT、GPT-2等早期模型使用
  • 訓練需小心調參

問題:

  • 梯度流:殘差路徑經過正規化,深層減弱
  • 訓練穩定性:深層模型難訓練
  • 學習率:需預熱,不能太大

Pre-Norm的對比:

  • Post-Norm:原始,有問題
  • Pre-Norm:改進,更穩定
  • 現代基本都用Pre-Norm

為何還重要:

  • 理解Transformer演進
  • 部分遺留系統仍使用
  • 理論分析參考

改進版:

  • DeepNorm:改進的Post-Norm
  • 讓100+層穩定訓練
  • 但Pre-Norm仍是主流

是理解Transformer歷史和改進的參考。

探索更多AI詞彙

查看所有分類,繼續學習AI知識