詳細解釋
Post-Norm是Transformer的原始正規化配置,在注意力/前饋子層之後應用LayerNorm,是原始論文設計。
架構:
- x' = LayerNorm(x + Sublayer(x))
- 先過子層,再正規化
- 殘差路徑經過正規化
歷史:
- 原始Transformer論文使用
- BERT、GPT-2等早期模型使用
- 訓練需小心調參
問題:
- 梯度流:殘差路徑經過正規化,深層減弱
- 訓練穩定性:深層模型難訓練
- 學習率:需預熱,不能太大
與Pre-Norm的對比:
- Post-Norm:原始,有問題
- Pre-Norm:改進,更穩定
- 現代基本都用Pre-Norm
為何還重要:
- 理解Transformer演進
- 部分遺留系統仍使用
- 理論分析參考
改進版:
- DeepNorm:改進的Post-Norm
- 讓100+層穩定訓練
- 但Pre-Norm仍是主流
是理解Transformer歷史和改進的參考。