詳細解釋
Pre-Norm是Transformer的一種正規化配置,在注意力/前饋子層之前應用LayerNorm,更穩定易訓練。
架構:
- x' = x + Sublayer(LayerNorm(x))
- 先正規化,再過子層
- 跳過連接繞過正規化
與Post-Norm的對比:
- Post-Norm:x' = LayerNorm(x + Sublayer(x))
- Pre-Norm:殘差路徑乾淨,梯度流更好
- Pre-Norm更穩定,適合深層模型
優勢:
- 訓練穩定:梯度不爆炸/消失
- 無需學習率預熱
- 收斂更快
- 適合超深層(100+層)
Post-Norm的問題:
- 殘差路徑經過正規化
- 深層時梯度衰減
- 需仔細調整學習率
現代趨勢:
- 大多數新模型用Pre-Norm
- 均方根歸一化替代LayerNorm
- 默認標準配置
是Transformer訓練穩定性的重要改進。