🚀 2026 全民被動收入指南，賺錢就是 Easy Job

關於我們聯絡我們

易賺AiEasyJobAi

4高級模型架構

Post-Norm

Post-Normalization

注意力後做正規化

詳細解釋

Post-Norm是Transformer的原始正規化配置，在注意力/前饋子層之後應用LayerNorm，是原始論文設計。

架構：

x' = LayerNorm(x + Sublayer(x))
先過子層，再正規化
殘差路徑經過正規化

歷史：

原始Transformer論文使用
BERT、GPT-2等早期模型使用
訓練需小心調參

問題：

梯度流：殘差路徑經過正規化，深層減弱
訓練穩定性：深層模型難訓練
學習率：需預熱，不能太大

與Pre-Norm的對比：

Post-Norm：原始，有問題
Pre-Norm：改進，更穩定
現代基本都用Pre-Norm

為何還重要：

理解Transformer演進
部分遺留系統仍使用
理論分析參考

改進版：

DeepNorm：改進的Post-Norm
讓100+層穩定訓練
但Pre-Norm仍是主流

是理解Transformer歷史和改進的參考。

相關詞彙

Transformer架構 (變換器 / 注意力模型) (Switch Transformer)3

使用注意力機制處理序列數據的革命性神經網絡架構

探索更多AI詞彙

查看所有分類，繼續學習AI知識

基礎概念模型架構技術工具應用場景全部詞彙