🚀 2026 全民被動收入指南，賺錢就是 Easy Job

關於我們聯絡我們

易賺AiEasyJobAi

4高級模型架構

Pre-Norm

Pre-Normalization

注意力前做正規化

詳細解釋

Pre-Norm是Transformer的一種正規化配置，在注意力/前饋子層之前應用LayerNorm，更穩定易訓練。

架構：

x' = x + Sublayer(LayerNorm(x))
先正規化，再過子層
跳過連接繞過正規化

與Post-Norm的對比：

Post-Norm：x' = LayerNorm(x + Sublayer(x))
Pre-Norm：殘差路徑乾淨，梯度流更好
Pre-Norm更穩定，適合深層模型

優勢：

訓練穩定：梯度不爆炸/消失
無需學習率預熱
收斂更快
適合超深層（100+層）

Post-Norm的問題：

殘差路徑經過正規化
深層時梯度衰減
需仔細調整學習率

現代趨勢：

大多數新模型用Pre-Norm
均方根歸一化替代LayerNorm
默認標準配置

是Transformer訓練穩定性的重要改進。

相關詞彙

Transformer架構 (變換器 / 注意力模型) (Switch Transformer)3

使用注意力機制處理序列數據的革命性神經網絡架構

探索更多AI詞彙

查看所有分類，繼續學習AI知識

基礎概念模型架構技術工具應用場景全部詞彙