均方根歸一化

RMSNorm

Root Mean Square Layer Normalization

詳細解釋

RMSNorm(Root Mean Square Layer Normalization)是簡化的層正規化,去掉均值中心化,只保留縮放。

層正規化的對比:

  • LayerNorm:(x - mean) / std
  • RMSNorm:x / RMS(x),RMS = sqrt(mean(x²))
  • RMSNorm無減均值步驟

優勢:

  • 更簡單:計算更少
  • 效果相當:通常無損失
  • 速度稍快:特別在大模型中

數學:

  • RMS(x) = sqrt(1/n Σxᵢ²)
  • y = x / RMS(x) × γ(可學習縮放)

應用模型:

  • Llama系列:使用RMSNorm
  • 大部分新開源模型
  • 逐漸取代LayerNorm

Transformer架構 (變換器 / 注意力模型) (Switch Transformer)中的位置:

  • 替代LayerNorm的位置
  • Pre-Norm配置中使用
  • Pre-Norm結合是標配

趨勢:

  • 簡潔有效的方法勝出
  • 深度學習中的正則化趨向簡化
  • RMSNorm成為新標準

是層正規化的現代簡化版。

探索更多AI詞彙

查看所有分類,繼續學習AI知識