詳細解釋
RMSNorm(Root Mean Square Layer Normalization)是簡化的層正規化,去掉均值中心化,只保留縮放。
與層正規化的對比:
- LayerNorm:(x - mean) / std
- RMSNorm:x / RMS(x),RMS = sqrt(mean(x²))
- RMSNorm無減均值步驟
優勢:
- 更簡單:計算更少
- 效果相當:通常無損失
- 速度稍快:特別在大模型中
數學:
- RMS(x) = sqrt(1/n Σxᵢ²)
- y = x / RMS(x) × γ(可學習縮放)
應用模型:
- Llama系列:使用RMSNorm
- 大部分新開源模型
- 逐漸取代LayerNorm
在Transformer架構 (變換器 / 注意力模型) (Switch Transformer)中的位置:
- 替代LayerNorm的位置
- Pre-Norm配置中使用
- 與Pre-Norm結合是標配
趨勢:
- 簡潔有效的方法勝出
- 深度學習中的正則化趨向簡化
- RMSNorm成為新標準
是層正規化的現代簡化版。