詳細解釋
ALiBi(Attention with Linear Biases)是無需位置嵌入的注意力偏置方法,用線性偏置替代位置編碼。
原理:
- 無位置嵌入:去掉傳統位置編碼
- 線性偏置:注意力分數減去距離懲罰
- 距離越遠:偏置越大(負更多)
- 頭特定:不同頭不同斜率
數學:
- bias = m × (i-j),m是頭特定的斜率
- 加入注意力分數
- 簡單高效
優勢:
- 外推性強:訓練1K,可推理數十K
- 簡單:無需位置嵌入參數
- 穩定:訓練更穩定
- 效果:通常匹配或超越RoPE
應用:
- BLOOM:使用ALiBi
- 長上下文模型首選之一
- 適合需要極長上下文的應用
與旋轉位置嵌入的比較:
- ALiBi:簡單,無額外參數
- RoPE:旋轉,外推也強
- 兩者都是現代主流
是位置編碼的簡潔有效替代方案。