線性偏置注意力

ALiBi

Attention with Linear Biases,無需位置嵌入

詳細解釋

ALiBi(Attention with Linear Biases)是無需位置嵌入的注意力偏置方法,用線性偏置替代位置編碼。

原理:

  • 無位置嵌入:去掉傳統位置編碼
  • 線性偏置:注意力分數減去距離懲罰
  • 距離越遠:偏置越大(負更多)
  • 頭特定:不同頭不同斜率

數學:

  • bias = m × (i-j),m是頭特定的斜率
  • 加入注意力分數
  • 簡單高效

優勢:

  • 外推性強:訓練1K,可推理數十K
  • 簡單:無需位置嵌入參數
  • 穩定:訓練更穩定
  • 效果:通常匹配或超越RoPE

應用:

  • BLOOM:使用ALiBi
  • 長上下文模型首選之一
  • 適合需要極長上下文的應用

旋轉位置嵌入的比較:

  • ALiBi:簡單,無額外參數
  • RoPE:旋轉,外推也強
  • 兩者都是現代主流

位置編碼的簡潔有效替代方案。

探索更多AI詞彙

查看所有分類,繼續學習AI知識