稀疏注意力

Sparse Attention

只關注部分位置的注意力

詳細解釋

稀疏注意力(Sparse Attention)是只關注部分位置的注意力機制,減少計算和記憶體,實現長序列處理。

稀疏模式:

  • 局部窗口:只關注鄰近位置
  • 擴張/空洞:固定間隔跳躍關注
  • 隨機:隨機採樣關注位置
  • 塊稀疏:塊級別稀疏
  • 線性注意力:核技巧近似

代表方法:

  • Longformer:局部+全局注意力
  • BigBird:隨機+窗口+全局
  • Linformer:低秩近似
  • Performer:線性注意力

優勢:

  • 計算效率:O(n)或O(n log n)而非O(n²)
  • 長序列:可處理萬級token
  • 記憶體友好:減少KV Cache

局限:

  • 表達能力:可能遺漏遠距離關係
  • 實現複雜:需專門優化
  • 硬體效率:不規則存取模式

長上下文的關係:

  • 稀疏注意力是實現長上下文的方法之一
  • 與其他方法(如旋轉位置嵌入)可結合

是擴展Transformer到長序列的關鍵技術。

探索更多AI詞彙

查看所有分類,繼續學習AI知識