詳細解釋
稀疏注意力(Sparse Attention)是只關注部分位置的注意力機制,減少計算和記憶體,實現長序列處理。
稀疏模式:
- 局部窗口:只關注鄰近位置
- 擴張/空洞:固定間隔跳躍關注
- 隨機:隨機採樣關注位置
- 塊稀疏:塊級別稀疏
- 線性注意力:核技巧近似
代表方法:
- Longformer:局部+全局注意力
- BigBird:隨機+窗口+全局
- Linformer:低秩近似
- Performer:線性注意力
優勢:
- 計算效率:O(n)或O(n log n)而非O(n²)
- 長序列:可處理萬級token
- 記憶體友好:減少KV Cache
局限:
- 表達能力:可能遺漏遠距離關係
- 實現複雜:需專門優化
- 硬體效率:不規則存取模式
與長上下文的關係:
- 稀疏注意力是實現長上下文的方法之一
- 與其他方法(如旋轉位置嵌入)可結合
是擴展Transformer到長序列的關鍵技術。