詳細解釋
滑窗注意力(Sliding Window Attention)是只關注固定窗口大小範圍的局部注意力,實現線性複雜度。
運作方式:
- 每個token只關注左右w個鄰居
- 窗口大小w是超參數(如w=256)
- 複雜度O(n×w),即O(n)線性
優勢:
- 計算高效:線性複雜度
- 記憶體友好:KV Cache有限
- 局部性:許多任務只需局部上下文
局限:
- 長程依賴:超出窗口無法直接建模
- 層次傳遞:深層可能間接獲得長程資訊
- 窗口選擇:大小需調參
應用:
- Longformer:結合全局+滑窗
- 長文本模型:處理長序列
- 流式處理:持續輸入場景
與全局注意力的結合:
- 部分位置(如[CLS])有全局視野
- 滑窗處理大部分token
- 平衡效率和表達
是長上下文處理的實用方法。