滑窗注意力

Sliding Window Attention

限定局部窗口的注意力

詳細解釋

滑窗注意力(Sliding Window Attention)是只關注固定窗口大小範圍的局部注意力,實現線性複雜度。

運作方式:

  • 每個token只關注左右w個鄰居
  • 窗口大小w是超參數(如w=256)
  • 複雜度O(n×w),即O(n)線性

優勢:

  • 計算高效:線性複雜度
  • 記憶體友好:KV Cache有限
  • 局部性:許多任務只需局部上下文

局限:

  • 長程依賴:超出窗口無法直接建模
  • 層次傳遞:深層可能間接獲得長程資訊
  • 窗口選擇:大小需調參

應用:

  • Longformer:結合全局+滑窗
  • 長文本模型:處理長序列
  • 流式處理:持續輸入場景

與全局注意力的結合:

  • 部分位置(如[CLS])有全局視野
  • 滑窗處理大部分token
  • 平衡效率和表達

長上下文處理的實用方法。

探索更多AI詞彙

查看所有分類,繼續學習AI知識