超長上下文窗口

Extended Context Window

2M+ tokens 的長上下文

詳細解釋

超過傳統 2K-4K tokens 的長上下文窗口(128K、1M、甚至 2M),讓模型能處理整本書、完整代碼庫、長視頻。

技術實現:

  • 位置編碼外推:RoPE、ALiBi 等支持更長序列
  • 稀疏注意力:只計算部分 token 對,降低復雜度
  • 分層記憶:壓縮歷史信息,保留關鍵內容
  • 架構創新:Ring Attention、Striped Attention

代表模型:

  • Gemini 1.5 Pro:2M tokens
  • Claude 3:200K tokens
  • GPT-4 Turbo:128K tokens
  • Llama 3.1:128K tokens
  • 開源:LongLoRA、YaRN 等擴展技術

應用場景:

  • 整書問答:小說、技術文檔的完整理解
  • 代碼庫理解:跨文件關聯分析
  • 長視頻分析:電影、會議記錄的問答
  • 多輪對話:終身記憶的個人助理

挑戰:

  • 有效利用:長窗口 ≠ 能有效使用所有信息(「迷失在中間」)
  • 成本:長上下文調用更貴
  • 緩存:KV Cache 內存消耗巨大

與 RAG 的關係:

  • 長窗口減少了對外部檢索的依賴
  • 但檢索 + 短窗口仍有成本和精度優勢
  • 未來可能是「能塞就塞,太長再檢索」

這是「記憶能力」的革命—— 從「金魚記憶」到「大象記憶」。

探索更多AI詞彙

查看所有分類,繼續學習AI知識