詳細解釋
超過傳統 2K-4K tokens 的長上下文窗口(128K、1M、甚至 2M),讓模型能處理整本書、完整代碼庫、長視頻。
技術實現:
- 位置編碼外推:RoPE、ALiBi 等支持更長序列
- 稀疏注意力:只計算部分 token 對,降低復雜度
- 分層記憶:壓縮歷史信息,保留關鍵內容
- 架構創新:Ring Attention、Striped Attention
代表模型:
- Gemini 1.5 Pro:2M tokens
- Claude 3:200K tokens
- GPT-4 Turbo:128K tokens
- Llama 3.1:128K tokens
- 開源:LongLoRA、YaRN 等擴展技術
應用場景:
- 整書問答:小說、技術文檔的完整理解
- 代碼庫理解:跨文件關聯分析
- 長視頻分析:電影、會議記錄的問答
- 多輪對話:終身記憶的個人助理
挑戰:
- 有效利用:長窗口 ≠ 能有效使用所有信息(「迷失在中間」)
- 成本:長上下文調用更貴
- 緩存:KV Cache 內存消耗巨大
與 RAG 的關係:
- 長窗口減少了對外部檢索的依賴
- 但檢索 + 短窗口仍有成本和精度優勢
- 未來可能是「能塞就塞,太長再檢索」
這是「記憶能力」的革命—— 從「金魚記憶」到「大象記憶」。