無限上下文

Infinite Context

透過 RAG 或長緩存實現的虛擬無限長度

詳細解釋

理論上支持無限長上下文的 LLM 架構探索,解決當前 Transformer 的上下文長度限制(即使 128K、1M 也是有限的)。

當前限制:

  • 注意力 O(n²):序列長度翻倍,計算量翻四倍
  • 內存:KV Cache 隨長度線性增長,最終耗盡 VRAM
  • 遠程衰減:模型「忘記」序列開頭的信息

研究方向:

  • 循環/狀態機制:RWKV、Mamba、RetNet 用固定大小狀態記憶歷史
  • 壓縮記憶:Compressing Memory Transformer、Titan,學習壓縮歷史到固定向量
  • 外部記憶:Neural Turing Machine、差分神經計算機,顯式讀寫外部存儲
  • 分層注意力:Longformer、BigBird,稀疏注意力降低復雜度
  • 專家查詢:Mixture of Experts 路由到處理長/短上下文的專家

現狀(2024):

  • 沒有真正的「無限」,但已有數百萬 token 的演示
  • Gemini 1.5 Pro:2M 上下文(實用化的「極長」)
  • Mamba:理論線性復雜度,但實際效果仍遜於 Transformer
  • 商業應用:長文檔問答、代碼庫理解、終身對話助理

挑戰:

  • 檢索 vs 記憶:無限上下文不等於能有效利用所有信息
  • 位置編碼:如何表示無限位置?
  • 訓練數據:缺少真正的長序列訓練數據

這是通往「終身學習 AI」的必經之路—— 能記住與用戶的所有互動,形成真正的持續關係。

探索更多AI詞彙

查看所有分類,繼續學習AI知識