詳細解釋
理論上支持無限長上下文的 LLM 架構探索,解決當前 Transformer 的上下文長度限制(即使 128K、1M 也是有限的)。
當前限制:
- 注意力 O(n²):序列長度翻倍,計算量翻四倍
- 內存:KV Cache 隨長度線性增長,最終耗盡 VRAM
- 遠程衰減:模型「忘記」序列開頭的信息
研究方向:
- 循環/狀態機制:RWKV、Mamba、RetNet 用固定大小狀態記憶歷史
- 壓縮記憶:Compressing Memory Transformer、Titan,學習壓縮歷史到固定向量
- 外部記憶:Neural Turing Machine、差分神經計算機,顯式讀寫外部存儲
- 分層注意力:Longformer、BigBird,稀疏注意力降低復雜度
- 專家查詢:Mixture of Experts 路由到處理長/短上下文的專家
現狀(2024):
- 沒有真正的「無限」,但已有數百萬 token 的演示
- Gemini 1.5 Pro:2M 上下文(實用化的「極長」)
- Mamba:理論線性復雜度,但實際效果仍遜於 Transformer
- 商業應用:長文檔問答、代碼庫理解、終身對話助理
挑戰:
- 檢索 vs 記憶:無限上下文不等於能有效利用所有信息
- 位置編碼:如何表示無限位置?
- 訓練數據:缺少真正的長序列訓練數據
這是通往「終身學習 AI」的必經之路—— 能記住與用戶的所有互動,形成真正的持續關係。