詳細解釋
將長提示(如 RAG 的數百頁文檔)壓縮為短表示(摘要、嵌入、關鍵句),減少 token 消耗和延遲的技術。
壓縮方法:
- 提取式:選擇最相關句子或段落(核心信息保留)
- 抽象式:用 LLM 生成摘要(可能丟失細節)
- 語義壓縮:將文本轉為嵌入向量(丟失可讀性,保留語義)
- 關鍵詞提取:僅保留實體和關係
技術實現:
- LongLLMLingua:基於信息論的提示壓縮,保留對問題最相關部分
- Selective Context:根據 perplexity 決定保留哪些 token
- LLMLingua:小模型(如 LLaMA-7B)壓縮,大模型處理
- Gist:學習「要點」標記,長文檔壓縮為幾個向量
應用場景:
- 降低成本:RAG 長上下文減少 50-80% tokens
- 加速:處理更少輸入更快
- 適配:將超限上下文塞入模型窗口
效果與局限:
- 壓縮比:通常 2x-10x
- 信息損失:壓縮比越高,遺漏細節越多
- 任務依賴:問答可用激進壓縮,摘要需要保守
與 RAG 的關係:
- 傳統 RAG:檢索相關片段 → 全部放入提示
- 壓縮 RAG:檢索 → 壓縮 → 放入提示
這是「長上下文經濟學」的關鍵—— 上下文越長越貴,壓縮是必需品而非奢侈品。