提示詞壓縮

Prompt Compression

壓縮 prompt 以節省 token

詳細解釋

將長提示(如 RAG 的數百頁文檔)壓縮為短表示(摘要、嵌入、關鍵句),減少 token 消耗和延遲的技術。

壓縮方法:

  • 提取式:選擇最相關句子或段落(核心信息保留)
  • 抽象式:用 LLM 生成摘要(可能丟失細節)
  • 語義壓縮:將文本轉為嵌入向量(丟失可讀性,保留語義)
  • 關鍵詞提取:僅保留實體和關係

技術實現:

  • LongLLMLingua:基於信息論的提示壓縮,保留對問題最相關部分
  • Selective Context:根據 perplexity 決定保留哪些 token
  • LLMLingua:小模型(如 LLaMA-7B)壓縮,大模型處理
  • Gist:學習「要點」標記,長文檔壓縮為幾個向量

應用場景:

  • 降低成本:RAG 長上下文減少 50-80% tokens
  • 加速:處理更少輸入更快
  • 適配:將超限上下文塞入模型窗口

效果與局限:

  • 壓縮比:通常 2x-10x
  • 信息損失:壓縮比越高,遺漏細節越多
  • 任務依賴:問答可用激進壓縮,摘要需要保守

與 RAG 的關係:

  • 傳統 RAG:檢索相關片段 → 全部放入提示
  • 壓縮 RAG:檢索 → 壓縮 → 放入提示

這是「長上下文經濟學」的關鍵—— 上下文越長越貴,壓縮是必需品而非奢侈品。

探索更多AI詞彙

查看所有分類,繼續學習AI知識