🚀 2026 全民被動收入指南，賺錢就是 Easy Job

關於我們聯絡我們

易賺AiEasyJobAi

3中級產業術語

提示詞壓縮

Prompt Compression

壓縮 prompt 以節省 token

詳細解釋

將長提示（如 RAG 的數百頁文檔）壓縮為短表示（摘要、嵌入、關鍵句），減少 token 消耗和延遲的技術。

壓縮方法：

提取式：選擇最相關句子或段落（核心信息保留）
抽象式：用 LLM 生成摘要（可能丟失細節）
語義壓縮：將文本轉為嵌入向量（丟失可讀性，保留語義）
關鍵詞提取：僅保留實體和關係

技術實現：

LongLLMLingua：基於信息論的提示壓縮，保留對問題最相關部分
Selective Context：根據 perplexity 決定保留哪些 token
LLMLingua：小模型（如 LLaMA-7B）壓縮，大模型處理
Gist：學習「要點」標記，長文檔壓縮為幾個向量

應用場景：

降低成本：RAG 長上下文減少 50-80% tokens
加速：處理更少輸入更快
適配：將超限上下文塞入模型窗口

效果與局限：

壓縮比：通常 2x-10x
信息損失：壓縮比越高，遺漏細節越多
任務依賴：問答可用激進壓縮，摘要需要保守

與 RAG 的關係：

傳統 RAG：檢索相關片段 → 全部放入提示
壓縮 RAG：檢索 → 壓縮 → 放入提示

這是「長上下文經濟學」的關鍵—— 上下文越長越貴，壓縮是必需品而非奢侈品。

相關詞彙

上下文窗口 (語境窗口)3

語言模型能同時處理的最大token數量

Token (詞元 / 標記)2

語言模型處理文本時使用的最小單位

探索更多AI詞彙

查看所有分類，繼續學習AI知識

基礎概念模型架構技術工具應用場景全部詞彙