遞歸摘要

Recursive Summarization

多層級遞歸式摘要長文

詳細解釋

處理超出模型上下文窗口的長文檔時,分段摘要再組合的技術。例如 100 萬字的法律合同,模型一次只能處理 12.8 萬字,就分 8 段各自摘要,再對 8 個摘要做「摘要的摘要」。

工作流程:

  1. 文檔切分:按段落、章節或滑動窗口分割
  2. 並行摘要:每段獨立生成摘要(可並行調用 API)
  3. 層級合併:將片段摘要作為新輸入,生成更高層摘要
  4. 迭代:直到摘要長度進入上下文窗口

進階變體:

  • 樹狀摘要:每層合併 2-4 個子節點,形成摘要樹,可選擇性深入感興趣分支
  • RAPTOR(Recursive Abstractive Processing for Tree-Organized Retrieval):用聚類將相似片段分組,減少信息損失
  • 累積摘要:處理流式內容(如實時會議),維護滾動摘要

挑戰:

  • 信息損失:每層摘要都丟失細節,層數越多失真越大
  • 一致性:不同片段對同一實體的描述可能矛盾
  • 成本:多次 API 調用,長文檔處理費用高昂

適合場景:法律合同審查、研究文獻綜述、長視頻內容理解、代碼庫結構梳理。

探索更多AI詞彙

查看所有分類,繼續學習AI知識