詳細解釋
RAG(Retrieval-Augmented Generation,檢索增強生成)是結合信息檢索和文本生成的技術,讓大型語言模型 (大語言模型 / 大模型)能基於外部知識庫回答問題,減少幻覺並提供可溯源的回答。
核心思想:
- 問題:LLM的知識侷限於訓練數據,且容易幻覺
- 解決:生成時檢索相關文檔作為上下文
- 優勢:知識可更新、可溯源、更準確
工作流程:
- 索引階段:
- 文檔切分為chunks
- 計算嵌入向量 (嵌入 / 詞嵌入 / 向量嵌入) (Embedding Lookup)存入向量資料庫
- 查詢階段:
- 用戶問題轉換為query embedding
- 向量檢索最相似的文檔片段
- 將檢索結果作為上下文
- 生成階段:
- LLM基於上下文生成回答
- 可引用來源
關鍵組件:
優化技術:
- HyDE:查詢改寫
- 多跳檢索:複雜問題分步檢索
- 查詢擴展:同義詞、相關詞
- 重排序:更精準的相關性排序
- 引用生成:自動標註來源
應用場景:
- 企業知識庫:內部文檔問答
- 客服機器人:基於產品文檔
- 法律/醫療:專業領域問答
- 研究助手:論文檢索摘要
- 個人知識管理:筆記、書籍檢索
挑戰:
- 檢索質量:相關性決定上限
- 上下文限制:文檔長度vs LLM窗口
- 多語言:跨語言檢索
- 實時性:知識庫更新
與微調的對比:
- RAG:知識外部化,動態更新
- 微調:知識內化,靜態
- 結合:RAG+微調通常最好
RAG是企業LLM應用的標準架構。
標籤
進階