詳細解釋
衡量 LLM 生成內容中虛假或無根據信息比例的指標,是評估模型可靠性的關鍵。不同於傳統 AI 的準確率,幻覺檢測更複雜,因為虛假信息可能「聽起來很合理」。
測量方法:
- 人工評估:領域專家標記輸出中的事實錯誤
- 自動檢測:用搜索引擎、知識庫驗證聲明(如 RAG 中的驗證步驟)
- 對抗性測試:故意詢問邊緣或虛構主題,觀察模型是否「編造」
影響幻覺率的因素:
- 模型大小:大模型通常更謹慎,但也可能過度自信
- 訓練數據質量:噪聲多的數據導致更多幻覺
- 溫度參數:高溫度(創造性)增加幻覺風險
- 領域:醫療、法律等專業領域幻覺代價更高
降低策略:
- RAG:檢索增強,強制基於文檔回答
- 提示工程:要求「若不確定請說不知道」
- 後處理驗證:多模型投票、事實核查 API
- 低溫度:減少隨機性
行業標準:
- GPT-4:~3-5%(簡單事實問答)
- 開源模型:可能 10-20% 或更高
- 專業系統(醫療):要求 <1%,需多層驗證
這是 LLM 落地的最大障礙之一——即使 95% 準確,5% 的幻覺在高風險場景也不可接受。