詳細解釋
自動擴展用戶原始查詢,添加同義詞、相關詞或重寫,以提高檢索召回率的技術。
擴展類型:
- 同義詞擴展:「電腦」→「計算機」「PC」
- 語義擴展:向量空間中的鄰近詞
- 查詢重寫:將口語化轉為正式檢索詞
- 偽相關反饋:用初始檢索結果的好文檔提取擴展詞
- LLM 擴展:用 GPT 生成相關查詢變體
技術方法:
- 詞典法:WordNet、同義詞詞典
- 共現分析:從點擊日志學習查詢-文檔關聯
- 詞嵌入:相似詞向量擴展
- 生成模型:Seq2Seq 學習查詢改寫
應用場景:
- 搜索引擎:Google 的查詢理解
- 電商搜索:用戶用口語,產品用專業術語
- 文獻檢索:醫學、法律術語標準化
- 推薦系統:擴展興趣標籤
挑戰:
- 歧義:「蘋果」是水果還是公司?
- 噪聲:擴展引入無關詞降低精度
- 過度擴展:召回太多無關結果
- 語境依賴:同一詞在不同領域含義不同
現代演進:
- 稠密檢索減少了對顯式擴展的需求(語義已編碼)
- 但關鍵詞檢索場景仍需要
- Learned Sparse Retrieval(SPLADE)自動學習擴展
這是「信息檢索」的經典技術—— 縮小「用戶想說的」和「系統能找的」之間的鴻溝。