查詢擴展

Query Expansion

擴展查詢以提升檢索

詳細解釋

自動擴展用戶原始查詢,添加同義詞、相關詞或重寫,以提高檢索召回率的技術。

擴展類型:

  • 同義詞擴展:「電腦」→「計算機」「PC」
  • 語義擴展:向量空間中的鄰近詞
  • 查詢重寫:將口語化轉為正式檢索詞
  • 偽相關反饋:用初始檢索結果的好文檔提取擴展詞
  • LLM 擴展:用 GPT 生成相關查詢變體

技術方法:

  • 詞典法:WordNet、同義詞詞典
  • 共現分析:從點擊日志學習查詢-文檔關聯
  • 詞嵌入:相似詞向量擴展
  • 生成模型:Seq2Seq 學習查詢改寫

應用場景:

  • 搜索引擎:Google 的查詢理解
  • 電商搜索:用戶用口語,產品用專業術語
  • 文獻檢索:醫學、法律術語標準化
  • 推薦系統:擴展興趣標籤

挑戰:

  • 歧義:「蘋果」是水果還是公司?
  • 噪聲:擴展引入無關詞降低精度
  • 過度擴展:召回太多無關結果
  • 語境依賴:同一詞在不同領域含義不同

現代演進:

  • 稠密檢索減少了對顯式擴展的需求(語義已編碼)
  • 但關鍵詞檢索場景仍需要
  • Learned Sparse Retrieval(SPLADE)自動學習擴展

這是「信息檢索」的經典技術—— 縮小「用戶想說的」和「系統能找的」之間的鴻溝。

探索更多AI詞彙

查看所有分類,繼續學習AI知識