詳細解釋
資訊檢索(Information Retrieval,IR)是從大規模非結構化數據(如文檔、網頁)中,根據用戶查詢找出相關資訊的技術領域。它是搜尋引擎、推薦系統和rag|檢索增強生成的基礎。
核心技術包括:
- BM25和TF-IDF:傳統關鍵詞匹配
- vector-database|向量檢索:基於語義相似度
- embedding|嵌入:將文字轉為數學向量
- hybrid-search|混合檢索:結合稀疏和稠密方法
與nlp|自然語言處理的關係:
IR負責「找到相關內容」,NLP負責「理解內容意義」。兩者結合才能實現semantic-search|語意搜尋。
現代應用場景:
- 搜尋引擎(Google、Bing)
- 企業內部知識庫
- fact-checking|事實查核系統
- 法律文獻檢索