雙編碼器(Bi-encoder)是信息檢索中分別編碼查詢和文檔的架構,用於快速候選召回。
架構:
- 查詢編碼器:獨立編碼查詢
- 文檼編碼器:獨立編碼文檼
- 相似度:向量內積或餘弦
- 預先計算:文檼向量可離線計算
優勢:
- 高效:文檼向量預計算,查詢時只需編碼查詢
- 可擴展:適合百萬級檢索
- 簡單:架構清晰,易實現
局限:
- 交互不足:查詢文檼無深度交互
- 精度有限:淺層交互可能錯過細節匹配
應用:
- 第一階段檢索:快速召回候選
- 語義搜索:向量檢索
- 推薦系統:候選生成
與交叉編碼器的結合:
- Bi-encoder:第一階段,召回100-1000候選
- Cross-encoder:第二階段,精排top-k
- 兩階段兼顧效率和精度
是高效檢索的標準設計。