詳細解釋
餘弦相似度(Cosine Similarity)是衡量兩個向量方向相似性的指標,值域[-1, 1],常用於嵌入向量 (嵌入 / 詞嵌入 / 向量嵌入) (Embedding Lookup)比較。
計算公式:
cos(θ) = (A·B) / (||A|| × ||B||)
特性:
- 1:完全相同方向(最相似)
- 0:正交(無關)
- -1:相反方向(最不相似)
- 通常取[0, 1],因embedding非負
與歐氏距離的比較:
- 餘弦:關注方向,忽略長度
- 歐氏:關注絕對距離
- 對單位向量:餘弦 = 1 - 歐氏²/2
應用場景:
- 語義搜索:比較查詢與文檔向量
- 推薦系統:用戶與物品相似度
- 聚類:計算樣本間相似性
- 重排序:精確計算最終相似度
優勢:
- 計算簡單:只需點積和範數
- 可解釋:有明確幾何意義
- 標準化:自動處理向量長度差異
廣泛用於檢索增強生成 (RAG)、語義搜索等系統。