餘弦相似度

Cosine Similarity

衡量兩向量夾角的相似度指標

詳細解釋

餘弦相似度(Cosine Similarity)是衡量兩個向量方向相似性的指標,值域[-1, 1],常用於嵌入向量 (嵌入 / 詞嵌入 / 向量嵌入) (Embedding Lookup)比較。

計算公式:

cos(θ) = (A·B) / (||A|| × ||B||)

特性:

  • 1:完全相同方向(最相似)
  • 0:正交(無關)
  • -1:相反方向(最不相似)
  • 通常取[0, 1],因embedding非負

與歐氏距離的比較:

  • 餘弦:關注方向,忽略長度
  • 歐氏:關注絕對距離
  • 對單位向量:餘弦 = 1 - 歐氏²/2

應用場景:

  • 語義搜索:比較查詢與文檔向量
  • 推薦系統:用戶與物品相似度
  • 聚類:計算樣本間相似性
  • 重排序:精確計算最終相似度

優勢:

  • 計算簡單:只需點積和範數
  • 可解釋:有明確幾何意義
  • 標準化:自動處理向量長度差異

廣泛用於檢索增強生成 (RAG)語義搜索等系統。

探索更多AI詞彙

查看所有分類,繼續學習AI知識