詳細解釋
嵌入模型(Embedding Model)是將離散數據(文本、圖像)轉換為連續向量表示的模型,是現代AI的基礎組件。
文本嵌入模型:
- Word2Vec:早期詞級嵌入
- BERT (雙向編碼器表示):上下文相關句級嵌入
- sentence transformers:專門句子嵌入
- OpenAI text-embedding-3:最新商業模型
圖像嵌入模型:
關鍵特性:
- 語義相似:相似內容向量相近
- 降維:高維離散→低維連續
- 可計算:可進行數學運算
應用:
選擇考量:
- 維度:常用384、768、1024、1536
- 上下文長度:支援最大token數
- 多語言:是否支援中文等
- MTEB分數:標準評估基準