嵌入維度

Embedding Dimension

嵌入向量的大小

詳細解釋

嵌入維度(Embedding Dimension)是向量表示的長度,決定了表示能力和計算成本。

常見設置:

  • 詞嵌入:50-300(Word2Vec常用300)
  • 句子嵌入:384、512、768、1024
  • 圖像嵌入:512、1024、2048
  • 大模型:4096、8192、更高

維度選擇考量:

  • 高維:更強表示能力,但過擬合風險
  • 低維:計算快、泛化好,但資訊損失
  • 任務相關:複雜任務需更高維
  • 檢索效率:低維檢索更快

發展趨勢:

  • 隨模型規模增大而增大
  • 多模態對齊需統一維度
  • 壓縮技術降低有效維度

量化壓縮:

  • 高維FP32 → 低維或INT8
  • 保持相似度的前提下減少存儲

嵌入向量 (嵌入 / 詞嵌入 / 向量嵌入) (Embedding Lookup)品質的關係:維度是重要因素但非唯一,訓練數據和目標更關鍵。

探索更多AI詞彙

查看所有分類,繼續學習AI知識