跨模態嵌入

Cross-modal Embeddings

將不同模態對齊到同一向量空間

詳細解釋

將不同模態(文本、圖像、音頻、視頻)映射到同一向量空間的技術,使得「狗」的文字、狗的照片、狗的叫聲在嵌入空間中距離相近。

技術基礎:

  • 對比學習:配對數據(圖像-文本)拉近,非配對數據推遠
  • 編碼器:每個模態有專用編碼器(BERT 文本、ResNet 圖像、AST 音頻)
  • 投影層:將各模態映射到統一維度

代表模型:

  • CLIP(OpenAI):圖像-文本對齊,引發視覺語言模型革命
  • ImageBind(Meta):圖像、文本、音頻、深度、熱成像、IMU 六模態統一
  • CLAP:音頻-文本對齊
  • SpeechCLIP:語音-圖像對齊

應用場景:

  • 跨模態檢索:用文本找圖片,用圖片找音樂
  • 零樣本分類:新類別僅用文字描述,無需該類別圖像訓練
  • 多模態 RAG:同時檢索文檔、圖片、視頻
  • 生成控制:用文本精確控制圖像生成(Stable Diffusion 的 CLIP 引導)

挑戰:

  • 數據稀缺:成對的多模態數據遠少於單模態
  • 不對稱:某些模態信息量大(視頻),某些稀疏(標籤)
  • 粒度:句子級 vs 單詞級 vs 圖片級對齊困難

這是「多模態 AI」的基礎設施—— 沒有統一嵌入空間,不同模態的 AI 無法互相理解。

探索更多AI詞彙

查看所有分類,繼續學習AI知識