詳細解釋
將不同模態(文本、圖像、音頻、視頻)映射到同一向量空間的技術,使得「狗」的文字、狗的照片、狗的叫聲在嵌入空間中距離相近。
技術基礎:
- 對比學習:配對數據(圖像-文本)拉近,非配對數據推遠
- 編碼器:每個模態有專用編碼器(BERT 文本、ResNet 圖像、AST 音頻)
- 投影層:將各模態映射到統一維度
代表模型:
- CLIP(OpenAI):圖像-文本對齊,引發視覺語言模型革命
- ImageBind(Meta):圖像、文本、音頻、深度、熱成像、IMU 六模態統一
- CLAP:音頻-文本對齊
- SpeechCLIP:語音-圖像對齊
應用場景:
- 跨模態檢索:用文本找圖片,用圖片找音樂
- 零樣本分類:新類別僅用文字描述,無需該類別圖像訓練
- 多模態 RAG:同時檢索文檔、圖片、視頻
- 生成控制:用文本精確控制圖像生成(Stable Diffusion 的 CLIP 引導)
挑戰:
- 數據稀缺:成對的多模態數據遠少於單模態
- 不對稱:某些模態信息量大(視頻),某些稀疏(標籤)
- 粒度:句子級 vs 單詞級 vs 圖片級對齊困難
這是「多模態 AI」的基礎設施—— 沒有統一嵌入空間,不同模態的 AI 無法互相理解。