CLIP

CLIP

對齊圖像與文本的對比學習模型

詳細解釋

CLIP(Contrastive Language-Image Pre-training)是OpenAI的多模態模型,學習對齊圖像和文本的表示空間。

訓練方式:

  • 數據:4億圖文對(網路爬蟲)
  • 任務:對比學習,匹配正確圖文對
  • 雙塔架構:圖像編碼器+文本編碼器
  • 相似度:圖文向量餘弦相似度

能力:

  • 零樣本分類:給類別名稱即可分類
  • 圖文檢索:以文搜圖、以圖搜文
  • 語言引導:自然語言描述找圖像
  • 多模態理解:理解圖文關係

影響力:

  • 開創零樣本視覺識別
  • 啟發後續多模態模型
  • 廣泛用於圖像生成條件
  • 成為視覺特徵提取標準

應用:

  • 圖片搜索:無需標註,自然語言查詢
  • 圖像生成:Stable Diffusion的文本編碼器
  • 內容審核:理解圖文匹配性
  • 推薦系統:跨模態推薦

局限:

  • 細粒度識別較弱
  • 組合推理有限
  • 後續模型(如LLaVA)在此基礎上改進

探索更多AI詞彙

查看所有分類,繼續學習AI知識