詳細解釋
CLIP(Contrastive Language-Image Pre-training)是OpenAI的多模態模型,學習對齊圖像和文本的表示空間。
訓練方式:
- 數據:4億圖文對(網路爬蟲)
- 任務:對比學習,匹配正確圖文對
- 雙塔架構:圖像編碼器+文本編碼器
- 相似度:圖文向量餘弦相似度
能力:
- 零樣本分類:給類別名稱即可分類
- 圖文檢索:以文搜圖、以圖搜文
- 語言引導:自然語言描述找圖像
- 多模態理解:理解圖文關係
影響力:
- 開創零樣本視覺識別
- 啟發後續多模態模型
- 廣泛用於圖像生成條件
- 成為視覺特徵提取標準
應用:
- 圖片搜索:無需標註,自然語言查詢
- 圖像生成:Stable Diffusion的文本編碼器
- 內容審核:理解圖文匹配性
- 推薦系統:跨模態推薦
局限:
- 細粒度識別較弱
- 組合推理有限
- 後續模型(如LLaVA)在此基礎上改進