詳細解釋
Vision-Language Model(視覺語言模型)的縮寫,能同時理解圖像/視頻和文本,並進行跨模態推理和生成。
核心能力:
- 圖像理解:描述圖片內容、回答圖片相關問題
- 視覺推理:根據圖表做計算、理解流程圖
- 多模態對話:用戶上傳圖片,模型討論圖片內容
- 視覺生成:根據文本生成圖片(如 DALL-E)
架構類型:
- 雙塔:獨立視覺編碼器 + 文本編碼器,投影對齊
- 單塔:統一 Transformer 處理交錯的圖像和文本 token
- 原生多模態:從頭訓練就接觸圖文交錯數據(GPT-4o、Gemini)
代表模型(2024):
- GPT-4o:原生多模態,圖文理解均頂尖
- Claude 3.5 Sonnet:視覺推理強,文檔分析優秀
- Gemini 1.5 Pro:支持視頻理解
- LLaVA:開源,基於 Llama + CLIP
- Qwen-VL:中文視覺語言模型領先
應用場景:
- 文檔分析:發票、表格、合同的信息提取
- 輔助視障:描述周圍環境
- 教育:解答數學題(看圖片中的題目)
- 電商:以圖搜商品、生成產品描述
評估基準:
- MMMU:大學級多學科視覺問答
- MMBench:綜合視覺理解能力
- TextVQA:圖片中文字的理解
這是「多模態 AI」的核心—— 人類認知本質上就是多模態的,VLM 讓 AI 更接近人類感知世界的方式。