視覺語言模型

VLM (Vision-Language Model)

可理解圖像並產出文字的模型

詳細解釋

Vision-Language Model(視覺語言模型)的縮寫,能同時理解圖像/視頻和文本,並進行跨模態推理和生成。

核心能力:

  • 圖像理解:描述圖片內容、回答圖片相關問題
  • 視覺推理:根據圖表做計算、理解流程圖
  • 多模態對話:用戶上傳圖片,模型討論圖片內容
  • 視覺生成:根據文本生成圖片(如 DALL-E)

架構類型:

  • 雙塔:獨立視覺編碼器 + 文本編碼器,投影對齊
  • 單塔:統一 Transformer 處理交錯的圖像和文本 token
  • 原生多模態:從頭訓練就接觸圖文交錯數據(GPT-4o、Gemini)

代表模型(2024):

  • GPT-4o:原生多模態,圖文理解均頂尖
  • Claude 3.5 Sonnet:視覺推理強,文檔分析優秀
  • Gemini 1.5 Pro:支持視頻理解
  • LLaVA:開源,基於 Llama + CLIP
  • Qwen-VL:中文視覺語言模型領先

應用場景:

  • 文檔分析:發票、表格、合同的信息提取
  • 輔助視障:描述周圍環境
  • 教育:解答數學題(看圖片中的題目)
  • 電商:以圖搜商品、生成產品描述

評估基準:

  • MMMU:大學級多學科視覺問答
  • MMBench:綜合視覺理解能力
  • TextVQA:圖片中文字的理解

這是「多模態 AI」的核心—— 人類認知本質上就是多模態的,VLM 讓 AI 更接近人類感知世界的方式。

探索更多AI詞彙

查看所有分類,繼續學習AI知識