視覺語言模型

VLM

結合視覺與語言的模型

詳細解釋

視覺語言模型(Vision Language Model, VLM)是結合視覺理解和語言能力的AI模型,處理圖文雙模態任務。

核心能力:

  • 圖像理解:識別物體、場景、關係
  • 視覺問答:根據圖像回答問題
  • 圖像描述:生成自然語言描述
  • 視覺推理:邏輯推理圖中資訊

架構類型:

  • 雙塔:獨立編碼器+融合模塊
  • 單塔:統一處理多模態
  • 凍結LLM:只訓練視覺投影
  • 端到端:全參數訓練

代表模型:

  • CLIP:對齊圖文表示
  • BLIP/BLIP-2:圖文預訓練
  • LLaVA:開源VLM代表
  • MiniGPT-4:輕量VLM

訓練數據:

  • 圖文對:圖片-標題、圖片-描述
  • 視覺問答:VQA、GQA數據集
  • 文檔圖表:OCR+結構理解

應用:

  • 電商:圖片搜索、商品描述
  • 教育:圖文教學材料
  • 機器人:視覺指令遵循
  • 自動駕駛:場景理解

多模態 AI的核心組件。

探索更多AI詞彙

查看所有分類,繼續學習AI知識