詳細解釋
視覺語言模型(Vision Language Model, VLM)是結合視覺理解和語言能力的AI模型,處理圖文雙模態任務。
核心能力:
- 圖像理解:識別物體、場景、關係
- 視覺問答:根據圖像回答問題
- 圖像描述:生成自然語言描述
- 視覺推理:邏輯推理圖中資訊
架構類型:
- 雙塔:獨立編碼器+融合模塊
- 單塔:統一處理多模態
- 凍結LLM:只訓練視覺投影
- 端到端:全參數訓練
代表模型:
- CLIP:對齊圖文表示
- BLIP/BLIP-2:圖文預訓練
- LLaVA:開源VLM代表
- MiniGPT-4:輕量VLM
訓練數據:
- 圖文對:圖片-標題、圖片-描述
- 視覺問答:VQA、GQA數據集
- 文檔圖表:OCR+結構理解
應用:
- 電商:圖片搜索、商品描述
- 教育:圖文教學材料
- 機器人:視覺指令遵循
- 自動駕駛:場景理解
是多模態 AI的核心組件。