🚀 2026 全民被動收入指南，賺錢就是 Easy Job

關於我們聯絡我們

易賺AiEasyJobAi

2初級模型架構

視覺語言模型

VLM

結合視覺與語言的模型

詳細解釋

視覺語言模型（Vision Language Model, VLM）是結合視覺理解和語言能力的AI模型，處理圖文雙模態任務。

核心能力：

圖像理解：識別物體、場景、關係
視覺問答：根據圖像回答問題
圖像描述：生成自然語言描述
視覺推理：邏輯推理圖中資訊

架構類型：

雙塔：獨立編碼器+融合模塊
單塔：統一處理多模態
凍結LLM：只訓練視覺投影
端到端：全參數訓練

代表模型：

CLIP：對齊圖文表示
BLIP/BLIP-2：圖文預訓練
LLaVA：開源VLM代表
MiniGPT-4：輕量VLM

訓練數據：

圖文對：圖片-標題、圖片-描述
視覺問答：VQA、GQA數據集
文檔圖表：OCR+結構理解

應用：

電商：圖片搜索、商品描述
教育：圖文教學材料
機器人：視覺指令遵循
自動駕駛：場景理解

是多模態 AI的核心組件。

相關詞彙

能同時處理文字、圖像、音訊等多種輸入的模型

探索更多AI詞彙

查看所有分類，繼續學習AI知識

基礎概念模型架構技術工具應用場景全部詞彙