🚀 2026 全民被動收入指南，賺錢就是 Easy Job

關於我們聯絡我們

易賺AiEasyJobAi

2初級應用場景

視覺問答

VQA

根據圖像回答問題

詳細解釋

視覺問答（VQA, Visual Question Answering）是根據圖像內容回答自然語言問題的多模態AI任務，需要同時理解視覺和語言。

回答類型：

是/否：「圖中有狗嗎？」
數量：「有幾個人？」
物件識別：「這是什麼品種？」
活動識別：「他們在做什麼？」
推理解答：「哪個更大？」

技術方法：

早期：CNN提取特徵 + LSTM處理問題
注意力：關注圖像的相關區域
現代：Transformer架構 (變換器 / 注意力模型) (Switch Transformer)統一處理圖文
大型語言模型 (大語言模型 / 大模型)：多模態大模型（GPT-4V、Claude 3）

應用場景：

無障礙輔助：視障用戶詢問看到的內容
教育：學生提問教材圖片
醫療：醫生詢問X光片、病理切片
電商：用戶詢問商品圖片細節
自動駕駛：理解路況圖像回答問題

數據集：

VQA v2：標準基準數據集
GQA：結構化推理問題
VizWiz：盲人拍攝的真實問題

挑戰：

語言偏見：問題提示過於明顯
組合推理：多步驟推理回答
常識知識：需要外部知識回答

現代LLM（如GPT-4V）已達到接近人類的VQA能力。

相關詞彙

能同時處理文字、圖像、音訊等多種輸入的模型

探索更多AI詞彙

查看所有分類，繼續學習AI知識

基礎概念模型架構技術工具應用場景全部詞彙