詳細解釋
視覺問答(VQA, Visual Question Answering)是根據圖像內容回答自然語言問題的多模態AI任務,需要同時理解視覺和語言。
回答類型:
- 是/否:「圖中有狗嗎?」
- 數量:「有幾個人?」
- 物件識別:「這是什麼品種?」
- 活動識別:「他們在做什麼?」
- 推理解答:「哪個更大?」
技術方法:
- 早期:CNN提取特徵 + LSTM處理問題
- 注意力:關注圖像的相關區域
- 現代:Transformer架構 (變換器 / 注意力模型) (Switch Transformer)統一處理圖文
- 大型語言模型 (大語言模型 / 大模型):多模態大模型(GPT-4V、Claude 3)
應用場景:
- 無障礙輔助:視障用戶詢問看到的內容
- 教育:學生提問教材圖片
- 醫療:醫生詢問X光片、病理切片
- 電商:用戶詢問商品圖片細節
- 自動駕駛:理解路況圖像回答問題
數據集:
- VQA v2:標準基準數據集
- GQA:結構化推理問題
- VizWiz:盲人拍攝的真實問題
挑戰:
- 語言偏見:問題提示過於明顯
- 組合推理:多步驟推理回答
- 常識知識:需要外部知識回答
現代LLM(如GPT-4V)已達到接近人類的VQA能力。