視覺問答

VQA

根據圖像回答問題

詳細解釋

視覺問答(VQA, Visual Question Answering)是根據圖像內容回答自然語言問題的多模態AI任務,需要同時理解視覺和語言。

回答類型:

  • 是/否:「圖中有狗嗎?」
  • 數量:「有幾個人?」
  • 物件識別:「這是什麼品種?」
  • 活動識別:「他們在做什麼?」
  • 推理解答:「哪個更大?」

技術方法:

應用場景:

  • 無障礙輔助:視障用戶詢問看到的內容
  • 教育:學生提問教材圖片
  • 醫療:醫生詢問X光片、病理切片
  • 電商:用戶詢問商品圖片細節
  • 自動駕駛:理解路況圖像回答問題

數據集:

  • VQA v2:標準基準數據集
  • GQA:結構化推理問題
  • VizWiz:盲人拍攝的真實問題

挑戰:

  • 語言偏見:問題提示過於明顯
  • 組合推理:多步驟推理回答
  • 常識知識:需要外部知識回答

現代LLM(如GPT-4V)已達到接近人類的VQA能力。

探索更多AI詞彙

查看所有分類,繼續學習AI知識