詳細解釋
圖說生成(Image Captioning)是自動為圖像生成描述性文字的技術,連結視覺和語言理解。
技術架構:
- 編碼器:卷積神經網絡 (CNN)或Vision Transformer提取圖像特徵
- 解碼器:Transformer架構 (變換器 / 注意力模型) (Switch Transformer)或RNN生成描述文字
- 注意力:關注圖像的相關區域生成對應詞
評估指標:
- BLEU:n-gram精確度
- METEOR:考慮同義詞和詞幹
- CIDEr:專為圖說設計
- SPICE:基於語義角色評估
應用場景:
- 無障礙輔助:為視障用戶描述圖片
- 內容審核:識別不適當圖像內容
- 圖片搜索:基於文字描述找圖
- 社交媒體:自動生成圖片替代文字
- 教育:圖片教材自動生成說明
技術挑戰:
- 細節與整體平衡:描述主要內容vs細節
- 語言多樣性:避免重複模板式描述
- 空間關係:準確表達物件相對位置
現代發展:
- 大型語言模型 (大語言模型 / 大模型)結合:GPT-4V (GPT-4 Vision / 視覺多模態)、Claude的多模態能力
- 視覺指令:可回答關於圖片的問題
- 視頻描述:擴展到連續幀描述
代表模型:Microsoft Azure認知服務、Google Cloud Vision。