詳細解釋
指能同時處理文本、圖像、音頻、視頻等多種模態輸入輸出的統一模型,與專注單一模態的模型相對。
代表模型包括:
- GPT-4o:OpenAI 第一個真正的原生多模態模型,同一神經網絡處理文本、語音、圖像,而非分開的編碼器
- Gemini:Google 的「從一開始就為多模態設計」的模型家族
- Qwen-VL、LLaVA:開源視覺語言模型
技術路線:
- 早期:各模態獨立編碼器 + 投影對齊(如 Flamingo)
- 現代:統一 Transformer,所有模態 token 化後混合訓練
- 未來:原生多模態預訓練,從頭就接觸交錯的文本、圖像、視頻
應用場景:視頻理解(分析 YouTube 視頻內容)、實時語音助手(同時看見攝像頭畫面)、具身智能(機器人同時處理視覺、聽覺、本體感受)。
挑戰在於模態間的對齊、訓練數據的稀缺(成對的多模態數據遠少於純文本),以及計算成本。