多模態

Multimodal

能同時處理文字、圖像、音訊等多種輸入的模型

詳細解釋

能夠處理和整合多種模態數據(文本、圖像、音頻、視頻、傳感器數據)的 AI 系統,與單一模態(僅文本或僅圖像)相對。

核心能力:

  • 聯合理解:同時解析多種輸入(看視頻聽音頻)
  • 跨模態生成:一種模態轉為另一種(文本 → 圖像)
  • 模態融合:結合多源信息做決策
  • 模態對齊:找到不同模態間的對應關係

代表模型:

  • GPT-4o:文本、圖像、音頻原生統一
  • Gemini:從設計就多模態
  • CLIP:圖像-文本對齊
  • ImageBind:六模態統一
  • LLaVA:開源視覺語言模型

架構類型:

  • 早期融合:原始數據層級融合
  • 晚期融合:各模態獨立處理後決策層融合
  • 聯合嵌入:映射到統一表示空間
  • 編碼器-解碼器:一種模態編碼,另一種解碼

應用場景:

  • 自駕車:攝像頭 + 雷達 + GPS + 地圖
  • 醫療診斷:影像 + 病歷文本 + 基因數據
  • 內容審核:圖片 + 標題 + 評論
  • 虛擬助手:語音指令 + 屏幕內容

挑戰:

  • 模態缺失:某些模態數據不完整
  • 模態不對齊:時間戳不同步、粒度不同
  • 計算複雜:多模態數據量龐大
  • 表示學習:找到統一表示空間困難

這是「人類級 AI」的必經之路—— 人類認知本質上就是多模態的。

相關AI領域

探索更多AI詞彙

查看所有分類,繼續學習AI知識