多模態LLM

Multimodal LLM

能處理圖文等多種輸入的LLM

詳細解釋

多模態LLM(Multimodal LLM)是能同時處理和理解多種模態(文本、圖像、音頻、視頻)輸入的大型語言模型。

模態組合:

  • 圖文:最常見,理解並回答圖片問題
  • 音文:語音輸入、音樂理解
  • 視頻文:理解動態視覺內容
  • 統一:單一模型處理所有模態

架構方式:

  • 編碼器投影:模態專屬編碼器+投影到LLM空間
  • 統一嵌入:所有模態轉為統一token序列
  • 交錯:多模態token交替輸入

代表模型:

應用:

  • 圖像描述與問答
  • 文檔理解(PDF解析)
  • 視頻分析
  • 輔助視障用戶
  • 多模態內容審核

挑戰:

  • 幻覺:圖像細節識別錯誤
  • 對齊:不同模態語義對齊
  • 計算:多模態處理更耗資源

是LLM發展的重要方向。

探索更多AI詞彙

查看所有分類,繼續學習AI知識