🚀 2026 全民被動收入指南，賺錢就是 Easy Job

關於我們聯絡我們

易賺AiEasyJobAi

2初級產業術語

多模態 AI

Multimodal AI

同時處理多種輸入模態（文字、影像、語音等）的模型與應用，如 GPT-4V (GPT-4 Vision / 視覺多模態)、CLIP、語音助理與視覺問答。

詳細解釋

多模態 AI 指模型能接受或產出多種模態（文字、圖像、音訊、影片等），並在模態間對齊與推理。CLIP 做圖文對齊、GPT-4V (GPT-4 Vision / 視覺多模態) 做圖文理解與生成、語音助理結合 ASR 與自然語言處理 (NLP)。關鍵技術含編碼器、跨模態注意力與對齊預訓練。與 CLIP、GPT-4V (GPT-4 Vision / 視覺多模態)、自然語言處理 (NLP)、大型語言模型 (大語言模型 / 大模型) 相關。

相關詞彙

對齊圖像與文本的對比學習模型

大型語言模型 (大語言模型 / 大模型)1

在大量文本數據上訓練、能理解和生成自然語言的AI模型

自然語言處理 (NLP)1

讓電腦理解與生成人類語言的技術

探索更多AI詞彙

查看所有分類，繼續學習AI知識

基礎概念模型架構技術工具應用場景全部詞彙