多模態 AI

Multimodal AI

同時處理多種輸入模態(文字、影像、語音等)的模型與應用,如 GPT-4V (GPT-4 Vision / 視覺多模態)CLIP、語音助理與視覺問答。

詳細解釋

多模態 AI 指模型能接受或產出多種模態(文字、圖像、音訊、影片等),並在模態間對齊與推理。CLIP 做圖文對齊、GPT-4V (GPT-4 Vision / 視覺多模態) 做圖文理解與生成、語音助理結合 ASR 與 自然語言處理 (NLP)。關鍵技術含編碼器、跨模態注意力與對齊預訓練。與 CLIPGPT-4V (GPT-4 Vision / 視覺多模態)自然語言處理 (NLP)大型語言模型 (大語言模型 / 大模型) 相關。

探索更多AI詞彙

查看所有分類,繼續學習AI知識