2初級產業術語
多模態 AI
Multimodal AI
同時處理多種輸入模態(文字、影像、語音等)的模型與應用,如 GPT-4V (GPT-4 Vision / 視覺多模態)、CLIP、語音助理與視覺問答。
詳細解釋
多模態 AI 指模型能接受或產出多種模態(文字、圖像、音訊、影片等),並在模態間對齊與推理。CLIP 做圖文對齊、GPT-4V (GPT-4 Vision / 視覺多模態) 做圖文理解與生成、語音助理結合 ASR 與 自然語言處理 (NLP)。關鍵技術含編碼器、跨模態注意力與對齊預訓練。與 CLIP、GPT-4V (GPT-4 Vision / 視覺多模態)、自然語言處理 (NLP)、大型語言模型 (大語言模型 / 大模型) 相關。