返回趨勢情報
趨勢情報

阿里 Qwen3.5-Omni 意外學會從語音加影片直接寫程式,74 語言語音識別同步到位

Alibaba's Qwen3.5-Omni Spontaneously Learned Audio-Visual Coding While Scaling to 74-Language Speech Recognition

2026年4月1日
易賺Ai團隊
11 分鐘閱讀
#AI新聞#趨勢#阿里巴巴#Qwen#多模態#語音識別#湧現能力
阿里 Qwen3.5-Omni 意外學會從語音加影片直接寫程式,74 語言語音識別同步到位

阿里 Qwen3.5-Omni 意外學會從語音加影片寫程式,74 語言語音識別同步到位

沒人教它這件事。Qwen 團隊在擴大全模態訓練規模的過程中,發現模型自己學會了一件在訓練目標裡根本沒有的事:從語音指令加上影片輸入,直接產出可運行的程式碼。他們把這個能力叫做「audio-visual vibe coding」,歸類為湧現能力。在展示中,Qwen3.5-Omni-Plus 從一段口頭描述和一個影片片段出發,建出了一個可以玩的貪食蛇遊戲。

這件事之所以值得認真看,不只因為它在技術上新奇,而是因為它暗示了一個正在被大量資源驗證的假說:當你把夠多種模態的資料灌進夠大的模型,能力的邊界會自己往外推,推到設計者沒有預先規劃的地方。

Qwen3.5-Omni 到底是什麼

阿里巴巴這次發布的 Qwen3.5-Omni 是一個全模態 AI 模型,可以同時處理文字、圖片、音訊和影片輸入,並同步輸出文字和語音。它有三個 Instruct 變體——Plus、Flash 和 Light,上下文長度最高支援 256,000 個 Token,官方聲稱可以處理超過 10 小時的音訊和 400 秒以上的 720p 影片(每秒 1 幀)。

和前代 Qwen3-Omni 相比,這次的技術跳躍幅度相當大:

能力維度Qwen3-Omni(前代)Qwen3.5-Omni
語音識別 語言數11 種語言 + 8 種中文方言74 種語言 + 39 種中文方言(共 113 種)
語音輸出語言未公開細節36 種語言和方言,55 種聲音選項
上下文窗口32,000 tokens256,000 tokens
架構MoE混合 Attention-MoE
文字-語音對齊1:1 固定映射ARIA 動態自適應對齊

模型在超過 1 億小時的視聽素材上進行了原生全模態預訓練。這不是在文字模型上加掛視覺或音訊模組的那種後期拼裝,而是從預訓練階段就把多種模態的資料混在一起餵。

215 項音訊基準的 SOTA,以及和 Gemini 3.1 Pro 的正面對決

Qwen 團隊宣稱 Plus 版本在 215 項音訊與視聽子任務上取得了新的 state-of-the-art,涵蓋 3 項視聽基準、5 項音訊基準、8 項語音識別基準、156 項特定語言翻譯任務和 43 項特定語言識別任務。幾個值得拉出來看的跑分對照:

  • 音訊理解(MMAU):Qwen3.5-Omni-Plus 82.2 vs Gemini 3.1 Pro 81.1
  • 音樂理解(RUL-MuchoMusic):72.4 vs 59.6——差距很明顯
  • 對話基準(VoiceBench):93.1 vs 88.9
  • Fleurs 語音識別(前 60 語言):WER 6.55 vs 7.32
  • 粵語語音識別:WER 1.95 vs 13.40——差距到了摧毀級

語音合成方面,團隊拿出了和 ElevenLabs、GPT-Audio、Minimax 的對照。在比較困難的「seed-hard」測試集上,Qwen3.5-Omni-Plus 的 word error rate 是 6.24,GPT-Audio 是 8.19,Minimax 是 8.62,ElevenLabs 是 27.70。跨 20 語言的語音克隆表現也是同類最佳,WER 1.87、cosine similarity 0.79。

不過,Qwen 團隊在視覺和文字能力上的說法比較保守——聲稱與同規格的 Qwen3.5 純文字模型持平。考慮到全模態訓練通常會在某些維度上犧牲純文字效能,「持平」如果是真的,代表架構設計有效控制了跨模態干擾。

ARIA:解決即時語音輸出最頭痛的對齊問題

這一代最大的架構升級是 ARIA(Adaptive Rate Interleave Alignment)。前代使用文字和語音 Token 的 1:1 固定映射,問題在於兩種 token 的編碼速率天生不同,串流對話時經常出現掉字、發音錯誤或數字念亂的情況。ARIA 的做法是動態對齊並交織文字與語音 token,讓語音合成的品質可以在即時效能條件下保持穩定。

架構上也從前代的純 Mixture of Experts 切換到混合 Attention-MoE。Thinker 模組負責分析全模態輸入並產生文字,Talker 模組則收取 Thinker 的隱藏狀態,把文字和語音 token 交織後透過串流 codec 解碼器輸出語音。這個 thinker-talker 的分離設計讓即時對話可以做到語義中斷判定(區分使用者真的要打斷還是只是背景噪音)、即時搜尋調用和複雜函式呼叫。

對開發者來說,這意味著 API 後面的語音品質不再是簡單的 TTS 套上去,而是和文字推理過程深度耦合。如果未來要做的是真正有上下文感知能力的語音助手,這種架構會比事後把語音模組拼接上去更有優勢。

「Audio-Visual Vibe Coding」:不是噱頭,是 Scaling 假說的又一個數據點

回到開頭提到的那個意外能力。Qwen 團隊在說明中強調,audio-visual vibe coding 不是被刻意訓練出來的,而是在擴大全模態訓練規模的過程中自然浮現的。從技術角度看,這和 Scaling Laws 的核心預測一致:當模型在夠多種類的資料上訓練到夠大的規模,它會產生訓練者沒有明確指定的能力。

但「湧現」不等於「可靠」。展示中的貪食蛇遊戲看上去很酷,但在沒有系統性基準測試和大規模重複驗證的情況下,把它當成一項穩定產品能力來宣傳還為時過早。更重要的觀察點是:如果這類跨模態湧現能力被證明可以在更多實際場景中穩定復現,那麼模態覆蓋度本身就會成為模型競爭的新維度。

也就是說,以後比模型不只比誰的文字推理更強、誰的程式碼生成更準,還要比誰的模態組合更完整、以及這些模態之間能不能產生預料之外的交叉能力。

模型同時展示了精細的影音內容描述能力——可以逐場景拆解一段紀錄片,標記每個講者、每個鏡頭切換和每個音效;也可以在影片遊戲中自動識別暴力場景,標記時間戳與風險等級。這些能力更接近可被直接整合到工作流中的功能,而不只是 demo 素材。

不開源了:一個值得追問的轉向

和過去的 Qwen 發布不同,Qwen3.5-Omni 這次沒有公開模型權重,也沒有指定開源授權。模型目前只能透過 Qwen Chat 和阿里雲 Model Studio 的 API 服務使用。

這是一個值得注意的轉向。Qwen 系列過去一直是中國開源 LLM 的代表之一。從 Qwen3-Omni 到 Qwen3.5 文字系列,都有公開權重。這次不開源,可能有幾個原因:模型能力太強而觸發了內部安全考量;全模態模型的部署複雜度讓開放權重的支援成本太高;或者阿里巴巴正在重新評估開源策略的商業邏輯。

無論原因為何,這會直接影響研究社群和獨立開發者的使用方式。如果你之前靠 Qwen 的開放權重來做本地部署或微調,這條路在 Qwen3.5-Omni 上暫時走不通了。如果想了解 Qwen 系列模型在本地端的使用方式,可以對照 本地 LLM 完整教學:用 LM Studio 跑 Qwen 3.5、Llama 與 GGUF 的實戰指南

團隊內部動盪:模型在加速,人在離開

Qwen3.5-Omni 的發布背後有一個不能忽略的脈絡。阿里巴巴 AI 首席開發者林俊洋——整個 Qwen 系列的核心推動者——最近意外宣布離職,並帶走了多位關鍵團隊成員,包括 Qwen 編碼模型、後訓練以及 Qwen 3.5/VL 的負責人。

離職據報與一場內部人事調整有關,該調整原本打算把一位從 Google Gemini 團隊招募的研究員放到領導位置。阿里巴巴 CEO 吳泳銘隨後宣布成立新的「Foundation Model Task Force」,強調基礎模型開發仍然是公司的「核心戰略優先事項」。

但問題在於:Qwen 過去一年的發布節奏極快——從 Qwen3-Omni 到 Qwen3.5 文字系列到現在的 Qwen3.5-Omni,間隔都只有幾個月。如果帶領這些工作的核心團隊正在流失,接下來的迭代品質和速度能不能維持,就成了一個很實際的問題。對照 阿里開源 Qwen3.5-397B-A17B,把多模態、長上下文與 201 種語言一起推進公開模型 的脈絡來看,Qwen 系列過去的動能是建立在一個穩定的核心團隊上的,現在這個前提正在被測試。

Qwen3.5-Omni 本身的技術完成度毫無疑問是高的。但它能不能成為一條持續演進的產品線,而不只是團隊離開前的最後一個高峰,這才是接下來最值得追蹤的事。