阿里 Qwen3.5-Omni 意外學會從語音加影片寫程式，74 語言語音識別同步到位

沒人教它這件事。Qwen 團隊在擴大全模態訓練規模的過程中，發現模型自己學會了一件在訓練目標裡根本沒有的事：從語音指令加上影片輸入，直接產出可運行的程式碼。他們把這個能力叫做「audio-visual vibe coding」，歸類為湧現能力。在展示中，Qwen3.5-Omni-Plus 從一段口頭描述和一個影片片段出發，建出了一個可以玩的貪食蛇遊戲。

這件事之所以值得認真看，不只因為它在技術上新奇，而是因為它暗示了一個正在被大量資源驗證的假說：當你把夠多種模態的資料灌進夠大的模型，能力的邊界會自己往外推，推到設計者沒有預先規劃的地方。

Qwen3.5-Omni 到底是什麼

阿里巴巴這次發布的 Qwen3.5-Omni 是一個全模態 AI 模型，可以同時處理文字、圖片、音訊和影片輸入，並同步輸出文字和語音。它有三個 Instruct 變體——Plus、Flash 和 Light，上下文長度最高支援 256,000 個 Token，官方聲稱可以處理超過 10 小時的音訊和 400 秒以上的 720p 影片（每秒 1 幀）。

和前代 Qwen3-Omni 相比，這次的技術跳躍幅度相當大：

能力維度	Qwen3-Omni（前代）	Qwen3.5-Omni
語音識別語言數	11 種語言 + 8 種中文方言	74 種語言 + 39 種中文方言（共 113 種）
語音輸出語言	未公開細節	36 種語言和方言，55 種聲音選項
上下文窗口	32,000 tokens	256,000 tokens
架構	純 MoE	混合 Attention-MoE
文字-語音對齊	1:1 固定映射	ARIA 動態自適應對齊

模型在超過 1 億小時的視聽素材上進行了原生全模態預訓練。這不是在文字模型上加掛視覺或音訊模組的那種後期拼裝，而是從預訓練階段就把多種模態的資料混在一起餵。

215 項音訊基準的 SOTA，以及和 Gemini 3.1 Pro 的正面對決

Qwen 團隊宣稱 Plus 版本在 215 項音訊與視聽子任務上取得了新的 state-of-the-art，涵蓋 3 項視聽基準、5 項音訊基準、8 項語音識別基準、156 項特定語言翻譯任務和 43 項特定語言識別任務。幾個值得拉出來看的跑分對照：

音訊理解（MMAU）：Qwen3.5-Omni-Plus 82.2 vs Gemini 3.1 Pro 81.1
音樂理解（RUL-MuchoMusic）：72.4 vs 59.6——差距很明顯
對話基準（VoiceBench）：93.1 vs 88.9
Fleurs 語音識別（前 60 語言）：WER 6.55 vs 7.32
粵語語音識別：WER 1.95 vs 13.40——差距到了摧毀級

在語音合成方面，團隊拿出了和 ElevenLabs、GPT-Audio、Minimax 的對照。在比較困難的「seed-hard」測試集上，Qwen3.5-Omni-Plus 的 word error rate 是 6.24，GPT-Audio 是 8.19，Minimax 是 8.62，ElevenLabs 是 27.70。跨 20 語言的語音克隆表現也是同類最佳，WER 1.87、cosine similarity 0.79。

不過，Qwen 團隊在視覺和文字能力上的說法比較保守——聲稱與同規格的 Qwen3.5 純文字模型持平。考慮到全模態訓練通常會在某些維度上犧牲純文字效能，「持平」如果是真的，代表架構設計有效控制了跨模態干擾。

ARIA：解決即時語音輸出最頭痛的對齊問題

這一代最大的架構升級是 ARIA（Adaptive Rate Interleave Alignment）。前代使用文字和語音 Token 的 1:1 固定映射，問題在於兩種 token 的編碼速率天生不同，串流對話時經常出現掉字、發音錯誤或數字念亂的情況。ARIA 的做法是動態對齊並交織文字與語音 token，讓語音合成的品質可以在即時效能條件下保持穩定。

架構上也從前代的純 Mixture of Experts 切換到混合 Attention-MoE。Thinker 模組負責分析全模態輸入並產生文字，Talker 模組則收取 Thinker 的隱藏狀態，把文字和語音 token 交織後透過串流 codec 解碼器輸出語音。這個 thinker-talker 的分離設計讓即時對話可以做到語義中斷判定（區分使用者真的要打斷還是只是背景噪音）、即時搜尋調用和複雜函式呼叫。

對開發者來說，這意味著 API 後面的語音品質不再是簡單的 TTS 套上去，而是和文字推理過程深度耦合。如果未來要做的是真正有上下文感知能力的語音助手，這種架構會比事後把語音模組拼接上去更有優勢。

「Audio-Visual Vibe Coding」：不是噱頭，是 Scaling 假說的又一個數據點

回到開頭提到的那個意外能力。Qwen 團隊在說明中強調，audio-visual vibe coding 不是被刻意訓練出來的，而是在擴大全模態訓練規模的過程中自然浮現的。從技術角度看，這和 Scaling Laws 的核心預測一致：當模型在夠多種類的資料上訓練到夠大的規模，它會產生訓練者沒有明確指定的能力。

但「湧現」不等於「可靠」。展示中的貪食蛇遊戲看上去很酷，但在沒有系統性基準測試和大規模重複驗證的情況下，把它當成一項穩定產品能力來宣傳還為時過早。更重要的觀察點是：如果這類跨模態湧現能力被證明可以在更多實際場景中穩定復現，那麼模態覆蓋度本身就會成為模型競爭的新維度。

也就是說，以後比模型不只比誰的文字推理更強、誰的程式碼生成更準，還要比誰的模態組合更完整、以及這些模態之間能不能產生預料之外的交叉能力。

模型同時展示了精細的影音內容描述能力——可以逐場景拆解一段紀錄片，標記每個講者、每個鏡頭切換和每個音效；也可以在影片遊戲中自動識別暴力場景，標記時間戳與風險等級。這些能力更接近可被直接整合到工作流中的功能，而不只是 demo 素材。

不開源了：一個值得追問的轉向

和過去的 Qwen 發布不同，Qwen3.5-Omni 這次沒有公開模型權重，也沒有指定開源授權。模型目前只能透過 Qwen Chat 和阿里雲 Model Studio 的 API 服務使用。

這是一個值得注意的轉向。Qwen 系列過去一直是中國開源 LLM 的代表之一。從 Qwen3-Omni 到 Qwen3.5 文字系列，都有公開權重。這次不開源，可能有幾個原因：模型能力太強而觸發了內部安全考量；全模態模型的部署複雜度讓開放權重的支援成本太高；或者阿里巴巴正在重新評估開源策略的商業邏輯。

無論原因為何，這會直接影響研究社群和獨立開發者的使用方式。如果你之前靠 Qwen 的開放權重來做本地部署或微調，這條路在 Qwen3.5-Omni 上暫時走不通了。如果想了解 Qwen 系列模型在本地端的使用方式，可以對照本地 LLM 完整教學：用 LM Studio 跑 Qwen 3.5、Llama 與 GGUF 的實戰指南。

團隊內部動盪：模型在加速，人在離開

Qwen3.5-Omni 的發布背後有一個不能忽略的脈絡。阿里巴巴 AI 首席開發者林俊洋——整個 Qwen 系列的核心推動者——最近意外宣布離職，並帶走了多位關鍵團隊成員，包括 Qwen 編碼模型、後訓練以及 Qwen 3.5/VL 的負責人。

離職據報與一場內部人事調整有關，該調整原本打算把一位從 Google Gemini 團隊招募的研究員放到領導位置。阿里巴巴 CEO 吳泳銘隨後宣布成立新的「Foundation Model Task Force」，強調基礎模型開發仍然是公司的「核心戰略優先事項」。

但問題在於：Qwen 過去一年的發布節奏極快——從 Qwen3-Omni 到 Qwen3.5 文字系列到現在的 Qwen3.5-Omni，間隔都只有幾個月。如果帶領這些工作的核心團隊正在流失，接下來的迭代品質和速度能不能維持，就成了一個很實際的問題。對照阿里開源 Qwen3.5-397B-A17B，把多模態、長上下文與 201 種語言一起推進公開模型的脈絡來看，Qwen 系列過去的動能是建立在一個穩定的核心團隊上的，現在這個前提正在被測試。

Qwen3.5-Omni 本身的技術完成度毫無疑問是高的。但它能不能成為一條持續演進的產品線，而不只是團隊離開前的最後一個高峰，這才是接下來最值得追蹤的事。