Copilot Cowork 正式上前線,微軟把企業 AI 從聊天工具推向多模型工作層
大多數企業 AI 產品到今天為止,還停在「幫你寫、幫你找、幫你總結」這個層次。Microsoft 這次把 Copilot Cowork 正式推進 Frontier,並同步替 Researcher 加上 GPT 與 Claude 互審機制,真正重要的不是又多了幾個功能名稱,而是它開始把企業 AI 代理人 從回答工具推向可執行、可監督、可治理的工作層。對很多企業採購者來說,這比單純模型升級更值得看,因為它直接碰到兩個最現實的問題:誰來真的做事,以及誰來為風險負責。
官方目前已經把幾個關鍵點講得很清楚。Copilot Cowork 現在透過 Frontier 開放早期存取,用戶只要描述結果,它就能自己拆解步驟、跨 Outlook、Teams、Word、Excel、PowerPoint、SharePoint 與組織搜尋往前推進;Researcher 則新增 Critique 與 Model Council,讓不同模型在同一個研究任務裡分工起草、挑錯與比對。這代表企業工作流裡最棘手的那一段,開始不再只是「生成內容」,而是「在一個被允許的邊界內,把多步驟任務一路推到接近完成」。
如果把這波更新和較早前的 Copilot Cowork 把企業 AI 從加購助手推向工作作業系統,微軟開始重寫 Office 授權邏輯 放在一起看,主線已經很明確。Microsoft 不是在補一個聊天功能,而是在把 Copilot 往「企業工作執行層」繼續推。再對照 OpenAI 全力投入全自動 AI 研究員,Google Antigravity 挑戰全棧開發新邊界,你會更容易看見這場競爭的真正方向:下一輪企業 AI 不是比誰先回答,而是比誰能在被治理的環境裡,長時間把任務向前推。
Cowork 這次真正補上的,不是寫作能力,而是委派能力
Microsoft Learn 的 Frontier 文件把 Copilot Cowork 定義得很直接:它不是告訴你可以怎麼做,而是替你把事情做掉。現有文件列出的內建能力已經很廣,包含寄送與回覆郵件、排會與清理行事曆、建立 Word 文件、Excel 試算表、PowerPoint、PDF、貼文到 Teams、跨組織搜尋資料、執行 deep research,以及把提示排成定期自動化任務。官方文件還提到 Cowork 目前有 13 個內建 skills,並支援最多 20 個自訂 skills,這意味著 Microsoft 想做的不是單點自動化,而是可持續擴張的工作執行框架。
真正讓這件事從「厲害 demo」走向「企業可用」的,是它把控制機制一起帶進來。Cowork 在執行過程中會把步驟直接攤在對話裡,讓人可以中途插手、補上下文、暫停、取消,或者在敏感動作發生前進行核准。官方文件甚至把中高風險動作的批准流程寫得很細,包含 Approve、Approve & Remember 與 Reject。這一點很關鍵,因為企業真正怕的從來不是 AI 不夠積極,而是它在錯誤時間對錯誤的人做了不可逆操作。Microsoft 這次不是在淡化這個焦慮,而是嘗試把它產品化。
| 層面 | 這次更新可確認的內容 | 對企業採用的意義 |
|---|---|---|
| 任務執行 | 可跨郵件、文件、行事曆、Teams、搜尋一路推進 | 從單點助手變成多步驟執行器 |
| 治理控制 | 中高風險動作要求人工核准 | 把「能做事」和「可負責」綁在一起 |
| 擴充方式 | 13 個內建 skills,支援自訂 skills | 不只賣功能,還在賣工作框架 |
| 使用門檻 | 目前仍屬 Frontier preview | 市場已可試用,但還不是全面成熟版 |
這也解釋了為什麼早期採用者像 Capital Group 的回饋,不是集中在「它回答得多像人」,而是強調它可以串接規劃、排程、文件產出與後續溝通。企業真正要買的,不是更會聊天的 大語言模型,而是能把跨應用的碎片工作變成一條可驗證的任務鏈。
Researcher 讓 GPT 和 Claude 互相挑錯,微軟想補的是可信度缺口
這次另一個不能忽略的更新,是 Researcher 的 Critique 與 Model Council。官方說法很直接:Critique 會把生成和評估拆開,由一個模型先起草,第二個模型再做專家式審查;Model Council 則讓用戶把不同模型的答案並排,直接看它們在哪裡一致、在哪裡分歧、各自的獨特價值是什麼。對一般消費者來說,這可能像是多模型小玩具;但在企業場景裡,這其實是在替 AI 研究工作補上最常見的採用障礙:可不可以相信它交出來的第一版。
Microsoft 官方部落格給出兩個很有指標性的數字。第一,Researcher with Critique 在 DRACO 深度研究品質 benchmark 上比原本版本高 13.8%。第二,官方圖表顯示加入 Critique 後的 Researcher 分數來到 57.4,明顯高於圖中其他列出的競品與先前方案。就算你不把任何 benchmark 當成絕對真理,這仍然透露出一個重要方向:Microsoft 正在把多模型分工,當成提升企業研究可信度的產品設計,而不是單純的 marketing slogan。
第三方媒體對這一點的解讀也相當一致。Digital Trends 把它描述成一種 second opinion 機制,SiliconANGLE 則更直白地說,這是在用不同模型分工來降低企業對 hallucination 的恐懼。這種設計未必保證結果一定正確,但它確實比「相信單一模型一次到位」更接近企業熟悉的審稿流程。你可以把它理解成:Microsoft 正試圖把 AI 研究代理人,長得更像一支內部分析團隊,而不是一個單兵作戰的聊天視窗。
真正會改變採購的,不是功能表,而是價格和控制面開始成套出現
如果只看 Cowork 和 Researcher,這則新聞很容易被理解成單純功能更新。但 Microsoft Source EMEA 同一天放出的資訊,讓整件事的商業輪廓更完整了。Agent 365 將從 5 月 1 日開始一般可用,價格是每位用戶 15 美元;Microsoft 365 E7 Frontier Suite 同樣在 5 月 1 日一般可用,價格是每位用戶 99 美元,打包了 Microsoft 365 E5、Microsoft 365 Copilot、Agent 365,以及 Entra、Defender、Intune、Purview 等治理與安全能力。這說明 Microsoft 現在賣的已經不是單一 AI 助手席位,而是一整套「可執行代理 + 控制平面 + 企業治理」組合。
這一點比看起來還重要。因為很多企業對 生成式 AI 最大的猶豫,不是模型夠不夠強,而是擔心一旦真的讓它進入工作流,IT、法務、安全與稽核團隊要怎麼一起接住。Microsoft 把 Frontier、Agent 365、E7 與多模型 Researcher 一起推出,實際上是在回應這個採購問題:如果你不只是想試玩 AI,而是想讓 AI 代理人進組織,那微軟現在已經能連同身份、資料、裝置管理與安全能力一併打包。
但這也帶出另一個更硬的判斷。Cowork 目前依然是 Frontier preview,官方文件也明寫屬於 prerelease documentation,能力和可用性都還可能變動。也就是說,Microsoft 現在做的更像是把「下一代企業工作層」先賣給願意冒險的早期採用者,再用真實使用反過來修產品。這對市場是利多,對實務落地則還不是終點。
接下來真正要驗證的,是它能不能從會 demo 走到會交付
所以這則消息最值得看的,反而不是今天多了哪些 skill,而是接下來三件更硬的事。第一,Copilot Cowork 的多步驟執行是否真的能在高頻工作裡穩定運作,而不是只在 demo 任務裡順。第二,多模型 Critique 能不能在真實企業研究任務中持續降低錯誤率,而不是只在 benchmark 上漂亮。第三,當 Agent 365 與 E7 的價格正式落地後,企業會不會真的把它當成新的工作執行層,而不是把它留在創新部門做有限試點。
如果這三件事都往前走,Microsoft 這一波更新的意義就不會只是「Copilot 變更強」,而是企業 AI 產品形態本身開始改寫。到了那個階段,市場就不會再只問哪個模型更會寫字,而會開始問:哪個平台最能把人、資料、模型與審批流程放在同一條可控的工作鏈裡。那才是這波 Copilot Wave 3 真正想搶的位置。
