Copilot Cowork 正式上前線，微軟把企業 AI 從聊天工具推向多模型工作層

大多數企業 AI 產品到今天為止，還停在「幫你寫、幫你找、幫你總結」這個層次。Microsoft 這次把 Copilot Cowork 正式推進 Frontier，並同步替 Researcher 加上 GPT 與 Claude 互審機制，真正重要的不是又多了幾個功能名稱，而是它開始把企業 AI 代理人從回答工具推向可執行、可監督、可治理的工作層。對很多企業採購者來說，這比單純模型升級更值得看，因為它直接碰到兩個最現實的問題：誰來真的做事，以及誰來為風險負責。

官方目前已經把幾個關鍵點講得很清楚。Copilot Cowork 現在透過 Frontier 開放早期存取，用戶只要描述結果，它就能自己拆解步驟、跨 Outlook、Teams、Word、Excel、PowerPoint、SharePoint 與組織搜尋往前推進；Researcher 則新增 Critique 與 Model Council，讓不同模型在同一個研究任務裡分工起草、挑錯與比對。這代表企業工作流裡最棘手的那一段，開始不再只是「生成內容」，而是「在一個被允許的邊界內，把多步驟任務一路推到接近完成」。

如果把這波更新和較早前的 Copilot Cowork 把企業 AI 從加購助手推向工作作業系統，微軟開始重寫 Office 授權邏輯放在一起看，主線已經很明確。Microsoft 不是在補一個聊天功能，而是在把 Copilot 往「企業工作執行層」繼續推。再對照 OpenAI 全力投入全自動 AI 研究員，Google Antigravity 挑戰全棧開發新邊界，你會更容易看見這場競爭的真正方向：下一輪企業 AI 不是比誰先回答，而是比誰能在被治理的環境裡，長時間把任務向前推。

Cowork 這次真正補上的，不是寫作能力，而是委派能力

Microsoft Learn 的 Frontier 文件把 Copilot Cowork 定義得很直接：它不是告訴你可以怎麼做，而是替你把事情做掉。現有文件列出的內建能力已經很廣，包含寄送與回覆郵件、排會與清理行事曆、建立 Word 文件、Excel 試算表、PowerPoint、PDF、貼文到 Teams、跨組織搜尋資料、執行 deep research，以及把提示排成定期自動化任務。官方文件還提到 Cowork 目前有 13 個內建 skills，並支援最多 20 個自訂 skills，這意味著 Microsoft 想做的不是單點自動化，而是可持續擴張的工作執行框架。

真正讓這件事從「厲害 demo」走向「企業可用」的，是它把控制機制一起帶進來。Cowork 在執行過程中會把步驟直接攤在對話裡，讓人可以中途插手、補上下文、暫停、取消，或者在敏感動作發生前進行核准。官方文件甚至把中高風險動作的批准流程寫得很細，包含 Approve、Approve & Remember 與 Reject。這一點很關鍵，因為企業真正怕的從來不是 AI 不夠積極，而是它在錯誤時間對錯誤的人做了不可逆操作。Microsoft 這次不是在淡化這個焦慮，而是嘗試把它產品化。

層面	這次更新可確認的內容	對企業採用的意義
任務執行	可跨郵件、文件、行事曆、Teams、搜尋一路推進	從單點助手變成多步驟執行器
治理控制	中高風險動作要求人工核准	把「能做事」和「可負責」綁在一起
擴充方式	13 個內建 skills，支援自訂 skills	不只賣功能，還在賣工作框架
使用門檻	目前仍屬 Frontier preview	市場已可試用，但還不是全面成熟版

這也解釋了為什麼早期採用者像 Capital Group 的回饋，不是集中在「它回答得多像人」，而是強調它可以串接規劃、排程、文件產出與後續溝通。企業真正要買的，不是更會聊天的大語言模型，而是能把跨應用的碎片工作變成一條可驗證的任務鏈。

Researcher 讓 GPT 和 Claude 互相挑錯，微軟想補的是可信度缺口

這次另一個不能忽略的更新，是 Researcher 的 Critique 與 Model Council。官方說法很直接：Critique 會把生成和評估拆開，由一個模型先起草，第二個模型再做專家式審查；Model Council 則讓用戶把不同模型的答案並排，直接看它們在哪裡一致、在哪裡分歧、各自的獨特價值是什麼。對一般消費者來說，這可能像是多模型小玩具；但在企業場景裡，這其實是在替 AI 研究工作補上最常見的採用障礙：可不可以相信它交出來的第一版。

Microsoft 官方部落格給出兩個很有指標性的數字。第一，Researcher with Critique 在 DRACO 深度研究品質 benchmark 上比原本版本高 13.8%。第二，官方圖表顯示加入 Critique 後的 Researcher 分數來到 57.4，明顯高於圖中其他列出的競品與先前方案。就算你不把任何 benchmark 當成絕對真理，這仍然透露出一個重要方向：Microsoft 正在把多模型分工，當成提升企業研究可信度的產品設計，而不是單純的 marketing slogan。

第三方媒體對這一點的解讀也相當一致。Digital Trends 把它描述成一種 second opinion 機制，SiliconANGLE 則更直白地說，這是在用不同模型分工來降低企業對 hallucination 的恐懼。這種設計未必保證結果一定正確，但它確實比「相信單一模型一次到位」更接近企業熟悉的審稿流程。你可以把它理解成：Microsoft 正試圖把 AI 研究代理人，長得更像一支內部分析團隊，而不是一個單兵作戰的聊天視窗。

真正會改變採購的，不是功能表，而是價格和控制面開始成套出現

如果只看 Cowork 和 Researcher，這則新聞很容易被理解成單純功能更新。但 Microsoft Source EMEA 同一天放出的資訊，讓整件事的商業輪廓更完整了。Agent 365 將從 5 月 1 日開始一般可用，價格是每位用戶 15 美元；Microsoft 365 E7 Frontier Suite 同樣在 5 月 1 日一般可用，價格是每位用戶 99 美元，打包了 Microsoft 365 E5、Microsoft 365 Copilot、Agent 365，以及 Entra、Defender、Intune、Purview 等治理與安全能力。這說明 Microsoft 現在賣的已經不是單一 AI 助手席位，而是一整套「可執行代理 + 控制平面 + 企業治理」組合。

這一點比看起來還重要。因為很多企業對生成式 AI 最大的猶豫，不是模型夠不夠強，而是擔心一旦真的讓它進入工作流，IT、法務、安全與稽核團隊要怎麼一起接住。Microsoft 把 Frontier、Agent 365、E7 與多模型 Researcher 一起推出，實際上是在回應這個採購問題：如果你不只是想試玩 AI，而是想讓 AI 代理人進組織，那微軟現在已經能連同身份、資料、裝置管理與安全能力一併打包。

但這也帶出另一個更硬的判斷。Cowork 目前依然是 Frontier preview，官方文件也明寫屬於 prerelease documentation，能力和可用性都還可能變動。也就是說，Microsoft 現在做的更像是把「下一代企業工作層」先賣給願意冒險的早期採用者，再用真實使用反過來修產品。這對市場是利多，對實務落地則還不是終點。

接下來真正要驗證的，是它能不能從會 demo 走到會交付

所以這則消息最值得看的，反而不是今天多了哪些 skill，而是接下來三件更硬的事。第一，Copilot Cowork 的多步驟執行是否真的能在高頻工作裡穩定運作，而不是只在 demo 任務裡順。第二，多模型 Critique 能不能在真實企業研究任務中持續降低錯誤率，而不是只在 benchmark 上漂亮。第三，當 Agent 365 與 E7 的價格正式落地後，企業會不會真的把它當成新的工作執行層，而不是把它留在創新部門做有限試點。

如果這三件事都往前走，Microsoft 這一波更新的意義就不會只是「Copilot 變更強」，而是企業 AI 產品形態本身開始改寫。到了那個階段，市場就不會再只問哪個模型更會寫字，而會開始問：哪個平台最能把人、資料、模型與審批流程放在同一條可控的工作鏈裡。那才是這波 Copilot Wave 3 真正想搶的位置。