Claude Opus 4.8 把誠實度與動態工作流一起端上桌，Anthropic 想把代理競爭改寫成長任務競賽｜AI趨勢、情報與工具更新

Anthropic 這次推出 Claude Opus 4.8，最值得注意的不是它又把 benchmark 往上推了一截，而是它試圖把前沿模型競賽的評分標準一起改掉。官方一邊維持和前一版相同的標準 API 定價，一邊強調 Opus 4.8 在 agentic coding、長任務協作、實務知識工作與「主動標記不確定性」上的提升，還同步推出 Dynamic Workflows、effort control 與更便宜的 fast mode。這代表 Anthropic 不再滿足於讓 Claude 看起來更聰明，而是想讓它在高自治工作流裡更可靠、更可控，也更像一個能被交付的代理系統。

如果把這次更新放回最近幾週的競爭脈絡來看，訊號就更清楚了。OpenAI 持續把 Codex 往多裝置與企業場景延伸，Google 也用 Gemini 系列把高頻代理任務推向價格戰；Anthropic 則選擇直接對準一個更難的問題：當模型需要跑很久、接很多工具、管理很多子任務時，它能不能少一點「看起來像完成其實沒完成」的假進度，並且在出錯前先把風險說出來。對企業來說，這比再多幾分漂亮跑分更接近真實痛點。

指標	Claude Opus 4.8
標準定價	每百萬 input token 5 美元 / output token 25 美元
Fast Mode	每百萬 input token 10 美元 / output token 50 美元
速度變化	Fast Mode 約 2.5 倍速度，價格比舊 fast mode 低約三分之二
Context window	1M 上下文窗口（Microsoft Foundry 為 200k）
最大同步輸出	128k tokens
SWE-Bench Pro	69.2%
Humanity's Last Exam	無工具 49.8%，有工具 57.9%
Online-Mind2Web	84%

這次到底變強在哪裡？

從公開資料看，Opus 4.8 的升級主要集中在兩條線。第一條是能力面：它在 SWE-Bench Pro 拿到 69.2%，高於 Opus 4.7 的 64.3%，也領先 TechCrunch 與 The Decoder 引述的 GPT-5.5 水準；在 Humanity's Last Exam，無工具與有工具設定分別來到 49.8% 和 57.9%；在 Online-Mind2Web 這類更接近瀏覽器代理工作的評測上，則衝到 84%。第二條更關鍵，是它被設計成更不容易把薄弱證據包裝成完成進度。Anthropic 明說，Opus 4.8 比 4.7 更常主動標記工作中的不確定性，在官方 coding 評估中，讓程式漏洞「默默通過卻不提醒」的情況約少了四倍。

這種改動看起來不像 headline-friendly 的超大突破，卻可能比單純拉分更重要。站內先前寫過 Anthropic 說教 Claude 理解「為什麼不能勒索」，比只教它照做更有效時，就已經看到 Anthropic 把「模型怎麼判斷與怎麼收手」放進產品主敘事。Opus 4.8 則是把這種 alignment 導向的設計直接拉進商用工作流：不只是別亂做壞事，而是別在工程、法律、投研或分析任務裡假裝自己已經搞懂。

Dynamic Workflows 為什麼可能比跑分更重要？

真正讓這次更新和一般模型升級拉開距離的，是 Dynamic Workflows。Anthropic 的描述很具體：Claude 會先規劃任務，再把工作拆成大量子任務，同時調度數十到數百個平行 subagent，讓不同代理獨立探索、互相驗證、嘗試反駁彼此的發現，最後才整合成單一答案。這不是多開幾個視窗而已，而是把代理 orchestration 從 prompt 技巧提升成產品層級能力。

官方給的示範也很有代表性。Bun 的重寫案例裡，Dynamic Workflows 幫忙把專案從 Zig 移植到 Rust，產出約 75 萬行 Rust 程式碼，既有測試套件通過率達 99.8%，從第一個 commit 到合併只花 11 天。對大型工程組織來說，這類案例真正有價值的地方不只是速度，而是它證明了代理開始有能力處理「跨數百檔、跨多階段、要反覆修正」的長週期任務。也難怪 Anthropic 會把它直接放進 Claude Code 的研究預覽，而不是當成旁邊的小功能。

動態工作流目前可在 Claude Code CLI、桌面版與 VS Code 擴充中使用，Max、Team 方案預設開啟，Enterprise 方案則需要管理員啟用；同時它也能走 Claude API、Amazon Bedrock、Vertex AI 與 Microsoft Foundry。這個覆蓋範圍顯示，Anthropic 並不是把 Dynamic Workflows 當作單一介面的賣點，而是把它視為整條開發者與企業分發鏈都該共享的能力。和 Codex 進入手機後，AI coding 開始改用「隨時接手」而不是「坐在電腦前等」對照來看，OpenAI 比較像是在擴張代理的可觸及範圍，Anthropic 則是在抬高代理單次可承接的任務複雜度。

價格沒變，實際成本會不會下降？

紙面上看，Opus 4.8 的標準價格沒有動，仍是每百萬 input Token 5 美元、output 25 美元；Fast Mode 則是 input 10 美元、output 50 美元。但這次真正值得注意的是兩層成本訊號。第一，Fast Mode 在 2.5 倍速度下，價格比前一代 fast mode 便宜約三分之二，說明 Anthropic 開始把「加速模式」從奢侈選項往更可日常使用的檔位拉。第二，The Decoder 引述 Artificial Analysis 的觀察指出，Opus 4.8 在某些知識工作 benchmark 上，相比 4.7 用更少 passes 與更少 output tokens 就能完成任務，意味著即使單價不變，總帳單也可能下降。

這一點對企業比對模型很重要，因為「紙面價格相同」不等於「實際使用成本相同」。如果一個模型更常走冤枉路、輸出更長、工具呼叫更亂，即使單價低，看起來也未必便宜。Anthropic 這次刻意把 honesty、tool efficiency 和 effort control 放在一起談，就是在對採購方說：你應該看總任務成本，而不是只看每百萬 token 單價。這也和 Gemini 3.5 Flash 正式 GA 後，Google 把前沿模型價格戰與代理戰綁成同一件事所呈現的市場方向一致，差別只在於 Anthropic 沒有直接打最低價，而是試圖用更高的完成率與更少返工替自己辯護。

下一步為什麼不是下一個 Opus，而是 Mythos？

Anthropic 在這次發布裡還埋了一個更大的伏筆：Mythos 級模型有望在未來幾週提供給更多客戶。這代表 Opus 4.8 既是一次產品升級，也是 Mythos 普及前的節點版本。Anthropic 一方面用 Opus 4.8 修補 4.7 之後外界對品質與節奏的疑慮，一方面則持續把最高階能力綁在更嚴格的安全門檻後面。從商業角度看，這是很典型的「先把主力產品穩住，再逐步打開下一檔更高價值層」策略；從競爭角度看，則是想先把高自治代理的可信度建立起來，再把更高 intelligence 等級推向更廣市場。

因此，這次 Opus 4.8 的真正含義並不是「Anthropic 又推出一個更強模型」這麼簡單。它更像是在重新定義前沿代理產品應該怎麼贏：不是只靠跑分，也不是只靠更長上下文窗口，而是要在長任務、多工具、多代理並行的情境下，把錯誤率、任務成本、使用者控制權與最終交付品質一起拉高。當前沿 AI 市場逐漸從聊天能力轉向工作能力，Opus 4.8 最重要的訊號就是這一句話：下一輪競爭，贏家不一定是最會回答問題的模型，而是最能把複雜工作安全做完的代理系統。