Anthropic 這次推出 Claude Opus 4.8,最值得注意的不是它又把 benchmark 往上推了一截,而是它試圖把前沿模型競賽的評分標準一起改掉。官方一邊維持和前一版相同的標準 API 定價,一邊強調 Opus 4.8 在 agentic coding、長任務協作、實務知識工作與「主動標記不確定性」上的提升,還同步推出 Dynamic Workflows、effort control 與更便宜的 fast mode。這代表 Anthropic 不再滿足於讓 Claude 看起來更聰明,而是想讓它在高自治工作流裡更可靠、更可控,也更像一個能被交付的代理系統。
如果把這次更新放回最近幾週的競爭脈絡來看,訊號就更清楚了。OpenAI 持續把 Codex 往多裝置與企業場景延伸,Google 也用 Gemini 系列把高頻代理任務推向價格戰;Anthropic 則選擇直接對準一個更難的問題:當模型需要跑很久、接很多工具、管理很多子任務時,它能不能少一點「看起來像完成其實沒完成」的假進度,並且在出錯前先把風險說出來。對企業來說,這比再多幾分漂亮跑分更接近真實痛點。
| 指標 | Claude Opus 4.8 |
|---|---|
| 標準定價 | 每百萬 input token 5 美元 / output token 25 美元 |
| Fast Mode | 每百萬 input token 10 美元 / output token 50 美元 |
| 速度變化 | Fast Mode 約 2.5 倍速度,價格比舊 fast mode 低約三分之二 |
| Context window | 1M 上下文窗口(Microsoft Foundry 為 200k) |
| 最大同步輸出 | 128k tokens |
| SWE-Bench Pro | 69.2% |
| Humanity's Last Exam | 無工具 49.8%,有工具 57.9% |
| Online-Mind2Web | 84% |
這次到底變強在哪裡?
從公開資料看,Opus 4.8 的升級主要集中在兩條線。第一條是能力面:它在 SWE-Bench Pro 拿到 69.2%,高於 Opus 4.7 的 64.3%,也領先 TechCrunch 與 The Decoder 引述的 GPT-5.5 水準;在 Humanity's Last Exam,無工具與有工具設定分別來到 49.8% 和 57.9%;在 Online-Mind2Web 這類更接近瀏覽器代理工作的評測上,則衝到 84%。第二條更關鍵,是它被設計成更不容易把薄弱證據包裝成完成進度。Anthropic 明說,Opus 4.8 比 4.7 更常主動標記工作中的不確定性,在官方 coding 評估中,讓程式漏洞「默默通過卻不提醒」的情況約少了四倍。
這種改動看起來不像 headline-friendly 的超大突破,卻可能比單純拉分更重要。站內先前寫過 Anthropic 說教 Claude 理解「為什麼不能勒索」,比只教它照做更有效 時,就已經看到 Anthropic 把「模型怎麼判斷與怎麼收手」放進產品主敘事。Opus 4.8 則是把這種 alignment 導向的設計直接拉進商用工作流:不只是別亂做壞事,而是別在工程、法律、投研或分析任務裡假裝自己已經搞懂。
Dynamic Workflows 為什麼可能比跑分更重要?
真正讓這次更新和一般模型升級拉開距離的,是 Dynamic Workflows。Anthropic 的描述很具體:Claude 會先規劃任務,再把工作拆成大量子任務,同時調度數十到數百個平行 subagent,讓不同代理獨立探索、互相驗證、嘗試反駁彼此的發現,最後才整合成單一答案。這不是多開幾個視窗而已,而是把代理 orchestration 從 prompt 技巧提升成產品層級能力。
官方給的示範也很有代表性。Bun 的重寫案例裡,Dynamic Workflows 幫忙把專案從 Zig 移植到 Rust,產出約 75 萬行 Rust 程式碼,既有測試套件通過率達 99.8%,從第一個 commit 到合併只花 11 天。對大型工程組織來說,這類案例真正有價值的地方不只是速度,而是它證明了代理開始有能力處理「跨數百檔、跨多階段、要反覆修正」的長週期任務。也難怪 Anthropic 會把它直接放進 Claude Code 的研究預覽,而不是當成旁邊的小功能。
動態工作流目前可在 Claude Code CLI、桌面版與 VS Code 擴充中使用,Max、Team 方案預設開啟,Enterprise 方案則需要管理員啟用;同時它也能走 Claude API、Amazon Bedrock、Vertex AI 與 Microsoft Foundry。這個覆蓋範圍顯示,Anthropic 並不是把 Dynamic Workflows 當作單一介面的賣點,而是把它視為整條開發者與企業分發鏈都該共享的能力。和 Codex 進入手機後,AI coding 開始改用「隨時接手」而不是「坐在電腦前等」 對照來看,OpenAI 比較像是在擴張代理的可觸及範圍,Anthropic 則是在抬高代理單次可承接的任務複雜度。
價格沒變,實際成本會不會下降?
紙面上看,Opus 4.8 的標準價格沒有動,仍是每百萬 input Token 5 美元、output 25 美元;Fast Mode 則是 input 10 美元、output 50 美元。但這次真正值得注意的是兩層成本訊號。第一,Fast Mode 在 2.5 倍速度下,價格比前一代 fast mode 便宜約三分之二,說明 Anthropic 開始把「加速模式」從奢侈選項往更可日常使用的檔位拉。第二,The Decoder 引述 Artificial Analysis 的觀察指出,Opus 4.8 在某些知識工作 benchmark 上,相比 4.7 用更少 passes 與更少 output tokens 就能完成任務,意味著即使單價不變,總帳單也可能下降。
這一點對企業比對模型很重要,因為「紙面價格相同」不等於「實際使用成本相同」。如果一個模型更常走冤枉路、輸出更長、工具呼叫更亂,即使單價低,看起來也未必便宜。Anthropic 這次刻意把 honesty、tool efficiency 和 effort control 放在一起談,就是在對採購方說:你應該看總任務成本,而不是只看每百萬 token 單價。這也和 Gemini 3.5 Flash 正式 GA 後,Google 把前沿模型價格戰與代理戰綁成同一件事 所呈現的市場方向一致,差別只在於 Anthropic 沒有直接打最低價,而是試圖用更高的完成率與更少返工替自己辯護。
下一步為什麼不是下一個 Opus,而是 Mythos?
Anthropic 在這次發布裡還埋了一個更大的伏筆:Mythos 級模型有望在未來幾週提供給更多客戶。這代表 Opus 4.8 既是一次產品升級,也是 Mythos 普及前的節點版本。Anthropic 一方面用 Opus 4.8 修補 4.7 之後外界對品質與節奏的疑慮,一方面則持續把最高階能力綁在更嚴格的安全門檻後面。從商業角度看,這是很典型的「先把主力產品穩住,再逐步打開下一檔更高價值層」策略;從競爭角度看,則是想先把高自治代理的可信度建立起來,再把更高 intelligence 等級推向更廣市場。
因此,這次 Opus 4.8 的真正含義並不是「Anthropic 又推出一個更強模型」這麼簡單。它更像是在重新定義前沿代理產品應該怎麼贏:不是只靠跑分,也不是只靠更長上下文窗口,而是要在長任務、多工具、多代理並行的情境下,把錯誤率、任務成本、使用者控制權與最終交付品質一起拉高。當前沿 AI 市場逐漸從聊天能力轉向工作能力,Opus 4.8 最重要的訊號就是這一句話:下一輪競爭,贏家不一定是最會回答問題的模型,而是最能把複雜工作安全做完的代理系統。
