Claude Sonnet 5 發布：代理能力、benchmark 與 2/10 美元定價解析

Anthropic 在中階戰線丟出一顆定價很兇的棋子：Claude Sonnet 5 即日起成為 Free 與 Pro 預設模型，並同步進入 Claude Code 與 API（模型 ID：claude-sonnet-5）。官方定位是「迄今最代理式的 Sonnet」——能自行規劃步驟、驅動瀏覽器與終端機、長時間自主執行任務；在 SWE-Bench Pro、Terminal-Bench 2.1 與 OSWorld 等實務 benchmark 上，分數明顯高於 Sonnet 4.6，部分維度已貼近 Opus 4.8，但定價只有旗艦的大約一半。

這發生在 Fable／Mythos 仍被出口管制卡住的同一週，也與 GPT-5.6 Terra 預覽正面相撞。Sonnet 5 的訊號很直白：大多數企業與開發者不需要天天碰最貴的前沿型號，他們需要的是「夠聰明、夠便宜、能跑一整天代理」的中階 SKU。

官方放了哪些可核對數字

Anthropic 在發布文與平台文件裡給出一組可對照的規格與成績（以下皆為公司公開資料）：

項目	Sonnet 5	Sonnet 4.6（前代）	Opus 4.8（旗艦對照）
SWE-Bench Pro	63.2%	58.1%	69.2%
Terminal-Bench 2.1	80.4%	67.0%	—
Humanity's Last Exam（含工具）	57.4%	—	57.9%
OSWorld-Verified	81.2%	78.5%	—
上下文	1M token	1M	1M
訓練截止	2026 年 1 月	—	—

Terminal-Bench 上，The Decoder 引述的對照顯示 OpenAI GPT-5.6 Terra 仍略高 Sonnet 5 約 4 個百分點——中階對中階，這會直接影響「預設路由該選誰」的採購表。SWE-Bench Verified 社群整理則給 Sonnet 5 約 85.2%，高於前代，但與 Sol 等受限預覽型號尚未在同一開放條件下全面對打。

定價（API，每百萬 token）

階段	輸入	輸出
發布優惠（至 8 月 31 日）	$2	$10
標準價（9 月起）	$3	$15
Opus 4.8 對照	$5	$25

優惠期結束後，名目單價與 Sonnet 4.6 相同，但 Anthropic 文件提醒：新 tokenizer 對同一段文字可能產生約多 30% 的 token 數，實際帳單未必與前代持平。企業 FinOps 應用真實工作負載試算，而不是只比「每百萬 token 標價」。

為什麼 Anthropic 選在這時推中階代理

從產品結構看，Anthropic 的 Haiku／Sonnet／Opus 三層本來就對應不同任務深度。Sonnet 5 把「會規劃、會用工具、會長跑」往下壓到中階價帶，等於告訴市場：代理工作流不該預設綁在 Opus 或 Fable 這類高風險高價型號上。

對開發者，幾個實務變化值得立刻記：

Claude Code 預設升級：長任務 coding 與終端操作會自動吃到 Sonnet 5，需重新量延遲與 token 消耗。
可調「努力程度」：API 與 Claude Code 預設較高 effort；同一任務在不同 effort 下成本曲線差異變大，路由邏輯要寫進應用層。
Cyber Verification Program：Sonnet 5 納入網安驗證計畫，但官方仍建議高風險網安工作優先 Opus 4.8——中階代理不等於無限制紅隊。

若你正在 GPT-5.6 預覽與 Claude 之間做 A/B，Sonnet 5 的價格優勢在「可 7×24 跑代理」場景會放大；但若任務卡在 Terminal-Bench 類型的 CLI 長鏈，Terra 的公開對照分數仍略佔上風。

與監管主線的並行關係

Sonnet 5 發布文末尾還夾帶兩條政治訊號：一是與 Amazon、Microsoft、Google 等 Glasswing 夥伴起草「越獄嚴重度」行業框架；二是預告 Fable 5 將在隔日全球恢復（見 Fable 5 全球重新部署）。這代表 Anthropic 一邊用 Sonnet 5 搶佔可立即變現的中階代理市場，一邊用合規敘事為旗艦解封鋪路。

對一般讀者，短期內 Sonnet 5 才是能直接摸到的升級；Fable 5 仍帶更強能力與更嚴安全堆疊，但訂閱與額度規則更複雜。採購上可把 Sonnet 5 當「日常代理預設」，把 Fable／Opus 留給少數高風險或高價值任務。

你該怎麼試用

先用真實 repo 跑一輪 Claude Code：比較 Sonnet 4.6 與 5 在相同提示詞下的步驟數、失敗恢復與總 token。
在 8 月 31 日前鎖定優惠價試產：若代理流量大，優惠期是壓成本的窗口；9 月後要重算含 tokenizer 差異的帳單。
別用 benchmark 取代業務測試：SWE-Bench 類分數反映特定基準，不等於你的內部框架、合規或資料格式表現。
保留 Opus／Terra 作為升級路徑：Sonnet 5 是「夠用且便宜」，不是「永遠最強」。

企業採購該怎麼改路由表

若你過去把 Sonnet 4.6 當「便宜備援」、把 Opus 當「唯一可交付代理」，Sonnet 5 會逼你重畫決策樹。The Next Web 與 TechCrunch 的評論都指向同一點：代理任務的邊際成本決定能否 7×24 自動化，而不是峰值 benchmark。

實務上可考慮三層路由：

Luna／Haiku 級（若使用 OpenAI 生態則為 Luna）：摘要、分類、短回覆。
Sonnet 5／Terra 級：多步 coding、文件分析、可接受偶發失敗的長任務。
Opus／Sol／Fable 級：高風險網安、複雜推理、合規敏感輸出。

Sonnet 5 的價值在把第 2 層抬高，讓第 3 層調用次數下降。Anthropic 提高 Chat、Cowork、Claude Code 與平台的 rate limit，側面承認高 effort 代理會吃掉更多 token——限流放寬不等於帳單下降，FinOps 要同時看 QPS 與單任務 token 曲線。

與 Sonnet 4.6 升級時的遷移風險

模型 ID 一換，舊有 eval 與 prompt 快取可能失效。建議：

用同一批內部黃金測試集重跑，不要只信官方 SWE-Bench 表格。
檢查依賴「較短輸出」的下游解析器；代理型號常輸出更長思維鏈。
若使用 Batch API，注意 9 月後標準價與 50% batch 折扣是否仍符合預算。

官方亦提醒 Sonnet 5 納入 Cyber Verification Program，已登記的組織無需重新申請即可沿用網安存取權限——但高風險 offensive 場景仍應留在 Opus 4.8，避免誤把中階代理當無護欄紅隊工具。

一句話：Sonnet 5 把大型語言模型競賽的中場從「誰分數最高」改成「誰能在中階價位撐住全天候代理式推理」——對多數團隊，這比再等一個遙不可及的旗艦 GA 更實際。