Anthropic 在中階戰線丟出一顆定價很兇的棋子:Claude Sonnet 5 即日起成為 Free 與 Pro 預設模型,並同步進入 Claude Code 與 API(模型 ID:claude-sonnet-5)。官方定位是「迄今最 代理式 的 Sonnet」——能自行規劃步驟、驅動瀏覽器與終端機、長時間自主執行任務;在 SWE-Bench Pro、Terminal-Bench 2.1 與 OSWorld 等實務 benchmark 上,分數明顯高於 Sonnet 4.6,部分維度已貼近 Opus 4.8,但定價只有旗艦的大約一半。
這發生在 Fable/Mythos 仍被出口管制卡住 的同一週,也與 GPT-5.6 Terra 預覽 正面相撞。Sonnet 5 的訊號很直白:大多數企業與開發者不需要天天碰最貴的前沿型號,他們需要的是「夠聰明、夠便宜、能跑一整天代理」的中階 SKU。
官方放了哪些可核對數字
Anthropic 在發布文與平台文件裡給出一組可對照的規格與成績(以下皆為公司公開資料):
| 項目 | Sonnet 5 | Sonnet 4.6(前代) | Opus 4.8(旗艦對照) |
|---|---|---|---|
| SWE-Bench Pro | 63.2% | 58.1% | 69.2% |
| Terminal-Bench 2.1 | 80.4% | 67.0% | — |
| Humanity's Last Exam(含工具) | 57.4% | — | 57.9% |
| OSWorld-Verified | 81.2% | 78.5% | — |
| 上下文 | 1M token | 1M | 1M |
| 訓練截止 | 2026 年 1 月 | — | — |
Terminal-Bench 上,The Decoder 引述的對照顯示 OpenAI GPT-5.6 Terra 仍略高 Sonnet 5 約 4 個百分點——中階對中階,這會直接影響「預設路由該選誰」的採購表。SWE-Bench Verified 社群整理則給 Sonnet 5 約 85.2%,高於前代,但與 Sol 等受限預覽型號尚未在同一開放條件下全面對打。
定價(API,每百萬 token)
| 階段 | 輸入 | 輸出 |
|---|---|---|
| 發布優惠(至 8 月 31 日) | $2 | $10 |
| 標準價(9 月起) | $3 | $15 |
| Opus 4.8 對照 | $5 | $25 |
優惠期結束後,名目單價與 Sonnet 4.6 相同,但 Anthropic 文件提醒:新 tokenizer 對同一段文字可能產生約多 30% 的 token 數,實際帳單未必與前代持平。企業 FinOps 應用真實工作負載試算,而不是只比「每百萬 token 標價」。
為什麼 Anthropic 選在這時推中階代理
從產品結構看,Anthropic 的 Haiku/Sonnet/Opus 三層本來就對應不同任務深度。Sonnet 5 把「會規劃、會用工具、會長跑」往下壓到中階價帶,等於告訴市場:代理工作流不該預設綁在 Opus 或 Fable 這類高風險高價型號上。
對開發者,幾個實務變化值得立刻記:
- Claude Code 預設升級:長任務 coding 與終端操作會自動吃到 Sonnet 5,需重新量延遲與 token 消耗。
- 可調「努力程度」:API 與 Claude Code 預設較高 effort;同一任務在不同 effort 下成本曲線差異變大,路由邏輯要寫進應用層。
- Cyber Verification Program:Sonnet 5 納入網安驗證計畫,但官方仍建議高風險網安工作優先 Opus 4.8——中階代理不等於無限制紅隊。
若你正在 GPT-5.6 預覽 與 Claude 之間做 A/B,Sonnet 5 的價格優勢在「可 7×24 跑代理」場景會放大;但若任務卡在 Terminal-Bench 類型的 CLI 長鏈,Terra 的公開對照分數仍略佔上風。
與監管主線的並行關係
Sonnet 5 發布文末尾還夾帶兩條政治訊號:一是與 Amazon、Microsoft、Google 等 Glasswing 夥伴起草「越獄嚴重度」行業框架;二是預告 Fable 5 將在隔日全球恢復(見 Fable 5 全球重新部署)。這代表 Anthropic 一邊用 Sonnet 5 搶佔可立即變現的中階代理市場,一邊用合規敘事為旗艦解封鋪路。
對一般讀者,短期內 Sonnet 5 才是能直接摸到的升級;Fable 5 仍帶更強能力與更嚴安全堆疊,但訂閱與額度規則更複雜。採購上可把 Sonnet 5 當「日常代理預設」,把 Fable/Opus 留給少數高風險或高價值任務。
你該怎麼試用
- 先用真實 repo 跑一輪 Claude Code:比較 Sonnet 4.6 與 5 在相同 提示詞 下的步驟數、失敗恢復與總 token。
- 在 8 月 31 日前鎖定優惠價試產:若代理流量大,優惠期是壓成本的窗口;9 月後要重算含 tokenizer 差異的帳單。
- 別用 benchmark 取代業務測試:SWE-Bench 類分數反映特定基準,不等於你的內部框架、合規或資料格式表現。
- 保留 Opus/Terra 作為升級路徑:Sonnet 5 是「夠用且便宜」,不是「永遠最強」。
企業採購該怎麼改路由表
若你過去把 Sonnet 4.6 當「便宜備援」、把 Opus 當「唯一可交付代理」,Sonnet 5 會逼你重畫決策樹。The Next Web 與 TechCrunch 的評論都指向同一點:代理任務的邊際成本決定能否 7×24 自動化,而不是峰值 benchmark。
實務上可考慮三層路由:
- Luna/Haiku 級(若使用 OpenAI 生態則為 Luna):摘要、分類、短回覆。
- Sonnet 5/Terra 級:多步 coding、文件分析、可接受偶發失敗的長任務。
- Opus/Sol/Fable 級:高風險網安、複雜推理、合規敏感輸出。
Sonnet 5 的價值在把第 2 層抬高,讓第 3 層調用次數下降。Anthropic 提高 Chat、Cowork、Claude Code 與平台的 rate limit,側面承認高 effort 代理會吃掉更多 token——限流放寬不等於帳單下降,FinOps 要同時看 QPS 與單任務 token 曲線。
與 Sonnet 4.6 升級時的遷移風險
模型 ID 一換,舊有 eval 與 prompt 快取可能失效。建議:
- 用同一批內部黃金測試集重跑,不要只信官方 SWE-Bench 表格。
- 檢查依賴「較短輸出」的下游解析器;代理型號常輸出更長思維鏈。
- 若使用 Batch API,注意 9 月後標準價與 50% batch 折扣是否仍符合預算。
官方亦提醒 Sonnet 5 納入 Cyber Verification Program,已登記的組織無需重新申請即可沿用網安存取權限——但高風險 offensive 場景仍應留在 Opus 4.8,避免誤把中階代理當無護欄紅隊工具。
一句話:Sonnet 5 把 大型語言模型 競賽的中場從「誰分數最高」改成「誰能在中階價位撐住全天候 代理式推理」——對多數團隊,這比再等一個遙不可及的旗艦 GA 更實際。
