返回趨勢情報
趨勢情報

Claude Sonnet 5 把代理能力拉到接近 Opus 卻只要一半價,Anthropic 想讓中等模型吃掉大多數工作日

2026年6月30日
易賺Ai團隊
8 分鐘閱讀
#Anthropic#定價#Claude Sonnet 5#代理式 AI#SWE-Bench
Claude Sonnet 5 把代理能力拉到接近 Opus 卻只要一半價,Anthropic 想讓中等模型吃掉大多數工作日

Anthropic 在中階戰線丟出一顆定價很兇的棋子:Claude Sonnet 5 即日起成為 Free 與 Pro 預設模型,並同步進入 Claude Code 與 API(模型 ID:claude-sonnet-5)。官方定位是「迄今最 代理式 的 Sonnet」——能自行規劃步驟、驅動瀏覽器與終端機、長時間自主執行任務;在 SWE-Bench Pro、Terminal-Bench 2.1 與 OSWorld 等實務 benchmark 上,分數明顯高於 Sonnet 4.6,部分維度已貼近 Opus 4.8,但定價只有旗艦的大約一半。

這發生在 Fable/Mythos 仍被出口管制卡住 的同一週,也與 GPT-5.6 Terra 預覽 正面相撞。Sonnet 5 的訊號很直白:大多數企業與開發者不需要天天碰最貴的前沿型號,他們需要的是「夠聰明、夠便宜、能跑一整天代理」的中階 SKU。

官方放了哪些可核對數字

Anthropic 在發布文與平台文件裡給出一組可對照的規格與成績(以下皆為公司公開資料):

項目Sonnet 5Sonnet 4.6(前代)Opus 4.8(旗艦對照)
SWE-Bench Pro63.2%58.1%69.2%
Terminal-Bench 2.180.4%67.0%
Humanity's Last Exam(含工具)57.4%57.9%
OSWorld-Verified81.2%78.5%
上下文1M token1M1M
訓練截止2026 年 1 月

Terminal-Bench 上,The Decoder 引述的對照顯示 OpenAI GPT-5.6 Terra 仍略高 Sonnet 5 約 4 個百分點——中階對中階,這會直接影響「預設路由該選誰」的採購表。SWE-Bench Verified 社群整理則給 Sonnet 5 約 85.2%,高於前代,但與 Sol 等受限預覽型號尚未在同一開放條件下全面對打。

定價(API,每百萬 token)

階段輸入輸出
發布優惠(至 8 月 31 日)$2$10
標準價(9 月起)$3$15
Opus 4.8 對照$5$25

優惠期結束後,名目單價與 Sonnet 4.6 相同,但 Anthropic 文件提醒:新 tokenizer 對同一段文字可能產生約多 30% 的 token 數,實際帳單未必與前代持平。企業 FinOps 應用真實工作負載試算,而不是只比「每百萬 token 標價」。

為什麼 Anthropic 選在這時推中階代理

從產品結構看,Anthropic 的 Haiku/Sonnet/Opus 三層本來就對應不同任務深度。Sonnet 5 把「會規劃、會用工具、會長跑」往下壓到中階價帶,等於告訴市場:代理工作流不該預設綁在 Opus 或 Fable 這類高風險高價型號上。

對開發者,幾個實務變化值得立刻記:

  • Claude Code 預設升級:長任務 coding 與終端操作會自動吃到 Sonnet 5,需重新量延遲與 token 消耗。
  • 可調「努力程度」:API 與 Claude Code 預設較高 effort;同一任務在不同 effort 下成本曲線差異變大,路由邏輯要寫進應用層。
  • Cyber Verification Program:Sonnet 5 納入網安驗證計畫,但官方仍建議高風險網安工作優先 Opus 4.8——中階代理不等於無限制紅隊。

若你正在 GPT-5.6 預覽 與 Claude 之間做 A/B,Sonnet 5 的價格優勢在「可 7×24 跑代理」場景會放大;但若任務卡在 Terminal-Bench 類型的 CLI 長鏈,Terra 的公開對照分數仍略佔上風。

與監管主線的並行關係

Sonnet 5 發布文末尾還夾帶兩條政治訊號:一是與 Amazon、Microsoft、Google 等 Glasswing 夥伴起草「越獄嚴重度」行業框架;二是預告 Fable 5 將在隔日全球恢復(見 Fable 5 全球重新部署)。這代表 Anthropic 一邊用 Sonnet 5 搶佔可立即變現的中階代理市場,一邊用合規敘事為旗艦解封鋪路。

對一般讀者,短期內 Sonnet 5 才是能直接摸到的升級;Fable 5 仍帶更強能力與更嚴安全堆疊,但訂閱與額度規則更複雜。採購上可把 Sonnet 5 當「日常代理預設」,把 Fable/Opus 留給少數高風險或高價值任務。

你該怎麼試用

  1. 先用真實 repo 跑一輪 Claude Code:比較 Sonnet 4.6 與 5 在相同 提示詞 下的步驟數、失敗恢復與總 token。
  2. 在 8 月 31 日前鎖定優惠價試產:若代理流量大,優惠期是壓成本的窗口;9 月後要重算含 tokenizer 差異的帳單。
  3. 別用 benchmark 取代業務測試:SWE-Bench 類分數反映特定基準,不等於你的內部框架、合規或資料格式表現。
  4. 保留 Opus/Terra 作為升級路徑:Sonnet 5 是「夠用且便宜」,不是「永遠最強」。

企業採購該怎麼改路由表

若你過去把 Sonnet 4.6 當「便宜備援」、把 Opus 當「唯一可交付代理」,Sonnet 5 會逼你重畫決策樹。The Next Web 與 TechCrunch 的評論都指向同一點:代理任務的邊際成本決定能否 7×24 自動化,而不是峰值 benchmark。

實務上可考慮三層路由:

  1. Luna/Haiku 級(若使用 OpenAI 生態則為 Luna):摘要、分類、短回覆。
  2. Sonnet 5/Terra 級:多步 coding、文件分析、可接受偶發失敗的長任務。
  3. Opus/Sol/Fable 級:高風險網安、複雜推理、合規敏感輸出。

Sonnet 5 的價值在把第 2 層抬高,讓第 3 層調用次數下降。Anthropic 提高 Chat、Cowork、Claude Code 與平台的 rate limit,側面承認高 effort 代理會吃掉更多 token——限流放寬不等於帳單下降,FinOps 要同時看 QPS 與單任務 token 曲線。

與 Sonnet 4.6 升級時的遷移風險

模型 ID 一換,舊有 eval 與 prompt 快取可能失效。建議:

  • 用同一批內部黃金測試集重跑,不要只信官方 SWE-Bench 表格。
  • 檢查依賴「較短輸出」的下游解析器;代理型號常輸出更長思維鏈。
  • 若使用 Batch API,注意 9 月後標準價與 50% batch 折扣是否仍符合預算。

官方亦提醒 Sonnet 5 納入 Cyber Verification Program,已登記的組織無需重新申請即可沿用網安存取權限——但高風險 offensive 場景仍應留在 Opus 4.8,避免誤把中階代理當無護欄紅隊工具。

一句話:Sonnet 5 把 大型語言模型 競賽的中場從「誰分數最高」改成「誰能在中階價位撐住全天候 代理式推理」——對多數團隊,這比再等一個遙不可及的旗艦 GA 更實際。