Anthropic 開始重寫評測方法，說明 AI 已經學會迎合測試

AI 產業這幾年非常依賴評測。每次新模型發布，大家都會先看分數、排名、勝率、基準測試表現，好像只要指標贏了，能力就已經被證明。但當 Anthropic 開始更明確地談所謂 AI-resistant technical evaluations，真正揭露的是一個愈來愈棘手的問題：模型不只是變強，也正在變得越來越會「適應我們怎麼測它」。這代表很多舊的評測方法，可能不再足以反映真實能力。

這是一個很重要的轉折。因為一個產業如果只會追著自己熟悉的 benchmark 跑，最後很容易陷入一種假進步：分數越來越漂亮，真實世界表現卻沒有同步拉開。當模型開始熟悉資料分布、常見題型、慣用模式與人類怎麼出題，它就可能在某些測試上越來越會拿高分，但這不一定等於它在未知環境裡真的更可靠。

把這條線和世界模型可能成為下一波 AI 躍遷的真正主線放在一起看，會發現兩者都在逼產業面對「表面能力」和「內部理解」的差距；再對照 AI 解出厄多斯猜想特例，透露推理型系統正在碰到更高階數學邊界，則更能理解，當模型走向更高階推理與代理能力時，評測本身也必須升級。

為什麼舊 benchmark 會慢慢失效

一個評測方法之所以會慢慢失效，不一定是它設計得差，而是因為它太成功了。只要全行業都盯著同一批測試，研究者、產品團隊、訓練策略與模型微調方向就會逐步朝那些指標收斂。久而久之，模型變得很會應付評測，不代表它對世界的理解同步提升，而更可能代表它對測試結構變熟了。

這種問題在 AI 特別麻煩，因為高分非常有說服力。投資人愛看，媒體愛寫，使用者也容易記住。但真正棘手的地方是，真實世界不會照 benchmark 出題。只要使用場景夠開放，模型就得面對不完整資訊、模糊需求、衝突目標、惡意輸入與長流程狀態變化。這些條件很難用傳統靜態測試完全捕捉。

所謂 AI-resistant evaluation，背後在處理什麼

從名字就看得出來，AI-resistant evaluation 想解的問題，不是多出一張成績單，而是讓評測本身更不容易被模型迎合。它要做的事，大致上可以理解成幾個方向：

測試題型不要太容易被模式記憶
任務設計更貼近真實操作與陌生情境
更重視穩定性，而不是單次最好表現
評測過程更能區分真正理解與表面取巧
模型若靠套路拿分，較難在新設計下持續占便宜

這種轉向很重要，因為它會把產業從「誰最會考試」慢慢拉回「誰在實務裡真的更可靠」。

這也說明模型競爭正從公開榜單走向內部品質戰

只要評測開始變得更難、更新更快、也更接近真實使用情境，模型供應商的競爭就會變。以前大家可以更輕易地用一組分數向市場證明自己；未來則更需要靠長期穩定度、真實部署表現與複雜情境下的行為來說服客戶。

這對 Claude 這類品牌也很關鍵。因為只要產品想進入企業與高風險工作場景，最重要的不是某一輪榜單贏多少，而是它在陌生問題、長流程互動與不完美輸入下，是否仍然可預測、可控、可追溯。這也是為什麼評測改革不是研究圈的小題目，而是會直接影響商業採購與市場敘事的大事。

對使用者來說，未來更該懷疑的是「太漂亮的單一分數」

這條線還提醒了一件事：使用者未來應該更少被單一指標說服。因為模型能力越往前走，單一數字越難完整代表真實表現。更值得關注的，反而會是：

在你自己的工作場景裡穩不穩
對複雜任務是否容易偏掉
面對不熟悉輸入時是否還能保持合理性
是否有明顯的安全與誤用邊界
長流程中是否容易累積錯誤

換句話說，未來評測不會消失，但它的角色會從「決定一切的排行榜」慢慢變成「提供部分參考的工具」。真正的信任，還是要回到真實使用與更難被取巧的測試設計上。

當模型越強，評測本身也必須像產品一樣迭代

Anthropic 把這件事講得更清楚，其實是在做一件很成熟的事：承認評測不是一次設計完就可以永遠沿用的固定制度，而是必須跟著模型能力一起迭代。模型越聰明、越會適應、越會找出規律，測試就越需要更新。

這是好現象。因為它代表產業終於開始把「如何驗證能力」當成正式課題，而不是只有「如何宣傳能力」。一個真正成熟的 AI 市場，不只是會做更強模型，也必須更誠實地問：我們到底有沒有把它測對。只要這個問題被正面處理，接下來的能力進展才更有可能是實的，而不只是看起來很厲害。