Google 提醒 AI 基準測試的盲點：三到五位評審遠遠不夠

AI 模型評比看起來很客觀，實際上卻常常是建立在非常脆弱的人類共識上。Google Research 與 Rochester Institute of Technology 的最新研究直接把這件事攤開：如果你只找三到五位評審來標一個例子，多半不足以穩定反映人類之間本來就存在的分歧。對 Google 來說，這不是小修小補，而是整個 AI 評估方法的重新校正。

研究到底在說什麼

這項研究的核心不是單純「人多比較準」，而是要回答一個更實際的問題：有限的標註預算，應該花在更多題目，還是更少題目但更多評審上？研究團隊建立了名為 vet 的模擬器，用來重建真實評分分布，並在多個資料集上測試不同預算分配方式。

結果很明確。常見的 1 到 5 位評審配置，對很多任務來說都不足以讓模型比較具可重現性；若想穩定捕捉人類意見的實際分布，通常需要超過 10 位評審。更有意思的是，總標註數大約 1,000 筆時就可能達到不錯的穩定度，但前提是預算分配得對。

不是每種指標都該花同樣的錢

這篇研究最有用的地方，在於它沒有把問題簡化成「多找幾個人就好」。研究結果顯示，不同評估目標應該搭配不同的預算策略。如果你在做的是 majority vote 類型的準確率評估，那就應該多放樣本、少放評審；但如果你想量化人類意見的完整分布，那就得少一點樣本、多一點評審。

這種差異很重要，因為現實裡很多 benchmark 都把不同例子的分歧看成差不多，結果就是模型排名看起來很穩，實際上只是把人類的不一致壓扁成單一標籤。Google 的研究等於提醒業界：你量到的不是絕對真相，而是你願意花多少成本去近似它。

對模型開發的直接影響

這篇研究對做模型的人不是學術八卦，而是實際的評估工程提醒。若你的測試集很大，但每個題目只有少數幾個評審，最後可能得到的是表面上整齊、實際上不穩的結果。相反地，如果你的任務本來就要看分歧多大，那評審數就不能省。

這也會反過來影響 Token 和標註成本的分配。很多團隊現在都把精力放在模型訓練上，但評估本身同樣需要設計。當人類意見本來就不是單一答案時，基準測試如果還假裝一切都能被簡單投票解決，最後只會讓比較結果越來越脆。

這項研究的價值就在這裡：它沒有告訴你哪個模型更強，而是提醒你，判斷誰更強的方法本身就可能出錯。對一個愈來愈依賴排行榜和 benchmark 的產業來說，這個提醒相當致命。