返回趨勢情報
趨勢情報

Google 提醒 AI 基準測試的盲點:三到五位評審遠遠不夠

Google Study Says AI Benchmarks Need Far More Raters to Reflect Human Disagreement

2026年4月5日
易賺Ai團隊
4 分鐘閱讀
#AI新聞#趨勢#Google#研究#評估#基準測試
Google 提醒 AI 基準測試的盲點:三到五位評審遠遠不夠

Google 提醒 AI 基準測試的盲點:三到五位評審遠遠不夠

AI 模型評比看起來很客觀,實際上卻常常是建立在非常脆弱的人類共識上。Google Research 與 Rochester Institute of Technology 的最新研究直接把這件事攤開:如果你只找三到五位評審來標一個例子,多半不足以穩定反映人類之間本來就存在的分歧。對 Google 來說,這不是小修小補,而是整個 AI 評估方法的重新校正。

研究到底在說什麼

這項研究的核心不是單純「人多比較準」,而是要回答一個更實際的問題:有限的標註預算,應該花在更多題目,還是更少題目但更多評審上?研究團隊建立了名為 vet 的模擬器,用來重建真實評分分布,並在多個資料集上測試不同預算分配方式。

結果很明確。常見的 1 到 5 位評審配置,對很多任務來說都不足以讓模型比較具可重現性;若想穩定捕捉人類意見的實際分布,通常需要超過 10 位評審。更有意思的是,總標註數大約 1,000 筆時就可能達到不錯的穩定度,但前提是預算分配得對。

不是每種指標都該花同樣的錢

這篇研究最有用的地方,在於它沒有把問題簡化成「多找幾個人就好」。研究結果顯示,不同評估目標應該搭配不同的預算策略。如果你在做的是 majority vote 類型的準確率評估,那就應該多放樣本、少放評審;但如果你想量化人類意見的完整分布,那就得少一點樣本、多一點評審。

這種差異很重要,因為現實裡很多 benchmark 都把不同例子的分歧看成差不多,結果就是模型排名看起來很穩,實際上只是把人類的不一致壓扁成單一標籤。Google 的研究等於提醒業界:你量到的不是絕對真相,而是你願意花多少成本去近似它。

對模型開發的直接影響

這篇研究對做模型的人不是學術八卦,而是實際的評估工程提醒。若你的測試集很大,但每個題目只有少數幾個評審,最後可能得到的是表面上整齊、實際上不穩的結果。相反地,如果你的任務本來就要看分歧多大,那評審數就不能省。

這也會反過來影響 Token 和標註成本的分配。很多團隊現在都把精力放在模型訓練上,但評估本身同樣需要設計。當人類意見本來就不是單一答案時,基準測試如果還假裝一切都能被簡單投票解決,最後只會讓比較結果越來越脆。

這項研究的價值就在這裡:它沒有告訴你哪個模型更強,而是提醒你,判斷誰更強的方法本身就可能出錯。對一個愈來愈依賴排行榜和 benchmark 的產業來說,這個提醒相當致命。