Elo等級分

Elo Rating

模型對戰強弱排名

詳細解釋

源自國際象棋排名的評分系統,現廣泛用於 AI 模型評估(如 Chatbot Arena)、遊戲配對和體育競賽。

核心機制:

  • 初始分數:通常 1200
  • 對戰更新:贏方得分,輸方失分,和局雙方微調
  • 分差影響:高分贏低分得分少,低分贏高分得分多
  • 動態調整:反映當前實力,隨時間變化

在 AI 評估中的應用(LMSYS Chatbot Arena):

  • 兩個匿名模型回答同一問題
  • 用戶選擇更好的回答
  • Elo 分數隨對比結果動態更新
  • 最終排名反映相對能力

優勢:

  • 相對評估:無需絕對標準,適合開放式生成任務
  • 動態更新:新模型加入無需重測所有舊模型
  • 置信度:分差越大,實力差距越確定

局限:

  • 僅相對排名:不知絕對能力(Elo 2000 vs 1800 差距多大?)
  • 對手質量:分數依賴對手強度
  • 初始波動:新模型前幾場比賽分數不穩定

計算公式:

R' = R + K × (S - E)

R':新分數,R:舊分數,K:靈活度係數,S:實際結果(1 贏 0.5 和 0 輸),E:預期勝率(基於分差)

這是「人類偏好評估」的標準方法—— 當沒有客觀正確答案時,讓人類比較選擇。

探索更多AI詞彙

查看所有分類,繼續學習AI知識