詳細解釋
源自國際象棋排名的評分系統,現廣泛用於 AI 模型評估(如 Chatbot Arena)、遊戲配對和體育競賽。
核心機制:
- 初始分數:通常 1200
- 對戰更新:贏方得分,輸方失分,和局雙方微調
- 分差影響:高分贏低分得分少,低分贏高分得分多
- 動態調整:反映當前實力,隨時間變化
在 AI 評估中的應用(LMSYS Chatbot Arena):
- 兩個匿名模型回答同一問題
- 用戶選擇更好的回答
- Elo 分數隨對比結果動態更新
- 最終排名反映相對能力
優勢:
- 相對評估:無需絕對標準,適合開放式生成任務
- 動態更新:新模型加入無需重測所有舊模型
- 置信度:分差越大,實力差距越確定
局限:
- 僅相對排名:不知絕對能力(Elo 2000 vs 1800 差距多大?)
- 對手質量:分數依賴對手強度
- 初始波動:新模型前幾場比賽分數不穩定
計算公式:
R' = R + K × (S - E)
R':新分數,R:舊分數,K:靈活度係數,S:實際結果(1 贏 0.5 和 0 輸),E:預期勝率(基於分差)
這是「人類偏好評估」的標準方法—— 當沒有客觀正確答案時,讓人類比較選擇。