🚀 2026 全民被動收入指南，賺錢就是 Easy Job

關於我們聯絡我們

易賺AiEasyJobAi

2初級訓練與優化

Elo等級分

Elo Rating

模型對戰強弱排名

詳細解釋

源自國際象棋排名的評分系統，現廣泛用於 AI 模型評估（如 Chatbot Arena）、遊戲配對和體育競賽。

核心機制：

初始分數：通常 1200
對戰更新：贏方得分，輸方失分，和局雙方微調
分差影響：高分贏低分得分少，低分贏高分得分多
動態調整：反映當前實力，隨時間變化

在 AI 評估中的應用（LMSYS Chatbot Arena）：

兩個匿名模型回答同一問題
用戶選擇更好的回答
Elo 分數隨對比結果動態更新
最終排名反映相對能力

優勢：

相對評估：無需絕對標準，適合開放式生成任務
動態更新：新模型加入無需重測所有舊模型
置信度：分差越大，實力差距越確定

局限：

僅相對排名：不知絕對能力（Elo 2000 vs 1800 差距多大？）
對手質量：分數依賴對手強度
初始波動：新模型前幾場比賽分數不穩定

計算公式：

R' = R + K × (S - E)

R'：新分數，R：舊分數，K：靈活度係數，S：實際結果（1 贏 0.5 和 0 輸），E：預期勝率（基於分差）

這是「人類偏好評估」的標準方法—— 當沒有客觀正確答案時，讓人類比較選擇。

探索更多AI詞彙

查看所有分類，繼續學習AI知識

基礎概念模型架構技術工具應用場景全部詞彙