MT-Bench是什麼？MT-Bench入門 | 易賺AI字典

詳細解釋

由 LMSYS Org 於 2023 年 6 月提出的 LLM 評測基準，專門測試模型的多輪對話能力和指令遵循能力。

與傳統的 MMLU（靜態知識問答）不同，MT-Bench 使用 GPT-4 作為評判員，對模型生成的回答進行 1-10 分評分。測試包含 80 個高質量多輪問題，涵蓋寫作、推理、數學、編碼、角色扮演等 8 大類別。

多輪對話測試是關鍵特點：第一輪問「設計一個 Python 函數」，第二輪追問「優化其時間複雜度」，考察模型在上下文中的連貫性和適應性。這更接近真實的 ChatGPT 使用體驗。

目前 MT-Bench 已被廣泛採用，Hugging Face Open LLM Leaderboard、Vicuna 等項目都將其作為核心指標。缺點是依賴 GPT-4 評判可能有偏見，且無法測試比 GPT-4 更強的模型（評判員必須比被評者聰明）。

MT-Bench