MT-Bench

MT-Bench

對話能力評測

詳細解釋

由 LMSYS Org 於 2023 年 6 月提出的 LLM 評測基準,專門測試模型的多輪對話能力和指令遵循能力。

與傳統的 MMLU(靜態知識問答)不同,MT-Bench 使用 GPT-4 作為評判員,對模型生成的回答進行 1-10 分評分。測試包含 80 個高質量多輪問題,涵蓋寫作、推理、數學、編碼、角色扮演等 8 大類別。

多輪對話測試是關鍵特點:第一輪問「設計一個 Python 函數」,第二輪追問「優化其時間複雜度」,考察模型在上下文中的連貫性和適應性。這更接近真實的 ChatGPT 使用體驗。

目前 MT-Bench 已被廣泛採用,Hugging Face Open LLM Leaderboard、Vicuna 等項目都將其作為核心指標。缺點是依賴 GPT-4 評判可能有偏見,且無法測試比 GPT-4 更強的模型(評判員必須比被評者聰明)。

探索更多AI詞彙

查看所有分類,繼續學習AI知識