MMLU

MMLU

綜合知識評估基準

詳細解釋

Massive Multitask Language Understanding 的縮寫,由 UC Berkeley 於 2020 年提出,測試 LLM 在 57 個學科(數學、歷史、法律、醫學等)的零樣本知識問答能力。

測試設計:

  • 57 個任務:STEM、人文、社會科學、其他(如專業法考、醫學執照)
  • 形式:選擇題,4 個選項
  • 難度:高中到大學專業水平
  • 零樣本:模型未針對這些具體問題訓練

評分方式:

  • 宏觀平均:每個學科權重相同(避免大學科主導)
  • 準確率:選擇正確答案的比例

當前 leaderboard(2024):

  • GPT-4:86-87%
  • Claude 3.5 Sonnet:88-89%
  • Gemini 1.5 Pro:85%
  • Llama 3 70B:82%
  • 人類專家:約 90%

批評與局限:

  • 僅測記憶:不回測推理或理解
  • 選擇題偏差:簡化了真實知識應用
  • 數據污染:測試題可能出現在訓練數據中
  • 文化偏差:西方教育體系為中心

改進版本:

  • MMLU-Pro:更難,更多選項,減少猜測
  • MMLU-Redux:清理錯誤標籤
  • 專業 MMLU:醫療、法律子集

意義:雖不完美,MMLU 仍是 LLM 能力的最廣泛引用基準之一,反映「知識廣度」。

探索更多AI詞彙

查看所有分類,繼續學習AI知識