詳細解釋
Massive Multitask Language Understanding 的縮寫,由 UC Berkeley 於 2020 年提出,測試 LLM 在 57 個學科(數學、歷史、法律、醫學等)的零樣本知識問答能力。
測試設計:
- 57 個任務:STEM、人文、社會科學、其他(如專業法考、醫學執照)
- 形式:選擇題,4 個選項
- 難度:高中到大學專業水平
- 零樣本:模型未針對這些具體問題訓練
評分方式:
- 宏觀平均:每個學科權重相同(避免大學科主導)
- 準確率:選擇正確答案的比例
當前 leaderboard(2024):
- GPT-4:86-87%
- Claude 3.5 Sonnet:88-89%
- Gemini 1.5 Pro:85%
- Llama 3 70B:82%
- 人類專家:約 90%
批評與局限:
- 僅測記憶:不回測推理或理解
- 選擇題偏差:簡化了真實知識應用
- 數據污染:測試題可能出現在訓練數據中
- 文化偏差:西方教育體系為中心
改進版本:
- MMLU-Pro:更難,更多選項,減少猜測
- MMLU-Redux:清理錯誤標籤
- 專業 MMLU:醫療、法律子集
意義:雖不完美,MMLU 仍是 LLM 能力的最廣泛引用基準之一,反映「知識廣度」。