🚀 2026 全民被動收入指南，賺錢就是 Easy Job

關於我們聯絡我們

易賺AiEasyJobAi

3中級訓練與優化

MMLU

MMLU

綜合知識評估基準

詳細解釋

Massive Multitask Language Understanding 的縮寫，由 UC Berkeley 於 2020 年提出，測試 LLM 在 57 個學科（數學、歷史、法律、醫學等）的零樣本知識問答能力。

測試設計：

57 個任務：STEM、人文、社會科學、其他（如專業法考、醫學執照）
形式：選擇題，4 個選項
難度：高中到大學專業水平
零樣本：模型未針對這些具體問題訓練

評分方式：

宏觀平均：每個學科權重相同（避免大學科主導）
準確率：選擇正確答案的比例

當前 leaderboard（2024）：

GPT-4：86-87%
Claude 3.5 Sonnet：88-89%
Gemini 1.5 Pro：85%
Llama 3 70B：82%
人類專家：約 90%

批評與局限：

僅測記憶：不回測推理或理解
選擇題偏差：簡化了真實知識應用
數據污染：測試題可能出現在訓練數據中
文化偏差：西方教育體系為中心

改進版本：

MMLU-Pro：更難，更多選項，減少猜測
MMLU-Redux：清理錯誤標籤
專業 MMLU：醫療、法律子集

意義：雖不完美，MMLU 仍是 LLM 能力的最廣泛引用基準之一，反映「知識廣度」。

探索更多AI詞彙

查看所有分類，繼續學習AI知識

基礎概念模型架構技術工具應用場景全部詞彙