GSM8K

GSM8K

數學推理評估基準

詳細解釋

Grade School Math 8K 的縮寫,OpenAI 於 2021 年發布的 8,500 道小學數學應用題數據集,測試 LLM 的多步推理能力。

題目特點:

  • 難度:美國小學 5-8 年級
  • 類型:應用題(「小明有 5 個蘋果,給了小红 2 個...」)
  • 解答:需要 2-8 步計算
  • 答案:整數,範圍 0-999

為何重要:

  • 多步推理:需連續正確計算,一步錯全錯
  • 世界知識:涉及時間、錢幣、度量等概念
  • 可驗證:有標準答案,自動評估

當前性能(2024):

  • o1/o3:95%+
  • GPT-4:92%
  • Claude 3.5:95%+
  • Llama 3 70B:85%
  • 專用數學模型(如 DeepSeek-Math):90%+

訓練污染問題:

  • 許多開源模型在 GSM8K 上訓練過,測試分數虛高
  • 真正考驗:類似但未见過的題目(GSM-Hard、MathQA)

與 MATH 對比:

  • GSM8k:小學水平,基本運算
  • MATH:競賽水平(AMC、AIME),需高級推理

這是「LLM 推理能力」的基礎測試—— 連小學數學都做不好,別提高等數學。

探索更多AI詞彙

查看所有分類,繼續學習AI知識