詳細解釋
Grade School Math 8K 的縮寫,OpenAI 於 2021 年發布的 8,500 道小學數學應用題數據集,測試 LLM 的多步推理能力。
題目特點:
- 難度:美國小學 5-8 年級
- 類型:應用題(「小明有 5 個蘋果,給了小红 2 個...」)
- 解答:需要 2-8 步計算
- 答案:整數,範圍 0-999
為何重要:
- 多步推理:需連續正確計算,一步錯全錯
- 世界知識:涉及時間、錢幣、度量等概念
- 可驗證:有標準答案,自動評估
當前性能(2024):
- o1/o3:95%+
- GPT-4:92%
- Claude 3.5:95%+
- Llama 3 70B:85%
- 專用數學模型(如 DeepSeek-Math):90%+
訓練污染問題:
- 許多開源模型在 GSM8K 上訓練過,測試分數虛高
- 真正考驗:類似但未见過的題目(GSM-Hard、MathQA)
與 MATH 對比:
- GSM8k:小學水平,基本運算
- MATH:競賽水平(AMC、AIME),需高級推理
這是「LLM 推理能力」的基礎測試—— 連小學數學都做不好,別提高等數學。