🚀 2026 全民被動收入指南，賺錢就是 Easy Job

關於我們聯絡我們

易賺AiEasyJobAi

3中級訓練與優化

GSM8K

GSM8K

數學推理評估基準

詳細解釋

Grade School Math 8K 的縮寫，OpenAI 於 2021 年發布的 8,500 道小學數學應用題數據集，測試 LLM 的多步推理能力。

題目特點：

難度：美國小學 5-8 年級
類型：應用題（「小明有 5 個蘋果，給了小红 2 個...」）
解答：需要 2-8 步計算
答案：整數，範圍 0-999

為何重要：

多步推理：需連續正確計算，一步錯全錯
世界知識：涉及時間、錢幣、度量等概念
可驗證：有標準答案，自動評估

當前性能（2024）：

o1/o3：95%+
GPT-4：92%
Claude 3.5：95%+
Llama 3 70B：85%
專用數學模型（如 DeepSeek-Math）：90%+

訓練污染問題：

許多開源模型在 GSM8K 上訓練過，測試分數虛高
真正考驗：類似但未见過的題目（GSM-Hard、MathQA）

與 MATH 對比：

GSM8k：小學水平，基本運算
MATH：競賽水平（AMC、AIME），需高級推理

這是「LLM 推理能力」的基礎測試—— 連小學數學都做不好，別提高等數學。

探索更多AI詞彙

查看所有分類，繼續學習AI知識

基礎概念模型架構技術工具應用場景全部詞彙