GSM8K

更新于 2026年4月3日·3,270 次浏览

问题数量: 8500
发布机构: Google
评测类别: 数学推理
评测指标: Accuracy
支持语言: 英语
难度等级: Intermediate

简介

一个包含 8500 道小学数学题的基准，用于评估模型的数学推理能力。

GSM8K评测最新大模型排名与完整榜单数据

查看 GSM8K 的最新得分、模型模式、发布时间与参数规模，快速了解当前完整榜单表现。

数据来源：DataLearnerAI

数据优先来自官方发布（GitHub、Hugging Face、论文），其次为评测基准官方结果，最后为第三方评测机构数据。了解数据收集方法

模型模式说明

许可证:

来源:

模型发布时间截止:

排名	模型				开源情况
	ERNIE-4.5-300B-A47B 常规模式	96.60	2025-06-30	3000亿	免费商用
	Qwen3-235B-A22B 常规模式	96.40	2025-04-28	2350亿	免费商用
	DeepSeek-V3-0324 常规模式	96.30	2025-03-24	6710亿	免费商用
4	Pangu Embedded 常规模式	95.98	2025-06-30	70亿	免费商用
5	Qwen2.5-32B 常规模式	95.90	2024-09-18	320亿	免费商用
6	Gemma 3 - 27B (IT) 常规模式	95.90	2025-03-12	270亿	免费商用
7	GPT-4.1 常规模式	95.90	2025-04-14	未知	闭源
8	Claude3-Opus 常规模式	95.00	2024-03-04	未知	闭源
9	Qwen2.5-Max 常规模式	94.50	2025-01-28	未知	闭源
10	Hunyuan-A13B-Instruct 常规模式	91.83	2025-06-27	800亿	免费商用
11	Qwen2.5-72B 常规模式	91.50	2024-09-18	727亿	免费商用
12	GPT-4o mini 常规模式	91.30	2024-07-18	未知	闭源
13	Qwen3-Next 常规模式	90.30	2025-09-11	800亿	免费商用
14	Phi-4-mini-instruct (3.8B) 常规模式	88.60	2025-02-27	38亿	免费商用
15	Qwen2.5-7B 常规模式	85.40	2024-09-18	70亿	免费商用
16	Llama3.1-8B-Instruct 常规模式	82.40	2024-07-23	80亿	免费商用
17	Qwen2.5-3B 常规模式	79.10	2024-09-18	30亿	免费商用
18	Moonlight-16B-A3B-Instruct 常规模式	77.40	2025-02-23	160亿	免费商用
19	Gemma2-27B 常规模式	74.00	2024-05-14	270亿	免费商用
20	Gemma 2 - 9B 常规模式	70.70	2024-06-27	90亿	免费商用
21	Llama3.1-8B 常规模式	55.30	2024-07-23	80亿	免费商用
22	Mistral-7B-Instruct-v0.3 常规模式	36.20	2024-05-22	70亿	免费商用
23	Llama-3.2-3B 常规模式	34.00	2024-09-18	32亿	免费商用
24	Gemini 1.5 Pro 常规模式	0.00	2024-02-15	未知	闭源
25	Llama3.1-405B Instruct 常规模式	0.00	2024-07-23	4050亿	免费商用
26	Amazon Nova Pro 常规模式	0.00	2024-12-03	未知	闭源

GSM8K评测最新大模型排名与完整榜单数据

GSM8K 排名