GSM8K评测最新大模型排名与完整榜单数据
查看 GSM8K 的最新得分、模型模式、发布时间与参数规模,快速了解当前完整榜单表现。
数据来源:DataLearnerAI
数据优先来自官方发布(GitHub、Hugging Face、论文),其次为评测基准官方结果,最后为第三方评测机构数据。 了解数据收集方法
模型模式说明
GSM8K 排名
| 排名 | 模型 | 开源情况 | |||
|---|---|---|---|---|---|
96.60 | 2025-06-30 | 3000亿 | 免费商用 | ||
![]() Qwen3-235B-A22B 常规模式 | 96.40 | 2025-04-28 | 2350亿 | 免费商用 | |
![]() DeepSeek-V3-0324 常规模式 | 96.30 | 2025-03-24 | 6710亿 | 免费商用 | |
4 | ![]() Pangu Embedded 常规模式 | 95.98 | 2025-06-30 | 70亿 | 免费商用 |
5 | ![]() Qwen2.5-32B 常规模式 | 95.90 | 2024-09-18 | 320亿 | 免费商用 |
6 | 95.90 | 2025-03-12 | 270亿 | 免费商用 | |
7 | ![]() GPT-4.1 常规模式 | 95.90 | 2025-04-14 | 未知 | 闭源 |
8 | ![]() Claude3-Opus 常规模式 | 95.00 | 2024-03-04 | 未知 | 闭源 |
9 | ![]() Qwen2.5-Max 常规模式 | 94.50 | 2025-01-28 | 未知 | 闭源 |
10 | 91.83 | 2025-06-27 | 800亿 | 免费商用 | |
11 | ![]() Qwen2.5-72B 常规模式 | 91.50 | 2024-09-18 | 727亿 | 免费商用 |
12 | ![]() GPT-4o mini 常规模式 | 91.30 | 2024-07-18 | 未知 | 闭源 |
13 | ![]() Qwen3-Next 常规模式 | 90.30 | 2025-09-11 | 800亿 | 免费商用 |
14 | 88.60 | 2025-02-27 | 38亿 | 免费商用 | |
15 | ![]() Qwen2.5-7B 常规模式 | 85.40 | 2024-09-18 | 70亿 | 免费商用 |
16 | 82.40 | 2024-07-23 | 80亿 | 免费商用 | |
17 | ![]() Qwen2.5-3B 常规模式 | 79.10 | 2024-09-18 | 30亿 | 免费商用 |
18 | 77.40 | 2025-02-23 | 160亿 | 免费商用 | |
19 | ![]() Gemma2-27B 常规模式 | 74.00 | 2024-05-14 | 270亿 | 免费商用 |
20 | ![]() Gemma 2 - 9B 常规模式 | 70.70 | 2024-06-27 | 90亿 | 免费商用 |
21 | ![]() Llama3.1-8B 常规模式 | 55.30 | 2024-07-23 | 80亿 | 免费商用 |
22 | 36.20 | 2024-05-22 | 70亿 | 免费商用 | |
23 | ![]() Llama-3.2-3B 常规模式 | 34.00 | 2024-09-18 | 32亿 | 免费商用 |
24 | ![]() Gemini 1.5 Pro 常规模式 | 0.00 | 2024-02-15 | 未知 | 闭源 |
25 | 0.00 | 2024-07-23 | 4050亿 | 免费商用 | |
26 | ![]() Amazon Nova Pro 常规模式 | 0.00 | 2024-12-03 | 未知 | 闭源 |













