DataLearner 标志DataLearnerAI
最新AI资讯
大模型排行榜
大模型评测基准
大模型列表
大模型对比
资源中心
工具
语言中文
DataLearner 标志DataLearner AI

专注大模型评测、数据资源与实践教学的知识平台,持续更新可落地的 AI 能力图谱。

产品

  • 评测榜单
  • 模型对比
  • 数据资源

资源

  • 部署教程
  • 原创内容
  • 工具导航

关于

  • 关于我们
  • 隐私政策
  • 数据收集方法
  • 联系我们

© 2026 DataLearner AI. DataLearner 持续整合行业数据与案例,为科研、企业与开发者提供可靠的大模型情报与实践指南。

隐私政策服务条款
返回总榜单

大模型数学推理能力评测排行榜

本页面提供最新、最全面的大模型数学推理能力评测排行榜。我们通过 AIME 2025、FrontierMath-Tier4、MATH-500、GSM8K 等权威数学基准数据集,对包括 OpenAI 的 GPT、Anthropic 的 Claude、阿里巴巴的 Qwen、DeepSeek 等模型进行评测。

数据更新于 2026-04-28 13:44:17

截至 2026年4月,本页覆盖 AIME2025, FrontierMath - Tier 4, MATH-500, GSM8K 等评测基准,聚焦 大模型数学推理能力评测排行榜 方向的模型对比。

点击模型名称可进入详情页查看上下文长度、许可方式与 API 价格。数据口径说明见 数据方法论。

基准评测
AIME2025FrontierMath - Tier 4MATH-500GSM8K
更多评测
参数规模:全部3B及以下7B13B34B65B100B及以上
模型类型:全部推理大模型基座大模型指令优化/聊天优化大模型编程大模型
开源:全部开源闭源
来源:全部国产模型
模型发布时间截止:

榜单亮点

按 AIME2025 排序
当前 SOTA
Moonshot AI

Kimi K2 Thinking

Moonshot AI

100.00AIME2025
查看详情
最佳开源
StepFunAI

Step 3.5 Flash

StepFunAI

99.80AIME2025−0.20
查看详情
最佳国产
智谱AI

GLM-4.6

智谱AI

98.60AIME2025−1.40
查看详情

大模型性能评测结果

数据来源:DataLearnerAI

点击任意行查看模型详情;勾选左侧 可对比最多 4 个模型。

排名模型
开源情况
Moonshot AI
Kimi K2 Thinking
并行 · 开启思考工具
Moonshot AI
100.00———免费商用详情详情
StepFunAI
Step 3.5 Flash
开启思考工具
StepFunAI
99.80———免费商用详情详情
Moonshot AI
Kimi K2 Thinking
开启思考工具
Moonshot AI
99.10———免费商用详情详情
4
智谱AI
GLM-4.6
开启思考
智谱AI
98.60———免费商用详情详情
5
智谱AI
GLM-4.6
开启思考工具
智谱AI
98.60———免费商用详情详情
6
StepFunAI
Step 3.5 Flash
开启思考
StepFunAI
97.30———免费商用详情详情
7
Moonshot AI
Kimi K2.5
开启思考
Moonshot AI
96.10———免费商用详情详情
8
DeepSeek-AI
DeepSeek V3.2 Speciale
开启思考
DeepSeek-AI
96.00———免费商用详情详情
9
智谱AI
GLM-4.7
开启思考
智谱AI
95.70———免费商用详情详情
10
Moonshot AI
Kimi K2 Thinking
开启思考
Moonshot AI
94.50———免费商用详情详情
11
DeepSeek-AI
DeepSeek V3.2
开启思考
DeepSeek-AI
93.102.10——免费商用详情详情
12
阿里巴巴
Qwen3-235B-A22B-Thinking
开启思考
阿里巴巴
92.30———免费商用详情详情
13
阿里巴巴
Qwen3-235B-A22B-Thinking-2507
开启思考
阿里巴巴
92.30———免费商用详情详情
14
智谱AI
GLM-4.7-Flash
开启思考
智谱AI
91.60———免费商用详情详情
15
DeepSeek-AI
DeepSeek-V3.1 Terminus
开启思考
DeepSeek-AI
90.00———免费商用详情详情
16
DeepSeek-AI
DeepSeek V3.2-Exp
开启思考
DeepSeek-AI
89.30———免费商用详情详情
17
DeepSeek-AI
DeepSeek-V3.1
开启思考
DeepSeek-AI
88.40———免费商用详情详情
18
DeepSeek-AI
DeepSeek-R1-0528
开启思考
DeepSeek-AI
87.50—98.00—免费商用详情详情
19
MiniMaxAI
MiniMax M2.5
开启思考
MiniMaxAI
86.30———免费商用详情详情
20
上海人工智能实验室
Intern-S1
上海人工智能实验室
86.00———免费商用详情详情
21
StepFunAI
Step3
StepFunAI
82.90———免费商用详情详情
22
阿里巴巴
Qwen3-235B-A22B
开启思考
阿里巴巴
81.50—98.00—免费商用详情详情
23
阿里巴巴
Qwen3-4B-Thinking-2507
开启思考
阿里巴巴
81.30———免费商用详情详情
24
MiniMaxAI
M2.1
开启思考
MiniMaxAI
81.00———免费商用详情详情
25
阿里巴巴
Qwen3 Max (Preview)
阿里巴巴
80.60———闭源详情详情
26
MiniMaxAI
MiniMax M2
开启思考
MiniMaxAI
78.00———免费商用详情详情
27
MiniMaxAI
MiniMax-M1-80k
MiniMaxAI
76.90—96.80—免费商用详情详情
28
腾讯AI实验室
Hunyuan-A13B-Instruct
腾讯AI实验室
76.80——91.83免费商用详情详情
29
Tencent ARC
Hunyuan-7B
Tencent ARC
75.30—93.70—免费商用详情详情
30
Moonshot AI
Kimi K2 0905
开启思考工具
Moonshot AI
75.20———免费商用详情详情
31
MiniMaxAI
MiniMax-M1-40k
MiniMaxAI
74.60—96.00—免费商用详情详情
32
阿里巴巴
Qwen3-32B
开启思考
阿里巴巴
72.90—97.20—免费商用详情详情
33
阿里巴巴
Qwen3-235B-A22B-2507
阿里巴巴
70.30———免费商用详情详情
34
DeepSeek-AI
DeepSeek-R1
DeepSeek-AI
70.00—97.30—免费商用详情详情
35
阿里巴巴
Qwen3-Next
阿里巴巴
69.50——90.30免费商用详情详情
36
华为
Pangu Pro MoE
华为
68.10—96.80—免费商用详情详情
37
阿里巴巴
Qwen3-8B
开启思考
阿里巴巴
67.30—97.40—免费商用详情详情
38
阿里巴巴
Qwen3-30B-A3B-2507
阿里巴巴
61.30———免费商用详情详情
39
DeepSeek-AI
DeepSeek V3.2-Exp
DeepSeek-AI
58.00———免费商用详情详情
40
DeepSeek-AI
DeepSeek-V3.1 Terminus
DeepSeek-AI
54.00———免费商用详情详情
41
Moonshot AI
Kimi K2
Moonshot AI
54.000.0197.40—免费商用详情详情
42
DeepSeek-AI
DeepSeek-V3.1
DeepSeek-AI
49.80———免费商用详情详情
43
DeepSeek-AI
DeepSeek-V3-0324
DeepSeek-AI
47.70—94.0096.30免费商用详情详情
44
阿里巴巴
Qwen3-4B-2507
阿里巴巴
47.40———免费商用详情详情
45
智谱AI
GLM-4.6
智谱AI
44.00———免费商用详情详情
46
百度
ERNIE-4.5-300B-A47B
百度
35.10—96.4096.60免费商用详情详情
47
百度
ERNIE-4.5-VL-424B-A47B-Base
开启思考
百度
35.10———免费商用详情详情
48
阿里巴巴
Qwen3-235B-A22B
阿里巴巴
24.70—96.2096.40免费商用详情详情
49
阿里巴巴
Qwen3-30B-A3B
阿里巴巴
21.60———免费商用详情详情
50
阿里巴巴
Qwen3-8B
阿里巴巴
20.90—87.40—免费商用详情详情
Kimi K2 ThinkingMoonshot AI
并行 · 开启思考工具
AIME2025100.00
FrontierMath - Tier 4—
MATH-500—
GSM8K—
免费商用
Step 3.5 FlashStepFunAI
开启思考工具
AIME202599.80
FrontierMath - Tier 4—
MATH-500—
GSM8K—
免费商用
Kimi K2 ThinkingMoonshot AI
开启思考工具
AIME202599.10
FrontierMath - Tier 4—
MATH-500—
GSM8K—
免费商用
4
GLM-4.6智谱AI
开启思考
AIME202598.60
FrontierMath - Tier 4—
MATH-500—
GSM8K—
免费商用
5
GLM-4.6智谱AI
开启思考工具
AIME202598.60
FrontierMath - Tier 4—
MATH-500—
GSM8K—
免费商用
6
Step 3.5 FlashStepFunAI
开启思考
AIME202597.30
FrontierMath - Tier 4—
MATH-500—
GSM8K—
免费商用
7
Kimi K2.5Moonshot AI
开启思考
AIME202596.10
FrontierMath - Tier 4—
MATH-500—
GSM8K—
免费商用
8
DeepSeek V3.2 SpecialeDeepSeek-AI
开启思考
AIME202596.00
FrontierMath - Tier 4—
MATH-500—
GSM8K—
免费商用
9
GLM-4.7智谱AI
开启思考
AIME202595.70
FrontierMath - Tier 4—
MATH-500—
GSM8K—
免费商用
10
Kimi K2 ThinkingMoonshot AI
开启思考
AIME202594.50
FrontierMath - Tier 4—
MATH-500—
GSM8K—
免费商用
11
DeepSeek V3.2DeepSeek-AI
开启思考
AIME202593.10
FrontierMath - Tier 42.10
MATH-500—
GSM8K—
免费商用
12
Qwen3-235B-A22B-Thinking阿里巴巴
开启思考
AIME202592.30
FrontierMath - Tier 4—
MATH-500—
GSM8K—
免费商用
13
Qwen3-235B-A22B-Thinking-2507阿里巴巴
开启思考
AIME202592.30
FrontierMath - Tier 4—
MATH-500—
GSM8K—
免费商用
14
GLM-4.7-Flash智谱AI
开启思考
AIME202591.60
FrontierMath - Tier 4—
MATH-500—
GSM8K—
免费商用
15
DeepSeek-V3.1 TerminusDeepSeek-AI
开启思考
AIME202590.00
FrontierMath - Tier 4—
MATH-500—
GSM8K—
免费商用
16
DeepSeek V3.2-ExpDeepSeek-AI
开启思考
AIME202589.30
FrontierMath - Tier 4—
MATH-500—
GSM8K—
免费商用
17
DeepSeek-V3.1DeepSeek-AI
开启思考
AIME202588.40
FrontierMath - Tier 4—
MATH-500—
GSM8K—
免费商用
18
DeepSeek-R1-0528DeepSeek-AI
开启思考
AIME202587.50
FrontierMath - Tier 4—
MATH-50098.00
GSM8K—
免费商用
19
MiniMax M2.5MiniMaxAI
开启思考
AIME202586.30
FrontierMath - Tier 4—
MATH-500—
GSM8K—
免费商用
20
Intern-S1上海人工智能实验室
AIME202586.00
FrontierMath - Tier 4—
MATH-500—
GSM8K—
免费商用
21
Step3StepFunAI
AIME202582.90
FrontierMath - Tier 4—
MATH-500—
GSM8K—
免费商用
22
Qwen3-235B-A22B阿里巴巴
开启思考
AIME202581.50
FrontierMath - Tier 4—
MATH-50098.00
GSM8K—
免费商用
23
Qwen3-4B-Thinking-2507阿里巴巴
开启思考
AIME202581.30
FrontierMath - Tier 4—
MATH-500—
GSM8K—
免费商用
24
M2.1MiniMaxAI
开启思考
AIME202581.00
FrontierMath - Tier 4—
MATH-500—
GSM8K—
免费商用
25
Qwen3 Max (Preview)阿里巴巴
AIME202580.60
FrontierMath - Tier 4—
MATH-500—
GSM8K—
闭源
26
MiniMax M2MiniMaxAI
开启思考
AIME202578.00
FrontierMath - Tier 4—
MATH-500—
GSM8K—
免费商用
27
MiniMax-M1-80kMiniMaxAI
AIME202576.90
FrontierMath - Tier 4—
MATH-50096.80
GSM8K—
免费商用
28
Hunyuan-A13B-Instruct腾讯AI实验室
AIME202576.80
FrontierMath - Tier 4—
MATH-500—
GSM8K91.83
免费商用
29
Hunyuan-7BTencent ARC
AIME202575.30
FrontierMath - Tier 4—
MATH-50093.70
GSM8K—
免费商用
30
Kimi K2 0905Moonshot AI
开启思考工具
AIME202575.20
FrontierMath - Tier 4—
MATH-500—
GSM8K—
免费商用
31
MiniMax-M1-40kMiniMaxAI
AIME202574.60
FrontierMath - Tier 4—
MATH-50096.00
GSM8K—
免费商用
32
Qwen3-32B阿里巴巴
开启思考
AIME202572.90
FrontierMath - Tier 4—
MATH-50097.20
GSM8K—
免费商用
33
Qwen3-235B-A22B-2507阿里巴巴
AIME202570.30
FrontierMath - Tier 4—
MATH-500—
GSM8K—
免费商用
34
DeepSeek-R1DeepSeek-AI
AIME202570.00
FrontierMath - Tier 4—
MATH-50097.30
GSM8K—
免费商用
35
Qwen3-Next阿里巴巴
AIME202569.50
FrontierMath - Tier 4—
MATH-500—
GSM8K90.30
免费商用
36
Pangu Pro MoE华为
AIME202568.10
FrontierMath - Tier 4—
MATH-50096.80
GSM8K—
免费商用
37
Qwen3-8B阿里巴巴
开启思考
AIME202567.30
FrontierMath - Tier 4—
MATH-50097.40
GSM8K—
免费商用
38
Qwen3-30B-A3B-2507阿里巴巴
AIME202561.30
FrontierMath - Tier 4—
MATH-500—
GSM8K—
免费商用
39
DeepSeek V3.2-ExpDeepSeek-AI
AIME202558.00
FrontierMath - Tier 4—
MATH-500—
GSM8K—
免费商用
40
DeepSeek-V3.1 TerminusDeepSeek-AI
AIME202554.00
FrontierMath - Tier 4—
MATH-500—
GSM8K—
免费商用
41
Kimi K2Moonshot AI
AIME202554.00
FrontierMath - Tier 40.01
MATH-50097.40
GSM8K—
免费商用
42
DeepSeek-V3.1DeepSeek-AI
AIME202549.80
FrontierMath - Tier 4—
MATH-500—
GSM8K—
免费商用
43
DeepSeek-V3-0324DeepSeek-AI
AIME202547.70
FrontierMath - Tier 4—
MATH-50094.00
GSM8K96.30
免费商用
44
Qwen3-4B-2507阿里巴巴
AIME202547.40
FrontierMath - Tier 4—
MATH-500—
GSM8K—
免费商用
45
GLM-4.6智谱AI
AIME202544.00
FrontierMath - Tier 4—
MATH-500—
GSM8K—
免费商用
46
ERNIE-4.5-300B-A47B百度
AIME202535.10
FrontierMath - Tier 4—
MATH-50096.40
GSM8K96.60
免费商用
47
ERNIE-4.5-VL-424B-A47B-Base百度
开启思考
AIME202535.10
FrontierMath - Tier 4—
MATH-500—
GSM8K—
免费商用
48
Qwen3-235B-A22B阿里巴巴
AIME202524.70
FrontierMath - Tier 4—
MATH-50096.20
GSM8K96.40
免费商用
49
Qwen3-30B-A3B阿里巴巴
AIME202521.60
FrontierMath - Tier 4—
MATH-500—
GSM8K—
免费商用
50
Qwen3-8B阿里巴巴
AIME202520.90
FrontierMath - Tier 4—
MATH-50087.40
GSM8K—
免费商用
排序:
已显示 50 / 73 个模型查看 AIME2025 基准测试完整页面