DataLearner 标志DataLearnerAI
最新AI资讯
大模型排行榜
大模型评测基准
大模型列表
大模型对比
资源中心
工具
语言中文
DataLearner 标志DataLearner AI

专注大模型评测、数据资源与实践教学的知识平台,持续更新可落地的 AI 能力图谱。

产品

  • 评测榜单
  • 模型对比
  • 数据资源

资源

  • 部署教程
  • 原创内容
  • 工具导航

关于

  • 关于我们
  • 隐私政策
  • 数据收集方法
  • 联系我们

© 2026 DataLearner AI. DataLearner 持续整合行业数据与案例,为科研、企业与开发者提供可靠的大模型情报与实践指南。

隐私政策服务条款
返回总榜单

大模型数学推理能力评测排行榜

本页面提供最新、最全面的大模型数学推理能力评测排行榜。我们通过 AIME 2025、FrontierMath-Tier4、MATH-500、GSM8K 等权威数学基准数据集,对包括 OpenAI 的 GPT、Anthropic 的 Claude、阿里巴巴的 Qwen、DeepSeek 等模型进行评测。

数据更新于 2026-04-28 13:44:17

截至 2026年4月,本页覆盖 AIME2025, FrontierMath - Tier 4, MATH-500, GSM8K 等评测基准,聚焦 大模型数学推理能力评测排行榜 方向的模型对比。

点击模型名称可进入详情页查看上下文长度、许可方式与 API 价格。数据口径说明见 数据方法论。

基准评测
AIME2025FrontierMath - Tier 4MATH-500GSM8K
更多评测
参数规模:全部3B及以下7B13B34B

大模型性能评测结果

数据来源:DataLearnerAI
排名模型开源情况
Moonshot AI
Kimi K2 Thinking
100.00———免费商用
StepFunAI
Step 3.5 Flash
99.80———免费商用
OpenAI
OpenAI o4 - mini
99.506.30——不开源
4
智谱AI
GLM-4.6
98.602.10——免费商用
5
Moonshot AI
Kimi K2.5
96.104.20——免费商用
6
智谱AI
GLM-4.7
95.702.10——免费商用
7
DeepSeek-AI
DeepSeek V3.2
93.102.10——免费商用
8
OpenAI
o3-pro
93.00———不开源
9
阿里巴巴
Qwen3-235B-A22B-Thinking-2507
92.30———免费商用
10
DeepSeek-AI
DeepSeek-V3.1 Terminus
90.00———免费商用
11
DeepSeek-AI
DeepSeek V3.2-Exp
89.30———免费商用
12
DeepSeek-AI
DeepSeek-V3.1
88.40———免费商用
13
DeepSeek-AI
DeepSeek-R1-0528
87.50—98.00—免费商用
14
MiniMaxAI
MiniMax M2.5
86.30———免费商用
15
上海人工智能实验室
Intern-S1
86.00———免费商用
16
Google Deep Mind
Gemini-2.5-Pro-Preview-05-06
83.002.1098.80—不开源
17
StepFunAI
Step3
82.90———免费商用
18
阿里巴巴
Qwen3-235B-A22B
81.50—98.0096.40免费商用
19
MiniMaxAI
M2.1
81.00———免费商用
20
MiniMaxAI
MiniMax M2
78.00———免费商用
21
xAI
Grok 3
77.10———不开源
22
MiniMaxAI
MiniMax-M1-80k
76.90—96.80—免费商用
23
Anthropic
Claude Opus 4
75.504.2098.20—不开源
24
Moonshot AI
Kimi K2 0905
75.20———免费商用
25
MiniMaxAI
MiniMax-M1-40k
74.60—96.00—免费商用
26
Google Deep Mind
Gemini 2.5 Flash
72.004.20——不开源
27
阿里巴巴
Qwen3-235B-A22B-2507
70.30———免费商用
28
DeepSeek-AI
DeepSeek-R1
70.00—97.30—免费商用
29
MistralAI
Magistral-Medium-2506
64.95———不开源
30
Google Deep Mind
Gemini 2.5 Flash-Lite
63.10———不开源
Kimi K2 Thinking
AIME2025100.00
FrontierMath - Tier 4—
MATH-500—
GSM8K—
免费商用
Step 3.5 Flash
AIME202599.80
FrontierMath - Tier 4—
MATH-500—
GSM8K—
免费商用
OpenAI o4 - mini
AIME202599.50
FrontierMath - Tier 46.30
MATH-500—
GSM8K—
不开源
4
GLM-4.6
AIME202598.60
FrontierMath - Tier 42.10
MATH-500—
GSM8K—
免费商用
5
Kimi K2.5
AIME202596.10
FrontierMath - Tier 44.20
MATH-500—
GSM8K—
免费商用
6
GLM-4.7
AIME202595.70
FrontierMath - Tier 42.10
MATH-500—
GSM8K—
免费商用
7
DeepSeek V3.2
AIME202593.10
FrontierMath - Tier 42.10
MATH-500—
GSM8K—
免费商用
8
o3-pro
AIME202593.00
FrontierMath - Tier 4—
MATH-500—
GSM8K—
不开源
9
Qwen3-235B-A22B-Thinking-2507
AIME202592.30
FrontierMath - Tier 4—
MATH-500—
GSM8K—
免费商用
10
DeepSeek-V3.1 Terminus
AIME202590.00
FrontierMath - Tier 4—
MATH-500—
GSM8K—
免费商用
11
DeepSeek V3.2-Exp
AIME202589.30
FrontierMath - Tier 4—
MATH-500—
GSM8K—
免费商用
12
DeepSeek-V3.1
AIME202588.40
FrontierMath - Tier 4—
MATH-500—
GSM8K—
免费商用
13
DeepSeek-R1-0528
AIME202587.50
FrontierMath - Tier 4—
MATH-50098.00
GSM8K—
免费商用
14
MiniMax M2.5
AIME202586.30
FrontierMath - Tier 4—
MATH-500—
GSM8K—
免费商用
15
Intern-S1
AIME202586.00
FrontierMath - Tier 4—
MATH-500—
GSM8K—
免费商用
16
Gemini-2.5-Pro-Preview-05-06
AIME202583.00
FrontierMath - Tier 42.10
MATH-50098.80
GSM8K—
不开源
17
Step3
AIME202582.90
FrontierMath - Tier 4—
MATH-500—
GSM8K—
免费商用
18
Qwen3-235B-A22B
AIME202581.50
FrontierMath - Tier 4—
MATH-50098.00
GSM8K96.40
免费商用
19
M2.1
AIME202581.00
FrontierMath - Tier 4—
MATH-500—
GSM8K—
免费商用
20
MiniMax M2
AIME202578.00
FrontierMath - Tier 4—
MATH-500—
GSM8K—
免费商用
21
Grok 3
AIME202577.10
FrontierMath - Tier 4—
MATH-500—
GSM8K—
不开源
22
MiniMax-M1-80k
AIME202576.90
FrontierMath - Tier 4—
MATH-50096.80
GSM8K—
免费商用
23
Claude Opus 4
AIME202575.50
FrontierMath - Tier 44.20
MATH-50098.20
GSM8K—
不开源
24
Kimi K2 0905
AIME202575.20
FrontierMath - Tier 4—
MATH-500—
GSM8K—
免费商用
25
MiniMax-M1-40k
AIME202574.60
FrontierMath - Tier 4—
MATH-50096.00
GSM8K—
免费商用
26
Gemini 2.5 Flash
AIME202572.00
FrontierMath - Tier 44.20
MATH-500—
GSM8K—
不开源
27
Qwen3-235B-A22B-2507
AIME202570.30
FrontierMath - Tier 4—
MATH-500—
GSM8K—
免费商用
28
DeepSeek-R1
AIME202570.00
FrontierMath - Tier 4—
MATH-50097.30
GSM8K—
免费商用
29
Magistral-Medium-2506
AIME202564.95
FrontierMath - Tier 4—
MATH-500—
GSM8K—
不开源
30
Gemini 2.5 Flash-Lite
AIME202563.10
FrontierMath - Tier 4—
MATH-500—
GSM8K—
不开源
排序:
查看全部 55 个模型的 AIME2025 完整排名
65B
100B及以上
模型类型:全部推理大模型基座大模型指令优化/聊天优化大模型编程大模型
开源:全部开源闭源
模型发布时间截止: