DataLearner 标志DataLearnerAI
最新AI资讯
大模型排行榜
大模型评测基准
大模型列表
大模型对比
资源中心
工具
语言中文
DataLearner 标志DataLearner AI

专注大模型评测、数据资源与实践教学的知识平台,持续更新可落地的 AI 能力图谱。

产品

  • 评测榜单
  • 模型对比
  • 数据资源

资源

  • 部署教程
  • 原创内容
  • 工具导航

关于

  • 关于我们
  • 隐私政策
  • 数据收集方法
  • 联系我们

© 2026 DataLearner AI. DataLearner 持续整合行业数据与案例,为科研、企业与开发者提供可靠的大模型情报与实践指南。

隐私政策服务条款
返回总榜单

大模型数学推理能力评测排行榜

本页面提供最新、最全面的大模型数学推理能力评测排行榜。我们通过 AIME 2025、FrontierMath-Tier4、MATH-500、GSM8K 等权威数学基准数据集,对包括 OpenAI 的 GPT、Anthropic 的 Claude、阿里巴巴的 Qwen、DeepSeek 等模型进行评测。

数据更新于 2026-04-28 13:44:17

截至 2026年4月,本页覆盖 AIME2025, FrontierMath - Tier 4, MATH-500, GSM8K 等评测基准,聚焦 大模型数学推理能力评测排行榜 方向的模型对比。

点击模型名称可进入详情页查看上下文长度、许可方式与 API 价格。数据口径说明见 数据方法论。

基准评测
AIME2025FrontierMath - Tier 4MATH-500GSM8K
更多评测
参数规模:全部3B及以下7B13B34B65B100B及以上
模型类型:全部推理大模型基座大模型指令优化/聊天优化大模型编程大模型
开源:全部开源闭源
来源:全部国产模型
模型发布时间截止:

榜单亮点

按 MATH-500 排序
当前 SOTA
Google Deep Mind

Gemini-2.5-Pro-Preview-05-06

Google Deep Mind

98.80MATH-500
查看详情
最佳开源
智谱AI

GLM-4.5

智谱AI

98.20MATH-500−0.60
查看详情
最佳国产
智谱AI

GLM-4.5-Air

智谱AI

98.10MATH-500−0.70
查看详情

大模型性能评测结果

数据来源:DataLearnerAI

点击任意行查看模型详情;勾选左侧 可对比最多 4 个模型。

排名模型
开源情况
Google Deep Mind
Gemini-2.5-Pro-Preview-05-06
Google Deep Mind
83.002.1098.80—闭源详情详情
Google Deep Mind
Gemini 2.5-Pro
Google Deep Mind
——98.80—闭源详情详情
Anthropic
Claude Opus 4
Anthropic
75.50—98.20—闭源详情详情
4
智谱AI
GLM-4.5
开启思考
智谱AI
——98.20—免费商用详情详情
5
OpenAI
OpenAI o3
OpenAI
——98.10—闭源详情详情
6
智谱AI
GLM-4.5-Air
开启思考
智谱AI
——98.10—免费商用详情详情
7
DeepSeek-AI
DeepSeek-R1-0528
开启思考
DeepSeek-AI
87.50—98.00—免费商用详情详情
8
阿里巴巴
Qwen3-235B-A22B
开启思考
阿里巴巴
81.50—98.00—免费商用详情详情
9
OpenAI
OpenAI o3-mini (high)
OpenAI
——97.90—闭源详情详情
10
Anthropic
Claude Opus 4.6
扩展思考
Anthropic
99.79—97.60—闭源详情详情
11
阿里巴巴
Qwen3-8B
开启思考
阿里巴巴
67.30—97.40—免费商用详情详情
12
Moonshot AI
Kimi K2
Moonshot AI
54.000.0197.40—免费商用详情详情
13
DeepSeek-AI
DeepSeek-R1
DeepSeek-AI
70.00—97.30—免费商用详情详情
14
阿里巴巴
Qwen3-32B
开启思考
阿里巴巴
72.90—97.20—免费商用详情详情
15
MiniMaxAI
MiniMax-M1-80k
MiniMaxAI
76.90—96.80—免费商用详情详情
16
华为
Pangu Pro MoE
华为
68.10—96.80—免费商用详情详情
17
百度
ERNIE-4.5-300B-A47B
百度
35.10—96.4096.60免费商用详情详情
18
OpenAI
OpenAI o1
OpenAI
——96.40—闭源详情详情
19
阿里巴巴
Qwen3-235B-A22B
阿里巴巴
24.70—96.2096.40免费商用详情详情
20
Anthropic
Claude Sonnet 3.7-64K Extended Thinking
Anthropic
——96.20—闭源详情详情
21
普林斯顿大学
Kimi k1.5 (Long-CoT)
普林斯顿大学
——96.20—闭源详情详情
22
腾讯AI实验室
Hunyuan-T1
腾讯AI实验室
——96.20—闭源详情详情
23
MiniMaxAI
MiniMax-M1-40k
MiniMaxAI
74.60—96.00—免费商用详情详情
24
OpenAI
OpenAI o3-mini
开启思考
OpenAI
86.50—95.80—闭源详情详情
25
Facebook AI研究实验室
Llama 4 Behemoth Instruct
Facebook AI研究实验室
——95.00—免费商用详情详情
26
Moonshot AI
Kimi k1.5 (Short-CoT)
Moonshot AI
——94.60—闭源详情详情
27
DeepSeek-AI
DeepSeek-R1-Distill-Llama-70B
DeepSeek-AI
——94.50—免费商用详情详情
28
DeepSeek-AI
DeepSeek-V3-0324
DeepSeek-AI
47.70—94.0096.30免费商用详情详情
29
Tencent ARC
Hunyuan-7B
Tencent ARC
75.30—93.70—免费商用详情详情
30
OpenAI
GPT-4.1
OpenAI
36.70—92.8095.90闭源详情详情
31
华为
Pangu Embedded
华为
——92.4095.98免费商用详情详情
32
DeepSeek-AI
DeepSeek-R1-Distill-Qwen-7B
DeepSeek-AI
——91.40—免费商用详情详情
33
阿里巴巴
QwQ-32B
阿里巴巴
——91.00—免费商用详情详情
34
OpenAI
GPT-4.5
OpenAI
——90.70—闭源详情详情
35
阿里巴巴
QwQ-32B-Preview
阿里巴巴
——90.60—免费商用详情详情
36
Microsoft Azure
Phi-4-instruct (reasoning-trained)
Microsoft Azure
——90.40—闭源详情详情
37
OpenAI
OpenAI o1-mini
OpenAI
——90.00—闭源详情详情
38
阿里巴巴
Qwen3-32B
阿里巴巴
20.20—88.60—免费商用详情详情
39
DeepSeek-AI
DeepSeek-V3
DeepSeek-AI
——87.80—免费商用详情详情
40
阿里巴巴
Qwen3-8B
阿里巴巴
20.90—87.40—免费商用详情详情
41
Anthropic
Claude Sonnet 3.7
Anthropic
54.80—82.20—闭源详情详情
42
Anthropic
Claude 3.5 Sonnet New
Anthropic
——78.00—闭源详情详情
43
OpenAI
GPT-4o
OpenAI
——75.90—闭源详情详情
44
Microsoft Azure
Phi-4-mini-instruct (3.8B)
Microsoft Azure
——71.8088.60免费商用详情详情
45
StepFunAI
Step 3.5 Flash
开启思考工具
StepFunAI
99.80———免费商用详情详情
46
Google Deep Mind
Gemini 3.0 Flash
开启思考工具
Google Deep Mind
99.70———闭源详情详情
47
OpenAI
GPT-5
开启思考工具
OpenAI
99.60———闭源详情详情
48
OpenAI
OpenAI o4 - mini
开启思考工具
OpenAI
99.50———闭源详情详情
49
Google Deep Mind
Gemini 2.5 Deep Think
深度思考模式
Google Deep Mind
99.20———闭源详情详情
50
Moonshot AI
Kimi K2 Thinking
开启思考工具
Moonshot AI
99.10———免费商用详情详情
Gemini-2.5-Pro-Preview-05-06Google Deep Mind
AIME202583.00
FrontierMath - Tier 42.10
MATH-50098.80
GSM8K—
闭源
Gemini 2.5-ProGoogle Deep Mind
AIME2025—
FrontierMath - Tier 4—
MATH-50098.80
GSM8K—
闭源
Claude Opus 4Anthropic
AIME202575.50
FrontierMath - Tier 4—
MATH-50098.20
GSM8K—
闭源
4
GLM-4.5智谱AI
开启思考
AIME2025—
FrontierMath - Tier 4—
MATH-50098.20
GSM8K—
免费商用
5
OpenAI o3OpenAI
AIME2025—
FrontierMath - Tier 4—
MATH-50098.10
GSM8K—
闭源
6
GLM-4.5-Air智谱AI
开启思考
AIME2025—
FrontierMath - Tier 4—
MATH-50098.10
GSM8K—
免费商用
7
DeepSeek-R1-0528DeepSeek-AI
开启思考
AIME202587.50
FrontierMath - Tier 4—
MATH-50098.00
GSM8K—
免费商用
8
Qwen3-235B-A22B阿里巴巴
开启思考
AIME202581.50
FrontierMath - Tier 4—
MATH-50098.00
GSM8K—
免费商用
9
OpenAI o3-mini (high)OpenAI
AIME2025—
FrontierMath - Tier 4—
MATH-50097.90
GSM8K—
闭源
10
Claude Opus 4.6Anthropic
扩展思考
AIME202599.79
FrontierMath - Tier 4—
MATH-50097.60
GSM8K—
闭源
11
Qwen3-8B阿里巴巴
开启思考
AIME202567.30
FrontierMath - Tier 4—
MATH-50097.40
GSM8K—
免费商用
12
Kimi K2Moonshot AI
AIME202554.00
FrontierMath - Tier 40.01
MATH-50097.40
GSM8K—
免费商用
13
DeepSeek-R1DeepSeek-AI
AIME202570.00
FrontierMath - Tier 4—
MATH-50097.30
GSM8K—
免费商用
14
Qwen3-32B阿里巴巴
开启思考
AIME202572.90
FrontierMath - Tier 4—
MATH-50097.20
GSM8K—
免费商用
15
MiniMax-M1-80kMiniMaxAI
AIME202576.90
FrontierMath - Tier 4—
MATH-50096.80
GSM8K—
免费商用
16
Pangu Pro MoE华为
AIME202568.10
FrontierMath - Tier 4—
MATH-50096.80
GSM8K—
免费商用
17
ERNIE-4.5-300B-A47B百度
AIME202535.10
FrontierMath - Tier 4—
MATH-50096.40
GSM8K96.60
免费商用
18
OpenAI o1OpenAI
AIME2025—
FrontierMath - Tier 4—
MATH-50096.40
GSM8K—
闭源
19
Qwen3-235B-A22B阿里巴巴
AIME202524.70
FrontierMath - Tier 4—
MATH-50096.20
GSM8K96.40
免费商用
20
Claude Sonnet 3.7-64K Extended ThinkingAnthropic
AIME2025—
FrontierMath - Tier 4—
MATH-50096.20
GSM8K—
闭源
21
Kimi k1.5 (Long-CoT)普林斯顿大学
AIME2025—
FrontierMath - Tier 4—
MATH-50096.20
GSM8K—
闭源
22
Hunyuan-T1腾讯AI实验室
AIME2025—
FrontierMath - Tier 4—
MATH-50096.20
GSM8K—
闭源
23
MiniMax-M1-40kMiniMaxAI
AIME202574.60
FrontierMath - Tier 4—
MATH-50096.00
GSM8K—
免费商用
24
OpenAI o3-miniOpenAI
开启思考
AIME202586.50
FrontierMath - Tier 4—
MATH-50095.80
GSM8K—
闭源
25
Llama 4 Behemoth InstructFacebook AI研究实验室
AIME2025—
FrontierMath - Tier 4—
MATH-50095.00
GSM8K—
免费商用
26
Kimi k1.5 (Short-CoT)Moonshot AI
AIME2025—
FrontierMath - Tier 4—
MATH-50094.60
GSM8K—
闭源
27
DeepSeek-R1-Distill-Llama-70BDeepSeek-AI
AIME2025—
FrontierMath - Tier 4—
MATH-50094.50
GSM8K—
免费商用
28
DeepSeek-V3-0324DeepSeek-AI
AIME202547.70
FrontierMath - Tier 4—
MATH-50094.00
GSM8K96.30
免费商用
29
Hunyuan-7BTencent ARC
AIME202575.30
FrontierMath - Tier 4—
MATH-50093.70
GSM8K—
免费商用
30
GPT-4.1OpenAI
AIME202536.70
FrontierMath - Tier 4—
MATH-50092.80
GSM8K95.90
闭源
31
Pangu Embedded华为
AIME2025—
FrontierMath - Tier 4—
MATH-50092.40
GSM8K95.98
免费商用
32
DeepSeek-R1-Distill-Qwen-7BDeepSeek-AI
AIME2025—
FrontierMath - Tier 4—
MATH-50091.40
GSM8K—
免费商用
33
QwQ-32B阿里巴巴
AIME2025—
FrontierMath - Tier 4—
MATH-50091.00
GSM8K—
免费商用
34
GPT-4.5OpenAI
AIME2025—
FrontierMath - Tier 4—
MATH-50090.70
GSM8K—
闭源
35
QwQ-32B-Preview阿里巴巴
AIME2025—
FrontierMath - Tier 4—
MATH-50090.60
GSM8K—
免费商用
36
Phi-4-instruct (reasoning-trained)Microsoft Azure
AIME2025—
FrontierMath - Tier 4—
MATH-50090.40
GSM8K—
闭源
37
OpenAI o1-miniOpenAI
AIME2025—
FrontierMath - Tier 4—
MATH-50090.00
GSM8K—
闭源
38
Qwen3-32B阿里巴巴
AIME202520.20
FrontierMath - Tier 4—
MATH-50088.60
GSM8K—
免费商用
39
DeepSeek-V3DeepSeek-AI
AIME2025—
FrontierMath - Tier 4—
MATH-50087.80
GSM8K—
免费商用
40
Qwen3-8B阿里巴巴
AIME202520.90
FrontierMath - Tier 4—
MATH-50087.40
GSM8K—
免费商用
41
Claude Sonnet 3.7Anthropic
AIME202554.80
FrontierMath - Tier 4—
MATH-50082.20
GSM8K—
闭源
42
Claude 3.5 Sonnet NewAnthropic
AIME2025—
FrontierMath - Tier 4—
MATH-50078.00
GSM8K—
闭源
43
GPT-4oOpenAI
AIME2025—
FrontierMath - Tier 4—
MATH-50075.90
GSM8K—
闭源
44
Phi-4-mini-instruct (3.8B)Microsoft Azure
AIME2025—
FrontierMath - Tier 4—
MATH-50071.80
GSM8K88.60
免费商用
45
Step 3.5 FlashStepFunAI
开启思考工具
AIME202599.80
FrontierMath - Tier 4—
MATH-500—
GSM8K—
免费商用
46
Gemini 3.0 FlashGoogle Deep Mind
开启思考工具
AIME202599.70
FrontierMath - Tier 4—
MATH-500—
GSM8K—
闭源
47
GPT-5OpenAI
开启思考工具
AIME202599.60
FrontierMath - Tier 4—
MATH-500—
GSM8K—
闭源
48
OpenAI o4 - miniOpenAI
开启思考工具
AIME202599.50
FrontierMath - Tier 4—
MATH-500—
GSM8K—
闭源
49
Gemini 2.5 Deep ThinkGoogle Deep Mind
深度思考模式
AIME202599.20
FrontierMath - Tier 4—
MATH-500—
GSM8K—
闭源
50
Kimi K2 ThinkingMoonshot AI
开启思考工具
AIME202599.10
FrontierMath - Tier 4—
MATH-500—
GSM8K—
免费商用
排序:
已显示 50 / 221 个模型查看 MATH-500 基准测试完整页面