DataLearner 标志DataLearnerAI
最新AI资讯
大模型排行榜
大模型评测基准
大模型列表
大模型对比
资源中心
工具
语言中文
DataLearner 标志DataLearner AI

专注大模型评测、数据资源与实践教学的知识平台,持续更新可落地的 AI 能力图谱。

产品

  • 评测榜单
  • 模型对比
  • 数据资源

资源

  • 部署教程
  • 原创内容
  • 工具导航

关于

  • 关于我们
  • 隐私政策
  • 数据收集方法
  • 联系我们

© 2026 DataLearner AI. DataLearner 持续整合行业数据与案例,为科研、企业与开发者提供可靠的大模型情报与实践指南。

隐私政策服务条款
返回总榜单

大模型数学推理能力评测排行榜

本页面提供最新、最全面的大模型数学推理能力评测排行榜。我们通过 AIME 2025、FrontierMath-Tier4、MATH-500、GSM8K 等权威数学基准数据集,对包括 OpenAI 的 GPT、Anthropic 的 Claude、阿里巴巴的 Qwen、DeepSeek 等模型进行评测。

数据更新于 2026-04-28 13:44:17

截至 2026年4月,本页覆盖 AIME2025, FrontierMath - Tier 4, MATH-500, GSM8K 等评测基准,聚焦 大模型数学推理能力评测排行榜 方向的模型对比。

点击模型名称可进入详情页查看上下文长度、许可方式与 API 价格。数据口径说明见 数据方法论。

基准评测
AIME2025FrontierMath - Tier 4MATH-500GSM8K
更多评测
参数规模:全部3B及以下7B13B34B65B100B及以上
模型类型:全部推理大模型基座大模型指令优化/聊天优化大模型编程大模型
开源:全部开源闭源
来源:全部国产模型
模型发布时间截止:

榜单亮点

按 GSM8K 排序
当前 SOTA
百度

ERNIE-4.5-300B-A47B

百度

96.60GSM8K
查看详情
最佳开源
阿里巴巴

Qwen3-235B-A22B

阿里巴巴

96.40GSM8K−0.20
查看详情
最佳国产
DeepSeek-AI

DeepSeek-V3-0324

DeepSeek-AI

96.30GSM8K−0.30
查看详情

大模型性能评测结果

数据来源:DataLearnerAI

点击任意行查看模型详情;勾选左侧 可对比最多 4 个模型。

排名模型
开源情况
百度
ERNIE-4.5-300B-A47B
百度
35.10—96.4096.60免费商用详情详情
阿里巴巴
Qwen3-235B-A22B
阿里巴巴
24.70—96.2096.40免费商用详情详情
DeepSeek-AI
DeepSeek-V3-0324
DeepSeek-AI
47.70—94.0096.30免费商用详情详情
4
华为
Pangu Embedded
华为
——92.4095.98免费商用详情详情
5
OpenAI
GPT-4.1
OpenAI
36.70—92.8095.90闭源详情详情
6
阿里巴巴
Qwen2.5-32B
阿里巴巴
———95.90免费商用详情详情
7
Google Deep Mind
Gemma 3 - 27B (IT)
Google Deep Mind
———95.90免费商用详情详情
8
Anthropic
Claude3-Opus
Anthropic
———95.00闭源详情详情
9
阿里巴巴
Qwen2.5-Max
阿里巴巴
———94.50闭源详情详情
10
腾讯AI实验室
Hunyuan-A13B-Instruct
腾讯AI实验室
76.80——91.83免费商用详情详情
11
阿里巴巴
Qwen2.5-72B
阿里巴巴
———91.50免费商用详情详情
12
OpenAI
GPT-4o mini
OpenAI
———91.30闭源详情详情
13
阿里巴巴
Qwen3-Next
阿里巴巴
69.50——90.30免费商用详情详情
14
Microsoft Azure
Phi-4-mini-instruct (3.8B)
Microsoft Azure
——71.8088.60免费商用详情详情
15
阿里巴巴
Qwen2.5-7B
阿里巴巴
———85.40免费商用详情详情
16
Facebook AI研究实验室
Llama3.1-8B-Instruct
Facebook AI研究实验室
———82.40免费商用详情详情
17
阿里巴巴
Qwen2.5-3B
阿里巴巴
———79.10免费商用详情详情
18
Moonshot AI
Moonlight-16B-A3B-Instruct
Moonshot AI
———77.40免费商用详情详情
19
Google Deep Mind
Gemma2-27B
Google Deep Mind
———74.00免费商用详情详情
20
Google Research
Gemma 2 - 9B
Google Research
———70.70免费商用详情详情
21
Facebook AI研究实验室
Llama3.1-8B
Facebook AI研究实验室
———55.30免费商用详情详情
22
MistralAI
Mistral-7B-Instruct-v0.3
MistralAI
———36.20免费商用详情详情
23
Facebook AI研究实验室
Llama-3.2-3B
Facebook AI研究实验室
———34.00免费商用详情详情
24
StepFunAI
Step 3.5 Flash
开启思考工具
StepFunAI
99.80———免费商用详情详情
25
Anthropic
Claude Opus 4.6
扩展思考
Anthropic
99.79—97.60—闭源详情详情
26
Google Deep Mind
Gemini 3.0 Flash
开启思考工具
Google Deep Mind
99.70———闭源详情详情
27
OpenAI
GPT-5
开启思考工具
OpenAI
99.60———闭源详情详情
28
OpenAI
OpenAI o4 - mini
开启思考工具
OpenAI
99.50———闭源详情详情
29
Google Deep Mind
Gemini 2.5 Deep Think
深度思考模式
Google Deep Mind
99.20———闭源详情详情
30
Moonshot AI
Kimi K2 Thinking
开启思考工具
Moonshot AI
99.10———免费商用详情详情
31
xAI
Grok 4
开启思考工具
xAI
98.80———闭源详情详情
32
OpenAI
GPT OSS 20B
开启思考工具
OpenAI
98.70———免费商用详情详情
33
智谱AI
GLM-4.6
开启思考
智谱AI
98.60———免费商用详情详情
34
智谱AI
GLM-4.6
开启思考工具
智谱AI
98.60———免费商用详情详情
35
OpenAI
GPT OSS 120B
开启思考工具
OpenAI
97.90———免费商用详情详情
36
StepFunAI
Step 3.5 Flash
开启思考
StepFunAI
97.30———免费商用详情详情
37
OpenAI
GPT-5-Pro
开启思考
OpenAI
96.7014.60——闭源详情详情
38
Anthropic
Haiku 4.5
开启思考工具
Anthropic
96.30———闭源详情详情
39
Moonshot AI
Kimi K2.5
开启思考
Moonshot AI
96.10———免费商用详情详情
40
DeepSeek-AI
DeepSeek V3.2 Speciale
开启思考
DeepSeek-AI
96.00———免费商用详情详情
41
智谱AI
GLM-4.7
开启思考
智谱AI
95.70———免费商用详情详情
42
Google Deep Mind
Gemini 3.0 Flash
开启思考
Google Deep Mind
95.20———闭源详情详情
43
Google Deep Mind
Gemini 3.0 Pro (Preview 11-2025)
开启思考
Google Deep Mind
95.0018.80——闭源详情详情
44
OpenAI
GPT-5
开启思考
OpenAI
94.60———闭源详情详情
45
Moonshot AI
Kimi K2 Thinking
开启思考
Moonshot AI
94.50———免费商用详情详情
46
OpenAI
GPT-5.1
思考水平 · 高
OpenAI
94.00———闭源详情详情
47
OpenAI
GPT-5.1
开启思考
OpenAI
94.00———闭源详情详情
48
DeepSeek-AI
DeepSeek V3.2
开启思考
DeepSeek-AI
93.102.10——免费商用详情详情
49
OpenAI
o3-pro
OpenAI
93.00———闭源详情详情
50
OpenAI
OpenAI o4 - mini
开启思考
OpenAI
92.70———闭源详情详情
ERNIE-4.5-300B-A47B百度
AIME202535.10
FrontierMath - Tier 4—
MATH-50096.40
GSM8K96.60
免费商用
Qwen3-235B-A22B阿里巴巴
AIME202524.70
FrontierMath - Tier 4—
MATH-50096.20
GSM8K96.40
免费商用
DeepSeek-V3-0324DeepSeek-AI
AIME202547.70
FrontierMath - Tier 4—
MATH-50094.00
GSM8K96.30
免费商用
4
Pangu Embedded华为
AIME2025—
FrontierMath - Tier 4—
MATH-50092.40
GSM8K95.98
免费商用
5
GPT-4.1OpenAI
AIME202536.70
FrontierMath - Tier 4—
MATH-50092.80
GSM8K95.90
闭源
6
Qwen2.5-32B阿里巴巴
AIME2025—
FrontierMath - Tier 4—
MATH-500—
GSM8K95.90
免费商用
7
Gemma 3 - 27B (IT)Google Deep Mind
AIME2025—
FrontierMath - Tier 4—
MATH-500—
GSM8K95.90
免费商用
8
Claude3-OpusAnthropic
AIME2025—
FrontierMath - Tier 4—
MATH-500—
GSM8K95.00
闭源
9
Qwen2.5-Max阿里巴巴
AIME2025—
FrontierMath - Tier 4—
MATH-500—
GSM8K94.50
闭源
10
Hunyuan-A13B-Instruct腾讯AI实验室
AIME202576.80
FrontierMath - Tier 4—
MATH-500—
GSM8K91.83
免费商用
11
Qwen2.5-72B阿里巴巴
AIME2025—
FrontierMath - Tier 4—
MATH-500—
GSM8K91.50
免费商用
12
GPT-4o miniOpenAI
AIME2025—
FrontierMath - Tier 4—
MATH-500—
GSM8K91.30
闭源
13
Qwen3-Next阿里巴巴
AIME202569.50
FrontierMath - Tier 4—
MATH-500—
GSM8K90.30
免费商用
14
Phi-4-mini-instruct (3.8B)Microsoft Azure
AIME2025—
FrontierMath - Tier 4—
MATH-50071.80
GSM8K88.60
免费商用
15
Qwen2.5-7B阿里巴巴
AIME2025—
FrontierMath - Tier 4—
MATH-500—
GSM8K85.40
免费商用
16
Llama3.1-8B-InstructFacebook AI研究实验室
AIME2025—
FrontierMath - Tier 4—
MATH-500—
GSM8K82.40
免费商用
17
Qwen2.5-3B阿里巴巴
AIME2025—
FrontierMath - Tier 4—
MATH-500—
GSM8K79.10
免费商用
18
Moonlight-16B-A3B-InstructMoonshot AI
AIME2025—
FrontierMath - Tier 4—
MATH-500—
GSM8K77.40
免费商用
19
Gemma2-27BGoogle Deep Mind
AIME2025—
FrontierMath - Tier 4—
MATH-500—
GSM8K74.00
免费商用
20
Gemma 2 - 9BGoogle Research
AIME2025—
FrontierMath - Tier 4—
MATH-500—
GSM8K70.70
免费商用
21
Llama3.1-8BFacebook AI研究实验室
AIME2025—
FrontierMath - Tier 4—
MATH-500—
GSM8K55.30
免费商用
22
Mistral-7B-Instruct-v0.3MistralAI
AIME2025—
FrontierMath - Tier 4—
MATH-500—
GSM8K36.20
免费商用
23
Llama-3.2-3BFacebook AI研究实验室
AIME2025—
FrontierMath - Tier 4—
MATH-500—
GSM8K34.00
免费商用
24
Step 3.5 FlashStepFunAI
开启思考工具
AIME202599.80
FrontierMath - Tier 4—
MATH-500—
GSM8K—
免费商用
25
Claude Opus 4.6Anthropic
扩展思考
AIME202599.79
FrontierMath - Tier 4—
MATH-50097.60
GSM8K—
闭源
26
Gemini 3.0 FlashGoogle Deep Mind
开启思考工具
AIME202599.70
FrontierMath - Tier 4—
MATH-500—
GSM8K—
闭源
27
GPT-5OpenAI
开启思考工具
AIME202599.60
FrontierMath - Tier 4—
MATH-500—
GSM8K—
闭源
28
OpenAI o4 - miniOpenAI
开启思考工具
AIME202599.50
FrontierMath - Tier 4—
MATH-500—
GSM8K—
闭源
29
Gemini 2.5 Deep ThinkGoogle Deep Mind
深度思考模式
AIME202599.20
FrontierMath - Tier 4—
MATH-500—
GSM8K—
闭源
30
Kimi K2 ThinkingMoonshot AI
开启思考工具
AIME202599.10
FrontierMath - Tier 4—
MATH-500—
GSM8K—
免费商用
31
Grok 4xAI
开启思考工具
AIME202598.80
FrontierMath - Tier 4—
MATH-500—
GSM8K—
闭源
32
GPT OSS 20BOpenAI
开启思考工具
AIME202598.70
FrontierMath - Tier 4—
MATH-500—
GSM8K—
免费商用
33
GLM-4.6智谱AI
开启思考
AIME202598.60
FrontierMath - Tier 4—
MATH-500—
GSM8K—
免费商用
34
GLM-4.6智谱AI
开启思考工具
AIME202598.60
FrontierMath - Tier 4—
MATH-500—
GSM8K—
免费商用
35
GPT OSS 120BOpenAI
开启思考工具
AIME202597.90
FrontierMath - Tier 4—
MATH-500—
GSM8K—
免费商用
36
Step 3.5 FlashStepFunAI
开启思考
AIME202597.30
FrontierMath - Tier 4—
MATH-500—
GSM8K—
免费商用
37
GPT-5-ProOpenAI
开启思考
AIME202596.70
FrontierMath - Tier 414.60
MATH-500—
GSM8K—
闭源
38
Haiku 4.5Anthropic
开启思考工具
AIME202596.30
FrontierMath - Tier 4—
MATH-500—
GSM8K—
闭源
39
Kimi K2.5Moonshot AI
开启思考
AIME202596.10
FrontierMath - Tier 4—
MATH-500—
GSM8K—
免费商用
40
DeepSeek V3.2 SpecialeDeepSeek-AI
开启思考
AIME202596.00
FrontierMath - Tier 4—
MATH-500—
GSM8K—
免费商用
41
GLM-4.7智谱AI
开启思考
AIME202595.70
FrontierMath - Tier 4—
MATH-500—
GSM8K—
免费商用
42
Gemini 3.0 FlashGoogle Deep Mind
开启思考
AIME202595.20
FrontierMath - Tier 4—
MATH-500—
GSM8K—
闭源
43
Gemini 3.0 Pro (Preview 11-2025)Google Deep Mind
开启思考
AIME202595.00
FrontierMath - Tier 418.80
MATH-500—
GSM8K—
闭源
44
GPT-5OpenAI
开启思考
AIME202594.60
FrontierMath - Tier 4—
MATH-500—
GSM8K—
闭源
45
Kimi K2 ThinkingMoonshot AI
开启思考
AIME202594.50
FrontierMath - Tier 4—
MATH-500—
GSM8K—
免费商用
46
GPT-5.1OpenAI
思考水平 · 高
AIME202594.00
FrontierMath - Tier 4—
MATH-500—
GSM8K—
闭源
47
GPT-5.1OpenAI
开启思考
AIME202594.00
FrontierMath - Tier 4—
MATH-500—
GSM8K—
闭源
48
DeepSeek V3.2DeepSeek-AI
开启思考
AIME202593.10
FrontierMath - Tier 42.10
MATH-500—
GSM8K—
免费商用
49
o3-proOpenAI
AIME202593.00
FrontierMath - Tier 4—
MATH-500—
GSM8K—
闭源
50
OpenAI o4 - miniOpenAI
开启思考
AIME202592.70
FrontierMath - Tier 4—
MATH-500—
GSM8K—
闭源
排序:
已显示 50 / 221 个模型查看 GSM8K 基准测试完整页面