DataLearner 标志DataLearnerAI
最新AI资讯
大模型排行榜
大模型评测基准
大模型列表
大模型对比
资源中心
工具
语言中文
DataLearner 标志DataLearner AI

专注大模型评测、数据资源与实践教学的知识平台,持续更新可落地的 AI 能力图谱。

产品

  • 评测榜单
  • 模型对比
  • 数据资源

资源

  • 部署教程
  • 原创内容
  • 工具导航

关于

  • 关于我们
  • 隐私政策
  • 数据收集方法
  • 联系我们

© 2026 DataLearner AI. DataLearner 持续整合行业数据与案例,为科研、企业与开发者提供可靠的大模型情报与实践指南。

隐私政策服务条款
返回总榜单

大模型数学推理能力评测排行榜

本页面提供最新、最全面的大模型数学推理能力评测排行榜。我们通过 AIME 2025、FrontierMath-Tier4、MATH-500、GSM8K 等权威数学基准数据集,对包括 OpenAI 的 GPT、Anthropic 的 Claude、阿里巴巴的 Qwen、DeepSeek 等模型进行评测。

数据更新于 2026-04-28 13:44:17

截至 2026年4月,本页覆盖 AIME2025, FrontierMath - Tier 4, MATH-500, GSM8K 等评测基准,聚焦 大模型数学推理能力评测排行榜 方向的模型对比。

点击模型名称可进入详情页查看上下文长度、许可方式与 API 价格。数据口径说明见 数据方法论。

基准评测
AIME2025FrontierMath - Tier 4MATH-500GSM8K
更多评测
参数规模:全部3B及以下7B13B34B65B100B及以上
模型类型:全部推理大模型基座大模型指令优化/聊天优化大模型编程大模型
开源:全部开源闭源
模型发布时间截止:

大模型性能评测结果

数据来源:DataLearnerAI
排名模型开源情况
百度
ERNIE-4.5-300B-A47B
35.10—96.4096.60免费商用
阿里巴巴
Qwen3-235B-A22B
24.70—96.2096.40免费商用
DeepSeek-AI
DeepSeek-V3-0324
47.70—94.0096.30免费商用
4
华为
Pangu Embedded
——92.4095.98免费商用
5
OpenAI
GPT-4.1
36.70—92.8095.90不开源
6
阿里巴巴
Qwen2.5-32B
———95.90免费商用
7
Google Deep Mind
Gemma 3 - 27B (IT)
———95.90免费商用
8
Anthropic
Claude3-Opus
———95.00不开源
9
阿里巴巴
Qwen2.5-Max
———94.50不开源
10
腾讯AI实验室
Hunyuan-A13B-Instruct
76.80——91.83免费商用
11
阿里巴巴
Qwen2.5-72B
———91.50免费商用
12
OpenAI
GPT-4o mini
———91.30不开源
13
阿里巴巴
Qwen3-Next
69.50——90.30免费商用
14
Microsoft Azure
Phi-4-mini-instruct (3.8B)
——71.8088.60免费商用
15
阿里巴巴
Qwen2.5-7B
———85.40免费商用
16
Facebook AI研究实验室
Llama3.1-8B-Instruct
———82.40免费商用
17
阿里巴巴
Qwen2.5-3B
———79.10免费商用
18
Moonshot AI
Moonlight-16B-A3B-Instruct
———77.40免费商用
19
Google Deep Mind
Gemma2-27B
———74.00免费商用
20
Google Research
Gemma 2 - 9B
———70.70免费商用
21
Facebook AI研究实验室
Llama3.1-8B
———55.30免费商用
22
MistralAI
Mistral-7B-Instruct-v0.3
———36.20免费商用
23
Facebook AI研究实验室
Llama-3.2-3B
———34.00免费商用
24
StepFunAI
Step 3.5 Flash
开启思考工具
99.80———免费商用
25
Anthropic
Claude Opus 4.6
扩展思考
99.79—97.60—不开源
26
Google Deep Mind
Gemini 3.0 Flash
开启思考工具
99.70———不开源
27
OpenAI
GPT-5
开启思考工具
99.60———不开源
28
OpenAI
OpenAI o4 - mini
开启思考工具
99.50———不开源
29
Google Deep Mind
Gemini 2.5 Deep Think
深度思考模式
99.20———不开源
30
Moonshot AI
Kimi K2 Thinking
开启思考工具
99.10———免费商用
ERNIE-4.5-300B-A47B
AIME202535.10
FrontierMath - Tier 4—
MATH-50096.40
GSM8K96.60
免费商用
Qwen3-235B-A22B
AIME202524.70
FrontierMath - Tier 4—
MATH-50096.20
GSM8K96.40
免费商用
DeepSeek-V3-0324
AIME202547.70
FrontierMath - Tier 4—
MATH-50094.00
GSM8K96.30
免费商用
4
Pangu Embedded
AIME2025—
FrontierMath - Tier 4—
MATH-50092.40
GSM8K95.98
免费商用
5
GPT-4.1
AIME202536.70
FrontierMath - Tier 4—
MATH-50092.80
GSM8K95.90
不开源
6
Qwen2.5-32B
AIME2025—
FrontierMath - Tier 4—
MATH-500—
GSM8K95.90
免费商用
7
Gemma 3 - 27B (IT)
AIME2025—
FrontierMath - Tier 4—
MATH-500—
GSM8K95.90
免费商用
8
Claude3-Opus
AIME2025—
FrontierMath - Tier 4—
MATH-500—
GSM8K95.00
不开源
9
Qwen2.5-Max
AIME2025—
FrontierMath - Tier 4—
MATH-500—
GSM8K94.50
不开源
10
Hunyuan-A13B-Instruct
AIME202576.80
FrontierMath - Tier 4—
MATH-500—
GSM8K91.83
免费商用
11
Qwen2.5-72B
AIME2025—
FrontierMath - Tier 4—
MATH-500—
GSM8K91.50
免费商用
12
GPT-4o mini
AIME2025—
FrontierMath - Tier 4—
MATH-500—
GSM8K91.30
不开源
13
Qwen3-Next
AIME202569.50
FrontierMath - Tier 4—
MATH-500—
GSM8K90.30
免费商用
14
Phi-4-mini-instruct (3.8B)
AIME2025—
FrontierMath - Tier 4—
MATH-50071.80
GSM8K88.60
免费商用
15
Qwen2.5-7B
AIME2025—
FrontierMath - Tier 4—
MATH-500—
GSM8K85.40
免费商用
16
Llama3.1-8B-Instruct
AIME2025—
FrontierMath - Tier 4—
MATH-500—
GSM8K82.40
免费商用
17
Qwen2.5-3B
AIME2025—
FrontierMath - Tier 4—
MATH-500—
GSM8K79.10
免费商用
18
Moonlight-16B-A3B-Instruct
AIME2025—
FrontierMath - Tier 4—
MATH-500—
GSM8K77.40
免费商用
19
Gemma2-27B
AIME2025—
FrontierMath - Tier 4—
MATH-500—
GSM8K74.00
免费商用
20
Gemma 2 - 9B
AIME2025—
FrontierMath - Tier 4—
MATH-500—
GSM8K70.70
免费商用
21
Llama3.1-8B
AIME2025—
FrontierMath - Tier 4—
MATH-500—
GSM8K55.30
免费商用
22
Mistral-7B-Instruct-v0.3
AIME2025—
FrontierMath - Tier 4—
MATH-500—
GSM8K36.20
免费商用
23
Llama-3.2-3B
AIME2025—
FrontierMath - Tier 4—
MATH-500—
GSM8K34.00
免费商用
24
Step 3.5 Flash
开启思考工具
AIME202599.80
FrontierMath - Tier 4—
MATH-500—
GSM8K—
免费商用
25
Claude Opus 4.6
扩展思考
AIME202599.79
FrontierMath - Tier 4—
MATH-50097.60
GSM8K—
不开源
26
Gemini 3.0 Flash
开启思考工具
AIME202599.70
FrontierMath - Tier 4—
MATH-500—
GSM8K—
不开源
27
GPT-5
开启思考工具
AIME202599.60
FrontierMath - Tier 4—
MATH-500—
GSM8K—
不开源
28
OpenAI o4 - mini
开启思考工具
AIME202599.50
FrontierMath - Tier 4—
MATH-500—
GSM8K—
不开源
29
Gemini 2.5 Deep Think
深度思考模式
AIME202599.20
FrontierMath - Tier 4—
MATH-500—
GSM8K—
不开源
30
Kimi K2 Thinking
开启思考工具
AIME202599.10
FrontierMath - Tier 4—
MATH-500—
GSM8K—
免费商用
排序:
查看全部 221 个模型的 GSM8K 完整排名