DataLearner 标志DataLearnerAI
最新AI资讯
大模型排行榜
大模型评测基准
大模型列表
大模型对比
资源中心
工具
语言中文
DataLearner 标志DataLearner AI

专注大模型评测、数据资源与实践教学的知识平台,持续更新可落地的 AI 能力图谱。

产品

  • 评测榜单
  • 模型对比
  • 数据资源

资源

  • 部署教程
  • 原创内容
  • 工具导航

关于

  • 关于我们
  • 隐私政策
  • 数据收集方法
  • 联系我们

© 2026 DataLearner AI. DataLearner 持续整合行业数据与案例,为科研、企业与开发者提供可靠的大模型情报与实践指南。

隐私政策服务条款
返回总榜单

大模型数学推理能力评测排行榜

本页面提供最新、最全面的大模型数学推理能力评测排行榜。我们通过 AIME 2025、FrontierMath-Tier4、MATH-500、GSM8K 等权威数学基准数据集,对包括 OpenAI 的 GPT、Anthropic 的 Claude、阿里巴巴的 Qwen、DeepSeek 等模型进行评测。

数据更新于 2026-04-28 13:44:17

截至 2026年4月,本页覆盖 AIME2025, FrontierMath - Tier 4, MATH-500, GSM8K 等评测基准,聚焦 大模型数学推理能力评测排行榜 方向的模型对比。

点击模型名称可进入详情页查看上下文长度、许可方式与 API 价格。数据口径说明见 数据方法论。

基准评测
AIME2025FrontierMath - Tier 4MATH-500GSM8K
更多评测
参数规模:全部3B及以下7B13B34B65B100B及以上
模型类型:全部推理大模型基座大模型指令优化/聊天优化大模型编程大模型
开源:全部开源闭源
来源:全部国产模型
模型发布时间截止:

榜单亮点

按 FrontierMath - Tier 4 排序
当前 SOTA
OpenAI

GPT-5.5 Pro

OpenAI

39.60FrontierMath - Tier 4
查看详情
最佳开源
Moonshot AI

Kimi K2.5

Moonshot AI

4.20FrontierMath - Tier 4−35.40
查看详情
最佳国产
DeepSeek-AI

DeepSeek V3.2

DeepSeek-AI

2.10FrontierMath - Tier 4−37.50
查看详情

大模型性能评测结果

数据来源:DataLearnerAI

点击任意行查看模型详情;勾选左侧 可对比最多 4 个模型。

排名模型
开源情况
OpenAI
GPT-5.5 Pro
思考水平 · 极高工具
OpenAI
—39.60——闭源详情详情
OpenAI
GPT-5.5 Pro
开启思考
OpenAI
—39.60——闭源详情详情
OpenAI
GPT-5.5 Pro
思考水平 · 极高
OpenAI
—39.60——闭源详情详情
4
OpenAI
GPT-5.4 Pro
开启思考
OpenAI
—38.00——闭源详情详情
5
OpenAI
GPT-5.4 Pro
常规模式工具联网
OpenAI
—37.50——闭源详情详情
6
OpenAI
GPT-5.4 Pro
思考水平 · 极高
OpenAI
—37.50——闭源详情详情
7
OpenAI
GPT-5.5
思考水平 · 极高
OpenAI
—35.40——闭源详情详情
8
OpenAI
GPT-5.5
开启思考工具
OpenAI
—35.40——闭源详情详情
9
OpenAI
GPT-5.2 Pro
常规模式工具联网
OpenAI
—31.30——闭源详情详情
10
OpenAI
GPT-5.2 Pro
开启思考
OpenAI
—31.30——闭源详情详情
11
OpenAI
GPT-5.4
思考水平 · 极高
OpenAI
—27.10——闭源详情详情
12
Anthropic
Opus 4.7
思考水平 · 极高
Anthropic
—22.90——闭源详情详情
13
Anthropic
Claude Opus 4.6
思考水平 · 高
Anthropic
—22.90——闭源详情详情
14
Anthropic
Claude Opus 4.6
开启思考
Anthropic
—20.80——闭源详情详情
15
Anthropic
Claude Opus 4.6
开启思考
Anthropic
—20.80——闭源详情详情
16
Google Deep Mind
Gemini 3.0 Pro (Preview 11-2025)
开启思考
Google Deep Mind
95.0018.80——闭源详情详情
17
OpenAI
GPT-5.2
思考水平 · 极高
OpenAI
—18.80——闭源详情详情
18
OpenAI
GPT-5.2
开启思考
OpenAI
—18.80——闭源详情详情
19
Google Deep Mind
Gemini 3.0 Pro (Preview 11-2025)
Google Deep Mind
—18.80——闭源详情详情
20
Google Deep Mind
Gemini 3.1 Pro Preview
Google Deep Mind
—16.70——闭源详情详情
21
Google Deep Mind
Gemini 3.1 Pro Preview
开启思考
Google Deep Mind
—16.70——闭源详情详情
22
OpenAI
GPT-5.2
开启思考
OpenAI
—16.70——闭源详情详情
23
OpenAI
GPT-5-Pro
开启思考
OpenAI
96.7014.60——闭源详情详情
24
Facebook AI研究实验室
Muse Spark
Facebook AI研究实验室
—14.60——闭源详情详情
25
Facebook AI研究实验室
Muse Spark
开启思考
Facebook AI研究实验室
—14.60——闭源详情详情
26
Anthropic
Claude Opus 4.6
开启思考
Anthropic
—14.60——闭源详情详情
27
OpenAI
GPT-5.2
思考水平 · 极高工具
OpenAI
—14.60——闭源详情详情
28
OpenAI
GPT-5-Pro
OpenAI
—14.60——闭源详情详情
29
OpenAI
GPT-5.1
开启思考
OpenAI
—12.50——闭源详情详情
30
OpenAI
GPT-5.1
开启思考工具
OpenAI
—12.50——闭源详情详情
31
OpenAI
GPT-5
开启思考
OpenAI
—12.50——闭源详情详情
32
Google Deep Mind
Gemini 2.5 Deep Think
Google Deep Mind
—10.40——闭源详情详情
33
Google Deep Mind
Gemini 2.5 Pro Deep Think
深度思考模式
Google Deep Mind
—10.40——闭源详情详情
34
Anthropic
Claude Sonnet 4.6
开启思考
Anthropic
—8.30——闭源详情详情
35
OpenAI
OpenAI o4 - mini
开启思考
OpenAI
—6.30——闭源详情详情
36
OpenAI
GPT-5
开启思考
OpenAI
—6.30——闭源详情详情
37
OpenAI
GPT-5-mini
开启思考
OpenAI
—6.30——闭源详情详情
38
OpenAI
GPT-5.2
开启思考
OpenAI
—6.30——闭源详情详情
39
OpenAI
GPT-5.4 nano
开启思考
OpenAI
—6.30——闭源详情详情
40
Anthropic
Opus 4.1
扩展思考
Anthropic
78.004.20——闭源详情详情
41
OpenAI
OpenAI o3-mini
开启思考
OpenAI
—4.20——闭源详情详情
42
OpenAI
OpenAI o3-mini (high)
思考水平 · 高
OpenAI
—4.20——闭源详情详情
43
Google Deep Mind
Gemini 2.5 Pro Experimental 03-25
Google Deep Mind
—4.20——闭源详情详情
44
Google Deep Mind
Gemini 2.5 Flash
Google Deep Mind
—4.20——闭源详情详情
45
Anthropic
Claude Opus 4
开启思考
Anthropic
—4.20——闭源详情详情
46
Anthropic
Claude Opus 4
开启思考
Anthropic
—4.20——闭源详情详情
47
OpenAI
GPT-5-mini
开启思考
OpenAI
—4.20——闭源详情详情
48
Anthropic
Opus 4.1
开启思考
Anthropic
—4.20——闭源详情详情
49
Moonshot AI
Kimi K2.5
Moonshot AI
—4.20——免费商用详情详情
50
Anthropic
Opus 4.5
开启思考
Anthropic
—4.20——闭源详情详情
GPT-5.5 ProOpenAI
思考水平 · 极高工具
AIME2025—
FrontierMath - Tier 439.60
MATH-500—
GSM8K—
闭源
GPT-5.5 ProOpenAI
开启思考
AIME2025—
FrontierMath - Tier 439.60
MATH-500—
GSM8K—
闭源
GPT-5.5 ProOpenAI
思考水平 · 极高
AIME2025—
FrontierMath - Tier 439.60
MATH-500—
GSM8K—
闭源
4
GPT-5.4 ProOpenAI
开启思考
AIME2025—
FrontierMath - Tier 438.00
MATH-500—
GSM8K—
闭源
5
GPT-5.4 ProOpenAI
常规模式工具联网
AIME2025—
FrontierMath - Tier 437.50
MATH-500—
GSM8K—
闭源
6
GPT-5.4 ProOpenAI
思考水平 · 极高
AIME2025—
FrontierMath - Tier 437.50
MATH-500—
GSM8K—
闭源
7
GPT-5.5OpenAI
思考水平 · 极高
AIME2025—
FrontierMath - Tier 435.40
MATH-500—
GSM8K—
闭源
8
GPT-5.5OpenAI
开启思考工具
AIME2025—
FrontierMath - Tier 435.40
MATH-500—
GSM8K—
闭源
9
GPT-5.2 ProOpenAI
常规模式工具联网
AIME2025—
FrontierMath - Tier 431.30
MATH-500—
GSM8K—
闭源
10
GPT-5.2 ProOpenAI
开启思考
AIME2025—
FrontierMath - Tier 431.30
MATH-500—
GSM8K—
闭源
11
GPT-5.4OpenAI
思考水平 · 极高
AIME2025—
FrontierMath - Tier 427.10
MATH-500—
GSM8K—
闭源
12
Opus 4.7Anthropic
思考水平 · 极高
AIME2025—
FrontierMath - Tier 422.90
MATH-500—
GSM8K—
闭源
13
Claude Opus 4.6Anthropic
思考水平 · 高
AIME2025—
FrontierMath - Tier 422.90
MATH-500—
GSM8K—
闭源
14
Claude Opus 4.6Anthropic
开启思考
AIME2025—
FrontierMath - Tier 420.80
MATH-500—
GSM8K—
闭源
15
Claude Opus 4.6Anthropic
开启思考
AIME2025—
FrontierMath - Tier 420.80
MATH-500—
GSM8K—
闭源
16
Gemini 3.0 Pro (Preview 11-2025)Google Deep Mind
开启思考
AIME202595.00
FrontierMath - Tier 418.80
MATH-500—
GSM8K—
闭源
17
GPT-5.2OpenAI
思考水平 · 极高
AIME2025—
FrontierMath - Tier 418.80
MATH-500—
GSM8K—
闭源
18
GPT-5.2OpenAI
开启思考
AIME2025—
FrontierMath - Tier 418.80
MATH-500—
GSM8K—
闭源
19
Gemini 3.0 Pro (Preview 11-2025)Google Deep Mind
AIME2025—
FrontierMath - Tier 418.80
MATH-500—
GSM8K—
闭源
20
Gemini 3.1 Pro PreviewGoogle Deep Mind
AIME2025—
FrontierMath - Tier 416.70
MATH-500—
GSM8K—
闭源
21
Gemini 3.1 Pro PreviewGoogle Deep Mind
开启思考
AIME2025—
FrontierMath - Tier 416.70
MATH-500—
GSM8K—
闭源
22
GPT-5.2OpenAI
开启思考
AIME2025—
FrontierMath - Tier 416.70
MATH-500—
GSM8K—
闭源
23
GPT-5-ProOpenAI
开启思考
AIME202596.70
FrontierMath - Tier 414.60
MATH-500—
GSM8K—
闭源
24
Muse SparkFacebook AI研究实验室
AIME2025—
FrontierMath - Tier 414.60
MATH-500—
GSM8K—
闭源
25
Muse SparkFacebook AI研究实验室
开启思考
AIME2025—
FrontierMath - Tier 414.60
MATH-500—
GSM8K—
闭源
26
Claude Opus 4.6Anthropic
开启思考
AIME2025—
FrontierMath - Tier 414.60
MATH-500—
GSM8K—
闭源
27
GPT-5.2OpenAI
思考水平 · 极高工具
AIME2025—
FrontierMath - Tier 414.60
MATH-500—
GSM8K—
闭源
28
GPT-5-ProOpenAI
AIME2025—
FrontierMath - Tier 414.60
MATH-500—
GSM8K—
闭源
29
GPT-5.1OpenAI
开启思考
AIME2025—
FrontierMath - Tier 412.50
MATH-500—
GSM8K—
闭源
30
GPT-5.1OpenAI
开启思考工具
AIME2025—
FrontierMath - Tier 412.50
MATH-500—
GSM8K—
闭源
31
GPT-5OpenAI
开启思考
AIME2025—
FrontierMath - Tier 412.50
MATH-500—
GSM8K—
闭源
32
Gemini 2.5 Deep ThinkGoogle Deep Mind
AIME2025—
FrontierMath - Tier 410.40
MATH-500—
GSM8K—
闭源
33
Gemini 2.5 Pro Deep ThinkGoogle Deep Mind
深度思考模式
AIME2025—
FrontierMath - Tier 410.40
MATH-500—
GSM8K—
闭源
34
Claude Sonnet 4.6Anthropic
开启思考
AIME2025—
FrontierMath - Tier 48.30
MATH-500—
GSM8K—
闭源
35
OpenAI o4 - miniOpenAI
开启思考
AIME2025—
FrontierMath - Tier 46.30
MATH-500—
GSM8K—
闭源
36
GPT-5OpenAI
开启思考
AIME2025—
FrontierMath - Tier 46.30
MATH-500—
GSM8K—
闭源
37
GPT-5-miniOpenAI
开启思考
AIME2025—
FrontierMath - Tier 46.30
MATH-500—
GSM8K—
闭源
38
GPT-5.2OpenAI
开启思考
AIME2025—
FrontierMath - Tier 46.30
MATH-500—
GSM8K—
闭源
39
GPT-5.4 nanoOpenAI
开启思考
AIME2025—
FrontierMath - Tier 46.30
MATH-500—
GSM8K—
闭源
40
Opus 4.1Anthropic
扩展思考
AIME202578.00
FrontierMath - Tier 44.20
MATH-500—
GSM8K—
闭源
41
OpenAI o3-miniOpenAI
开启思考
AIME2025—
FrontierMath - Tier 44.20
MATH-500—
GSM8K—
闭源
42
OpenAI o3-mini (high)OpenAI
思考水平 · 高
AIME2025—
FrontierMath - Tier 44.20
MATH-500—
GSM8K—
闭源
43
Gemini 2.5 Pro Experimental 03-25Google Deep Mind
AIME2025—
FrontierMath - Tier 44.20
MATH-500—
GSM8K—
闭源
44
Gemini 2.5 FlashGoogle Deep Mind
AIME2025—
FrontierMath - Tier 44.20
MATH-500—
GSM8K—
闭源
45
Claude Opus 4Anthropic
开启思考
AIME2025—
FrontierMath - Tier 44.20
MATH-500—
GSM8K—
闭源
46
Claude Opus 4Anthropic
开启思考
AIME2025—
FrontierMath - Tier 44.20
MATH-500—
GSM8K—
闭源
47
GPT-5-miniOpenAI
开启思考
AIME2025—
FrontierMath - Tier 44.20
MATH-500—
GSM8K—
闭源
48
Opus 4.1Anthropic
开启思考
AIME2025—
FrontierMath - Tier 44.20
MATH-500—
GSM8K—
闭源
49
Kimi K2.5Moonshot AI
AIME2025—
FrontierMath - Tier 44.20
MATH-500—
GSM8K—
免费商用
50
Opus 4.5Anthropic
开启思考
AIME2025—
FrontierMath - Tier 44.20
MATH-500—
GSM8K—
闭源
排序:
已显示 50 / 221 个模型查看 FrontierMath - Tier 4 基准测试完整页面