DataLearner 标志DataLearnerAI
最新AI资讯
大模型排行榜
大模型评测基准
大模型列表
大模型对比
资源中心
工具
语言中文
DataLearner 标志DataLearner AI

专注大模型评测、数据资源与实践教学的知识平台,持续更新可落地的 AI 能力图谱。

产品

  • 评测榜单
  • 模型对比
  • 数据资源

资源

  • 部署教程
  • 原创内容
  • 工具导航

关于

  • 关于我们
  • 隐私政策
  • 数据收集方法
  • 联系我们

© 2026 DataLearner AI. DataLearner 持续整合行业数据与案例,为科研、企业与开发者提供可靠的大模型情报与实践指南。

隐私政策服务条款
返回总榜单

大模型数学推理能力评测排行榜

本页面提供最新、最全面的大模型数学推理能力评测排行榜。我们通过 AIME 2025、FrontierMath-Tier4、MATH-500、GSM8K 等权威数学基准数据集,对包括 OpenAI 的 GPT、Anthropic 的 Claude、阿里巴巴的 Qwen、DeepSeek 等模型进行评测。

数据更新于 2026-04-28 13:44:17

截至 2026年4月,本页覆盖 AIME2025, FrontierMath - Tier 4, MATH-500, GSM8K 等评测基准,聚焦 大模型数学推理能力评测排行榜 方向的模型对比。

点击模型名称可进入详情页查看上下文长度、许可方式与 API 价格。数据口径说明见 数据方法论。

基准评测
AIME2025FrontierMath - Tier 4MATH-500GSM8K
更多评测
参数规模:全部3B及以下7B13B34B65B100B及以上
模型类型:全部推理大模型基座大模型指令优化/聊天优化大模型编程大模型
开源:全部开源闭源
模型发布时间截止:

大模型性能评测结果

数据来源:DataLearnerAI
排名模型开源情况
OpenAI
GPT-5.5 Pro
思考水平 · 极高工具
—39.60——不开源
OpenAI
GPT-5.5 Pro
思考水平 · 高
—39.60——不开源
OpenAI
GPT-5.5 Pro
思考水平 · 极高
—39.60——不开源
4
OpenAI
GPT-5.4 Pro
思考水平 · 高
—38.00——不开源
5
OpenAI
GPT-5.4 Pro
常规模式工具联网
—37.50——不开源
6
OpenAI
GPT-5.4 Pro
思考水平 · 极高
—37.50——不开源
7
OpenAI
GPT-5.5
思考水平 · 极高
—35.40——不开源
8
OpenAI
GPT-5.5
思考水平 · 高工具
—35.40——不开源
9
OpenAI
GPT-5.2 Pro
常规模式工具联网
—31.30——不开源
10
OpenAI
GPT-5.2 Pro
开启思考
—31.30——不开源
11
OpenAI
GPT-5.4
思考水平 · 极高
—27.10——不开源
12
Anthropic
Opus 4.7
思考水平 · 极高
—22.90——不开源
13
Anthropic
Claude Opus 4.6
思考水平 · 高
—22.90——不开源
14
Anthropic
Claude Opus 4.6
思考水平 · 中
—20.80——不开源
15
Anthropic
Claude Opus 4.6
开启思考
—20.80——不开源
16
Google Deep Mind
Gemini 3.0 Pro (Preview 11-2025)
开启思考
95.0018.80——不开源
17
OpenAI
GPT-5.2
思考水平 · 极高
—18.80——不开源
18
OpenAI
GPT-5.2
思考水平 · 高
—18.80——不开源
19
Google Deep Mind
Gemini 3.0 Pro (Preview 11-2025)
—18.80——不开源
20
Google Deep Mind
Gemini 3.1 Pro Preview
—16.70——不开源
21
Google Deep Mind
Gemini 3.1 Pro Preview
思考水平 · 高
—16.70——不开源
22
OpenAI
GPT-5.2
思考水平 · 中
—16.70——不开源
23
OpenAI
GPT-5-Pro
开启思考
96.7014.60——不开源
24
Facebook AI研究实验室
Muse Spark
—14.60——不开源
25
Facebook AI研究实验室
Muse Spark
开启思考
—14.60——不开源
26
Anthropic
Claude Opus 4.6
思考水平 · 高
—14.60——不开源
27
OpenAI
GPT-5.2
思考水平 · 极高工具
—14.60——不开源
28
OpenAI
GPT-5-Pro
—14.60——不开源
29
OpenAI
GPT-5.1
思考水平 · 高
—12.50——不开源
30
OpenAI
GPT-5.1
思考水平 · 高工具
—12.50——不开源
GPT-5.5 Pro
思考水平 · 极高工具
AIME2025—
FrontierMath - Tier 439.60
MATH-500—
GSM8K—
不开源
GPT-5.5 Pro
思考水平 · 高
AIME2025—
FrontierMath - Tier 439.60
MATH-500—
GSM8K—
不开源
GPT-5.5 Pro
思考水平 · 极高
AIME2025—
FrontierMath - Tier 439.60
MATH-500—
GSM8K—
不开源
4
GPT-5.4 Pro
思考水平 · 高
AIME2025—
FrontierMath - Tier 438.00
MATH-500—
GSM8K—
不开源
5
GPT-5.4 Pro
常规模式工具联网
AIME2025—
FrontierMath - Tier 437.50
MATH-500—
GSM8K—
不开源
6
GPT-5.4 Pro
思考水平 · 极高
AIME2025—
FrontierMath - Tier 437.50
MATH-500—
GSM8K—
不开源
7
GPT-5.5
思考水平 · 极高
AIME2025—
FrontierMath - Tier 435.40
MATH-500—
GSM8K—
不开源
8
GPT-5.5
思考水平 · 高工具
AIME2025—
FrontierMath - Tier 435.40
MATH-500—
GSM8K—
不开源
9
GPT-5.2 Pro
常规模式工具联网
AIME2025—
FrontierMath - Tier 431.30
MATH-500—
GSM8K—
不开源
10
GPT-5.2 Pro
开启思考
AIME2025—
FrontierMath - Tier 431.30
MATH-500—
GSM8K—
不开源
11
GPT-5.4
思考水平 · 极高
AIME2025—
FrontierMath - Tier 427.10
MATH-500—
GSM8K—
不开源
12
Opus 4.7
思考水平 · 极高
AIME2025—
FrontierMath - Tier 422.90
MATH-500—
GSM8K—
不开源
13
Claude Opus 4.6
思考水平 · 高
AIME2025—
FrontierMath - Tier 422.90
MATH-500—
GSM8K—
不开源
14
Claude Opus 4.6
思考水平 · 中
AIME2025—
FrontierMath - Tier 420.80
MATH-500—
GSM8K—
不开源
15
Claude Opus 4.6
开启思考
AIME2025—
FrontierMath - Tier 420.80
MATH-500—
GSM8K—
不开源
16
Gemini 3.0 Pro (Preview 11-2025)
开启思考
AIME202595.00
FrontierMath - Tier 418.80
MATH-500—
GSM8K—
不开源
17
GPT-5.2
思考水平 · 极高
AIME2025—
FrontierMath - Tier 418.80
MATH-500—
GSM8K—
不开源
18
GPT-5.2
思考水平 · 高
AIME2025—
FrontierMath - Tier 418.80
MATH-500—
GSM8K—
不开源
19
Gemini 3.0 Pro (Preview 11-2025)
AIME2025—
FrontierMath - Tier 418.80
MATH-500—
GSM8K—
不开源
20
Gemini 3.1 Pro Preview
AIME2025—
FrontierMath - Tier 416.70
MATH-500—
GSM8K—
不开源
21
Gemini 3.1 Pro Preview
思考水平 · 高
AIME2025—
FrontierMath - Tier 416.70
MATH-500—
GSM8K—
不开源
22
GPT-5.2
思考水平 · 中
AIME2025—
FrontierMath - Tier 416.70
MATH-500—
GSM8K—
不开源
23
GPT-5-Pro
开启思考
AIME202596.70
FrontierMath - Tier 414.60
MATH-500—
GSM8K—
不开源
24
Muse Spark
AIME2025—
FrontierMath - Tier 414.60
MATH-500—
GSM8K—
不开源
25
Muse Spark
开启思考
AIME2025—
FrontierMath - Tier 414.60
MATH-500—
GSM8K—
不开源
26
Claude Opus 4.6
思考水平 · 高
AIME2025—
FrontierMath - Tier 414.60
MATH-500—
GSM8K—
不开源
27
GPT-5.2
思考水平 · 极高工具
AIME2025—
FrontierMath - Tier 414.60
MATH-500—
GSM8K—
不开源
28
GPT-5-Pro
AIME2025—
FrontierMath - Tier 414.60
MATH-500—
GSM8K—
不开源
29
GPT-5.1
思考水平 · 高
AIME2025—
FrontierMath - Tier 412.50
MATH-500—
GSM8K—
不开源
30
GPT-5.1
思考水平 · 高工具
AIME2025—
FrontierMath - Tier 412.50
MATH-500—
GSM8K—
不开源
排序:
查看全部 221 个模型的 FrontierMath - Tier 4 完整排名