大模型数学推理能力评测排行榜

本页面提供最新、最全面的大模型数学推理能力评测排行榜。我们通过 AIME 2025、FrontierMath-Tier4、MATH-500、GSM8K 等权威数学基准数据集，对包括 OpenAI 的 GPT、Anthropic 的 Claude、阿里巴巴的 Qwen、DeepSeek 等模型进行评测。

数据更新于 2026-04-28 13:44:17

截至 2026年4月，本页覆盖 AIME2025, FrontierMath - Tier 4, MATH-500, GSM8K 等评测基准，聚焦 大模型数学推理能力评测排行榜 方向的模型对比。

点击模型名称可进入详情页查看上下文长度、许可方式与 API 价格。数据口径说明见数据方法论。

基准评测

AIME2025 FrontierMath - Tier 4 MATH-500 GSM8K

更多评测

参数规模:全部 3B及以下 7B 13B 34B 65B 100B及以上

模型类型:全部推理大模型基座大模型指令优化/聊天优化大模型编程大模型

开源：全部开源闭源

来源：全部国产模型

模型发布时间截止:

榜单亮点

按 MATH-500 排序

当前 SOTA

Gemini-2.5-Pro-Preview-05-06

Google Deep Mind

98.80MATH-500

查看详情

最佳开源

GLM-4.5

智谱AI

98.20MATH-500−0.60

查看详情

最佳国产

GLM-4.5-Air

智谱AI

98.10MATH-500−0.70

查看详情

大模型性能评测结果

数据来源：DataLearnerAI

点击任意行查看模型详情；勾选左侧可对比最多 4 个模型。

排名	模型					开源情况
	Gemini-2.5-Pro-Preview-05-06 Google Deep Mind	83.00	2.10	98.80	—	闭源	详情
	Gemini 2.5-Pro Google Deep Mind	—	—	98.80	—	闭源	详情
	Claude Opus 4 Anthropic	75.50	—	98.20	—	闭源	详情
4	GLM-4.5 开启思考智谱AI	—	—	98.20	—	免费商用	详情
5	OpenAI o3 OpenAI	—	—	98.10	—	闭源	详情
6	GLM-4.5-Air 开启思考智谱AI	—	—	98.10	—	免费商用	详情
7	DeepSeek-R1-0528 开启思考 DeepSeek-AI	87.50	—	98.00	—	免费商用	详情
8	Qwen3-235B-A22B 开启思考阿里巴巴	81.50	—	98.00	—	免费商用	详情
9	OpenAI o3-mini (high) OpenAI	—	—	97.90	—	闭源	详情
10	Claude Opus 4.6 扩展思考 Anthropic	99.79	—	97.60	—	闭源	详情
11	Qwen3-8B 开启思考阿里巴巴	67.30	—	97.40	—	免费商用	详情
12	Kimi K2 Moonshot AI	54.00	0.01	97.40	—	免费商用	详情
13	DeepSeek-R1 DeepSeek-AI	70.00	—	97.30	—	免费商用	详情
14	Qwen3-32B 开启思考阿里巴巴	72.90	—	97.20	—	免费商用	详情
15	MiniMax-M1-80k MiniMaxAI	76.90	—	96.80	—	免费商用	详情
16	Pangu Pro MoE 华为	68.10	—	96.80	—	免费商用	详情
17	ERNIE-4.5-300B-A47B 百度	35.10	—	96.40	96.60	免费商用	详情
18	OpenAI o1 OpenAI	—	—	96.40	—	闭源	详情
19	Qwen3-235B-A22B 阿里巴巴	24.70	—	96.20	96.40	免费商用	详情
20	Claude Sonnet 3.7-64K Extended Thinking Anthropic	—	—	96.20	—	闭源	详情
21	Kimi k1.5 (Long-CoT) 普林斯顿大学	—	—	96.20	—	闭源	详情
22	Hunyuan-T1 腾讯AI实验室	—	—	96.20	—	闭源	详情
23	MiniMax-M1-40k MiniMaxAI	74.60	—	96.00	—	免费商用	详情
24	OpenAI o3-mini 开启思考 OpenAI	86.50	—	95.80	—	闭源	详情
25	Llama 4 Behemoth Instruct Facebook AI研究实验室	—	—	95.00	—	免费商用	详情
26	Kimi k1.5 (Short-CoT) Moonshot AI	—	—	94.60	—	闭源	详情
27	DeepSeek-R1-Distill-Llama-70B DeepSeek-AI	—	—	94.50	—	免费商用	详情
28	DeepSeek-V3-0324 DeepSeek-AI	47.70	—	94.00	96.30	免费商用	详情
29	Hunyuan-7B Tencent ARC	75.30	—	93.70	—	免费商用	详情
30	GPT-4.1 OpenAI	36.70	—	92.80	95.90	闭源	详情
31	Pangu Embedded 华为	—	—	92.40	95.98	免费商用	详情
32	DeepSeek-R1-Distill-Qwen-7B DeepSeek-AI	—	—	91.40	—	免费商用	详情
33	QwQ-32B 阿里巴巴	—	—	91.00	—	免费商用	详情
34	GPT-4.5 OpenAI	—	—	90.70	—	闭源	详情
35	QwQ-32B-Preview 阿里巴巴	—	—	90.60	—	免费商用	详情
36	Phi-4-instruct (reasoning-trained) Microsoft Azure	—	—	90.40	—	闭源	详情
37	OpenAI o1-mini OpenAI	—	—	90.00	—	闭源	详情
38	Qwen3-32B 阿里巴巴	20.20	—	88.60	—	免费商用	详情
39	DeepSeek-V3 DeepSeek-AI	—	—	87.80	—	免费商用	详情
40	Qwen3-8B 阿里巴巴	20.90	—	87.40	—	免费商用	详情
41	Claude Sonnet 3.7 Anthropic	54.80	—	82.20	—	闭源	详情
42	Claude 3.5 Sonnet New Anthropic	—	—	78.00	—	闭源	详情
43	GPT-4o OpenAI	—	—	75.90	—	闭源	详情
44	Phi-4-mini-instruct (3.8B) Microsoft Azure	—	—	71.80	88.60	免费商用	详情
45	Step 3.5 Flash 开启思考工具 StepFunAI	99.80	—	—	—	免费商用	详情
46	Gemini 3.0 Flash 开启思考工具 Google Deep Mind	99.70	—	—	—	闭源	详情
47	GPT-5 开启思考工具 OpenAI	99.60	—	—	—	闭源	详情
48	OpenAI o4 - mini 开启思考工具 OpenAI	99.50	—	—	—	闭源	详情
49	Gemini 2.5 Deep Think 深度思考模式 Google Deep Mind	99.20	—	—	—	闭源	详情
50	Kimi K2 Thinking 开启思考工具 Moonshot AI	99.10	—	—	—	免费商用	详情

Gemini-2.5-Pro-Preview-05-06 Google Deep Mind

AIME202583.00

FrontierMath - Tier 42.10

MATH-50098.80

GSM8K—

闭源

Gemini 2.5-Pro Google Deep Mind

AIME2025—

FrontierMath - Tier 4—

MATH-50098.80

GSM8K—

闭源

Claude Opus 4 Anthropic

AIME202575.50

FrontierMath - Tier 4—

MATH-50098.20

GSM8K—

闭源

GLM-4.5 智谱AI

开启思考

AIME2025—

FrontierMath - Tier 4—

MATH-50098.20

GSM8K—

免费商用

OpenAI o3 OpenAI

AIME2025—

FrontierMath - Tier 4—

MATH-50098.10

GSM8K—

闭源

GLM-4.5-Air 智谱AI

开启思考

AIME2025—

FrontierMath - Tier 4—

MATH-50098.10

GSM8K—

免费商用

DeepSeek-R1-0528 DeepSeek-AI

开启思考

AIME202587.50

FrontierMath - Tier 4—

MATH-50098.00

GSM8K—

免费商用

Qwen3-235B-A22B 阿里巴巴

开启思考

AIME202581.50

FrontierMath - Tier 4—

MATH-50098.00

GSM8K—

免费商用

OpenAI o3-mini (high)OpenAI

AIME2025—

FrontierMath - Tier 4—

MATH-50097.90

GSM8K—

闭源

Claude Opus 4.6 Anthropic

扩展思考

AIME202599.79

FrontierMath - Tier 4—

MATH-50097.60

GSM8K—

闭源

Qwen3-8B 阿里巴巴

开启思考

AIME202567.30

FrontierMath - Tier 4—

MATH-50097.40

GSM8K—

免费商用

Kimi K2 Moonshot AI

AIME202554.00

FrontierMath - Tier 40.01

MATH-50097.40

GSM8K—

免费商用

DeepSeek-R1 DeepSeek-AI

AIME202570.00

FrontierMath - Tier 4—

MATH-50097.30

GSM8K—

免费商用

Qwen3-32B 阿里巴巴

开启思考

AIME202572.90

FrontierMath - Tier 4—

MATH-50097.20

GSM8K—

免费商用

MiniMax-M1-80k MiniMaxAI

AIME202576.90

FrontierMath - Tier 4—

MATH-50096.80

GSM8K—

免费商用

Pangu Pro MoE 华为

AIME202568.10

FrontierMath - Tier 4—

MATH-50096.80

GSM8K—

免费商用

ERNIE-4.5-300B-A47B 百度

AIME202535.10

FrontierMath - Tier 4—

MATH-50096.40

GSM8K96.60

免费商用

OpenAI o1 OpenAI

AIME2025—

FrontierMath - Tier 4—

MATH-50096.40

GSM8K—

闭源

Qwen3-235B-A22B 阿里巴巴

AIME202524.70

FrontierMath - Tier 4—

MATH-50096.20

GSM8K96.40

免费商用

Claude Sonnet 3.7-64K Extended Thinking Anthropic

AIME2025—

FrontierMath - Tier 4—

MATH-50096.20

GSM8K—

闭源

Kimi k1.5 (Long-CoT)普林斯顿大学

AIME2025—

FrontierMath - Tier 4—

MATH-50096.20

GSM8K—

闭源

Hunyuan-T1 腾讯AI实验室

AIME2025—

FrontierMath - Tier 4—

MATH-50096.20

GSM8K—

闭源

MiniMax-M1-40k MiniMaxAI

AIME202574.60

FrontierMath - Tier 4—

MATH-50096.00

GSM8K—

免费商用

OpenAI o3-mini OpenAI

开启思考

AIME202586.50

FrontierMath - Tier 4—

MATH-50095.80

GSM8K—

闭源

Llama 4 Behemoth Instruct Facebook AI研究实验室

AIME2025—

FrontierMath - Tier 4—

MATH-50095.00

GSM8K—

免费商用

Kimi k1.5 (Short-CoT)Moonshot AI

AIME2025—

FrontierMath - Tier 4—

MATH-50094.60

GSM8K—

闭源

DeepSeek-R1-Distill-Llama-70B DeepSeek-AI

AIME2025—

FrontierMath - Tier 4—

MATH-50094.50

GSM8K—

免费商用

DeepSeek-V3-0324 DeepSeek-AI

AIME202547.70

FrontierMath - Tier 4—

MATH-50094.00

GSM8K96.30

免费商用

Hunyuan-7B Tencent ARC

AIME202575.30

FrontierMath - Tier 4—

MATH-50093.70

GSM8K—

免费商用

GPT-4.1 OpenAI

AIME202536.70

FrontierMath - Tier 4—

MATH-50092.80

GSM8K95.90

闭源

Pangu Embedded 华为

AIME2025—

FrontierMath - Tier 4—

MATH-50092.40

GSM8K95.98

免费商用

DeepSeek-R1-Distill-Qwen-7B DeepSeek-AI

AIME2025—

FrontierMath - Tier 4—

MATH-50091.40

GSM8K—

免费商用

QwQ-32B 阿里巴巴

AIME2025—

FrontierMath - Tier 4—

MATH-50091.00

GSM8K—

免费商用

GPT-4.5 OpenAI

AIME2025—

FrontierMath - Tier 4—

MATH-50090.70

GSM8K—

闭源

QwQ-32B-Preview 阿里巴巴

AIME2025—

FrontierMath - Tier 4—

MATH-50090.60

GSM8K—

免费商用

Phi-4-instruct (reasoning-trained)Microsoft Azure

AIME2025—

FrontierMath - Tier 4—

MATH-50090.40

GSM8K—

闭源

OpenAI o1-mini OpenAI

AIME2025—

FrontierMath - Tier 4—

MATH-50090.00

GSM8K—

闭源

Qwen3-32B 阿里巴巴

AIME202520.20

FrontierMath - Tier 4—

MATH-50088.60

GSM8K—

免费商用

DeepSeek-V3 DeepSeek-AI

AIME2025—

FrontierMath - Tier 4—

MATH-50087.80

GSM8K—

免费商用

Qwen3-8B 阿里巴巴

AIME202520.90

FrontierMath - Tier 4—

MATH-50087.40

GSM8K—

免费商用

Claude Sonnet 3.7 Anthropic

AIME202554.80

FrontierMath - Tier 4—

MATH-50082.20

GSM8K—

闭源

Claude 3.5 Sonnet New Anthropic

AIME2025—

FrontierMath - Tier 4—

MATH-50078.00

GSM8K—

闭源

GPT-4o OpenAI

AIME2025—

FrontierMath - Tier 4—

MATH-50075.90

GSM8K—

闭源

Phi-4-mini-instruct (3.8B)Microsoft Azure

AIME2025—

FrontierMath - Tier 4—

MATH-50071.80

GSM8K88.60

免费商用

Step 3.5 Flash StepFunAI

开启思考工具

AIME202599.80

FrontierMath - Tier 4—

MATH-500—

GSM8K—

免费商用

Gemini 3.0 Flash Google Deep Mind

开启思考工具

AIME202599.70

FrontierMath - Tier 4—

MATH-500—

GSM8K—

闭源

GPT-5 OpenAI

开启思考工具

AIME202599.60

FrontierMath - Tier 4—

MATH-500—

GSM8K—

闭源

OpenAI o4 - mini OpenAI

开启思考工具

AIME202599.50

FrontierMath - Tier 4—

MATH-500—

GSM8K—

闭源

Gemini 2.5 Deep Think Google Deep Mind

深度思考模式

AIME202599.20

FrontierMath - Tier 4—

MATH-500—

GSM8K—

闭源

Kimi K2 Thinking Moonshot AI

开启思考工具

AIME202599.10

FrontierMath - Tier 4—

MATH-500—

GSM8K—

免费商用

排序：

已显示 50 / 221 个模型查看 MATH-500 基准测试完整页面