大模型数学推理能力评测排行榜

本页面提供最新、最全面的大模型数学推理能力评测排行榜。我们通过 AIME 2025、FrontierMath-Tier4、MATH-500、GSM8K 等权威数学基准数据集，对包括 OpenAI 的 GPT、Anthropic 的 Claude、阿里巴巴的 Qwen、DeepSeek 等模型进行评测。

数据更新于 2026-04-28 13:44:17

截至 2026年4月，本页覆盖 AIME2025, FrontierMath - Tier 4, MATH-500, GSM8K 等评测基准，聚焦 大模型数学推理能力评测排行榜 方向的模型对比。

点击模型名称可进入详情页查看上下文长度、许可方式与 API 价格。数据口径说明见数据方法论。

基准评测

AIME2025 FrontierMath - Tier 4 MATH-500 GSM8K

更多评测

参数规模:全部 3B及以下 7B 13B 34B 65B 100B及以上

模型类型:全部推理大模型基座大模型指令优化/聊天优化大模型编程大模型

开源：全部开源闭源

来源：全部国产模型

模型发布时间截止:

榜单亮点

按 MATH-500 排序

当前 SOTA

Pangu Pro MoE

华为

96.80MATH-500

查看详情

最佳开源

DeepSeek-R1-Distill-Llama-70B

DeepSeek-AI

94.50MATH-500−2.30

查看详情

最佳国产

Hunyuan-A13B-Instruct

腾讯AI实验室

—MATH-500

查看详情

大模型性能评测结果

数据来源：DataLearnerAI

点击任意行查看模型详情；勾选左侧可对比最多 4 个模型。

排名	模型					开源情况
	Pangu Pro MoE 华为	68.10	—	96.80	—	免费商用	详情
	DeepSeek-R1-Distill-Llama-70B DeepSeek-AI	—	—	94.50	—	免费商用	详情
	Hunyuan-A13B-Instruct 腾讯AI实验室	76.80	—	—	91.83	免费商用	详情
4	Qwen3-Next 阿里巴巴	69.50	—	—	90.30	免费商用	详情
5	Qwen2.5-72B 阿里巴巴	—	—	—	91.50	免费商用	详情