DataLearner 标志DataLearnerAI
最新AI资讯
大模型排行榜
大模型评测基准
大模型列表
大模型对比
资源中心
工具
语言中文
DataLearner 标志DataLearner AI

专注大模型评测、数据资源与实践教学的知识平台,持续更新可落地的 AI 能力图谱。

产品

  • 评测榜单
  • 模型对比
  • 数据资源

资源

  • 部署教程
  • 原创内容
  • 工具导航

关于

  • 关于我们
  • 隐私政策
  • 数据收集方法
  • 联系我们

© 2026 DataLearner AI. DataLearner 持续整合行业数据与案例,为科研、企业与开发者提供可靠的大模型情报与实践指南。

隐私政策服务条款
返回总榜单

大模型数学推理能力评测排行榜

本页面提供最新、最全面的大模型数学推理能力评测排行榜。我们通过 AIME 2025、FrontierMath-Tier4、MATH-500、GSM8K 等权威数学基准数据集,对包括 OpenAI 的 GPT、Anthropic 的 Claude、阿里巴巴的 Qwen、DeepSeek 等模型进行评测。

数据更新于 2026-04-28 13:44:17

截至 2026年4月,本页覆盖 AIME2025, FrontierMath - Tier 4, MATH-500, GSM8K 等评测基准,聚焦 大模型数学推理能力评测排行榜 方向的模型对比。

点击模型名称可进入详情页查看上下文长度、许可方式与 API 价格。数据口径说明见 数据方法论。

基准评测
AIME2025FrontierMath - Tier 4MATH-500GSM8K
更多评测
参数规模:全部3B及以下7B13B34B

大模型性能评测结果

数据来源:DataLearnerAI
暂无图表数据
排名模型开源情况
OpenAI
GPT OSS 20B
98.70———免费商用
阿里巴巴
Qwen3-235B-A22B-Thinking
92.30———免费商用
智谱AI
GLM-4.7-Flash
91.60———免费商用
4
阿里巴巴
Qwen3-32B
72.90—97.20—免费商用
5
MistralAI
Magistral-Small-2506
62.76———免费商用
6
阿里巴巴
Qwen3-30B-A3B-2507
61.30———免费商用
7
阿里巴巴
Qwen3-30B-A3B
21.60———免费商用
8
阿里巴巴
Qwen2.5-32B
———95.90免费商用
9
Google Deep Mind
Gemma 3 - 27B (IT)
———95.90免费商用
10
Google Deep Mind
Gemma2-27B
———74.00免费商用
11
阿里巴巴
QwQ-32B
——91.00—免费商用
12
阿里巴巴
QwQ-32B-Preview
——90.60—免费商用
GPT OSS 20B
AIME202598.70
FrontierMath - Tier 4—
MATH-500—
GSM8K—
免费商用
Qwen3-235B-A22B-Thinking
AIME202592.30
FrontierMath - Tier 4—
MATH-500—
GSM8K—
免费商用
GLM-4.7-Flash
AIME202591.60
FrontierMath - Tier 4—
MATH-500—
GSM8K—
免费商用
4
Qwen3-32B
AIME202572.90
FrontierMath - Tier 4—
MATH-50097.20
GSM8K—
免费商用
5
Magistral-Small-2506
AIME202562.76
FrontierMath - Tier 4—
MATH-500—
GSM8K—
免费商用
6
Qwen3-30B-A3B-2507
AIME202561.30
FrontierMath - Tier 4—
MATH-500—
GSM8K—
免费商用
7
Qwen3-30B-A3B
AIME202521.60
FrontierMath - Tier 4—
MATH-500—
GSM8K—
免费商用
8
Qwen2.5-32B
AIME2025—
FrontierMath - Tier 4—
MATH-500—
GSM8K95.90
免费商用
9
Gemma 3 - 27B (IT)
AIME2025—
FrontierMath - Tier 4—
MATH-500—
GSM8K95.90
免费商用
10
Gemma2-27B
AIME2025—
FrontierMath - Tier 4—
MATH-500—
GSM8K74.00
免费商用
11
QwQ-32B
AIME2025—
FrontierMath - Tier 4—
MATH-50091.00
GSM8K—
免费商用
12
QwQ-32B-Preview
AIME2025—
FrontierMath - Tier 4—
MATH-50090.60
GSM8K—
免费商用
排序:
65B
100B及以上
模型类型:全部推理大模型基座大模型指令优化/聊天优化大模型编程大模型
开源:全部开源闭源
模型发布时间截止: