DataLearner 标志DataLearnerAI
最新AI资讯
大模型排行榜
大模型评测基准
大模型列表
大模型对比
资源中心
工具
语言中文
DataLearner 标志DataLearner AI

专注大模型评测、数据资源与实践教学的知识平台,持续更新可落地的 AI 能力图谱。

产品

  • 评测榜单
  • 模型对比
  • 数据资源

资源

  • 部署教程
  • 原创内容
  • 工具导航

关于

  • 关于我们
  • 隐私政策
  • 数据收集方法
  • 联系我们

© 2026 DataLearner AI. DataLearner 持续整合行业数据与案例,为科研、企业与开发者提供可靠的大模型情报与实践指南。

隐私政策服务条款
首页综合排行榜LMArena Math Arena 数学推理能力排行榜

LMArena 评测赛道

文本生成代码数学图像编辑文字生成视频图生视频文生图

LMArena Math Arena 数学推理能力排行榜

基于 LMArena Math Arena 用户匿名投票的最新AI大模型数学推理能力排行榜,涵盖各模型的 Elo 得分、95% 置信区间、投票量、机构与许可证。

榜首模型

qwen3.7-max-preview

最高得分

1495.00

模型数量

349

数据版本

2026年05月28日

数据来源: LM Arena

关于本排行榜

本排行榜展示了当前 AI 大模型在数学推理任务中的实力排名。数据来源于 LMArena 的 Math 子赛道,通过真实用户匿名盲测投票评估各模型在数学解题任务中的表现。

评测方法概要

匿名盲测:用户提出数学题目后,由两个"隐藏身份"的模型分别作答,用户投票选出解题更优的一方,排除品牌偏见。

Elo 评分:采用 Bradley-Terry 模型计算 Elo 分数,分数越高说明该模型在数学场景中被用户更频繁地选择。

来源:全部国产模型
榜单历史快照月份:

排名总表

排名模型名称得分95% CI投票数机构许可证
9Alibabaqwen3.7-max-previewAlibaba1495.00+/-40220AlibabaProprietary
11

数据仅供参考,以官方来源为准。模型名称旁的链接可跳转到 DataLearner 模型详情页。

常见问题 (FAQ)

01

什么是 LMArena Math Arena?

LMArena Math Arena 是 LMArena 旗下专注于数学推理能力的匿名评测平台。用户提交真实数学问题(如代数、几何、竞赛数学等),系统将不同模型的解题过程并排展示(隐藏模型名称),由用户投票选出更好的解答,最终通过 Elo 算法汇总形成动态排行榜。

02

Math Arena 与 MATH-500、AIME 等静态基准有什么区别?

MATH-500、AIME、AMC 等静态基准使用固定题目集和自动评分,可重现性强但容易被针对性优化("刷榜")。Math Arena 来自真实用户的开放式数学问题,测试内容不固定,更能反映模型在实际数学场景中的自然表现,两者互为补充。

03

思考模型(Thinking Model)在数学 Arena 中表现更好吗?

整体而言,具备思维链(Chain-of-Thought)或扩展推理能力的模型在数学 Arena 中往往排名更高。Claude Opus 系列 Thinking 模式、GPT 高算力模式以及 DeepSeek 思考版本均在榜单前列,说明延长推理时间对数学问题的解答质量有显著提升。

04

国产大模型在数学能力方面表现如何?

DeepSeek、Qwen3 系列、GLM 等国产模型在 Math Arena 表现亮眼,已跻身全球前列。DeepSeek 以 MIT 协议开源,Qwen3-235B 等系列支持中文数学场景,是选择开源数学推理模型的重要参考。

覆盖多种数学场景:包括代数、几何、计算推理、竞赛数学等多元化的真实数学任务。

DataLearner 在原始数据基础上提供中文解读与深度分析,并将排行榜模型关联至 DataLearner 模型库,方便您一键查看模型详情、API 定价、评测得分等完整信息。

Alibaba
qwen3.6-max-previewAlibaba
1492.00
+/-31
327
Alibaba
Proprietary
14Baiduernie-5.1Baidu1480.00+/-20836BaiduProprietary
15DeepSeekdeepseek-v4-pro-thinkingDeepSeek1479.00+/-20886DeepSeekMIT
17Moonshotkimi-k2.6Moonshot1478.00+/-19887MoonshotModified MIT
19Alibabaqwen3.5-max-previewAlibaba1472.00+/-161,272AlibabaProprietary
21Moonshot AIKimi K2 ThinkingMoonshot AI1472.00+/-122,259Moonshot AIModified MIT
32Alibabaqwen3.6-plusAlibaba1456.00+/-181,112AlibabaProprietary
39Bytedancedola-seed-2.0-proBytedance1450.00+/-132,260BytedanceProprietary
41DeepSeekdeepseek-v4-flashDeepSeek1446.00+/-19992DeepSeekMIT
47Moonshotkimi-k2.5-instantMoonshot1442.00+/-25515MoonshotModified MIT
48DeepSeekdeepseek-v4-flash-thinkingDeepSeek1441.00+/-19948DeepSeekMIT
50Moonshotkimi-k2-thinking-turboMoonshot1440.00+/-103,688MoonshotModified MIT
56DeepSeekdeepseek-v4-proDeepSeek1437.00+/-181,045DeepSeekMIT
62DeepSeek-AIDeepSeek V3.2DeepSeek-AI1430.00+/-112,954DeepSeek-AIMIT
63Alibabaqwen3-max-2025-09-23Alibaba1429.00+/-24584AlibabaProprietary
65DeepSeek-AIDeepSeek V3.2-Exp (thinking)DeepSeek-AI1429.00+/-26481DeepSeek-AIMIT
67Tencenthunyuan-hy3-previewTencent1428.00+/-28378Tencenttencent-hunyuan-community
69Alibabaqwen3.5-27bAlibaba1428.00+/-151,561AlibabaApache 2.0
72DeepSeek-AIDeepSeek V3.2 (thinking)DeepSeek-AI1426.00+/-122,456DeepSeek-AIMIT
76Alibabaqwen3.5-122b-a10bAlibaba1422.00+/-141,682AlibabaApache 2.0
81Alibabaqwen3-next-80b-a3b-instructAlibaba1419.00+/-171,212AlibabaApache 2.0
82DeepSeek-AIDeepSeek V3.2-ExpDeepSeek-AI1418.00+/-21775DeepSeek-AIMIT
84Moonshotkimi-k2-0905-previewMoonshot1416.00+/-21759MoonshotModified MIT
86DeepSeek-AIDeepSeek-V3.1DeepSeek-AI1415.00+/-18992DeepSeek-AIMIT
87MiniMaxAIMiniMax-M2.7MiniMaxAI1415.00+/-161,378MiniMaxAIModified MIT
88DeepSeek-AIDeepSeek-V3.1 (thinking)DeepSeek-AI1414.00+/-22665DeepSeek-AIMIT
93DeepSeek-AIDeepSeek-R1DeepSeek-AI1411.00+/-141,606DeepSeek-AIMIT
94DeepSeekdeepseek-v3.1-terminus-thinkingDeepSeek1410.00+/-41200DeepSeekMIT
101StepFunAIStep 3.5 FlashStepFunAI1406.00+/-132,146StepFunAIApache 2.0
104Alibabaqwen3-vl-235b-a22b-thinkingAlibaba1405.00+/-28428AlibabaApache 2.0
108Alibabaqwen3.5-flashAlibaba1403.00+/-141,865AlibabaProprietary
110Alibabaqwen3.5-35b-a3bAlibaba1402.00+/-141,666AlibabaApache 2.0
111Tencenthunyuan-t1-20250711Tencent1402.00+/-38236TencentProprietary
115Alibabaqwen3-32bAlibaba1399.00+/-30316AlibabaApache 2.0
116Alibabaqwen3-235b-a22b-thinking-2507Alibaba1398.00+/-24490AlibabaApache 2.0
117MiniMaxAIMiniMax M2.5MiniMaxAI1398.00+/-132,188MiniMaxAIModified MIT
119DeepSeek-AIDeepSeek-R1-0528DeepSeek-AI1396.00+/-20869DeepSeek-AIMIT
121DeepSeek-AIDeepSeek-V3.1 TerminusDeepSeek-AI1395.00+/-39218DeepSeek-AIMIT
123Alibabaqwen3-235b-a22b-no-thinkingAlibaba1394.00+/-122,390AlibabaApache 2.0
124Alibabaqwen3-235b-a22bAlibaba1393.00+/-141,604AlibabaApache 2.0
125MiniMaxminimax-m2.1-previewMiniMax1393.00+/-181,010MiniMaxMIT
128Alibabaqwen3-next-80b-a3b-thinkingAlibaba1389.00+/-20829AlibabaApache 2.0
131Moonshot AIKimi K2Moonshot AI1388.00+/-141,694Moonshot AIModified MIT
138Alibabaqwen3-30b-a3b-instruct-2507Alibaba1381.00+/-151,427AlibabaApache 2.0
141Alibabaqwen3-coder-480b-a35b-instructAlibaba1377.00+/-151,627AlibabaApache 2.0
146MiniMaxminimax-m1MiniMax1371.00+/-131,799MiniMaxApache 2.0
147DeepSeek-AIDeepSeek-V3-0324DeepSeek-AI1370.00+/-103,191DeepSeek-AIMIT
152Alibabaqwen2.5-maxAlibaba1364.00+/-103,306AlibabaProprietary
153Alibabaqwq-32bAlibaba1364.00+/-141,720AlibabaApache 2.0
154StepFunstep-3StepFun1364.00+/-31353StepFunApache 2.0
159MiniMaxminimax-m2MiniMax1357.00+/-33318MiniMaxApache 2.0
164Alibabaqwen3-30b-a3bAlibaba1353.00+/-141,708AlibabaApache 2.0
167Tencenthunyuan-turbos-20250416Tencent1348.00+/-20845TencentProprietary
176Alibabaqwen-plus-0125Alibaba1324.00+/-19732AlibabaProprietary
183StepFunstep-2-16k-exp-202412StepFun1313.00+/-20642StepFunProprietary
187DeepSeekdeepseek-v3DeepSeek1311.00+/-112,721DeepSeekDeepSeek
195Alibabaqwen2.5-plus-1127Alibaba1305.00+/-141,404AlibabaProprietary
197Tencenthunyuan-turbos-20250226Tencent1301.00+/-31238TencentProprietary
198StepFunstep-1o-turbo-202506StepFun1300.00+/-24564StepFunProprietary
203Alibabaqwen2.5-72b-instructAlibaba1296.00+/-85,415AlibabaQwen
207Tencenthunyuan-large-2025-02-10Tencent1293.00+/-24497TencentProprietary
208DeepSeekdeepseek-v2.5-1210DeepSeek1293.00+/-171,031DeepSeekDeepSeek
209Alibabaqwen-max-0919Alibaba1291.00+/-122,249AlibabaQwen
210Tencenthunyuan-standard-2025-02-10Tencent1290.00+/-24499TencentProprietary
213DeepSeekdeepseek-v2.5DeepSeek1288.00+/-103,649DeepSeekDeepSeek
219Tencenthunyuan-large-visionTencent1280.00+/-30351TencentProprietary
220Tencenthunyuan-turbo-0110Tencent1279.00+/-31243TencentProprietary
227Alibabaqwen2-72b-instructAlibaba1273.00+/-94,835AlibabaQianwen LICENSE
229DeepSeekdeepseek-coder-v2DeepSeek1271.00+/-131,858DeepSeekDeepSeek License
231Alibabaqwen2.5-coder-32b-instructAlibaba1270.00+/-19725AlibabaApache 2.0
244Tencenthunyuan-standard-256kTencent1250.00+/-29361TencentProprietary
259Alibabaqwen1.5-110b-chatAlibaba1221.00+/-113,188AlibabaQianwen LICENSE
264Alibabaqwq-32b-previewAlibaba1213.00+/-24480AlibabaApache 2.0
268Alibabaqwen1.5-72b-chatAlibaba1208.00+/-105,327AlibabaQianwen LICENSE
269INinternlm2_5-20b-chatInternLM1207.00+/-151,387InternLMOther
274Alibabaqwen1.5-32b-chatAlibaba1200.00+/-122,649AlibabaQianwen LICENSE
293Alibabaqwen1.5-14b-chatAlibaba1167.00+/-132,184AlibabaQianwen LICENSE
301DeepSeekdeepseek-llm-67b-chatDeepSeek1155.00+/-23576DeepSeekDeepSeek License
311Alibabaqwen-14b-chatAlibaba1125.00+/-24534AlibabaQianwen LICENSE
315Alibabaqwen1.5-7b-chatAlibaba1120.00+/-20690AlibabaQianwen LICENSE
327Alibabaqwen1.5-4b-chatAlibaba1085.00+/-18988AlibabaQianwen LICENSE