MATH-500
在评估大型语言模型(LLM)的数学推理能力时,MATH和MATH-500是两个备受关注的基准测试。尽管它们都旨在衡量模型的数学解题能力,但在发布者、发布目的、评测目标和对比结果等方面存在显著差异。
更新于 2026年4月22日·2,225 次浏览
- 问题数量
- 500
- 发布机构
- OpenAI
- 评测类别
- 数学推理
- 评测指标
- Accuracy
- 支持语言
- 英文
- 难度等级
- 高难度
简介
OpenAI从MATH评测数据集中精选的500个更具代表性的数学评测基准
MATH-500评测最新大模型排名与完整榜单数据
查看 MATH-500 的最新得分、模型模式、发布时间与参数规模,快速了解当前完整榜单表现。
数据来源:DataLearnerAI
数据优先来自官方发布(GitHub、Hugging Face、论文),其次为评测基准官方结果,最后为第三方评测机构数据。 了解数据收集方法
模型模式说明
MATH-500 排名
| 排名 | 模型 | 开源情况 | |||
|---|---|---|---|---|---|
98.80 | 2025-05-06 | 未知 | 闭源 | ||
![]() Gemini 2.5-Pro 常规模式 | 98.80 | 2025-06-05 | 未知 | 闭源 | |
![]() Claude Opus 4 常规模式 | 98.20 | 2025-05-23 | 未知 | 闭源 | |
4 | ![]() GLM-4.5 开启思考 | 98.20 | 2025-07-28 | 3550亿 | 免费商用 |
5 | ![]() OpenAI o3 常规模式 | 98.10 | 2025-04-16 | 未知 | 闭源 |
6 | ![]() GLM-4.5-Air 开启思考 | 98.10 | 2025-07-28 | 1060亿 | 免费商用 |
7 | ![]() Qwen3-235B-A22B 开启思考 | 98.00 | 2025-04-28 | 2350亿 | 免费商用 |
8 | ![]() DeepSeek-R1-0528 开启思考 | 98.00 | 2025-05-28 | 6710亿 | 免费商用 |
9 | 97.90 | 2025-01-31 | 未知 | 闭源 | |
10 | ![]() Claude Opus 4.6 扩展思考 | 97.60 | 2026-02-05 | 未知 | 闭源 |
11 | ![]() Qwen3-8B 开启思考 | 97.40 | 2025-04-28 | 80亿 | 免费商用 |
12 | ![]() Kimi K2 常规模式 | 97.40 | 2025-07-11 | 10000亿 | 免费商用 |
13 | ![]() DeepSeek-R1 常规模式 | 97.30 | 2025-01-20 | 6710亿 | 免费商用 |
14 | ![]() Qwen3-32B 开启思考 | 97.20 | 2025-04-28 | 320亿 | 免费商用 |
15 | ![]() MiniMax-M1-80k 常规模式 | 96.80 | 2025-06-16 | 4560亿 | 免费商用 |
16 | ![]() Pangu Pro MoE 常规模式 | 96.80 | 2025-06-30 | 719亿 | 免费商用 |
17 | ![]() OpenAI o1 常规模式 | 96.40 | 2024-12-05 | 未知 | 闭源 |
18 | 96.40 | 2025-06-30 | 3000亿 | 免费商用 | |
19 | 96.20 | 2025-01-22 | 未知 | 闭源 | |
20 | 96.20 | 2025-02-25 | 未知 | 闭源 | |
21 | ![]() Hunyuan-T1 常规模式 | 96.20 | 2025-03-21 | 未知 | 闭源 |
22 | ![]() Qwen3-235B-A22B 常规模式 | 96.20 | 2025-04-28 | 2350亿 | 免费商用 |
23 | ![]() MiniMax-M1-40k 常规模式 | 96.00 | 2025-06-16 | 4560亿 | 免费商用 |
24 | ![]() OpenAI o3-mini 开启思考 | 95.80 | 2025-01-31 | 未知 | 闭源 |
25 | 95.00 | 2025-04-05 | 20000亿 | 免费商用 | |
26 | 94.60 | 2025-01-22 | 未知 | 闭源 | |
27 | 94.50 | 2025-01-20 | 700亿 | 免费商用 | |
28 | ![]() DeepSeek-V3-0324 常规模式 | 94.00 | 2025-03-24 | 6710亿 | 免费商用 |
29 | ![]() Hunyuan-7B 常规模式 | 93.70 | 2025-08-04 | 70亿 | 免费商用 |
30 | ![]() GPT-4.1 常规模式 | 92.80 | 2025-04-14 | 未知 | 闭源 |
继续滚动可加载剩余 14 条













