AIME2025
随着大语言模型(LLM)的发展越来越快,我们需要更好的方法来评估它们到底有多“聪明”,特别是在处理复杂数学问题的时候。AIME 2025 就是这样一个工具,它专门用来测试当前 AI 在高等数学推理方面的真实水平。
更新于 2026年4月22日·4,306 次浏览
- 问题数量
- 15
- 发布机构
- 个人
- 评测类别
- 数学推理
- 评测指标
- Accuracy
- 支持语言
- 英文
- 难度等级
- 高难度
简介
2025年美国数学竞赛邀请赛的试题,用于测试大模型的数学推理能力
AIME2025评测最新大模型排名与完整榜单数据
查看 AIME2025 的最新得分、模型模式、发布时间与参数规模,快速了解当前完整榜单表现。
数据来源:DataLearnerAI
数据优先来自官方发布(GitHub、Hugging Face、论文),其次为评测基准官方结果,最后为第三方评测机构数据。 了解数据收集方法
模型模式说明
已排除 2 条并行模式成绩
AIME2025 排名
| 排名 | 模型 | 开源情况 | |||
|---|---|---|---|---|---|
![]() GPT-5-Pro 开启思考工具 | 100.00 | 2025-08-07 | 未知 | 闭源 | |
![]() Claude Sonnet 4.5 开启思考工具 | 100.00 | 2025-09-30 | 未知 | 闭源 | |
![]() GPT-5.2 思考水平 · 极高 | 100.00 | 2025-12-11 | 未知 | 闭源 | |
4 | ![]() Step 3.5 Flash 开启思考工具 | 99.80 | 2026-02-02 | 1960亿 | 免费商用 |
5 | ![]() Claude Opus 4.6 扩展思考 | 99.79 | 2026-02-05 | 未知 | 闭源 |
6 | ![]() Gemini 3.0 Flash 开启思考工具 | 99.70 | 2025-12-17 | 未知 | 闭源 |
7 | ![]() GPT-5 开启思考工具 | 99.60 | 2025-08-07 | 未知 | 闭源 |
8 | ![]() OpenAI o4 - mini 开启思考工具 | 99.50 | 2025-04-16 | 未知 | 闭源 |
9 | ![]() Gemini 2.5 Deep Think 深度思考模式 | 99.20 | 2025-08-01 | 未知 | 闭源 |
10 | ![]() Kimi K2 Thinking 开启思考工具 | 99.10 | 2025-11-06 | 10400亿 | 免费商用 |
11 | Grok 4 开启思考工具 | 98.80 | 2025-07-10 | 未知 | 闭源 |
12 | ![]() GPT OSS 20B 开启思考工具 | 98.70 | 2025-08-06 | 210亿 | 免费商用 |
13 | ![]() GLM-4.6 开启思考工具 | 98.60 | 2025-09-30 | 3550亿 | 免费商用 |
14 | ![]() GLM-4.6 开启思考 | 98.60 | 2025-09-30 | 3550亿 | 免费商用 |
15 | ![]() GPT OSS 120B 开启思考工具 | 97.90 | 2025-08-06 | 117亿 | 免费商用 |
16 | ![]() Step 3.5 Flash 开启思考 | 97.30 | 2026-02-02 | 1960亿 | 免费商用 |
17 | ![]() GPT-5-Pro 开启思考 | 96.70 | 2025-08-07 | 未知 | 闭源 |
18 | ![]() Haiku 4.5 开启思考工具 | 96.30 | 2025-10-15 | 未知 | 闭源 |
19 | ![]() Kimi K2.5 开启思考 | 96.10 | 2026-01-27 | 10000亿 | 免费商用 |
20 | 96.00 | 2025-12-01 | 未知 | 免费商用 | |
21 | ![]() GLM-4.7 开启思考 | 95.70 | 2025-12-22 | 3580亿 | 免费商用 |
22 | ![]() Gemini 3.0 Flash 开启思考 | 95.20 | 2025-12-17 | 未知 | 闭源 |
23 | 95.00 | 2025-11-18 | 未知 | 闭源 | |
24 | ![]() GPT-5 开启思考 | 94.60 | 2025-08-07 | 未知 | 闭源 |
25 | ![]() Kimi K2 Thinking 开启思考 | 94.50 | 2025-11-06 | 10400亿 | 免费商用 |
26 | ![]() GPT-5.1 思考水平 · 高 | 94.00 | 2025-11-12 | 未知 | 闭源 |
27 | ![]() GPT-5.1 思考水平 · 高 | 94.00 | 2025-11-12 | 未知 | 闭源 |
28 | ![]() DeepSeek V3.2 开启思考 | 93.10 | 2025-12-01 | 6710亿 | 免费商用 |
继续滚动可加载剩余 76 条






