AIME 2024
2024年,美国数学邀请赛(AIME)成为评估大型语言模型(LLM)数学推理能力的重要基准。AIME是一项备受尊崇的考试,包含15道题,考试时间为3小时,旨在考察美国顶尖高中生在各类数学领域的复杂问题解决能力。
更新于 2026年2月19日·1,695 次浏览
- 问题数量
- 15
- 发布机构
- 个人
- 评测类别
- 数学推理
- 评测指标
- Accuracy
- 支持语言
- 英文
- 难度等级
- 高难度
简介
AIME全称是American Invitational Mathematics Examination,即美国数学邀请赛,是美国面向中学生的邀请式竞赛,3个小时完成15道题,难度很高。
AIME 2024评测最新大模型排名与完整榜单数据
查看 AIME 2024 的最新得分、模型模式、发布时间与参数规模,快速了解当前完整榜单表现。
数据来源:DataLearnerAI
数据优先来自官方发布(GitHub、Hugging Face、论文),其次为评测基准官方结果,最后为第三方评测机构数据。 了解数据收集方法
模型模式说明
AIME 2024 排名
| 排名 | 模型 | 开源情况 | |||
|---|---|---|---|---|---|
![]() OpenAI o4 - mini 开启思考工具 | 98.70 | 2025-04-16 | 未知 | 闭源 | |
![]() GPT OSS 120B 开启思考工具 | 96.60 | 2025-08-06 | 117亿 | 免费商用 | |
96.00 | 2025-02-18 | 未知 | 闭源 | ||
4 | ![]() GPT OSS 20B 开启思考工具 | 96.00 | 2025-08-06 | 210亿 | 免费商用 |
5 | ![]() OpenAI o4 - mini 开启思考 | 93.40 | 2025-04-16 | 未知 | 闭源 |
6 | 93.30 | 2025-02-18 | 未知 | 闭源 | |
7 | ![]() DeepSeek-V3.1 开启思考 | 93.10 | 2025-08-20 | 6710亿 | 免费商用 |
8 | ![]() o3-pro 常规模式 | 93.00 | 2025-06-10 | 未知 | 闭源 |
9 | 92.00 | 2025-03-25 | 未知 | 闭源 | |
10 | 92.00 | 2025-05-06 | 未知 | 闭源 | |
11 | ![]() Gemini 2.5-Pro 常规模式 | 92.00 | 2025-06-05 | 未知 | 闭源 |
12 | ![]() OpenAI o3 常规模式 | 91.60 | 2025-04-16 | 未知 | 闭源 |
13 | ![]() DeepSeek-R1-0528 开启思考 | 91.40 | 2025-05-28 | 6710亿 | 免费商用 |
14 | ![]() GLM-4.5 开启思考 | 91.00 | 2025-07-28 | 3550亿 | 免费商用 |
15 | ![]() GLM-4.5-Air 开启思考 | 89.40 | 2025-07-28 | 1060亿 | 免费商用 |
16 | ![]() Gemini 2.5 Flash 常规模式 | 88.00 | 2025-04-17 | 未知 | 闭源 |
17 | 87.30 | 2025-06-27 | 800亿 | 免费商用 | |
18 | 87.00 | 2025-01-31 | 未知 | 闭源 | |
19 | ![]() MiniMax-M1-80k 常规模式 | 86.00 | 2025-06-16 | 4560亿 | 免费商用 |
20 | ![]() Qwen3-235B-A22B 常规模式 | 85.70 | 2025-04-28 | 2350亿 | 免费商用 |
21 | ![]() Qwen3-235B-A22B 开启思考 | 85.70 | 2025-04-28 | 2350亿 | 免费商用 |
22 | Grok 3 常规模式 | 84.20 | 2025-02-17 | 未知 | 闭源 |
23 | ![]() MiniMax-M1-40k 常规模式 | 83.30 | 2025-06-16 | 4560亿 | 免费商用 |
24 | ![]() Pangu Embedded 常规模式 | 81.90 | 2025-06-30 | 70亿 | 免费商用 |
25 | ![]() Qwen3-32B 常规模式 | 81.40 | 2025-04-28 | 320亿 | 免费商用 |
26 | ![]() Qwen3-32B 开启思考 | 81.40 | 2025-04-28 | 320亿 | 免费商用 |
27 | ![]() Hunyuan-7B 常规模式 | 81.10 | 2025-08-04 | 70亿 | 免费商用 |
28 | 80.00 | 2025-02-25 | 未知 | 闭源 | |
29 | ![]() DeepSeek-R1 常规模式 | 79.80 | 2025-01-20 | 6710亿 | 免费商用 |
30 | ![]() QwQ-32B 常规模式 | 79.50 | 2025-03-06 | 325亿 | 免费商用 |
继续滚动可加载剩余 32 条









