DataLearner 标志DataLearnerAI
最新AI资讯
大模型排行榜
大模型评测基准
大模型列表
大模型对比
资源中心
工具
语言中文
DataLearner 标志DataLearner AI

专注大模型评测、数据资源与实践教学的知识平台,持续更新可落地的 AI 能力图谱。

产品

  • 评测榜单
  • 模型对比
  • 数据资源

资源

  • 部署教程
  • 原创内容
  • 工具导航

关于

  • 关于我们
  • 隐私政策
  • 数据收集方法
  • 联系我们

© 2026 DataLearner AI. DataLearner 持续整合行业数据与案例,为科研、企业与开发者提供可靠的大模型情报与实践指南。

隐私政策服务条款
  1. 首页
  2. /
  3. 评测基准
  4. /
  5. AIME 2026

AIME 2026

AIME 2026 是基于美国数学邀请赛(American Invitational Mathematics Examination)2026 年问题的评测基准,用于评估大语言模型在高中水平数学推理方面的表现。该基准包含 15 个问题,覆盖代数、几何、数论和组合数学等领域。模型通过生成答案并与标准答案比较来计算准确率。

更新于 2026年4月22日·1,828 次浏览
当前榜首
Moonshot AI
Kimi K2.6
Moonshot AI
96.40得分
问题数量
15
发布机构
个人
评测类别
数学推理
评测指标
Accuracy
支持语言
英文
难度等级
高难度

简介

基于2026年美国数学邀请赛的大模型数学推理能力评测基准

相关资源

  • 查看原始论文
  • 获取数据集
  • 访问官网
  • DataLearner 详细介绍

AIME 2026评测最新大模型排名与完整榜单数据

查看 AIME 2026 的最新得分、模型模式、发布时间与参数规模,快速了解当前完整榜单表现。

数据来源:DataLearnerAI

数据优先来自官方发布(GitHub、Hugging Face、论文),其次为评测基准官方结果,最后为第三方评测机构数据。 了解数据收集方法

模型模式说明
许可证:
来源:
模型发布时间截止:

AIME 2026 排名

排名模型开源情况
Moonshot AI
Kimi K2.6
开启思考
96.40
2026-04-2010000亿免费商用
智谱AI
GLM 5.1
开启思考
95.30
2026-03-27754亿免费商用
阿里巴巴
Qwen 3.6 Plus Preview
开启思考
95.30
2026-03-31未知闭源
4
阿里巴巴
Qwen3.6-27B
开启思考
94.10
2026-04-22270亿免费商用
5
Anthropic
Opus 4.5
扩展思考
93.30
2025-11-25未知闭源
6
智谱AI
GLM-4.7
开启思考
92.90
2025-12-223580亿免费商用
7
DeepSeek-AI
DeepSeek V3.2
开启思考
92.70
2025-12-016710亿免费商用
8
智谱AI
GLM-5
开启思考
92.70
2026-02-117440亿免费商用
9
阿里巴巴
Qwen3.6-35B-A3B
开启思考
92.70
2026-04-16350亿免费商用
10
Moonshot AI
Kimi K2.5
开启思考
92.50
2026-01-2710000亿免费商用
11
阿里巴巴
Qwen3.5-397B-A17B
开启思考
91.30
2026-02-16397亿免费商用
12
Google Deep Mind
Gemini 3.0 Pro (Preview 11-2025)
开启思考
90.60
2025-11-18未知闭源
13
DeepMind
Gemma 4 31B
开启思考
89.20
2026-04-0231亿免费商用
14
DeepMind
Gemma 4 26B A4B
开启思考
88.30
2026-0425.2亿免费商用