DataLearner 标志DataLearnerAI
最新AI资讯
大模型排行榜
大模型评测基准
大模型列表
大模型对比
资源中心
工具
语言中文
DataLearner 标志DataLearner AI

专注大模型评测、数据资源与实践教学的知识平台,持续更新可落地的 AI 能力图谱。

产品

  • 评测榜单
  • 模型对比
  • 数据资源

资源

  • 部署教程
  • 原创内容
  • 工具导航

关于

  • 关于我们
  • 隐私政策
  • 数据收集方法
  • 联系我们

© 2026 DataLearner AI. DataLearner 持续整合行业数据与案例,为科研、企业与开发者提供可靠的大模型情报与实践指南。

隐私政策服务条款
  1. 首页
  2. /
  3. 评测基准
  4. /
  5. HLE

HLE

近年来,大语言模型(LLM)的能力飞速提升,但评测基准的发展却显得滞后。以广泛使用的MMLU(大规模多任务语言理解)为例,GPT-4、Claude等前沿模型已能在其90%以上的问题上取得高分。这种“评测饱和”现象导致研究者难以精准衡量模型在尖端知识领域的真实能力。为此,Safety for AI和Scale AI的研究人员推出了Humanity’s Last Exam大模型评测基准。这是一个全新的评测基准,旨在成为大模型“闭卷学术评测的终极考验”。

更新于 2026年4月28日·4,236 次浏览
当前榜首
Anthropic
Claude Mythos Preview
Anthropic
64.70得分
问题数量
3000
发布机构
Center for AI Safety
评测类别
综合评估
评测指标
Accuracy
支持语言
英文
难度等级
高难度

简介

研究生水平以上的超高难度、覆盖超多学科的大模型评测基准

相关资源

  • 查看原始论文
  • 获取数据集
  • 访问官网
  • DataLearner 详细介绍

HLE评测最新大模型排名与完整榜单数据

查看 HLE 的最新得分、模型模式、发布时间与参数规模,快速了解当前完整榜单表现。

数据来源:DataLearnerAI

数据优先来自官方发布(GitHub、Hugging Face、论文),其次为评测基准官方结果,最后为第三方评测机构数据。 了解数据收集方法

模型模式说明

已排除 1 条并行模式成绩

HLE 排名

排名模型开源情况
Anthropic
Claude Mythos Preview
扩展思考工具
64.70
2026-04-07未知闭源
OpenAI
GPT-5.4 Pro
思考水平 · 高工具
58.70
2026-03-05未知闭源
Facebook AI研究实验室
Muse Spark
并行 · 深度思考模式
58.00
2026-04-08未知闭源
4
OpenAI
GPT-5.5 Pro
思考水平 · 极高工具
57.20
2026-04-23未知闭源
5
Anthropic
Claude Mythos Preview
扩展思考
56.80
2026-04-07未知闭源
6
Anthropic
Opus 4.7
扩展思考工具
54.70
2026-04-16未知闭源
7
Moonshot AI
Kimi K2.6
开启思考工具联网
54.00
2026-04-2010000亿免费商用
8
Anthropic
Claude Opus 4.6
扩展思考工具联网
53.00
2026-02-05未知闭源
9
智谱AI
GLM 5.1
开启思考工具
52.30
2026-03-27754亿免费商用
10
OpenAI
GPT-5.5
思考水平 · 高工具
52.20
2026-04-23未知闭源
11
OpenAI
GPT-5.4
思考水平 · 极高工具
52.10
2026-03-05未知闭源
12
Google Deep Mind
Gemini 3.1 Pro Preview
思考水平 · 高工具
51.40
2026-02-20未知闭源
13
阿里巴巴
Qwen 3.6 Plus Preview
开启思考工具
50.60
2026-03-31未知闭源
14
智谱AI
GLM-5
开启思考工具
50.40
2026-02-117440亿免费商用
15
Facebook AI研究实验室
Muse Spark
开启思考工具
50.40
2026-04-08未知闭源
16
Moonshot AI
Kimi K2.5
开启思考工具
50.20
2026-01-2710000亿免费商用
17
OpenAI
GPT-5.2 Pro
开启思考工具
50.00
2025-12-11未知闭源
18
阿里巴巴
Qwen3-Max-Thinking
开启思考工具
49.80
2026-01-2610000亿闭源
19
Anthropic
Claude Sonnet 4.6
开启思考工具
49.00
2026-02-17未知闭源
20
阿里巴巴
Qwen3.5-27B
开启思考工具
48.50
2026-02-25270亿免费商用
21
Google Deep Mind
Gemini 3 Deep Think - 2620
开启思考
48.40
2026-02-13未知闭源
22
阿里巴巴
Qwen3.5-397B-A17B
开启思考工具联网
48.30
2026-02-16397亿免费商用
23
DeepSeek-AI
DeepSeek-V4-Pro
思考水平 · 极高工具
48.20
2026-04-2416000亿免费商用
24
Anthropic
Opus 4.7
扩展思考
46.90
2026-04-16未知闭源
25
Google Deep Mind
Gemini 3.0 Pro (Preview 11-2025)
思考水平 · 高工具
45.80
2025-11-18未知闭源
26
OpenAI
GPT-5.2
深度思考模式工具联网
45.50
2025-12-11未知闭源
27
DeepSeek-AI
DeepSeek-V4-Flash
思考水平 · 极高工具
45.10
2026-04-242840亿免费商用
28
Moonshot AI
Kimi K2 Thinking
开启思考工具
44.90
2025-11-0610400亿免费商用
29
DeepSeek-AI
DeepSeek-V4-Pro
思考水平 · 高工具
44.70
2026-04-2416000亿免费商用
继续滚动可加载剩余 119 条