HumanEval

更新于 2026年4月11日·4,078 次浏览

问题数量: 164
发布机构: OpenAI
评测类别: 编程与软件工程
评测指标: Accuracy
支持语言: 英文
难度等级: 基础

简介

一个包含 164 个手写编程问题的基准，用于评估模型生成代码的能力。

HumanEval评测最新大模型排名与完整榜单数据

查看 HumanEval 的最新得分、模型模式、发布时间与参数规模，快速了解当前完整榜单表现。

数据来源：DataLearnerAI

数据优先来自官方发布（GitHub、Hugging Face、论文），其次为评测基准官方结果，最后为第三方评测机构数据。了解数据收集方法

模型模式说明

许可证:

来源:

模型发布时间截止:

排名	模型				开源情况
	OpenAI o3-mini (high) 常规模式	97.60	2025-01-31	未知	闭源
	Claude Opus 4.6 扩展思考	95.00	2026-02-05	未知	闭源
	Claude 3.5 Sonnet New 常规模式	93.70	2024-10-22	未知	闭源
4	OpenAI o1-mini 常规模式	92.40	2024-09-12	未知	闭源
5	Claude 3.5 Sonnet 常规模式	92.00	2024-06-21	未知	闭源
6	Hunyuan-TurboS 常规模式	91.00	2025-03-10	未知	闭源
7	GPT-4o(2024-11-20) 常规模式	90.20	2024-11-20	未知	闭源
8	GPT-4o 常规模式	90.00	2024-05-13	未知	闭源
9	Gemini 1.5 Pro 常规模式	89.00	2024-02-15	未知	闭源
10	Llama3.1-405B Instruct 常规模式	89.00	2024-07-23	4050亿	免费商用
11	Amazon Nova Pro 常规模式	89.00	2024-12-03	未知	闭源
12	DeepSeek-V3 常规模式	89.00	2024-12-26	6810亿	免费商用
13	Mistral-Small-3.1-24B-Instruct-2503 常规模式	88.41	2025-03-17	240亿	免费商用
14	Qwen2.5-32B 常规模式	88.40	2024-09-18	320亿	免费商用
15	Llama3.3-70B-Instruct 常规模式	88.40	2024-12-06	700亿	免费商用
16	Grok 2 常规模式	88.40	2024-08-13	2690亿	免费商用
17	Claude 3.5 Haiku 常规模式	88.10	2024-10-22	未知	闭源
18	Gemma 3 - 27B (IT) 常规模式	87.80	2025-03-12	270亿	免费商用
19	GPT-4o mini 常规模式	87.20	2024-07-18	未知	闭源
20	Codestral 25.01 常规模式	86.60	2025-01-13	未知	闭源
21	Claude3-Opus 常规模式	84.90	2024-03-04	未知	闭源
22	Codestral 常规模式	81.10	2024-05-29	220亿	非商用
23	Llama3.1-70B-Instruct 常规模式	80.50	2024-07-23	700亿	免费商用
24	Phi-4-mini-instruct (3.8B) 常规模式	74.40	2025-02-27	38亿	免费商用
25	Grok-1.5 常规模式	74.10	2024-03-29	未知	闭源
26	Qwen2.5-Max 常规模式	73.20	2025-01-28	未知	闭源
27	GPT-4 常规模式	67.00	2023-03-14	1750亿	闭源
28	Llama3.1-8B-Instruct 常规模式	66.50	2024-07-23	80亿	免费商用
29	C4AI Aya Vision 32B 常规模式	62.20	2025-03-04	320亿	非商用
30	Qwen2.5-72B 常规模式	59.10	2024-09-18	727亿	免费商用

继续滚动可加载剩余 9 条

HumanEval评测最新大模型排名与完整榜单数据

HumanEval 排名