MBPP

Name: Mostly Basic Python Problems
Creator: 个人

更新于 2026年4月3日·1,701 次浏览

问题数量: 974
发布机构: 个人
评测类别: 编程与软件工程
评测指标: —
支持语言: 英文
难度等级: —

简介

一个包含 974 个简单的 Python 编程问题的基准，用于评估模型生成代码的能力。

MBPP评测最新大模型排名与完整榜单数据

查看 MBPP 的最新得分、模型模式、发布时间与参数规模，快速了解当前完整榜单表现。

数据来源：DataLearnerAI

数据优先来自官方发布（GitHub、Hugging Face、论文），其次为评测基准官方结果，最后为第三方评测机构数据。了解数据收集方法

模型模式说明

许可证:

来源:

模型发布时间截止:

排名	模型				开源情况
	Llama3.1-405B Instruct 常规模式	88.60	2024-07-23	4050亿	免费商用
	Gemini 1.5 Pro 常规模式	87.80	2024-02-15	未知	闭源
	Llama3.3-70B-Instruct 常规模式	87.60	2024-12-06	700亿	免费商用
4	GPT-4o mini 常规模式	87.20	2024-07-18	未知	闭源
5	Llama3.1-70B-Instruct 常规模式	86.00	2024-07-23	700亿	免费商用
6	Claude 3.5 Haiku 常规模式	85.60	2024-10-22	未知	闭源
7	Qwen2.5-72B 常规模式	84.70	2024-09-18	727亿	免费商用
8	Qwen2.5-32B 常规模式	84.00	2024-09-18	320亿	免费商用
9	Hunyuan-A13B-Instruct 常规模式	83.86	2025-06-27	800亿	免费商用
10	Qwen2.5-Max 常规模式	80.60	2025-01-28	未知	闭源
11	Codestral 25.01 常规模式	80.20	2025-01-13	未知	闭源
12	Codestral 常规模式	78.20	2024-05-29	220亿	非商用
13	Llama 4 Maverick 常规模式	77.60	2025-04-05	4000亿	免费商用
14	Qwen2.5-7B 常规模式	74.90	2024-09-18	70亿	免费商用
15	Mistral-Small-3.1-24B-Instruct-2503 常规模式	74.71	2025-03-17	240亿	免费商用
16	Gemma 3 - 27B (IT) 常规模式	74.40	2025-03-12	270亿	免费商用
17	C4AI Aya Vision 32B 常规模式	70.43	2025-03-04	320亿	非商用
18	Llama3.1-8B-Instruct 常规模式	69.40	2024-07-23	80亿	免费商用
19	Llama 4 Scout 常规模式	67.80	2025-04-05	1090亿	免费商用
20	Phi-4-mini-instruct (3.8B) 常规模式	65.30	2025-02-27	38亿	免费商用
21	Moonlight-16B-A3B-Instruct 常规模式	63.80	2025-02-23	160亿	免费商用
22	Gemma2-27B 常规模式	62.60	2024-05-14	270亿	免费商用
23	Gemma 2 - 9B 常规模式	62.20	2024-06-27	90亿	免费商用
24	Qwen2.5-3B 常规模式	57.10	2024-09-18	30亿	免费商用
25	Llama3.1-8B 常规模式	53.90	2024-07-23	80亿	免费商用
26	Mistral-7B-Instruct-v0.3 常规模式	51.10	2024-05-22	70亿	免费商用
27	Llama-3.2-3B 常规模式	48.70	2024-09-18	32亿	免费商用
28	Amazon Nova Pro 常规模式	0.00	2024-12-03	未知	闭源