MMLU Pro

大模型已经对很多行业产生了巨大的影响，如何准确评测大模型的能力和效果，已经成为业界亟待解决的关键问题。生成式AI模型，如大型语言模型（LLMs），能够生成高质量的文本、代码、图像等内容，但其评测却相对很困难。而此前很多较早的评测也很难区分当前最优模型的能力。以MMLU评测为例，2023年3月份，GPT-4在MMLU获得了86.4分之后，将近2年后的2024年年底，业界最好的大模型在MMLU上得分也就90.5，提升十分有限。为此，滑铁卢大学、多伦多大学和卡耐基梅隆大学的研究人员一起提出了MMLU P

更新于 2026年4月24日·3,553 次浏览

问题数量: 38500
发布机构: Berkeley Artificial Intelligence Research
评测类别: 综合评估
评测指标: Accuracy
支持语言: 英文
难度等级: 中等难度

简介

MMLU 的专业级别版本，包含更具挑战性的问题，旨在评估模型在专业领域的理解和推理能力。

MMLU Pro评测最新大模型排名与完整榜单数据

查看 MMLU Pro 的最新得分、模型模式、发布时间与参数规模，快速了解当前完整榜单表现。

数据来源：DataLearnerAI

数据优先来自官方发布（GitHub、Hugging Face、论文），其次为评测基准官方结果，最后为第三方评测机构数据。了解数据收集方法

模型模式说明

许可证:

来源:

模型发布时间截止:

排名	模型				开源情况
	OpenAI o1 常规模式	91.04	2024-12-05	未知	闭源
	Gemini 3.0 Pro (Preview 11-2025) 开启思考	90.00	2025-11-18	未知	闭源
	Opus 4.5 扩展思考	90.00	2025-11-25	未知	闭源
4	Qwen 3.6 Plus Preview 开启思考	88.50	2026-03-31	未知	闭源
5	Opus 4.1 扩展思考	88.00	2025-08-06	未知	闭源
6	Claude Sonnet 4.5 开启思考	88.00	2025-09-30	未知	闭源
7	M2.1 开启思考	88.00	2025-12-23	2300亿	免费商用
8	Qwen3.5-397B-A17B 开启思考	87.80	2026-02-16	397亿	免费商用
9	DeepSeek-V4-Pro 思考水平 · 高	87.50	2026-04-24	16000亿	免费商用
10	Hunyuan-T1 常规模式	87.20	2025-03-21	未知	闭源
11	DeepSeek-V4-Pro 开启思考	87.10	2026-04-24	16000亿	免费商用
12	Grok 4 开启思考	87.00	2025-07-10	未知	闭源
13	DeepSeek-V4-Flash 开启思考	86.40	2026-04-24	2840亿	免费商用
14	Qwen3.6-27B 开启思考	86.20	2026-04-22	270亿	免费商用
15	DeepSeek-V4-Flash 思考水平 · 高	86.20	2026-04-24	2840亿	免费商用
16	GPT-4.5 常规模式	86.10	2025-02-28	未知	闭源
17	Qwen3.5-27B 开启思考	86.10	2026-02-25	270亿	免费商用
18	Gemini 2.5-Pro 常规模式	86.00	2025-06-05	未知	闭源
19	Qwen3-Max-Thinking 开启思考	85.70	2026-01-26	10000亿	闭源
20	OpenAI o3 常规模式	85.60	2025-04-16	未知	闭源
21	Gemma 4 31B 开启思考	85.20	2026-04-02	31亿	免费商用
22	Qwen3.6-35B-A3B 开启思考	85.20	2026-04-16	350亿	免费商用
23	Claude Opus 4 常规模式	85.00	2025-05-23	未知	闭源
24	DeepSeek-R1-0528 开启思考	85.00	2025-05-28	6710亿	免费商用
25	DeepSeek-V3.1 开启思考	85.00	2025-08-20	6710亿	免费商用
26	DeepSeek-V3.1 Terminus 开启思考	85.00	2025-09-22	6710亿	免费商用
27	DeepSeek-V3.1 Terminus 常规模式	85.00	2025-09-22	6710亿	免费商用
28	DeepSeek V3.2-Exp 开启思考	85.00	2025-09-29	6710亿	免费商用
29	Grok 4.1 Fast 开启思考	85.00	2025-11-19	未知	闭源
30	GLM-4.5 开启思考	84.60	2025-07-28	3550亿	免费商用

继续滚动可加载剩余 94 条

MMLU Pro评测最新大模型排名与完整榜单数据

MMLU Pro 排名