IMO-ProofBench Advanced

IMO-Bench 是 Google DeepMind 开发的一套基准测试套件，针对国际数学奥林匹克（IMO）水平的数学问题设计，用于评估大型语言模型在数学推理方面的能力。该基准包括三个子基准：AnswerBench、ProofBench 和 GradingBench，涵盖从短答案验证到完整证明生成和评分的全过程。发布于 2025 年 11 月，该基准通过专家审核的问题集，帮助模型实现 IMO 金牌级别的性能，并提供自动评分机制以支持大规模评估。

更新于 2026年2月20日·707 次浏览

问题数量: 60
发布机构: Google Deep Mind
评测类别: 数学推理
评测指标: Accuracy
支持语言: 英文
难度等级: 高难度

简介

谷歌发布的用于评估大型语言模型生成完整、逻辑严谨的数学证明能力大模型评测基准

IMO-ProofBench Advanced评测最新大模型排名与完整榜单数据

查看 IMO-ProofBench Advanced 的最新得分、模型模式、发布时间与参数规模，快速了解当前完整榜单表现。

数据来源：DataLearnerAI

数据优先来自官方发布（GitHub、Hugging Face、论文），其次为评测基准官方结果，最后为第三方评测机构数据。了解数据收集方法

模型模式说明

许可证:

来源:

模型发布时间截止:

排名	模型				开源情况
	DeepSeekMath-V2 思考水平 · 高	61.90	2025-11-27	6850亿	免费商用
	GPT-5 开启思考	20.00	2025-08-07	未知	闭源
	Grok 4 开启思考	18.60	2025-07-10	未知	闭源
4	Gemini 2.5-Pro 开启思考	17.60	2025-06-05	未知	闭源
5	Qwen3-235B-A22B-Thinking 开启思考	5.20	2025-07-30	305亿	免费商用
6	Claude Sonnet 4 开启思考	4.80	2025-05-23	未知	闭源
7	Claude Sonnet 4.5 开启思考	4.80	2025-09-30	未知	闭源
8	DeepSeek-R1-0528 开启思考	3.80	2025-05-28	6710亿	免费商用

IMO-ProofBench Advanced评测最新大模型排名与完整榜单数据

IMO-ProofBench Advanced 排名