OpenAI内部通用大模型已经可以拿到国际数学奥利匹克竞赛金牌：AI推理能力已经接近人类顶级水平

几个小时前，OpenAI的研究人员披露，其一款内部实验性的大语言模型，在模拟的国际数学奥林匹克（International Math Olympiad，IMO）竞赛2025中取得了金牌水平的成绩。这是一个里程碑式的突破，因为IMO被认为是衡量创造性数学推理能力的巅峰，远超以往任何AI基准测试。这项成就并非通过专门针对数学能力对大模型进行定制的方法实现，而是源于通用人工智能研究的根本性突破，尤其是在处理难以验证的任务和长时间推理方面。

OpenAI大模型数学推理能力的进化：从解题到证明

国际数学奥林匹克（IMO）长期被视为 AI 推理能力的试金石。其挑战性在于：

超长思维链：竞赛中，人类选手需在9小时内（两场各4.5小时）完成6道原创证明题，平均单题耗时约100分钟，远超当前大模型常见任务（如GSM8K约0.1分钟）。
严格约束：闭卷、纯自然语言推导、多页严谨证明——禁用计算工具与形式化验证器（如Lean）。这意味着模型不能使用外部工具。
模糊评估：答案并非单一数字，而是需要专家评审数小时才能鉴定的主观性证明。

OpenAI本次公布的实验性模型，正是在严格复现上述环境下进行的测试。最终，该模型在与人类选手相同的规则下解决了6道题中的5道（P1-P5），其证明过程由三位前IMO奖牌得主独立评审并达成共识，最终得分35/42，足以获得金牌（2024年金牌分数线为32分）。

基准名称	性质描述	平均单题推理时长	评测基准 (URL)
GSM8K	小学数学题集	~0.1 分钟	https://www.datalearner.com/ai-models/llm-benchmark-tests/17
MATH	高中竞赛难度题库	~1 分钟	https://www.datalearner.com/ai-models/llm-benchmark-tests/36
AIME	美国数学邀请赛级别难题	~10 分钟	AIM4 2025： https://www.datalearner.com/ai-models/llm-benchmark-tests/42 AIME 2024：https://www.datalearner.com/ai-models/llm-benchmark-tests/37
IMO	国际数学奥林匹克决赛证明题	~100 分钟	暂无

OpenAI内部通用大模型已经可以拿到国际数学奥利匹克竞赛金牌：AI推理能力已经接近人类顶级水平

OpenAI大模型数学推理能力的进化：从解题到证明

DataLearner 官方微信

OpenAI解题的大模型并非专有大模型

该模型不是GPT-5，仅为实验性质的模型

热门博客