FrontierMath

Name: FrontierMath (Tier 1-3)
Creator: Epoch AI

FrontierMath是一个由Epoch AI开发的基准测试套件，包含数百个原创的数学问题。这些问题由专家数学家设计和审核，覆盖现代数学的主要分支，如数论、实分析、代数几何和范畴论。每个问题通常需要相关领域研究人员投入数小时至数天的努力来解决。基准采用未发表的问题和自动化验证机制，以减少数据污染风险并确保评估可靠性。当前最先进的AI模型在该基准上的解决率低于2%，这反映出AI在处理专家级数学推理时的局限性。该基准旨在为AI系统向研究级数学能力进步提供量化指标。

更新于 2026年4月28日·1,355 次浏览

问题数量: 300
发布机构: Epoch AI
评测类别: 数学推理
评测指标: Accuracy
支持语言: 英文
难度等级: 高难度

简介

FrontierMath 是一个用于评估人工智能高级数学推理能力的基准测试。它由数百个由数学家精心设计的全新且极具挑战性的数学问题组成，旨在真实地衡量当前AI系统的推理极限。

FrontierMath评测最新大模型排名与完整榜单数据

查看 FrontierMath 的最新得分、模型模式、发布时间与参数规模，快速了解当前完整榜单表现。

数据来源：DataLearnerAI

数据优先来自官方发布（GitHub、Hugging Face、论文），其次为评测基准官方结果，最后为第三方评测机构数据。了解数据收集方法

模型模式说明

许可证:

来源:

模型发布时间截止:

排名	模型				开源情况
	GPT-5.5 Pro 思考水平 · 极高工具	52.40	2026-04-23	未知	闭源
	GPT-5.5 开启思考工具	51.70	2026-04-23	未知	闭源
	GPT-5.4 Pro 开启思考	50.00	2026-03-05	未知	闭源
4	GPT-5.4 Pro 思考水平 · 极高	50.00	2026-03-05	未知	闭源
5	GPT-5.4 思考水平 · 极高	47.60	2026-03-05	未知	闭源
6	Opus 4.7 思考水平 · 极高	43.80	2026-04-16	未知	闭源
7	Claude Opus 4.6 思考水平 · 高	40.70	2026-02-05	未知	闭源
8	GPT-5.2 思考水平 · 极高工具	40.30	2025-12-11	未知	闭源
9	Muse Spark 开启思考	39.00	2026-04-08	未知	闭源
10	Gemini 3.0 Pro (Preview 11-2025) 开启思考	38.00	2025-11-18	未知	闭源
11	Gemini 3.1 Pro Preview 开启思考	36.90	2026-02-20	未知	闭源
12	Gemini 2.5 Deep Think 深度思考模式	29.00	2025-08-01	未知	闭源
13	GPT-5.1 开启思考工具	26.70	2025-11-12	未知	闭源
14	GPT-5 开启思考工具	26.30	2025-08-07	未知	闭源
15	GPT-5 思考水平 · 中	24.80	2025-08-07	未知	闭源
16	GPT-5 思考水平 · 高	24.80	2025-08-07	未知	闭源
17	Opus 4.5 扩展思考	20.70	2025-11-25	未知	闭源
18	OpenAI o4 - mini 思考水平 · 中	19.30	2025-04-16	未知	闭源
19	GPT-5-mini 思考水平 · 中	19.30	2025-08-07	未知	闭源
20	GPT-5-mini 思考水平 · 高	19.00	2025-08-07	未知	闭源
21	OpenAI o4 - mini 思考水平 · 高	17.20	2025-04-16	未知	闭源
22	Grok 4 常规模式	12.10	2025-07-10	未知	闭源
23	OpenAI o3-mini (high) 思考水平 · 高	11.00	2025-01-31	未知	闭源
24	Gemini 2.5-Pro 常规模式	11.00	2025-06-05	未知	闭源
25	OpenAI o3 思考水平 · 低	10.30	2025-04-16	未知	闭源
26	OpenAI o3 思考水平 · 高	10.30	2025-04-16	未知	闭源
27	Gemini-2.5-Pro-Preview-05-06 常规模式	10.30	2025-05-06	未知	闭源
28	OpenAI o3 思考水平 · 中	10.00	2025-04-16	未知	闭源
29	OpenAI o4 - mini 思考水平 · 低	9.70	2025-04-16	未知	闭源
30	OpenAI o1 思考水平 · 高	9.30	2024-12-05	未知	闭源

继续滚动可加载剩余 30 条

FrontierMath评测最新大模型排名与完整榜单数据

FrontierMath 排名