MATH

更新于 2026年4月3日·1,506 次浏览

问题数量: 12500
发布机构: Google
评测类别: 数学推理
评测指标: Accuracy
支持语言: 英语
难度等级: Expert

简介

一个具有挑战性的数学问题数据集，包含代数、微积分、几何、概率等多个领域。

MATH评测最新大模型排名与完整榜单数据

查看 MATH 的最新得分、模型模式、发布时间与参数规模，快速了解当前完整榜单表现。

数据来源：DataLearnerAI

数据优先来自官方发布（GitHub、Hugging Face、论文），其次为评测基准官方结果，最后为第三方评测机构数据。了解数据收集方法

模型模式说明

许可证:

来源:

模型发布时间截止:

排名	模型				开源情况
	OpenAI o3-mini (high) 常规模式	97.90	2025-01-31	未知	闭源
	OpenAI o1 常规模式	96.40	2024-12-05	未知	闭源
	Hunyuan-A13B-Instruct 常规模式	94.30	2025-06-27	800亿	免费商用
4	Gemini 2.0 Pro Experimental 常规模式	91.80	2025-02-05	未知	闭源
5	Hunyuan-TurboS 常规模式	89.70	2025-03-10	未知	闭源
6	Gemma 3 - 27B (IT) 常规模式	89.00	2025-03-12	270亿	免费商用
7	DeepSeek-V3 常规模式	87.80	2024-12-26	6810亿	免费商用
8	Gemini 2.0 Flash-Lite 常规模式	86.80	2025-02-05	未知	闭源
9	Gemma 3 - 12B (IT) 常规模式	83.80	2025-03-12	120亿	免费商用
10	Qwen2.5-32B 常规模式	83.10	2024-09-18	320亿	免费商用
11	Gemini 1.5 Pro 常规模式	82.90	2024-02-15	未知	闭源
12	Claude 3.5 Sonnet New 常规模式	78.30	2024-10-22	未知	闭源
13	Llama3.3-70B-Instruct 常规模式	77.00	2024-12-06	700亿	免费商用
14	Amazon Nova Pro 常规模式	76.60	2024-12-03	未知	闭源
15	Grok 2 常规模式	76.10	2024-08-13	2690亿	免费商用
16	GPT-4o 常规模式	75.90	2024-05-13	未知	闭源
17	Llama3.1-405B Instruct 常规模式	73.90	2024-07-23	4050亿	免费商用
18	Claude 3.5 Sonnet 常规模式	71.10	2024-06-21	未知	闭源
19	GPT-4o mini 常规模式	70.20	2024-07-18	未知	闭源
20	Mistral-Small-3.2 常规模式	69.42	2025-06-20	240亿	免费商用
21	C4AI Aya Vision 32B 常规模式	69.30	2025-03-04	320亿	非商用
22	Mistral-Small-3.1-24B-Instruct-2503 常规模式	69.30	2025-03-17	240亿	免费商用
23	Claude 3.5 Haiku 常规模式	69.20	2024-10-22	未知	闭源
24	Qwen2.5-Max 常规模式	68.50	2025-01-28	未知	闭源
25	GPT-4o(2024-11-20) 常规模式	68.50	2024-11-20	未知	闭源
26	Llama3.1-70B-Instruct 常规模式	67.80	2024-07-23	700亿	免费商用
27	Phi-4-mini-instruct (3.8B) 常规模式	64.00	2025-02-27	38亿	免费商用
28	Qwen3-Next 常规模式	62.36	2025-09-11	800亿	免费商用
29	Qwen2.5-72B 常规模式	62.10	2024-09-18	727亿	免费商用
30	Llama 4 Maverick 常规模式	61.20	2025-04-05	4000亿	免费商用