AI大模型评测排行榜

汇总编程、数学、科学、推理、智能体等 10 项标准化评测的综合分数。

数据更新于 2026年05月31日

#模型分数

Claude Opus 4.8 (max)Anthropic

GPT-5.5 (xhigh)OpenAI

GPT-5.5 (high)OpenAI

Opus 4.7 (max)Anthropic

Gemini 3.1 Pro PreviewGoogle Deep Mind

GPT-5.5 (medium)OpenAI

Qwen3.7 MaxAlibaba

Gemini 3.5 FlashGoogle

Gemini 3.5 Flash (medium)Google

Kimi K2.6Moonshot AI

来源：Artificial Analysis

LMArena Text Generation

ARC-AGI-2 HLE MMLU Pro 进入全部基准列表

基于匿名众包 A/B 对战的 Elo 评分，反映真实用户对回答质量的偏好。

数据更新于 2026年05月28日

#模型Elo

Claude Opus 4.6 (thinking)Anthropic

1502

Opus 4.7 (thinking)Anthropic

1500

Claude Opus 4.6Anthropic

1498

Opus 4.7Anthropic

1494

Muse SparkFacebook AI研究实验室

1489

Gemini 3.1 Pro PreviewGoogle Deep Mind

1487

Gemini 3.0 Pro (Preview 11-2025)Google Deep Mind

1486

gpt-5.5-highOpenAI

1482

gpt-5.4-highOpenAI

1480

gemini-3.5-flashGoogle

1479

来源：LMArena

单项评测排名

按数学、编程、Agent 等维度筛选排名。下方可切换评测基准，也可直接进入分类排行榜查看完整排名。查看全部评测基准。

评测方向

综合排名

数学

AIME 2025 FrontierMath MATH-500 进入数学能力排行榜

编程

SWE-bench Verified LiveCodeBench SWE-Bench Pro 进入编程能力排行榜

Agent

τ²-Bench Terminal Bench 2.0 Aider-Polyglot 进入 Agent 能力排行榜

参数规模:全部 3B及以下 7B 13B 34B 65B 100B及以上

模型类型:全部推理大模型基座大模型指令优化/聊天优化大模型编程大模型

开源：全部开源闭源

来源：全部国产模型

AI 模型推荐

按 MATH-500 排序

当前 SOTA

GPT-4.1

OpenAI

92.80MATH-500

最佳开源

此基准下暂无符合条件的模型。

最佳国产

Qwen 3.6 Plus Preview

阿里巴巴

—MATH-500

Claude Sonnet 3.7 Anthropic

大模型性能评测结果

数据来源：DataLearnerAI

点击任意行查看模型详情；勾选左侧可对比最多 4 个模型。表中分数为各评测模式中的最高得分。

排名	模型						开源情况
	GPT-4.1 OpenAI	3.70	—	—	54.60	54.70	闭源	详情
	GPT-4.5 OpenAI	—	—	—	38.00	—	闭源	详情
	Claude Sonnet 3.7 Anthropic	10.30	—	—	70.30	61.80	闭源	详情
4	Claude 3.5 Sonnet New Anthropic	—	—	—	49.00	—	闭源	详情
5	Claude Mythos Preview Anthropic	64.70	—	—	93.90	—	闭源	详情
6	Qwen 3.6 Plus Preview 阿里巴巴	50.60	—	—	78.80	—	闭源	详情
7	Claude Sonnet 4.6 Anthropic	49.00	58.30	8.30	79.60	—	闭源	详情
8	GPT-5.2 OpenAI	45.50	54.20	18.80	80.00	82.00	闭源	详情
9	Grok 4 Heavy xAI	44.40	—	2.10	73.50	—	闭源	详情
10	Gemini 3.0 Flash Google Deep Mind	43.50	33.60	4.20	68.70	90.20	闭源	详情
11	Gemini 2.5 Deep Think Google Deep Mind	34.80	—	10.40	—	—	闭源	详情
12	Claude Sonnet 4.5 Anthropic	33.60	13.60	4.20	82.00	84.70	闭源	详情
13	Grok 4 Fast xAI	20.00	—	—	—	—	闭源	详情
14	Qwen3 Max (Preview) 阿里巴巴	11.10	—	—	69.60	74.00	闭源	详情
15	Qwen3.6-Max-Preview 阿里巴巴	—	—	—	—	—	闭源	详情
16	Gemini 2.5 Flash-Preview-09-2025 Google Deep Mind	—	—	—	54.00	—	闭源	详情
17	GPT-4.1 mini OpenAI	—	—	—	23.60	53.00	闭源	详情
18	Grok 3 xAI	—	—	—	—	—	闭源	详情
19	GPT-4.1 nano OpenAI	—	—	—	—	—	闭源	详情
20	GPT-4o(2025-03-27) OpenAI	—	—	—	—	—	闭源	详情
21	Gemini 2.0 Pro Experimental DeepMind	—	—	—	—	—	闭源	详情
22	GPT-4o(2024-11-20) OpenAI	—	—	—	31.00	—	闭源	详情
23	Qwen2.5-Max 阿里巴巴	—	—	—	—	—	闭源	详情
24	Grok-1.5 xAI	—	—	—	—	—	闭源	详情
25	Gemini 2.0 Flash-Lite DeepMind	—	—	—	—	—	闭源	详情

GPT-4.1 OpenAI

HLE3.70

ARC-AGI-2—

FrontierMath - Tier 4—

SWE-bench Verified54.60

τ²-Bench54.70

闭源

GPT-4.5 OpenAI

HLE—

ARC-AGI-2—

FrontierMath - Tier 4—

SWE-bench Verified38.00

τ²-Bench—

闭源

HLE10.30

ARC-AGI-2—

FrontierMath - Tier 4—

SWE-bench Verified70.30

τ²-Bench61.80

闭源

Claude 3.5 Sonnet New Anthropic

HLE—

ARC-AGI-2—

FrontierMath - Tier 4—

SWE-bench Verified49.00

τ²-Bench—

闭源

Claude Mythos Preview Anthropic

HLE64.70

ARC-AGI-2—

FrontierMath - Tier 4—

SWE-bench Verified93.90

τ²-Bench—

闭源

Qwen 3.6 Plus Preview 阿里巴巴

HLE50.60

ARC-AGI-2—

FrontierMath - Tier 4—

SWE-bench Verified78.80

τ²-Bench—

闭源

Claude Sonnet 4.6 Anthropic

HLE49.00

ARC-AGI-258.30

FrontierMath - Tier 48.30

SWE-bench Verified79.60

τ²-Bench—

闭源

GPT-5.2 OpenAI

HLE45.50

ARC-AGI-254.20

FrontierMath - Tier 418.80

SWE-bench Verified80.00

τ²-Bench82.00

闭源

Grok 4 Heavy xAI

HLE44.40

ARC-AGI-2—

FrontierMath - Tier 42.10

SWE-bench Verified73.50

τ²-Bench—

闭源

Gemini 3.0 Flash Google Deep Mind

HLE43.50

ARC-AGI-233.60

FrontierMath - Tier 44.20

SWE-bench Verified68.70

τ²-Bench90.20

闭源

Gemini 2.5 Deep Think Google Deep Mind

HLE34.80

ARC-AGI-2—

FrontierMath - Tier 410.40

SWE-bench Verified—

τ²-Bench—

闭源

Claude Sonnet 4.5 Anthropic

HLE33.60

ARC-AGI-213.60

FrontierMath - Tier 44.20

SWE-bench Verified82.00

τ²-Bench84.70

闭源

Grok 4 Fast xAI

HLE20.00

ARC-AGI-2—

FrontierMath - Tier 4—

SWE-bench Verified—

τ²-Bench—

闭源

Qwen3 Max (Preview)阿里巴巴

HLE11.10

ARC-AGI-2—

FrontierMath - Tier 4—

SWE-bench Verified69.60

τ²-Bench74.00

闭源

Qwen3.6-Max-Preview 阿里巴巴

HLE—

ARC-AGI-2—

FrontierMath - Tier 4—

SWE-bench Verified—

τ²-Bench—

闭源

Gemini 2.5 Flash-Preview-09-2025 Google Deep Mind

HLE—

ARC-AGI-2—

FrontierMath - Tier 4—

SWE-bench Verified54.00

τ²-Bench—

闭源

GPT-4.1 mini OpenAI

HLE—

ARC-AGI-2—

FrontierMath - Tier 4—

SWE-bench Verified23.60

τ²-Bench53.00

闭源

Grok 3 xAI

HLE—

ARC-AGI-2—

FrontierMath - Tier 4—

SWE-bench Verified—

τ²-Bench—

闭源

GPT-4.1 nano OpenAI

HLE—

ARC-AGI-2—

FrontierMath - Tier 4—

SWE-bench Verified—

τ²-Bench—

闭源

GPT-4o(2025-03-27)OpenAI

HLE—

ARC-AGI-2—

FrontierMath - Tier 4—

SWE-bench Verified—

τ²-Bench—

闭源

Gemini 2.0 Pro Experimental DeepMind

HLE—

ARC-AGI-2—

FrontierMath - Tier 4—

SWE-bench Verified—

τ²-Bench—

闭源

GPT-4o(2024-11-20)OpenAI

HLE—

ARC-AGI-2—

FrontierMath - Tier 4—

SWE-bench Verified31.00

τ²-Bench—

闭源

Qwen2.5-Max 阿里巴巴

HLE—

ARC-AGI-2—

FrontierMath - Tier 4—

SWE-bench Verified—

τ²-Bench—

闭源

Grok-1.5 xAI

HLE—

ARC-AGI-2—

FrontierMath - Tier 4—

SWE-bench Verified—

τ²-Bench—

闭源

Gemini 2.0 Flash-Lite DeepMind

HLE—

ARC-AGI-2—

FrontierMath - Tier 4—

SWE-bench Verified—

τ²-Bench—

闭源

排序：

排行榜常见问题

排行榜的数据来源是什么？

所有得分来自一手出处：模型官方 model card、技术报告、论文、厂商博客与可复现的第三方评测。每一行均链回对应的模型详情页，可查看原始引用。

为什么同一模型在不同基准上分数差异很大？

每个基准测的能力不一样：推理类（HLE、ARC-AGI-2）、数学类（AIME、FrontierMath）、编程类（SWE-bench Verified）、Agent 工具使用类（τ²-Bench）等。模型在某一能力上专门优化后，往往会牺牲另一些能力，因此排行榜按基准分别展示，而不是合并成一个分数。

排行榜多久更新一次？

数据每 5 分钟自动重新校验一次；新模型或新评测结果一旦公开就会同步收录。页面顶部的"数据更新于"指示器反映最近一次数据刷新时间。

综合排名应该怎么解读？

综合榜聚合了模型在多个核心基准上的位次，可作为初筛工具。但落地选型时建议进入与你业务最相关的单项基准查看，例如 Coding Agent 看 SWE-bench Verified、工具调用场景看 τ²-Bench。

开源大模型和闭源 API 模型怎么对比？

使用顶部的"许可"筛选切换为"全部"，开源与闭源模型可在同一基准列直接对比。除分数外，还需考虑总持有成本：闭源模型按 API 用量计费，开源模型则需衡量自部署的硬件与运维成本。

探索更多

排行榜只覆盖参与评测的模型。你还可以按模型、机构或评测基准浏览完整内容。

全部 AI 模型

浏览收录的全部模型，按机构、类型、发布时间筛选，不止于评测得分。

全部机构

查看这些模型背后的机构与公司，及其完整的模型阵容。

全部评测基准

深入了解每个评测基准的考察内容、评分方式与完整排名。

AI大模型评测排行榜

聚合 ARC-AGI-2、AIME 2025、SWE-bench Verified 等主流评测的实时排名，按综合、数学、编程、Agent 等维度快速筛选。

查看评测基准详情数据更新于 2026-04-28 13:44:17

截至 2026年4月，AA 智能指数前列模型包括 Claude Opus 4.8 (max)、GPT-5.5 (xhigh)、GPT-5.5 (high)，该指数汇总编程、推理、科学等 10 项标准化评测。

LMArena 文本生成榜当前靠前的模型包括 Claude Opus 4.6 (thinking)、Opus 4.7 (thinking)、Claude Opus 4.6，排名基于真人匿名 A/B 投票。

下方可按数学、编程、Agent 等分类查看单项排名。数据口径说明见数据方法论，延伸阅读见大模型分析博客。

综合排名

AA Intelligence Index

汇总编程、数学、科学、推理、智能体等 10 项标准化评测的综合分数。

数据更新于 2026年05月31日

#模型分数

Claude Opus 4.8 (max)Anthropic

GPT-5.5 (xhigh)OpenAI

GPT-5.5 (high)OpenAI

Opus 4.7 (max)Anthropic

Gemini 3.1 Pro PreviewGoogle Deep Mind

GPT-5.5 (medium)OpenAI

Qwen3.7 MaxAlibaba

Gemini 3.5 FlashGoogle

Gemini 3.5 Flash (medium)Google

Kimi K2.6Moonshot AI

来源：Artificial Analysis

LMArena Text Generation

ARC-AGI-2 HLE MMLU Pro 进入全部基准列表

基于匿名众包 A/B 对战的 Elo 评分，反映真实用户对回答质量的偏好。

数据更新于 2026年05月28日

#模型Elo

Claude Opus 4.6 (thinking)Anthropic

1502

Opus 4.7 (thinking)Anthropic

1500

Claude Opus 4.6Anthropic

1498

Opus 4.7Anthropic

1494

Muse SparkFacebook AI研究实验室

1489

Gemini 3.1 Pro PreviewGoogle Deep Mind

1487

Gemini 3.0 Pro (Preview 11-2025)Google Deep Mind

1486

gpt-5.5-highOpenAI

1482

gpt-5.4-highOpenAI

1480

gemini-3.5-flashGoogle

1479

来源：LMArena

单项评测排名

按数学、编程、Agent 等维度筛选排名。下方可切换评测基准，也可直接进入分类排行榜查看完整排名。查看全部评测基准。

评测方向

综合排名

数学

AIME 2025 FrontierMath MATH-500 进入数学能力排行榜

编程

SWE-bench Verified LiveCodeBench SWE-Bench Pro 进入编程能力排行榜

Agent

τ²-Bench Terminal Bench 2.0 Aider-Polyglot 进入 Agent 能力排行榜

参数规模:全部 3B及以下 7B 13B 34B 65B 100B及以上

模型类型:全部推理大模型基座大模型指令优化/聊天优化大模型编程大模型

开源：全部开源闭源

来源：全部国产模型

AI 模型推荐

按 MATH-500 排序

当前 SOTA

GPT-4.1

OpenAI

92.80MATH-500

最佳开源

此基准下暂无符合条件的模型。

最佳国产

Qwen 3.6 Plus Preview

阿里巴巴

—MATH-500

Claude Sonnet 3.7 Anthropic

大模型性能评测结果

数据来源：DataLearnerAI

点击任意行查看模型详情；勾选左侧可对比最多 4 个模型。表中分数为各评测模式中的最高得分。

排名	模型						开源情况
	GPT-4.1 OpenAI	3.70	—	—	54.60	54.70	闭源	详情
	GPT-4.5 OpenAI	—	—	—	38.00	—	闭源	详情
	Claude Sonnet 3.7 Anthropic	10.30	—	—	70.30	61.80	闭源	详情
4	Claude 3.5 Sonnet New Anthropic	—	—	—	49.00	—	闭源	详情
5	Claude Mythos Preview Anthropic	64.70	—	—	93.90	—	闭源	详情
6	Qwen 3.6 Plus Preview 阿里巴巴	50.60	—	—	78.80	—	闭源	详情
7	Claude Sonnet 4.6 Anthropic	49.00	58.30	8.30	79.60	—	闭源	详情
8	GPT-5.2 OpenAI	45.50	54.20	18.80	80.00	82.00	闭源	详情
9	Grok 4 Heavy xAI	44.40	—	2.10	73.50	—	闭源	详情
10	Gemini 3.0 Flash Google Deep Mind	43.50	33.60	4.20	68.70	90.20	闭源	详情
11	Gemini 2.5 Deep Think Google Deep Mind	34.80	—	10.40	—	—	闭源	详情
12	Claude Sonnet 4.5 Anthropic	33.60	13.60	4.20	82.00	84.70	闭源	详情
13	Grok 4 Fast xAI	20.00	—	—	—	—	闭源	详情
14	Qwen3 Max (Preview) 阿里巴巴	11.10	—	—	69.60	74.00	闭源	详情
15	Qwen3.6-Max-Preview 阿里巴巴	—	—	—	—	—	闭源	详情
16	Gemini 2.5 Flash-Preview-09-2025 Google Deep Mind	—	—	—	54.00	—	闭源	详情
17	GPT-4.1 mini OpenAI	—	—	—	23.60	53.00	闭源	详情
18	Grok 3 xAI	—	—	—	—	—	闭源	详情
19	GPT-4.1 nano OpenAI	—	—	—	—	—	闭源	详情
20	GPT-4o(2025-03-27) OpenAI	—	—	—	—	—	闭源	详情
21	Gemini 2.0 Pro Experimental DeepMind	—	—	—	—	—	闭源	详情
22	GPT-4o(2024-11-20) OpenAI	—	—	—	31.00	—	闭源	详情
23	Qwen2.5-Max 阿里巴巴	—	—	—	—	—	闭源	详情
24	Grok-1.5 xAI	—	—	—	—	—	闭源	详情
25	Gemini 2.0 Flash-Lite DeepMind	—	—	—	—	—	闭源	详情

GPT-4.1 OpenAI

HLE3.70

ARC-AGI-2—

FrontierMath - Tier 4—

SWE-bench Verified54.60

τ²-Bench54.70

闭源

GPT-4.5 OpenAI

HLE—

ARC-AGI-2—

FrontierMath - Tier 4—

SWE-bench Verified38.00

τ²-Bench—

闭源

HLE10.30

ARC-AGI-2—

FrontierMath - Tier 4—

SWE-bench Verified70.30

τ²-Bench61.80

闭源

Claude 3.5 Sonnet New Anthropic

HLE—

ARC-AGI-2—

FrontierMath - Tier 4—

SWE-bench Verified49.00

τ²-Bench—

闭源

Claude Mythos Preview Anthropic

HLE64.70

ARC-AGI-2—

FrontierMath - Tier 4—

SWE-bench Verified93.90

τ²-Bench—

闭源

Qwen 3.6 Plus Preview 阿里巴巴

HLE50.60

ARC-AGI-2—

FrontierMath - Tier 4—

SWE-bench Verified78.80

τ²-Bench—

闭源

Claude Sonnet 4.6 Anthropic

HLE49.00

ARC-AGI-258.30

FrontierMath - Tier 48.30

SWE-bench Verified79.60

τ²-Bench—

闭源

GPT-5.2 OpenAI

HLE45.50

ARC-AGI-254.20

FrontierMath - Tier 418.80

SWE-bench Verified80.00

τ²-Bench82.00

闭源

Grok 4 Heavy xAI

HLE44.40

ARC-AGI-2—

FrontierMath - Tier 42.10

SWE-bench Verified73.50

τ²-Bench—

闭源

Gemini 3.0 Flash Google Deep Mind

HLE43.50

ARC-AGI-233.60

FrontierMath - Tier 44.20

SWE-bench Verified68.70

τ²-Bench90.20

闭源

Gemini 2.5 Deep Think Google Deep Mind

HLE34.80

ARC-AGI-2—

FrontierMath - Tier 410.40

SWE-bench Verified—

τ²-Bench—

闭源

Claude Sonnet 4.5 Anthropic

HLE33.60

ARC-AGI-213.60

FrontierMath - Tier 44.20

SWE-bench Verified82.00

τ²-Bench84.70

闭源

Grok 4 Fast xAI

HLE20.00

ARC-AGI-2—

FrontierMath - Tier 4—

SWE-bench Verified—

τ²-Bench—

闭源

Qwen3 Max (Preview)阿里巴巴

HLE11.10

ARC-AGI-2—

FrontierMath - Tier 4—

SWE-bench Verified69.60

τ²-Bench74.00

闭源

Qwen3.6-Max-Preview 阿里巴巴

HLE—

ARC-AGI-2—

FrontierMath - Tier 4—

SWE-bench Verified—

τ²-Bench—

闭源

Gemini 2.5 Flash-Preview-09-2025 Google Deep Mind

HLE—

ARC-AGI-2—

FrontierMath - Tier 4—

SWE-bench Verified54.00

τ²-Bench—

闭源

GPT-4.1 mini OpenAI

HLE—

ARC-AGI-2—

FrontierMath - Tier 4—

SWE-bench Verified23.60

τ²-Bench53.00

闭源

Grok 3 xAI

HLE—

ARC-AGI-2—

FrontierMath - Tier 4—

SWE-bench Verified—

τ²-Bench—

闭源

GPT-4.1 nano OpenAI

HLE—

ARC-AGI-2—

FrontierMath - Tier 4—

SWE-bench Verified—

τ²-Bench—

闭源

GPT-4o(2025-03-27)OpenAI

HLE—

ARC-AGI-2—

FrontierMath - Tier 4—

SWE-bench Verified—

τ²-Bench—

闭源

Gemini 2.0 Pro Experimental DeepMind

HLE—

ARC-AGI-2—

FrontierMath - Tier 4—

SWE-bench Verified—

τ²-Bench—

闭源

GPT-4o(2024-11-20)OpenAI

HLE—

ARC-AGI-2—

FrontierMath - Tier 4—

SWE-bench Verified31.00

τ²-Bench—

闭源

Qwen2.5-Max 阿里巴巴

HLE—

ARC-AGI-2—

FrontierMath - Tier 4—

SWE-bench Verified—

τ²-Bench—

闭源

Grok-1.5 xAI

HLE—

ARC-AGI-2—

FrontierMath - Tier 4—

SWE-bench Verified—

τ²-Bench—

闭源

Gemini 2.0 Flash-Lite DeepMind

HLE—

ARC-AGI-2—

FrontierMath - Tier 4—

SWE-bench Verified—

τ²-Bench—

闭源

排序：

排行榜常见问题

排行榜的数据来源是什么？

所有得分来自一手出处：模型官方 model card、技术报告、论文、厂商博客与可复现的第三方评测。每一行均链回对应的模型详情页，可查看原始引用。

为什么同一模型在不同基准上分数差异很大？

排行榜多久更新一次？

数据每 5 分钟自动重新校验一次；新模型或新评测结果一旦公开就会同步收录。页面顶部的"数据更新于"指示器反映最近一次数据刷新时间。

综合排名应该怎么解读？

开源大模型和闭源 API 模型怎么对比？

探索更多

排行榜只覆盖参与评测的模型。你还可以按模型、机构或评测基准浏览完整内容。

全部 AI 模型

浏览收录的全部模型，按机构、类型、发布时间筛选，不止于评测得分。

全部机构

查看这些模型背后的机构与公司，及其完整的模型阵容。

全部评测基准

深入了解每个评测基准的考察内容、评分方式与完整排名。