DataLearner 标志DataLearnerAI
最新AI资讯
大模型排行榜
大模型评测基准
大模型列表
大模型对比
资源中心
工具
语言中文
DataLearner 标志DataLearner AI

专注大模型评测、数据资源与实践教学的知识平台,持续更新可落地的 AI 能力图谱。

产品

  • 评测榜单
  • 模型对比
  • 数据资源

资源

  • 部署教程
  • 原创内容
  • 工具导航

关于

  • 关于我们
  • 隐私政策
  • 数据收集方法
  • 联系我们

© 2026 DataLearner AI. DataLearner 持续整合行业数据与案例,为科研、企业与开发者提供可靠的大模型情报与实践指南。

隐私政策服务条款

AI大模型评测排行榜

聚合 ARC-AGI-2、AIME 2025、SWE-bench Verified 等主流评测的实时排名,按综合、数学、编程、Agent 等维度快速筛选。

查看评测基准详情数据更新于 2026-04-28 13:44:17

截至 2026年4月,AA 智能指数前列模型包括 GPT-5.5 (xhigh)、GPT-5.5 (high)、Opus 4.7 (max),该指数汇总编程、推理、科学等 10 项标准化评测。

LMArena 文本生成榜当前靠前的模型包括 Opus 4.7 (thinking)、Claude Opus 4.6 (thinking)、Claude Opus 4.6,排名基于真人匿名 A/B 投票。

下方可按数学、编程、Agent 等分类查看单项排名。数据口径说明见 数据方法论,延伸阅读见 大模型分析博客。

综合排名

目前没有一个被普遍认可的"AI 模型综合排名",因此我们选取了两个具有代表性、且切入角度不同的综合榜单并列展示。Artificial Analysis 智能指数(AA Intelligence Index)汇总编程、数学、推理等 10 项标准化评测的跑分,衡量模型的客观能力;LMArena(原 Chatbot Arena)基于全球用户匿名盲测 A/B 投票得出的 Elo 分数,反映真实使用体感。两者分别提供客观基准与主观偏好的视角。

AA Intelligence Index

完整排名

汇总编程、数学、科学、推理、智能体等 10 项标准化评测的综合分数。

数据更新于 2026年04月25日

#模型分数
1
OpenAI
GPT-5.5 (xhigh)OpenAI
60
2
OpenAI
GPT-5.5 (high)OpenAI
59
3
Anthropic
Opus 4.7 (max)Anthropic
57
4
Google Deep Mind
Gemini 3.1 Pro PreviewGoogle Deep Mind
57
5
OpenAI
GPT-5.4 (xhigh)OpenAI
57
6
OpenAI
GPT-5.5 (medium)OpenAI
57
7
Moonshot AI
Kimi K2.6Moonshot AI
54
8
X
MiMo-V2.5-ProXiaomi
54
9
OpenAI
GPT-5.3 Codex (xhigh)OpenAI
54
10
F
Muse SparkFacebook AI研究实验室
52
来源:Artificial Analysis

LMArena Text Generation

完整排名

基于匿名众包 A/B 对战的 Elo 评分,反映真实用户对回答质量的偏好。

数据更新于 2026年04月24日

#模型Elo
1
Anthropic
Opus 4.7 (thinking)Anthropic
1503
2
Anthropic
Claude Opus 4.6 (thinking)Anthropic
1503
3
Anthropic
Claude Opus 4.6Anthropic
1496
4
Anthropic
Opus 4.7Anthropic
1494
5
Google Deep Mind
Gemini 3.1 Pro PreviewGoogle Deep Mind
1493
6
F
Muse SparkFacebook AI研究实验室
1492
7
Google Deep Mind
Gemini 3.0 Pro (Preview 11-2025)Google Deep Mind
1486
8
xAI
grok-4.20-beta1xAI
1482
9
OpenAI
gpt-5.4-highOpenAI
1481
10
xAI
grok-4.20-beta-0309-reasoningxAI
1479
来源:LMArena

单项评测排名

按数学、编程、Agent 等维度筛选排名。下方可切换评测基准,也可直接进入分类排行榜查看完整排名。 查看全部评测基准。

评测方向
综合排名
ARC-AGI-2HLEMMLU Pro进入全部基准列表
数学
AIME 2025FrontierMathMATH-500进入数学能力排行榜
编程
SWE-bench VerifiedLiveCodeBenchSWE-Bench Pro进入编程能力排行榜
Agent
τ²-BenchTerminal Bench 2.0Aider-Polyglot进入 Agent 能力排行榜
参数规模:全部3B及以下7B13B34B65B100B及以上
模型类型:全部推理大模型基座大模型指令优化/聊天优化大模型编程大模型
开源:全部开源闭源

大模型性能评测结果

数据来源:DataLearnerAI
各评测基准展示所有评测模式中的最高得分。点击模型名称可查看不同评测模式的详细结果。
排名模型开源情况
OpenAI
GPT-5.5
52.2085.0035.40——不开源
Anthropic
Claude Mythos Preview
64.70——93.90—不开源
OpenAI
GPT-5.3 Codex
—————不开源
4
OpenAI
GPT-5.4
52.1077.1027.10——不开源
5
Anthropic
Opus 4.7
54.7075.8022.9087.60—不开源
6
Google Deep Mind
Gemini 3.1 Pro Preview
51.4077.1016.7080.6090.80不开源
7
DeepSeek-AI
DeepSeek-V4-Pro
48.20——80.60—免费商用
8
Moonshot AI
Kimi K2.6
54.00——80.20—免费商用
9
Anthropic
Claude Opus 4.6
53.0066.3022.9080.8491.89不开源
10
阿里巴巴
Qwen3.6-Max-Preview
—————不开源
11
智谱AI
GLM 5.1
52.30————免费商用
12
Cursor
Composer 2
—————不开源
13
阿里巴巴
Qwen 3.6 Plus Preview
50.60——78.80—不开源
14
智谱AI
GLM-5
50.404.902.1077.8089.70免费商用
15
OpenAI
GPT-5.4 mini
41.50—2.10——不开源
16
Anthropic
Opus 4.5
43.2037.604.2080.9081.99不开源
17
阿里巴巴
Qwen3.6-27B
24.00——77.20—免费商用
18
Anthropic
Claude Sonnet 4.6
49.0058.308.3079.60—不开源
19
Facebook AI研究实验室
Muse Spark
58.0042.5014.6077.40—不开源
20
DeepSeek-AI
DeepSeek-V4-Flash
45.10——79.00—免费商用
21
Google Deep Mind
Gemini 3.0 Pro (Preview 11-2025)
45.8045.1018.8076.2085.40不开源
22
阿里巴巴
Qwen3.5-397B-A17B
48.30——76.4086.70免费商用
23
MiniMaxAI
MiniMax M2.5
19.404.90—80.20—免费商用
24
阿里巴巴
Qwen3.6-35B-A3B
21.40——73.40—免费商用
25
StepFunAI
Step 3.5 Flash
———74.4088.20免费商用
26
Moonshot AI
Kimi K2.5
50.2011.804.2076.80—免费商用
27
MiniMaxAI
M2.1
22.00——74.80—免费商用
28
Cursor
Composer 1.5
—————不开源
29
Google Deep Mind
Gemini 3.0 Flash
43.5033.604.2068.7090.20不开源
30
OpenAI
GPT-5.1
42.7017.6012.5076.30—不开源
GPT-5.5
HLE52.20
ARC-AGI-285.00
FrontierMath - Tier 435.40
SWE-bench Verified—
τ²-Bench—
不开源
Claude Mythos Preview
HLE64.70
ARC-AGI-2—
FrontierMath - Tier 4—
SWE-bench Verified93.90
τ²-Bench—
不开源
GPT-5.3 Codex
HLE—
ARC-AGI-2—
FrontierMath - Tier 4—
SWE-bench Verified—
τ²-Bench—
不开源
4
GPT-5.4
HLE52.10
ARC-AGI-277.10
FrontierMath - Tier 427.10
SWE-bench Verified—
τ²-Bench—
不开源
5
Opus 4.7
HLE54.70
ARC-AGI-275.80
FrontierMath - Tier 422.90
SWE-bench Verified87.60
τ²-Bench—
不开源
6
Gemini 3.1 Pro Preview
HLE51.40
ARC-AGI-277.10
FrontierMath - Tier 416.70
SWE-bench Verified80.60
τ²-Bench90.80
不开源
7
DeepSeek-V4-Pro
HLE48.20
ARC-AGI-2—
FrontierMath - Tier 4—
SWE-bench Verified80.60
τ²-Bench—
免费商用
8
Kimi K2.6
HLE54.00
ARC-AGI-2—
FrontierMath - Tier 4—
SWE-bench Verified80.20
τ²-Bench—
免费商用
9
Claude Opus 4.6
HLE53.00
ARC-AGI-266.30
FrontierMath - Tier 422.90
SWE-bench Verified80.84
τ²-Bench91.89
不开源
10
Qwen3.6-Max-Preview
HLE—
ARC-AGI-2—
FrontierMath - Tier 4—
SWE-bench Verified—
τ²-Bench—
不开源
11
GLM 5.1
HLE52.30
ARC-AGI-2—
FrontierMath - Tier 4—
SWE-bench Verified—
τ²-Bench—
免费商用
12
Composer 2
HLE—
ARC-AGI-2—
FrontierMath - Tier 4—
SWE-bench Verified—
τ²-Bench—
不开源
13
Qwen 3.6 Plus Preview
HLE50.60
ARC-AGI-2—
FrontierMath - Tier 4—
SWE-bench Verified78.80
τ²-Bench—
不开源
14
GLM-5
HLE50.40
ARC-AGI-24.90
FrontierMath - Tier 42.10
SWE-bench Verified77.80
τ²-Bench89.70
免费商用
15
GPT-5.4 mini
HLE41.50
ARC-AGI-2—
FrontierMath - Tier 42.10
SWE-bench Verified—
τ²-Bench—
不开源
16
Opus 4.5
HLE43.20
ARC-AGI-237.60
FrontierMath - Tier 44.20
SWE-bench Verified80.90
τ²-Bench81.99
不开源
17
Qwen3.6-27B
HLE24.00
ARC-AGI-2—
FrontierMath - Tier 4—
SWE-bench Verified77.20
τ²-Bench—
免费商用
18
Claude Sonnet 4.6
HLE49.00
ARC-AGI-258.30
FrontierMath - Tier 48.30
SWE-bench Verified79.60
τ²-Bench—
不开源
19
Muse Spark
HLE58.00
ARC-AGI-242.50
FrontierMath - Tier 414.60
SWE-bench Verified77.40
τ²-Bench—
不开源
20
DeepSeek-V4-Flash
HLE45.10
ARC-AGI-2—
FrontierMath - Tier 4—
SWE-bench Verified79.00
τ²-Bench—
免费商用
21
Gemini 3.0 Pro (Preview 11-2025)
HLE45.80
ARC-AGI-245.10
FrontierMath - Tier 418.80
SWE-bench Verified76.20
τ²-Bench85.40
不开源
22
Qwen3.5-397B-A17B
HLE48.30
ARC-AGI-2—
FrontierMath - Tier 4—
SWE-bench Verified76.40
τ²-Bench86.70
免费商用
23
MiniMax M2.5
HLE19.40
ARC-AGI-24.90
FrontierMath - Tier 4—
SWE-bench Verified80.20
τ²-Bench—
免费商用
24
Qwen3.6-35B-A3B
HLE21.40
ARC-AGI-2—
FrontierMath - Tier 4—
SWE-bench Verified73.40
τ²-Bench—
免费商用
25
Step 3.5 Flash
HLE—
ARC-AGI-2—
FrontierMath - Tier 4—
SWE-bench Verified74.40
τ²-Bench88.20
免费商用
26
Kimi K2.5
HLE50.20
ARC-AGI-211.80
FrontierMath - Tier 44.20
SWE-bench Verified76.80
τ²-Bench—
免费商用
27
M2.1
HLE22.00
ARC-AGI-2—
FrontierMath - Tier 4—
SWE-bench Verified74.80
τ²-Bench—
免费商用
28
Composer 1.5
HLE—
ARC-AGI-2—
FrontierMath - Tier 4—
SWE-bench Verified—
τ²-Bench—
不开源
29
Gemini 3.0 Flash
HLE43.50
ARC-AGI-233.60
FrontierMath - Tier 44.20
SWE-bench Verified68.70
τ²-Bench90.20
不开源
30
GPT-5.1
HLE42.70
ARC-AGI-217.60
FrontierMath - Tier 412.50
SWE-bench Verified76.30
τ²-Bench—
不开源
排序:
查看全部 204 个模型的 Terminal Bench 2.0 完整排名