DataLearner 标志DataLearnerAI
最新AI资讯
大模型排行榜
大模型评测基准
大模型列表
大模型对比
资源中心
工具
语言中文
DataLearner 标志DataLearner AI

专注大模型评测、数据资源与实践教学的知识平台,持续更新可落地的 AI 能力图谱。

产品

  • 评测榜单
  • 模型对比
  • 数据资源

资源

  • 部署教程
  • 原创内容
  • 工具导航

关于

  • 关于我们
  • 隐私政策
  • 数据收集方法
  • 联系我们

© 2026 DataLearner AI. DataLearner 持续整合行业数据与案例,为科研、企业与开发者提供可靠的大模型情报与实践指南。

隐私政策服务条款
返回总榜单

大模型代码编程能力评测排行榜

本页面提供大模型代码编程能力评测排行榜,涵盖 SWE-Bench Verified、SWE-Bench Pro、LiveCodeBench、SWE-bench Multilingual 等数据集,对 GPT、Claude、Qwen、DeepSeek 等模型进行对比。

数据更新于 2026-04-28 13:02:03

截至 2026年4月,本页覆盖 SWE-bench Verified, LiveCodeBench, SWE-Bench Pro - Public, SWE-bench Multilingual 等评测基准,聚焦 大模型代码编程能力评测排行榜 方向的模型对比。

点击模型名称可进入详情页查看上下文长度、许可方式与 API 价格。数据口径说明见 数据方法论。

代码能力参考综合排名

目前没有一个被普遍认可的代码能力综合排行榜。SWE-bench、HumanEval 等静态基准可以衡量特定技能,但容易被针对性优化("刷榜")。为此我们选取了两个切入角度不同的人类偏好参考榜单并列展示:LMArena Coding Arena 通过匿名盲测评测通用编程能力(调试、算法实现、代码生成等);DesignArena Code Category 专注评测具有视觉呈现效果的前端代码生成(网站、UI 组件、游戏等),两者方法论相同但考察场景各异,结合参考效果最佳。

LMArena Coding Arena

完整排名

基于真实开发者提交的通用编程任务(调试、算法、代码生成)进行匿名 A/B 盲测投票,Elo 算法动态排名。

数据更新于 2026-04-24

#模型Elo
1
Anthropic
Opus 4.7 (thinking)Anthropic
1572
2
Anthropic
Opus 4.7Anthropic
1560
3
Anthropic
Claude Opus 4.6 (thinking)Anthropic
1554
4
Anthropic
Claude Opus 4.6Anthropic
1549
5
F
Muse SparkFacebook AI研究实验室
1533
6
OpenAI
gpt-5.4-highOpenAI
1532
7
Google Deep Mind
Gemini 3.1 Pro PreviewGoogle Deep Mind
1531
8
Anthropic
Claude Opus 4 (thinking-32k)Anthropic
1531
9
xAI
grok-4.20-beta-0309-reasoningxAI
1520
10
智
GLM 5.1智谱AI
1520
来源:LMArena

DesignArena Code Category

完整排名

基于 Arcada Labs 平台,对视觉前端代码任务(网站、UI 组件、游戏、数据可视化等)进行匿名投票,Bradley-Terry 模型动态排名。

数据更新于 2026-04-26

#模型Elo
1
Anthropic
Claude Opus 4.6Anthropic
1352
2
Anthropic
Claude Opus 4.7 (Thinking)Anthropic
1347
3
Anthropic
Claude Opus 4.6 (Thinking)Anthropic
1346
4
Z
GLM 5.1Zhipu AI
1343
5
Anthropic
Opus 4.7Anthropic
1338
6
Z
GLM 5 TurboZhipu AI
1336
7
Anthropic
Claude Sonnet 4.6Anthropic
1334
8
Moonshot AI
Kimi K2.6Moonshot AI
1326
9
F
Muse SparkFacebook AI研究实验室
1315
10
Z
GLM 5Zhipu AI
1311
来源:DesignArena
基准评测
SWE-bench VerifiedLiveCodeBenchSWE-Bench Pro - PublicSWE-bench Multilingual
更多评测
参数规模:全部3B及以下7B13B34B65B100B及以上
模型类型:全部推理大模型基座大模型指令优化/聊天优化大模型编程大模型
开源:全部开源闭源
模型发布时间截止:

大模型性能评测结果

数据来源:DataLearnerAI
排名模型开源情况
Anthropic
Claude Mythos Preview
扩展思考工具
93.90—77.8087.30不开源
Anthropic
Opus 4.7
扩展思考工具
87.60—64.30—不开源
Anthropic
Claude Sonnet 5
并行 · 开启思考
82.00———不开源
4
Anthropic
Claude Sonnet 4.5
并行 · 开启思考工具
82.00———不开源
5
Anthropic
Opus 4.5
扩展思考工具
80.9087.00——不开源
6
Anthropic
Claude Opus 4.6
扩展思考工具
80.84——72.00不开源
7
DeepSeek-AI
DeepSeek-V4-Pro
思考水平 · 极高工具
80.60—55.4076.20免费商用
8
Google Deep Mind
Gemini 3.1 Pro Preview
思考水平 · 高工具
80.6091.7054.20—不开源
9
Anthropic
Claude Sonnet 4
并行 · 开启思考工具
80.20———不开源
10
MiniMaxAI
MiniMax M2.5
开启思考工具
80.20—55.40—免费商用
11
Moonshot AI
Kimi K2.6
开启思考工具
80.20—58.6076.70免费商用
12
OpenAI
GPT-5.2
思考水平 · 极高工具
80.00—55.60—不开源
13
Anthropic
Claude Sonnet 4.6
开启思考
79.60———不开源
14
DeepSeek-AI
DeepSeek-V4-Pro
思考水平 · 高工具
79.40—54.4074.10免费商用
15
DeepSeek-AI
DeepSeek-V4-Flash
思考水平 · 极高工具
79.00—52.6073.30免费商用
16
阿里巴巴
Qwen 3.6 Plus Preview
开启思考工具
78.80—56.60—不开源
17
DeepSeek-AI
DeepSeek-V4-Flash
思考水平 · 高工具
78.60—52.3070.20免费商用
18
智谱AI
GLM-5
开启思考
77.80———免费商用
19
Facebook AI研究实验室
Muse Spark
开启思考工具
77.40———不开源
20
Anthropic
Claude Sonnet 4.5
开启思考工具
77.20———不开源
21
阿里巴巴
Qwen3.6-27B
开启思考工具
77.20—53.5071.30免费商用
22
OpenAI
GPT-5.1-Codex-Max
思考水平 · 高工具
76.80———不开源
23
Moonshot AI
Kimi K2.5
开启思考工具
76.80—50.70—免费商用
24
阿里巴巴
Qwen3.5-397B-A17B
开启思考工具
76.40———免费商用
25
OpenAI
GPT-5.1
思考水平 · 高
76.30———不开源
26
OpenAI
GPT-5.1
思考水平 · 高工具
76.30———不开源
27
Google Deep Mind
Gemini 3.0 Pro (Preview 11-2025)
开启思考
76.2092.00——不开源
28
阿里巴巴
Qwen3-Max-Thinking
开启思考
75.3085.90——不开源
29
OpenAI
o3-pro
思考水平 · 高
75.00———不开源
30
MiniMaxAI
M2.1
开启思考
74.80———免费商用
Claude Mythos Preview
扩展思考工具
SWE-bench Verified93.90
LiveCodeBench—
SWE-Bench Pro - Public77.80
SWE-bench Multilingual87.30
不开源
Opus 4.7
扩展思考工具
SWE-bench Verified87.60
LiveCodeBench—
SWE-Bench Pro - Public64.30
SWE-bench Multilingual—
不开源
Claude Sonnet 5
并行 · 开启思考
SWE-bench Verified82.00
LiveCodeBench—
SWE-Bench Pro - Public—
SWE-bench Multilingual—
不开源
4
Claude Sonnet 4.5
并行 · 开启思考工具
SWE-bench Verified82.00
LiveCodeBench—
SWE-Bench Pro - Public—
SWE-bench Multilingual—
不开源
5
Opus 4.5
扩展思考工具
SWE-bench Verified80.90
LiveCodeBench87.00
SWE-Bench Pro - Public—
SWE-bench Multilingual—
不开源
6
Claude Opus 4.6
扩展思考工具
SWE-bench Verified80.84
LiveCodeBench—
SWE-Bench Pro - Public—
SWE-bench Multilingual72.00
不开源
7
DeepSeek-V4-Pro
思考水平 · 极高工具
SWE-bench Verified80.60
LiveCodeBench—
SWE-Bench Pro - Public55.40
SWE-bench Multilingual76.20
免费商用
8
Gemini 3.1 Pro Preview
思考水平 · 高工具
SWE-bench Verified80.60
LiveCodeBench91.70
SWE-Bench Pro - Public54.20
SWE-bench Multilingual—
不开源
9
Claude Sonnet 4
并行 · 开启思考工具
SWE-bench Verified80.20
LiveCodeBench—
SWE-Bench Pro - Public—
SWE-bench Multilingual—
不开源
10
MiniMax M2.5
开启思考工具
SWE-bench Verified80.20
LiveCodeBench—
SWE-Bench Pro - Public55.40
SWE-bench Multilingual—
免费商用
11
Kimi K2.6
开启思考工具
SWE-bench Verified80.20
LiveCodeBench—
SWE-Bench Pro - Public58.60
SWE-bench Multilingual76.70
免费商用
12
GPT-5.2
思考水平 · 极高工具
SWE-bench Verified80.00
LiveCodeBench—
SWE-Bench Pro - Public55.60
SWE-bench Multilingual—
不开源
13
Claude Sonnet 4.6
开启思考
SWE-bench Verified79.60
LiveCodeBench—
SWE-Bench Pro - Public—
SWE-bench Multilingual—
不开源
14
DeepSeek-V4-Pro
思考水平 · 高工具
SWE-bench Verified79.40
LiveCodeBench—
SWE-Bench Pro - Public54.40
SWE-bench Multilingual74.10
免费商用
15
DeepSeek-V4-Flash
思考水平 · 极高工具
SWE-bench Verified79.00
LiveCodeBench—
SWE-Bench Pro - Public52.60
SWE-bench Multilingual73.30
免费商用
16
Qwen 3.6 Plus Preview
开启思考工具
SWE-bench Verified78.80
LiveCodeBench—
SWE-Bench Pro - Public56.60
SWE-bench Multilingual—
不开源
17
DeepSeek-V4-Flash
思考水平 · 高工具
SWE-bench Verified78.60
LiveCodeBench—
SWE-Bench Pro - Public52.30
SWE-bench Multilingual70.20
免费商用
18
GLM-5
开启思考
SWE-bench Verified77.80
LiveCodeBench—
SWE-Bench Pro - Public—
SWE-bench Multilingual—
免费商用
19
Muse Spark
开启思考工具
SWE-bench Verified77.40
LiveCodeBench—
SWE-Bench Pro - Public—
SWE-bench Multilingual—
不开源
20
Claude Sonnet 4.5
开启思考工具
SWE-bench Verified77.20
LiveCodeBench—
SWE-Bench Pro - Public—
SWE-bench Multilingual—
不开源
21
Qwen3.6-27B
开启思考工具
SWE-bench Verified77.20
LiveCodeBench—
SWE-Bench Pro - Public53.50
SWE-bench Multilingual71.30
免费商用
22
GPT-5.1-Codex-Max
思考水平 · 高工具
SWE-bench Verified76.80
LiveCodeBench—
SWE-Bench Pro - Public—
SWE-bench Multilingual—
不开源
23
Kimi K2.5
开启思考工具
SWE-bench Verified76.80
LiveCodeBench—
SWE-Bench Pro - Public50.70
SWE-bench Multilingual—
免费商用
24
Qwen3.5-397B-A17B
开启思考工具
SWE-bench Verified76.40
LiveCodeBench—
SWE-Bench Pro - Public—
SWE-bench Multilingual—
免费商用
25
GPT-5.1
思考水平 · 高
SWE-bench Verified76.30
LiveCodeBench—
SWE-Bench Pro - Public—
SWE-bench Multilingual—
不开源
26
GPT-5.1
思考水平 · 高工具
SWE-bench Verified76.30
LiveCodeBench—
SWE-Bench Pro - Public—
SWE-bench Multilingual—
不开源
27
Gemini 3.0 Pro (Preview 11-2025)
开启思考
SWE-bench Verified76.20
LiveCodeBench92.00
SWE-Bench Pro - Public—
SWE-bench Multilingual—
不开源
28
Qwen3-Max-Thinking
开启思考
SWE-bench Verified75.30
LiveCodeBench85.90
SWE-Bench Pro - Public—
SWE-bench Multilingual—
不开源
29
o3-pro
思考水平 · 高
SWE-bench Verified75.00
LiveCodeBench—
SWE-Bench Pro - Public—
SWE-bench Multilingual—
不开源
30
M2.1
开启思考
SWE-bench Verified74.80
LiveCodeBench—
SWE-Bench Pro - Public—
SWE-bench Multilingual—
免费商用
排序:
查看全部 199 个模型的 SWE-bench Verified 完整排名