大模型代码编程能力评测排行榜

本页面提供大模型代码编程能力评测排行榜，涵盖 SWE-Bench Verified、SWE-Bench Pro、LiveCodeBench、SWE-bench Multilingual 等数据集，对 GPT、Claude、Qwen、DeepSeek 等模型进行对比。

数据更新于 2026-04-28 13:02:03

截至 2026年4月，本页覆盖 SWE-bench Verified, LiveCodeBench, SWE-Bench Pro - Public, SWE-bench Multilingual 等评测基准，聚焦 大模型代码编程能力评测排行榜 方向的模型对比。

点击模型名称可进入详情页查看上下文长度、许可方式与 API 价格。数据口径说明见数据方法论。

代码能力参考综合排名

目前没有一个被普遍认可的代码能力综合排行榜。SWE-bench、HumanEval 等静态基准可以衡量特定技能，但容易被针对性优化（"刷榜"）。为此我们选取了两个切入角度不同的人类偏好参考榜单并列展示：LMArena Coding Arena 通过匿名盲测评测通用编程能力（调试、算法实现、代码生成等）；DesignArena Code Category 专注评测具有视觉呈现效果的前端代码生成（网站、UI 组件、游戏等），两者方法论相同但考察场景各异，结合参考效果最佳。

LMArena Coding Arena

完整排名

基于真实开发者提交的通用编程任务（调试、算法、代码生成）进行匿名 A/B 盲测投票，Elo 算法动态排名。

数据更新于 2026-05-28

#模型Elo

Opus 4.7 (thinking)Anthropic

1555

Claude Opus 4.6 (thinking)Anthropic

1551

Claude Opus 4.6Anthropic

1546

Opus 4.7Anthropic

1546

Claude Opus 4 (thinking-32k)Anthropic

1530

智

GLM 5.1智谱AI

1527

Muse SparkFacebook AI研究实验室

1526

qwen3.7-max-previewAlibaba

1525

Gemini 3.1 Pro PreviewGoogle Deep Mind

1525

gpt-5.5-highOpenAI

1522

来源：LMArena

基准评测

SWE-bench Verified LiveCodeBench SWE-Bench Pro - Public SWE-bench Multilingual

更多评测

参数规模:全部 3B及以下 7B 13B

榜单亮点

按 SWE-Bench Pro - Public 排序

当前 SOTA

Kimi K2.6

Moonshot AI

58.60SWE-Bench Pro - Public

查看详情

最佳开源

MiniMax-M2.7

MiniMaxAI

56.20SWE-Bench Pro - Public−2.40

查看详情

最佳国产

Qwen3.6-Max-Preview

阿里巴巴

57.30SWE-Bench Pro - Public−1.30

查看详情

大模型性能评测结果

数据来源：DataLearnerAI

点击任意行查看模型详情；勾选左侧可对比最多 4 个模型。

排名	模型					开源情况
	Kimi K2.6 Moonshot AI	80.20	89.60	58.60	76.70	免费商用	详情
	Qwen3.6-Max-Preview 阿里巴巴	—	—	57.30	—	闭源	详情
	MiniMax-M2.7 MiniMaxAI	—	—	56.20	—	不可商用	详情
4	DeepSeek-V4-Pro DeepSeek-AI	80.60	93.50	55.40	76.20	免费商用	详情
5	MiniMax M2.5 MiniMaxAI	80.20	—	55.40	—	免费商用	详情
6	DeepSeek-V4-Flash DeepSeek-AI	79.00	91.60	52.60	73.30	免费商用	详情
7	Kimi K2.5 Moonshot AI	76.80	85.00	50.70	73.00	免费商用	详情
8	DeepSeek V3.2 DeepSeek-AI	73.10	83.30	40.90	—	免费商用	详情
9	GLM-4.7 智谱AI	73.80	84.90	40.60	—	免费商用	详情
10	M2.1 MiniMaxAI	74.80	—	32.60	—	免费商用	详情
11	Kimi K2 0905 Moonshot AI	69.20	—	27.67	—	免费商用	详情
12	GLM-5 智谱AI	77.80	—	—	—	免费商用	详情
13	Qwen3-Max-Thinking 阿里巴巴	75.30	85.90	—	—	闭源	详情
14	o3-pro OpenAI	75.00	—	—	—	闭源	详情
15	Step 3.5 Flash StepFunAI	74.40	86.40	—	—	免费商用	详情
16	Claude Opus 4 Anthropic	72.50	56.60	—	—	闭源	详情
17	Kimi K2 Thinking Moonshot AI	71.30	83.10	—	—	免费商用	详情
18	Claude Sonnet 3.7 Anthropic	70.30	—	—	—	闭源	详情
19	MiniMax M2 MiniMaxAI	69.40	83.00	—	—	免费商用	详情
20	DeepSeek-V3.1 Terminus DeepSeek-AI	68.40	80.00	—	—	免费商用	详情
21	OpenAI o4 - mini OpenAI	68.10	—	—	—	闭源	详情
22	GLM-4.6 智谱AI	68.00	84.50	—	—	免费商用	详情
23	DeepSeek V3.2-Exp DeepSeek-AI	67.80	74.10	—	—	免费商用	详情
24	Qwen3-Coder-480B-A35B 阿里巴巴	67.00	—	—	—	免费商用	详情
25	DeepSeek-V3.1 DeepSeek-AI	66.00	74.80	—	—	免费商用	详情
26	GLM-4.5 智谱AI	64.20	72.90	—	—	免费商用	详情
27	Gemini-2.5-Pro-Preview-05-06 Google Deep Mind	63.20	77.10	—	—	闭源	详情
28	DeepSeek-R1-0528 DeepSeek-AI	57.60	73.30	—	—	免费商用	详情
29	GLM-4.5-Air 智谱AI	57.60	70.70	—	—	免费商用	详情
30	MiniMax-M1-80k MiniMaxAI	56.00	65.00	—	—	免费商用	详情
31	MiniMax-M1-40k MiniMaxAI	55.60	62.30	—	—	免费商用	详情
32	GPT-4.1 OpenAI	54.60	40.50	—	—	闭源	详情
33	Kimi K2 Moonshot AI	51.80	53.70	—	—	免费商用	详情
34	Gemini 2.5 Flash Google Deep Mind	50.00	55.40	—	—	闭源	详情
35	OpenAI o3-mini (high) OpenAI	49.30	69.50	—	—	闭源	详情
36	DeepSeek-R1 DeepSeek-AI	49.20	65.90	—	—	免费商用	详情
37	OpenAI o1 OpenAI	48.90	71.00	—	—	闭源	详情
38	DeepSeek-V3-0324 DeepSeek-AI	38.80	49.20	—	—	免费商用	详情
39	GPT-4.5 OpenAI	38.00	46.40	—	—	闭源	详情
40	Qwen3-235B-A22B 阿里巴巴	34.40	70.70	—	—	免费商用	详情
41	GPT-4o(2024-11-20) OpenAI	31.00	—	—	—	闭源	详情
42	Gemini 2.5 Flash-Lite Google Deep Mind	27.60	34.30	—	—	闭源	详情
43	GPT-4.1 mini OpenAI	23.60	—	—	—	闭源	详情
44	Gemini 2.0 Flash Experimental DeepMind	21.40	29.10	—	—	闭源	详情
45	Llama 4 Behemoth Instruct Facebook AI研究实验室	—	49.40	—	—	免费商用	详情
46	Llama 4 Maverick Instruct Facebook AI研究实验室	—	43.40	—	—	免费商用	详情
47	ERNIE-4.5-VL-424B-A47B-Base 百度	—	38.80	—	—	免费商用	详情
48	ERNIE-4.5-300B-A47B 百度	—	38.80	—	—	免费商用	详情
49	Codestral 25.01 MistralAI	—	37.90	—	—	闭源	详情
50	DeepSeek-V3 DeepSeek-AI	—	34.60	—	—	免费商用	详情

Kimi K2.6 Moonshot AI

SWE-bench Verified80.20

LiveCodeBench89.60

SWE-Bench Pro - Public58.60

SWE-bench Multilingual76.70

免费商用

Qwen3.6-Max-Preview 阿里巴巴

SWE-bench Verified—

LiveCodeBench—

SWE-Bench Pro - Public57.30

SWE-bench Multilingual—

闭源

MiniMax-M2.7 MiniMaxAI

SWE-bench Verified—

LiveCodeBench—

SWE-Bench Pro - Public56.20

SWE-bench Multilingual—

不可商用

DeepSeek-V4-Pro DeepSeek-AI

SWE-bench Verified80.60

LiveCodeBench93.50

SWE-Bench Pro - Public55.40

SWE-bench Multilingual76.20

免费商用

MiniMax M2.5 MiniMaxAI

SWE-bench Verified80.20

LiveCodeBench—

SWE-Bench Pro - Public55.40

SWE-bench Multilingual—

免费商用

DeepSeek-V4-Flash DeepSeek-AI

SWE-bench Verified79.00

LiveCodeBench91.60

SWE-Bench Pro - Public52.60

SWE-bench Multilingual73.30

免费商用

Kimi K2.5 Moonshot AI

SWE-bench Verified76.80

LiveCodeBench85.00

SWE-Bench Pro - Public50.70

SWE-bench Multilingual73.00

免费商用

DeepSeek V3.2 DeepSeek-AI

SWE-bench Verified73.10

LiveCodeBench83.30

SWE-Bench Pro - Public40.90

SWE-bench Multilingual—

免费商用

GLM-4.7 智谱AI

SWE-bench Verified73.80

LiveCodeBench84.90

SWE-Bench Pro - Public40.60

SWE-bench Multilingual—

免费商用

M2.1 MiniMaxAI

SWE-bench Verified74.80

LiveCodeBench—

SWE-Bench Pro - Public32.60

SWE-bench Multilingual—

免费商用

Kimi K2 0905 Moonshot AI

SWE-bench Verified69.20

LiveCodeBench—

SWE-Bench Pro - Public27.67

SWE-bench Multilingual—

免费商用

GLM-5 智谱AI

SWE-bench Verified77.80

LiveCodeBench—

SWE-Bench Pro - Public—

SWE-bench Multilingual—

免费商用

Qwen3-Max-Thinking 阿里巴巴

SWE-bench Verified75.30

LiveCodeBench85.90

SWE-Bench Pro - Public—

SWE-bench Multilingual—

闭源

o3-pro OpenAI

SWE-bench Verified75.00

LiveCodeBench—

SWE-Bench Pro - Public—

SWE-bench Multilingual—

闭源

Step 3.5 Flash StepFunAI

SWE-bench Verified74.40

LiveCodeBench86.40

SWE-Bench Pro - Public—

SWE-bench Multilingual—

免费商用

Claude Opus 4 Anthropic

SWE-bench Verified72.50

LiveCodeBench56.60

SWE-Bench Pro - Public—

SWE-bench Multilingual—

闭源

Kimi K2 Thinking Moonshot AI

SWE-bench Verified71.30

LiveCodeBench83.10

SWE-Bench Pro - Public—

SWE-bench Multilingual—

免费商用

Claude Sonnet 3.7 Anthropic

SWE-bench Verified70.30

LiveCodeBench—

SWE-Bench Pro - Public—

SWE-bench Multilingual—

闭源

MiniMax M2 MiniMaxAI

SWE-bench Verified69.40

LiveCodeBench83.00

SWE-Bench Pro - Public—

SWE-bench Multilingual—

免费商用

DeepSeek-V3.1 Terminus DeepSeek-AI

SWE-bench Verified68.40

LiveCodeBench80.00

SWE-Bench Pro - Public—

SWE-bench Multilingual—

免费商用

OpenAI o4 - mini OpenAI

SWE-bench Verified68.10

LiveCodeBench—

SWE-Bench Pro - Public—

SWE-bench Multilingual—

闭源

GLM-4.6 智谱AI

SWE-bench Verified68.00

LiveCodeBench84.50

SWE-Bench Pro - Public—

SWE-bench Multilingual—

免费商用

DeepSeek V3.2-Exp DeepSeek-AI

SWE-bench Verified67.80

LiveCodeBench74.10

SWE-Bench Pro - Public—

SWE-bench Multilingual—

免费商用

Qwen3-Coder-480B-A35B 阿里巴巴

SWE-bench Verified67.00

LiveCodeBench—

SWE-Bench Pro - Public—

SWE-bench Multilingual—

免费商用

DeepSeek-V3.1 DeepSeek-AI

SWE-bench Verified66.00

LiveCodeBench74.80

SWE-Bench Pro - Public—

SWE-bench Multilingual—

免费商用

GLM-4.5 智谱AI

SWE-bench Verified64.20

LiveCodeBench72.90

SWE-Bench Pro - Public—

SWE-bench Multilingual—

免费商用

Gemini-2.5-Pro-Preview-05-06 Google Deep Mind

SWE-bench Verified63.20

LiveCodeBench77.10

SWE-Bench Pro - Public—

SWE-bench Multilingual—

闭源

DeepSeek-R1-0528 DeepSeek-AI

SWE-bench Verified57.60

LiveCodeBench73.30

SWE-Bench Pro - Public—

SWE-bench Multilingual—

免费商用

GLM-4.5-Air 智谱AI

SWE-bench Verified57.60

LiveCodeBench70.70

SWE-Bench Pro - Public—

SWE-bench Multilingual—

免费商用

MiniMax-M1-80k MiniMaxAI

SWE-bench Verified56.00

LiveCodeBench65.00

SWE-Bench Pro - Public—

SWE-bench Multilingual—

免费商用

MiniMax-M1-40k MiniMaxAI

SWE-bench Verified55.60

LiveCodeBench62.30

SWE-Bench Pro - Public—

SWE-bench Multilingual—

免费商用

GPT-4.1 OpenAI

SWE-bench Verified54.60

LiveCodeBench40.50

SWE-Bench Pro - Public—

SWE-bench Multilingual—

闭源

Kimi K2 Moonshot AI

SWE-bench Verified51.80

LiveCodeBench53.70

SWE-Bench Pro - Public—

SWE-bench Multilingual—

免费商用

Gemini 2.5 Flash Google Deep Mind

SWE-bench Verified50.00

LiveCodeBench55.40

SWE-Bench Pro - Public—

SWE-bench Multilingual—

闭源

OpenAI o3-mini (high)OpenAI

SWE-bench Verified49.30

LiveCodeBench69.50

SWE-Bench Pro - Public—

SWE-bench Multilingual—

闭源

DeepSeek-R1 DeepSeek-AI

SWE-bench Verified49.20

LiveCodeBench65.90

SWE-Bench Pro - Public—

SWE-bench Multilingual—

免费商用

OpenAI o1 OpenAI

SWE-bench Verified48.90

LiveCodeBench71.00

SWE-Bench Pro - Public—

SWE-bench Multilingual—

闭源

DeepSeek-V3-0324 DeepSeek-AI

SWE-bench Verified38.80

LiveCodeBench49.20

SWE-Bench Pro - Public—

SWE-bench Multilingual—

免费商用

GPT-4.5 OpenAI

SWE-bench Verified38.00

LiveCodeBench46.40

SWE-Bench Pro - Public—

SWE-bench Multilingual—

闭源

Qwen3-235B-A22B 阿里巴巴

SWE-bench Verified34.40

LiveCodeBench70.70

SWE-Bench Pro - Public—

SWE-bench Multilingual—

免费商用

GPT-4o(2024-11-20)OpenAI

SWE-bench Verified31.00

LiveCodeBench—

SWE-Bench Pro - Public—

SWE-bench Multilingual—

闭源

Gemini 2.5 Flash-Lite Google Deep Mind

SWE-bench Verified27.60

LiveCodeBench34.30

SWE-Bench Pro - Public—

SWE-bench Multilingual—

闭源

GPT-4.1 mini OpenAI

SWE-bench Verified23.60

LiveCodeBench—

SWE-Bench Pro - Public—

SWE-bench Multilingual—

闭源

Gemini 2.0 Flash Experimental DeepMind

SWE-bench Verified21.40

LiveCodeBench29.10

SWE-Bench Pro - Public—

SWE-bench Multilingual—

闭源

Llama 4 Behemoth Instruct Facebook AI研究实验室

SWE-bench Verified—

LiveCodeBench49.40

SWE-Bench Pro - Public—

SWE-bench Multilingual—

免费商用

Llama 4 Maverick Instruct Facebook AI研究实验室

SWE-bench Verified—

LiveCodeBench43.40

SWE-Bench Pro - Public—

SWE-bench Multilingual—

免费商用

ERNIE-4.5-VL-424B-A47B-Base 百度

SWE-bench Verified—

LiveCodeBench38.80

SWE-Bench Pro - Public—

SWE-bench Multilingual—

免费商用

ERNIE-4.5-300B-A47B 百度

SWE-bench Verified—

LiveCodeBench38.80

SWE-Bench Pro - Public—

SWE-bench Multilingual—

免费商用

Codestral 25.01 MistralAI

SWE-bench Verified—

LiveCodeBench37.90

SWE-Bench Pro - Public—

SWE-bench Multilingual—

闭源

DeepSeek-V3 DeepSeek-AI

SWE-bench Verified—

LiveCodeBench34.60

SWE-Bench Pro - Public—

SWE-bench Multilingual—

免费商用

排序：

已显示 50 / 66 个模型查看 SWE-Bench Pro - Public 基准测试完整页面