大模型代码编程能力评测排行榜

本页面提供大模型代码编程能力评测排行榜，涵盖 SWE-Bench Verified、SWE-Bench Pro、LiveCodeBench、SWE-bench Multilingual 等数据集，对 GPT、Claude、Qwen、DeepSeek 等模型进行对比。

数据更新于 2026-04-28 13:02:03

截至 2026年4月，本页覆盖 SWE-bench Verified, LiveCodeBench, SWE-Bench Pro - Public, SWE-bench Multilingual 等评测基准，聚焦 大模型代码编程能力评测排行榜 方向的模型对比。

点击模型名称可进入详情页查看上下文长度、许可方式与 API 价格。数据口径说明见数据方法论。

代码能力参考综合排名

目前没有一个被普遍认可的代码能力综合排行榜。SWE-bench、HumanEval 等静态基准可以衡量特定技能，但容易被针对性优化（"刷榜"）。为此我们选取了两个切入角度不同的人类偏好参考榜单并列展示：LMArena Coding Arena 通过匿名盲测评测通用编程能力（调试、算法实现、代码生成等）；DesignArena Code Category 专注评测具有视觉呈现效果的前端代码生成（网站、UI 组件、游戏等），两者方法论相同但考察场景各异，结合参考效果最佳。

LMArena Coding Arena

完整排名

基于真实开发者提交的通用编程任务（调试、算法、代码生成）进行匿名 A/B 盲测投票，Elo 算法动态排名。

数据更新于 2026-05-28

#模型Elo

Opus 4.7 (thinking)Anthropic

1555

Claude Opus 4.6 (thinking)Anthropic

1551

Claude Opus 4.6Anthropic

1546

Opus 4.7Anthropic

1546

Claude Opus 4 (thinking-32k)Anthropic

1530

智

GLM 5.1智谱AI

1527

Muse SparkFacebook AI研究实验室

1526

qwen3.7-max-previewAlibaba

1525

Gemini 3.1 Pro PreviewGoogle Deep Mind

1525

gpt-5.5-highOpenAI

1522

来源：LMArena

基准评测

SWE-bench Verified LiveCodeBench SWE-Bench Pro - Public SWE-bench Multilingual

更多评测

参数规模:全部 3B及以下 7B 13B

大模型性能评测结果

数据来源：DataLearnerAI

暂无图表数据

点击任意行查看模型详情；勾选左侧可对比最多 4 个模型。

排名	模型					开源情况
	Qwen3-Coder-Next 阿里巴巴	70.60	—	44.30	—	免费商用	详情
	Pangu Embedded 华为	—	67.10	—	—	免费商用	详情
	Qwen3-8B 阿里巴巴	—	61.80	—	—	免费商用	详情
4	Hunyuan-7B Tencent ARC	—	57.00	—	—	免费商用	详情
5	Qwen3-4B-Thinking-2507 阿里巴巴	—	55.20	—	—	免费商用	详情
6	GLM-4-9B-Chat 智谱AI	—	51.80	—	—	免费商用	详情
7	Qwen3-4B-2507 阿里巴巴	—	35.10	—	—	免费商用	详情