大模型代码编程能力评测排行榜

本页面提供大模型代码编程能力评测排行榜，涵盖 SWE-Bench Verified、SWE-Bench Pro、LiveCodeBench、SWE-bench Multilingual 等数据集，对 GPT、Claude、Qwen、DeepSeek 等模型进行对比。

数据更新于 2026-04-06 11:52:58

截至 2026年4月，本页覆盖 SWE-bench Verified, LiveCodeBench, SWE-Bench Pro - Public, SWE-bench Multilingual 等评测基准，聚焦 大模型代码编程能力评测排行榜 方向的模型对比。

点击模型名称可进入详情页查看上下文长度、许可方式与 API 价格。数据口径说明见数据方法论。

代码能力参考综合排名

目前没有一个被普遍认可的代码能力综合排行榜。SWE-bench、HumanEval 等静态基准可以衡量特定技能，但容易被针对性优化（"刷榜"）。为此我们选取了两个切入角度不同的人类偏好参考榜单并列展示：LMArena Coding Arena 通过匿名盲测评测通用编程能力（调试、算法实现、代码生成等）；DesignArena Code Category 专注评测具有视觉呈现效果的前端代码生成（网站、UI 组件、游戏等），两者方法论相同但考察场景各异，结合参考效果最佳。

LMArena Coding Arena

完整排名

基于真实开发者提交的通用编程任务（调试、算法、代码生成）进行匿名 A/B 盲测投票，Elo 算法动态排名。

数据更新于 2026-04-24

#模型Elo

Opus 4.7 (thinking)Anthropic

1572

Opus 4.7Anthropic

1560

Claude Opus 4.6 (thinking)Anthropic

1554

Claude Opus 4.6Anthropic

1549

Muse SparkFacebook AI研究实验室

1533

gpt-5.4-highOpenAI

1532

Gemini 3.1 Pro PreviewGoogle Deep Mind

1531

Claude Opus 4 (thinking-32k)Anthropic

1531

grok-4.20-beta-0309-reasoningxAI

1520

智

GLM 5.1智谱AI

1520

来源：LMArena

基准评测

SWE-bench Verified LiveCodeBench SWE-Bench Pro - Public SWE-bench Multilingual

更多评测

参数规模:全部 3B及以下 7B 13B

大模型性能评测结果

数据来源：DataLearnerAI

暂无图表数据

排名	模型					开源情况
	Hunyuan-A13B-Instruct	—	63.90	—	—	免费商用
	Pangu Pro MoE	—	59.60	—	—	免费商用
	Qwen3-Next	—	56.60	—	—	免费商用
4	Llama3.1-70B-Instruct	—	33.30	—	—	免费商用
5	Llama3.3-70B-Instruct	—	33.30	—	—	免费商用