LMArena Coding Arena 代码能力排行榜
基于 LMArena Coding Arena 用户匿名投票的最新AI大模型代码编程能力排行榜,涵盖各模型的 Elo 得分、95% 置信区间、投票量、机构与许可证。
榜首模型
qwen3.7-max-preview
最高得分
1525.00
模型数量
355
数据版本
2026年05月28日
数据来源: LM Arena
关于本排行榜
本排行榜展示了当前 AI 大模型在代码编程任务中的实力排名。数据来源于 LMArena (前身为 LMSYS Chatbot Arena)的 Coding 子赛道,通过真实用户匿名盲测投票评估各模型在代码编程任务中的表现。
评测方法概要
匿名盲测:用户发出编程问题后,由两个"隐藏身份"的模型分别给出代码解答,用户投票选出更好的回答,排除品牌偏见。
Elo 评分:采用 Bradley-Terry 模型计算 Elo 分数,分数越高说明该模型的代码回答越容易被用户选择。
覆盖多种编程场景:包括代码生成、Bug 修复、算法实现、代码解释等高频真实编程场景。
DataLearner 在原始数据基础上提供中文解读与深度分析,并将排行榜模型关联至 DataLearner 模型库,方便您一键查看模型详情、API 定价、评测得分等完整信息。
排名总表
| 排名 | 模型名称 | 得分 | 95% CI | 投票数 | 机构 | 许可证 |
|---|---|---|---|---|---|---|
| 8 | qwen3.7-max-previewAlibaba | 1525.00 | +/-18 | 1,137 | Alibaba | Proprietary |
| 18 | ernie-5.1Baidu | 1515.00 | +/-10 | 3,943 | Baidu | Proprietary |
| 22 | qwen3.5-max-previewAlibaba | 1514.00 | +/-8 | 5,491 | Alibaba | Proprietary |
| 23 | kimi-k2.6Moonshot | 1514.00 | +/-10 | 4,237 | Moonshot | Modified MIT |
| 27 | dola-seed-2.0-proBytedance | 1511.00 | +/-7 | 10,045 | Bytedance | Proprietary |
| 32 | qwen3.6-max-previewAlibaba | 1506.00 | +/-16 | 1,327 | Alibaba | Proprietary |
| 33 | kimi-k2.5-instantMoonshot | 1505.00 | +/-14 | 1,803 | Moonshot | Modified MIT |
| 35 | Kimi K2 ThinkingMoonshot AI | 1503.00 | +/-7 | 9,469 | Moonshot AI | Modified MIT |
| 38 | deepseek-v4-proDeepSeek | 1500.00 | +/-9 | 4,940 | DeepSeek | MIT |
| 46 | deepseek-v4-pro-thinkingDeepSeek | 1494.00 | +/-9 | 4,535 | DeepSeek | MIT |
| 50 | qwen3.6-plusAlibaba | 1492.00 | +/-9 | 5,403 | Alibaba | Proprietary |
| 56 | kimi-k2-thinking-turboMoonshot | 1487.00 | +/-6 | 14,116 | Moonshot | Modified MIT |
| 63 | deepseek-v4-flashDeepSeek | 1479.00 | +/-9 | 4,780 | DeepSeek | MIT |
| 64 | deepseek-v4-flash-thinkingDeepSeek | 1478.00 | +/-9 | 4,709 | DeepSeek | MIT |
| 65 | 1475.00 | +/-8 | 6,572 | MiniMaxAI | Modified MIT | |
| 66 | qwen3-max-2025-09-23Alibaba | 1475.00 | +/-13 | 2,042 | Alibaba | Proprietary |
| 67 | DeepSeek V3.2 (thinking)DeepSeek-AI | 1475.00 | +/-7 | 8,193 | DeepSeek-AI | MIT |
| 69 | DeepSeek V3.2-Exp (thinking)DeepSeek-AI | 1474.00 | +/-13 | 1,919 | DeepSeek-AI | MIT |
| 75 | DeepSeek V3.2DeepSeek-AI | 1469.00 | +/-7 | 10,179 | DeepSeek-AI | MIT |
| 77 | kimi-k2-0905-previewMoonshot | 1467.00 | +/-13 | 2,243 | Moonshot | Modified MIT |
| 79 | DeepSeek V3.2-ExpDeepSeek-AI | 1466.00 | +/-12 | 2,501 | DeepSeek-AI | MIT |
| 82 | DeepSeek-R1-0528DeepSeek-AI | 1465.00 | +/-11 | 2,728 | DeepSeek-AI | MIT |
| 86 | deepseek-v3.1-terminus-thinkingDeepSeek | 1463.00 | +/-24 | 636 | DeepSeek | MIT |
| 88 | hunyuan-hy3-previewTencent | 1462.00 | +/-15 | 1,648 | Tencent | tencent-hunyuan-community |
| 90 | Kimi K2Moonshot AI | 1460.00 | +/-8 | 5,244 | Moonshot AI | Modified MIT |
| 96 | qwen3-coder-480b-a35b-instructAlibaba | 1457.00 | +/-9 | 4,849 | Alibaba | Apache 2.0 |
| 97 | DeepSeek-V3.1 (thinking)DeepSeek-AI | 1457.00 | +/-13 | 1,904 | DeepSeek-AI | MIT |
| 100 | qwen3-vl-235b-a22b-thinkingAlibaba | 1455.00 | +/-14 | 1,625 | Alibaba | Apache 2.0 |
| 101 | qwen3.5-122b-a10bAlibaba | 1455.00 | +/-8 | 7,029 | Alibaba | Apache 2.0 |
| 105 | qwen3.5-27bAlibaba | 1448.00 | +/-8 | 6,863 | Alibaba | Apache 2.0 |
| 106 | DeepSeek-V3.1DeepSeek-AI | 1448.00 | +/-12 | 2,624 | DeepSeek-AI | MIT |
| 107 | Step 3.5 FlashStepFunAI | 1447.00 | +/-7 | 8,364 | StepFunAI | Apache 2.0 |
| 108 | qwen3-next-80b-a3b-instructAlibaba | 1446.00 | +/-9 | 4,794 | Alibaba | Apache 2.0 |
| 109 | qwen3-235b-a22b-no-thinkingAlibaba | 1446.00 | +/-8 | 6,975 | Alibaba | Apache 2.0 |
| 111 | DeepSeek-R1DeepSeek-AI | 1444.00 | +/-12 | 2,317 | DeepSeek-AI | MIT |
| 112 | 1444.00 | +/-7 | 9,266 | MiniMaxAI | Modified MIT | |
| 114 | qwen3-235b-a22b-thinking-2507Alibaba | 1442.00 | +/-15 | 1,611 | Alibaba | Apache 2.0 |
| 116 | qwen3-30b-a3b-instruct-2507Alibaba | 1440.00 | +/-9 | 4,660 | Alibaba | Apache 2.0 |
| 117 | minimax-m2.1-previewMiniMax | 1439.00 | +/-10 | 3,426 | MiniMax | MIT |
| 118 | DeepSeek-V3.1 TerminusDeepSeek-AI | 1439.00 | +/-21 | 778 | DeepSeek-AI | MIT |
| 119 | hunyuan-vision-1.5-thinkingTencent | 1438.00 | +/-27 | 437 | Tencent | Proprietary |
| 121 | qwen3.5-35b-a3bAlibaba | 1437.00 | +/-8 | 7,198 | Alibaba | Apache 2.0 |
| 126 | qwen3-235b-a22bAlibaba | 1433.00 | +/-9 | 4,339 | Alibaba | Apache 2.0 |
| 131 | qwen3.5-flashAlibaba | 1432.00 | +/-7 | 8,187 | Alibaba | Proprietary |
| 136 | DeepSeek-V3-0324DeepSeek-AI | 1429.00 | +/-7 | 8,372 | DeepSeek-AI | MIT |
| 141 | qwen3-next-80b-a3b-thinkingAlibaba | 1421.00 | +/-11 | 2,677 | Alibaba | Apache 2.0 |
| 146 | minimax-m1MiniMax | 1416.00 | +/-8 | 6,489 | MiniMax | Apache 2.0 |
| 153 | step-3StepFun | 1408.00 | +/-17 | 1,233 | StepFun | Apache 2.0 |
| 154 | qwen3-32bAlibaba | 1408.00 | +/-24 | 513 | Alibaba | Apache 2.0 |
| 157 | qwen2.5-maxAlibaba | 1403.00 | +/-8 | 5,101 | Alibaba | Proprietary |
| 158 | hunyuan-t1-20250711Tencent | 1400.00 | +/-20 | 805 | Tencent | Proprietary |
| 159 | hunyuan-turbos-20250226Tencent | 1400.00 | +/-31 | 275 | Tencent | Proprietary |
| 164 | hunyuan-turbos-20250416Tencent | 1394.00 | +/-14 | 1,776 | Tencent | Proprietary |
| 172 | deepseek-v3DeepSeek | 1388.00 | +/-10 | 3,280 | DeepSeek | DeepSeek |
| 173 | qwen3-30b-a3bAlibaba | 1387.00 | +/-9 | 4,531 | Alibaba | Apache 2.0 |
| 176 | qwq-32bAlibaba | 1385.00 | +/-9 | 4,046 | Alibaba | Apache 2.0 |
| 178 | minimax-m2MiniMax | 1384.00 | +/-15 | 1,547 | MiniMax | Apache 2.0 |
| 182 | qwen-plus-0125Alibaba | 1380.00 | +/-18 | 893 | Alibaba | Proprietary |
| 184 | deepseek-v2.5-1210DeepSeek | 1375.00 | +/-17 | 1,079 | DeepSeek | DeepSeek |
| 187 | hunyuan-turbo-0110Tencent | 1372.00 | +/-30 | 299 | Tencent | Proprietary |
| 188 | step-2-16k-exp-202412StepFun | 1371.00 | +/-20 | 737 | StepFun | Proprietary |
| 193 | deepseek-v2.5DeepSeek | 1368.00 | +/-9 | 4,252 | DeepSeek | DeepSeek |
| 196 | hunyuan-large-2025-02-10Tencent | 1367.00 | +/-25 | 519 | Tencent | Proprietary |
| 207 | qwen2.5-plus-1127Alibaba | 1357.00 | +/-14 | 1,553 | Alibaba | Proprietary |
| 209 | hunyuan-large-visionTencent | 1356.00 | +/-19 | 964 | Tencent | Proprietary |
| 210 | qwen2.5-72b-instructAlibaba | 1355.00 | +/-8 | 6,688 | Alibaba | Qwen |
| 213 | step-1o-turbo-202506StepFun | 1353.00 | +/-15 | 1,504 | StepFun | Proprietary |
| 214 | qwen-max-0919Alibaba | 1353.00 | +/-11 | 2,756 | Alibaba | Qwen |
| 224 | qwen2.5-coder-32b-instructAlibaba | 1342.00 | +/-19 | 873 | Alibaba | Apache 2.0 |
| 225 | deepseek-coder-v2DeepSeek | 1342.00 | +/-12 | 2,671 | DeepSeek | DeepSeek License |
| 231 | hunyuan-standard-2025-02-10Tencent | 1332.00 | +/-24 | 549 | Tencent | Proprietary |
| 254 | hunyuan-standard-256kTencent | 1300.00 | +/-25 | 497 | Tencent | Proprietary |
| 256 | qwen2-72b-instructAlibaba | 1296.00 | +/-9 | 6,249 | Alibaba | Qianwen LICENSE |
| 265 | qwen1.5-110b-chatAlibaba | 1279.00 | +/-10 | 4,763 | Alibaba | Qianwen LICENSE |
| 270 | qwen1.5-72b-chatAlibaba | 1274.00 | +/-10 | 6,370 | Alibaba | Qianwen LICENSE |
| 280 | qwen1.5-32b-chatAlibaba | 1261.00 | +/-11 | 3,930 | Alibaba | Qianwen LICENSE |
| 288 | internlm2_5-20b-chatInternLM | 1247.00 | +/-14 | 1,684 | InternLM | Other |
| 294 | qwen1.5-14b-chatAlibaba | 1238.00 | +/-13 | 3,208 | Alibaba | Qianwen LICENSE |
| 301 | deepseek-llm-67b-chatDeepSeek | 1216.00 | +/-24 | 649 | DeepSeek | DeepSeek License |
| 303 | qwen1.5-7b-chatAlibaba | 1208.00 | +/-21 | 772 | Alibaba | Qianwen LICENSE |
| 309 | qwen-14b-chatAlibaba | 1196.00 | +/-24 | 599 | Alibaba | Qianwen LICENSE |
| 321 | qwq-32b-previewAlibaba | 1173.00 | +/-24 | 566 | Alibaba | Apache 2.0 |
| 339 | qwen1.5-4b-chatAlibaba | 1130.00 | +/-17 | 1,283 | Alibaba | Qianwen LICENSE |
数据仅供参考,以官方来源为准。模型名称旁的链接可跳转到 DataLearner 模型详情页。
常见问题 (FAQ)
什么是 LMArena Coding Arena?
LMArena Coding Arena 是 LMArena 旗下专注于代码能力的匿名评测平台。用户提交真实编程任务(如调试、代码生成、算法实现),系统将不同模型的输出并排展示(隐藏模型名称),由用户投票选出更好的答案,最终通过 Elo 算法汇总形成动态排行榜。
Coding Arena 与 SWE-bench、HumanEval 等静态基准有什么区别?
SWE-bench、HumanEval、MBPP 等静态基准使用固定测试集和自动化评分,可重现性强但容易被针对性优化("刷榜")。Coding Arena 来自真实用户的开放式需求,测试内容不固定,更能反映模型在实际编程场景中的表现,两者互为补充。
国产大模型在代码能力方面表现如何?
DeepSeek、Qwen 等国产模型在 Coding Arena 表现亮眼,已跻身全球前列。DeepSeek 以 MIT 协议开源,Qwen 系列支持中文编程场景,是开发者选择开源代码模型的重要参考。
如何用 AI 辅助日常编程工作?
常见场景包括:代码补全与生成、调试、代码审查、单元测试生成,以及跨语言翻译。







