Arcada Labs Code Categories Arena 代码能力排行榜
基于 Arcada Labs Code Categories Arena 用户匿名投票的最新AI大模型代码能力排行榜,通过 Bradley-Terry 模型对 Website、UI Component、Game Dev、Data Visualization 等代码子类别进行综合评分与排名。
榜首模型
Kimi K2.6
最高得分
1337.00
模型数量
127
数据版本
2026年05月31日
数据来源: Arcada Labs
排名总表
| 排名 | 模型名称 | 得分 | 95% CI | 投票数 | 机构 | 许可证 |
|---|---|---|---|---|---|---|
| 4 | Kimi K2.6Moonshot AI | 1337.00 | — | 15,535 | Moonshot AI | Open Source |
| 5 | GLM 5.1Zhipu AI | 1336.00 | — | 5,197 | Zhipu AI | Open Source |
| 8 | GLM 5 TurboZhipu AI | 1329.00 | — | 14,085 | Zhipu AI | Proprietary |
| 10 | Qwen3.7 MaxAlibaba | 1314.00 | — | 7,534 | Alibaba | Proprietary |
| 13 | DeepSeek-V4-ProDeepSeek | 1306.00 | — | 9,410 | DeepSeek | Open Source |
| 15 | GLM 5Zhipu AI | 1302.00 | — | 30,971 | Zhipu AI | Open Source |
| 19 | Kimi K2.5 (Thinking)Moonshot AI | 1294.00 | — | 30,129 | Moonshot AI | Open Source |
| 20 | MiniMax M2.7MiniMax | 1286.00 | — | 24,347 | MiniMax | Open Source |
| 25 | GLM 4.7Zhipu AI | 1275.00 | — | 38,816 | Zhipu AI | Open Source |
| 27 | DeepSeek-V4-FlashDeepSeek | 1270.00 | — | 15,684 | DeepSeek | Open Source |
| 30 | MiniMax M2.5MiniMax | 1262.00 | — | 11,504 | MiniMax | Open Source |
| 34 | MiniMax M2.1MiniMax | 1245.00 | — | 20,892 | MiniMax | Open Source |
| 40 | GLM 4.7 FlashZhipu AI | 1233.00 | — | 11,706 | Zhipu AI | Open Source |
| 42 | DeepSeek-V3.1 (Thinking)DeepSeek | 1231.00 | — | 16,327 | DeepSeek | Open Source |
| 44 | DeepSeek V3.2-ExpDeepSeek-AI | 1226.00 | — | 19,549 | DeepSeek-AI | Open Source |
| 49 | Qwen3.5 Plus 02-15Alibaba | 1223.00 | — | 17,272 | Alibaba | Proprietary |
| 50 | DeepSeek V3.2DeepSeek-AI | 1222.00 | — | 24,178 | DeepSeek-AI | Open Source |
| 53 | GLM 4.6Zhipu AI | 1221.00 | — | 16,997 | Zhipu AI | Open Source |
| 54 | GLM 4.5Zhipu AI | 1220.00 | — | 19,727 | Zhipu AI | Open Source |
| 58 | Step 3.7 FlashStepFun | 1216.00 | — | 3,137 | StepFun | Open Source |
| 66 | Qwen3 Coder 480B A35B InstructAlibaba | 1198.00 | — | 1,958 | Alibaba | Open Source |
| 69 | DeepSeek-R1-0528DeepSeek-AI | 1194.00 | — | 18,052 | DeepSeek-AI | Open Source |
| 70 | GLM 4.5 AirZhipu AI | 1193.00 | — | 17,361 | Zhipu AI | Open Source |
| 72 | MiniMax M2 StableMiniMax | 1190.00 | — | 10,933 | MiniMax | Open Source |
| 79 | DeepSeek-V3.1DeepSeek-AI | 1167.00 | — | 20,375 | DeepSeek-AI | Open Source |
| 80 | Qwen3 MaxAlibaba | 1167.00 | — | 32,079 | Alibaba | Proprietary |
| 81 | DeepSeek-V3-0324DeepSeek-AI | 1163.00 | — | 19,366 | DeepSeek-AI | Open Source |
| 84 | Kimi K2 0905 PreviewMoonshot AI | 1153.00 | — | 1,504 | Moonshot AI | Open Source |
| 90 | Kimi K2 Turbo PreviewMoonshot AI | 1139.00 | — | 2,096 | Moonshot AI | Open Source |
| 101 | Kimi K2Moonshot AI (Legacy) | 1089.00 | — | 1,352 | Moonshot AI (Legacy) | Open Source |
| 103 | Qwen3-235B-A22B-Thinking-2507Alibaba | 1088.00 | — | 6,169 | Alibaba | Open Source |
| 110 | Qwen3-235B-A22BAlibaba | 1057.00 | — | 5,154 | Alibaba | Open Source |
| 118 | Qwen3 30B-A3BAlibaba | 997.00 | — | 2,575 | Alibaba | Open Source |
数据仅供参考,以官方来源为准。模型名称旁的链接可跳转到 DataLearner 模型详情页。
关于本榜单
本榜单数据来源于Design Arena,由 Y Combinator 支持的 Arcada Labs 开发,是专注于评测 AI 设计代码生成能力的众包匿名对战平台。
与 LMArena 评测通用文本和编程能力不同,Design Arena 的代码榜专门考察模型生成具有视觉呈现效果的前端代码的能力。平台将代码任务细分为 Website、UI 组件、游戏开发、数据可视化、SVG、Web App、移动端等多个子类别,每个子类别均有独立排行。
本页展示的是 Code Categories 综合榜,即将所有子类别的用户投票混合汇总后,统一用 Bradley-Terry 模型(类 Elo 算法)计算出的综合排名。每票等权,不对各子类别做加权处理,因此投票量较大的子类别(如 Website)对综合分数的影响更大。得分越高,代表模型在设计代码生成场景下的综合人类偏好越强。
常见问题 (FAQ)
什么是 Arcada Labs Code Categories Arena?
Arcada Labs Code Categories Arena 是专注于设计代码生成能力的匿名评测平台,覆盖 Website、UI 组件、游戏开发、数据可视化等多个代码生成子类别,并将投票汇总为综合榜单。
Arcada Code Arena 与 LMArena Coding Arena 有什么区别?
LMArena Coding Arena 主要评测通用编程能力,例如代码生成、调试和算法实现;Arcada Code Arena 专注于具有视觉呈现效果的前端设计代码,例如 HTML 页面、交互 UI、图表、SVG 和原型。
排名方法论是什么?
Arcada Labs 将各代码子类别的原始投票混合后运行 Bradley-Terry 模型。每票等权,不按子类别单独加权,因此投票量较大的子类别会对综合分数产生更大影响。
哪类模型在设计代码场景表现更好?
具备强视觉理解和前端代码生成能力的大模型通常表现更好。针对 UI 和代码生成优化的专项模型,在布局、交互和视觉细节任务上也可能有突出表现。




