Arcada Labs Code Categories Arena 代码能力排行榜

Name: Arcada Labs Code Categories Arena 代码能力排行榜
Creator: DataLearner
License: https://creativecommons.org/licenses/by/4.0/

基于 Arcada Labs Code Categories Arena 用户匿名投票的最新AI大模型代码能力排行榜，通过 Bradley-Terry 模型对 Website、UI Component、Game Dev、Data Visualization 等代码子类别进行综合评分与排名。

榜首模型

Kimi K2.6

最高得分

1337.00

模型数量

127

数据版本

2026年05月31日

数据来源: Arcada Labs

来源：全部国产模型

榜单历史快照月份:

排名总表

排名	模型名称	得分	95% CI	投票数	机构	许可证
4	Kimi K2.6Moonshot AI	1337.00	—	15,535	Moonshot AI	Open Source
5	GLM 5.1Zhipu AI	1336.00	—	5,197	Zhipu AI	Open Source
8	GLM 5 TurboZhipu AI	1329.00	—	14,085	Zhipu AI	Proprietary
10	Qwen3.7 MaxAlibaba	1314.00	—	7,534	Alibaba	Proprietary
13	DeepSeek-V4-ProDeepSeek	1306.00	—	9,410	DeepSeek	Open Source
15	GLM 5Zhipu AI	1302.00	—	30,971	Zhipu AI	Open Source
19	Kimi K2.5 (Thinking)Moonshot AI	1294.00	—	30,129	Moonshot AI	Open Source
20	MiniMax M2.7MiniMax	1286.00	—	24,347	MiniMax	Open Source
25	GLM 4.7Zhipu AI	1275.00	—	38,816	Zhipu AI	Open Source
27	DeepSeek-V4-FlashDeepSeek	1270.00	—	15,684	DeepSeek	Open Source
30	MiniMax M2.5MiniMax	1262.00	—	11,504	MiniMax	Open Source
34	MiniMax M2.1MiniMax	1245.00	—	20,892	MiniMax	Open Source
40	GLM 4.7 FlashZhipu AI	1233.00	—	11,706	Zhipu AI	Open Source
42	DeepSeek-V3.1 (Thinking)DeepSeek	1231.00	—	16,327	DeepSeek	Open Source
44	DeepSeek V3.2-ExpDeepSeek-AI	1226.00	—	19,549	DeepSeek-AI	Open Source
49	Qwen3.5 Plus 02-15Alibaba	1223.00	—	17,272	Alibaba	Proprietary
50	DeepSeek V3.2DeepSeek-AI	1222.00	—	24,178	DeepSeek-AI	Open Source
53	GLM 4.6Zhipu AI	1221.00	—	16,997	Zhipu AI	Open Source
54	GLM 4.5Zhipu AI	1220.00	—	19,727	Zhipu AI	Open Source
58	Step 3.7 FlashStepFun	1216.00	—	3,137	StepFun	Open Source
66	Qwen3 Coder 480B A35B InstructAlibaba	1198.00	—	1,958	Alibaba	Open Source
69	DeepSeek-R1-0528DeepSeek-AI	1194.00	—	18,052	DeepSeek-AI	Open Source
70	GLM 4.5 AirZhipu AI	1193.00	—	17,361	Zhipu AI	Open Source
72	MiniMax M2 StableMiniMax	1190.00	—	10,933	MiniMax	Open Source
79	DeepSeek-V3.1DeepSeek-AI	1167.00	—	20,375	DeepSeek-AI	Open Source
80	Qwen3 MaxAlibaba	1167.00	—	32,079	Alibaba	Proprietary
81	DeepSeek-V3-0324DeepSeek-AI	1163.00	—	19,366	DeepSeek-AI	Open Source
84	Kimi K2 0905 PreviewMoonshot AI	1153.00	—	1,504	Moonshot AI	Open Source
90	Kimi K2 Turbo PreviewMoonshot AI	1139.00	—	2,096	Moonshot AI	Open Source
101	Kimi K2Moonshot AI (Legacy)	1089.00	—	1,352	Moonshot AI (Legacy)	Open Source
103	Qwen3-235B-A22B-Thinking-2507Alibaba	1088.00	—	6,169	Alibaba	Open Source
110	Qwen3-235B-A22BAlibaba	1057.00	—	5,154	Alibaba	Open Source
118	Qwen3 30B-A3BAlibaba	997.00	—	2,575	Alibaba	Open Source

数据仅供参考，以官方来源为准。模型名称旁的链接可跳转到 DataLearner 模型详情页。

关于本榜单

本榜单数据来源于Design Arena，由 Y Combinator 支持的 Arcada Labs 开发，是专注于评测 AI 设计代码生成能力的众包匿名对战平台。

与 LMArena 评测通用文本和编程能力不同，Design Arena 的代码榜专门考察模型生成具有视觉呈现效果的前端代码的能力。平台将代码任务细分为 Website、UI 组件、游戏开发、数据可视化、SVG、Web App、移动端等多个子类别，每个子类别均有独立排行。

本页展示的是 Code Categories 综合榜，即将所有子类别的用户投票混合汇总后，统一用 Bradley-Terry 模型（类 Elo 算法）计算出的综合排名。每票等权，不对各子类别做加权处理，因此投票量较大的子类别（如 Website）对综合分数的影响更大。得分越高，代表模型在设计代码生成场景下的综合人类偏好越强。

常见问题 (FAQ)

什么是 Arcada Labs Code Categories Arena？

Arcada Labs Code Categories Arena 是专注于设计代码生成能力的匿名评测平台，覆盖 Website、UI 组件、游戏开发、数据可视化等多个代码生成子类别，并将投票汇总为综合榜单。

Arcada Code Arena 与 LMArena Coding Arena 有什么区别？

LMArena Coding Arena 主要评测通用编程能力，例如代码生成、调试和算法实现；Arcada Code Arena 专注于具有视觉呈现效果的前端设计代码，例如 HTML 页面、交互 UI、图表、SVG 和原型。

排名方法论是什么？

Arcada Labs 将各代码子类别的原始投票混合后运行 Bradley-Terry 模型。每票等权，不按子类别单独加权，因此投票量较大的子类别会对综合分数产生更大影响。

哪类模型在设计代码场景表现更好？

具备强视觉理解和前端代码生成能力的大模型通常表现更好。针对 UI 和代码生成优化的专项模型，在布局、交互和视觉细节任务上也可能有突出表现。

Arcada Labs Code Categories Arena 代码能力排行榜

榜首模型

Kimi K2.6

最高得分

1337.00

模型数量

127

数据版本

2026年05月31日

排名

模型名称

得分

95% CI

投票数

机构

许可证

Kimi K2.6Moonshot AI

1337.00

—

15,535

Moonshot AI

Open Source

GLM 5.1Zhipu AI

1336.00

—

5,197

Zhipu AI

Open Source

GLM 5 TurboZhipu AI

1329.00

—

14,085

Zhipu AI

Proprietary

Qwen3.7 MaxAlibaba

1314.00

—

7,534

Alibaba

Proprietary

DeepSeek-V4-ProDeepSeek

1306.00

—

9,410

DeepSeek

Open Source

GLM 5Zhipu AI

1302.00

—

30,971

Zhipu AI

Open Source

Kimi K2.5 (Thinking)Moonshot AI

1294.00

—

30,129

Moonshot AI

Open Source

MiniMax M2.7MiniMax

1286.00

—

24,347

MiniMax

Open Source

GLM 4.7Zhipu AI

1275.00

—

38,816

Zhipu AI

Open Source

DeepSeek-V4-FlashDeepSeek

1270.00

—

15,684

DeepSeek

Open Source

MiniMax M2.5MiniMax

1262.00

—

11,504

MiniMax

Open Source

MiniMax M2.1MiniMax

1245.00

—

20,892

MiniMax

Open Source

GLM 4.7 FlashZhipu AI

1233.00

—

11,706

Zhipu AI

Open Source

DeepSeek-V3.1 (Thinking)DeepSeek

1231.00

—

16,327

DeepSeek

Open Source

DeepSeek V3.2-ExpDeepSeek-AI

1226.00

—

19,549

DeepSeek-AI

Open Source

Qwen3.5 Plus 02-15Alibaba

1223.00

—

17,272

Alibaba

Proprietary

DeepSeek V3.2DeepSeek-AI

1222.00

—

24,178

DeepSeek-AI

Open Source

GLM 4.6Zhipu AI

1221.00

—

16,997

Zhipu AI

Open Source

GLM 4.5Zhipu AI

1220.00

—

19,727

Zhipu AI

Open Source

Step 3.7 FlashStepFun

1216.00

—

3,137

StepFun

Open Source

Qwen3 Coder 480B A35B InstructAlibaba

1198.00

—

1,958

Alibaba

Open Source

DeepSeek-R1-0528DeepSeek-AI

1194.00

—

18,052

DeepSeek-AI

Open Source

GLM 4.5 AirZhipu AI

1193.00

—

17,361

Zhipu AI

Open Source

MiniMax M2 StableMiniMax

1190.00

—

10,933

MiniMax

Open Source

DeepSeek-V3.1DeepSeek-AI

1167.00

—

20,375

DeepSeek-AI

Open Source

Qwen3 MaxAlibaba

1167.00

—

32,079

Alibaba

Proprietary

DeepSeek-V3-0324DeepSeek-AI

1163.00

—

19,366

DeepSeek-AI

Open Source

Kimi K2 0905 PreviewMoonshot AI

1153.00

—

1,504

Moonshot AI

Open Source

Kimi K2 Turbo PreviewMoonshot AI

1139.00

—

2,096

Moonshot AI

Open Source

101

Kimi K2Moonshot AI (Legacy)

1089.00

—

1,352

Moonshot AI (Legacy)

Open Source

103

Qwen3-235B-A22B-Thinking-2507Alibaba

1088.00

—

6,169

Alibaba

Open Source

110

Qwen3-235B-A22BAlibaba

1057.00

—

5,154

Alibaba

Open Source

118

Qwen3 30B-A3BAlibaba

997.00

—

2,575

Alibaba

Open Source

关于本榜单

本榜单数据来源于Design Arena，由 Y Combinator 支持的 Arcada Labs 开发，是专注于评测 AI 设计代码生成能力的众包匿名对战平台。

常见问题 (FAQ)

什么是 Arcada Labs Code Categories Arena？

Arcada Code Arena 与 LMArena Coding Arena 有什么区别？

排名方法论是什么？

哪类模型在设计代码场景表现更好？

具备强视觉理解和前端代码生成能力的大模型通常表现更好。针对 UI 和代码生成优化的专项模型，在布局、交互和视觉细节任务上也可能有突出表现。