LMArena 评测赛道

Text Generation Arena 文本生成模型排行榜

Name: Text Generation Arena 文本生成模型排行榜
Creator: DataLearner
License: https://creativecommons.org/licenses/by/4.0/

基于 Text Generation Arena 用户匿名投票的最新AI文本生成模型排行榜，涵盖各模型的 Elo 得分、95% 置信区间、投票量、机构与许可证。

榜首模型

qwen3.7-max-preview

最高得分

1,475

模型数量

360

数据版本

2026年05月28日

数据来源: LM Arena

关于本排行榜

本排行榜展示了当前最强 AI 大模型在文本生成任务中的综合实力排名。数据来源于 LMArena（前身为 LMSYS Chatbot Arena），这是目前全球最大的 AI 模型众包评测平台。用户在平台上与两个匿名模型同时对话，并投票选出更好的回答——排名完全由真实用户的偏好决定，而非实验室基准测试。

评测方法概要

匿名盲测：用户同时与两个"隐藏身份"的模型对话，根据回答质量投票，排除品牌偏见。

Elo 评分：基于国际象棋领域的 Elo Rating 体系（Bradley-Terry 模型），通过对战结果计算每个模型的实力分数。分数越高，说明模型在真实对话中被用户选中的概率越大。

场景覆盖广泛：涵盖编程、创意写作、数学推理、知识问答、角色扮演等高频真实场景。

DataLearner 在原始数据基础上提供中文解读与深度分析，并将排行榜模型关联至 DataLearner 模型库，方便您一键查看模型详情、API 定价、评测得分等完整信息。

来源：全部国产模型

榜单历史快照月份:

排名总表

排名	模型名称	得分	95% CI	投票数	机构	许可证
15	qwen3.7-max-previewAlibaba	1,475	+/-10	3,755	Alibaba	Proprietary
21	ernie-5.1Baidu	1,470	+/-6	14,675	Baidu	Proprietary
26	qwen3.5-max-previewAlibaba	1,466	+/-5	20,212	Alibaba	Proprietary
28	kimi-k2.6Moonshot	1,462	+/-6	15,765	Moonshot	Modified MIT
31	qwen3.6-max-previewAlibaba	1,459	+/-9	4,648	Alibaba	Proprietary
32	deepseek-v4-pro-thinkingDeepSeek	1,458	+/-6	15,852	DeepSeek	MIT
34	dola-seed-2.0-proBytedance	1,456	+/-4	37,742	Bytedance	Proprietary
38	deepseek-v4-proDeepSeek	1,454	+/-6	16,920	DeepSeek	MIT
41	Kimi K2 ThinkingMoonshot AI	1,449	+/-4	36,795	Moonshot AI	Modified MIT
52	qwen3.6-plusAlibaba	1,444	+/-5	18,202	Alibaba	Proprietary
58	deepseek-v4-flash-thinkingDeepSeek	1,437	+/-6	16,545	DeepSeek	MIT
65	deepseek-v4-flashDeepSeek	1,433	+/-6	16,725	DeepSeek	MIT
66	kimi-k2.5-instantMoonshot	1,432	+/-7	8,197	Moonshot	Modified MIT
69	kimi-k2-thinking-turboMoonshot	1,430	+/-3	60,235	Moonshot	Modified MIT
73	DeepSeek V3.2-Exp (thinking)DeepSeek-AI	1,425	+/-7	9,064	DeepSeek-AI	MIT
74	DeepSeek V3.2DeepSeek-AI	1,424	+/-4	46,204	DeepSeek-AI	MIT
76	qwen3-max-2025-09-23Alibaba	1,424	+/-6	9,158	Alibaba	Proprietary
77	DeepSeek V3.2-ExpDeepSeek-AI	1,423	+/-6	11,941	DeepSeek-AI	MIT
79	DeepSeek-R1-0528DeepSeek-AI	1,422	+/-6	18,467	DeepSeek-AI	MIT
80	DeepSeek V3.2 (thinking)DeepSeek-AI	1,422	+/-4	40,111	DeepSeek-AI	MIT
83	kimi-k2-0905-previewMoonshot	1,418	+/-6	11,795	Moonshot	Modified MIT
84	DeepSeek-V3.1DeepSeek-AI	1,418	+/-6	14,969	DeepSeek-AI	MIT
85	deepseek-v3.1-terminus-thinkingDeepSeek	1,418	+/-10	3,468	DeepSeek	MIT
86	Kimi K2Moonshot AI	1,417	+/-5	27,643	Moonshot AI	Modified MIT
87	qwen3.5-122b-a10bAlibaba	1,417	+/-4	26,670	Alibaba	Apache 2.0
88	DeepSeek-V3.1 (thinking)DeepSeek-AI	1,417	+/-7	11,746	DeepSeek-AI	MIT
89	DeepSeek-V3.1 TerminusDeepSeek-AI	1,416	+/-10	3,705	DeepSeek-AI	MIT
91	hunyuan-hy3-previewTencent	1,416	+/-8	5,812	Tencent	tencent-hunyuan-community
96	MiniMax-M2.7MiniMaxAI	1,413	+/-5	23,278	MiniMaxAI	Modified MIT
104	qwen3.5-27bAlibaba	1,408	+/-5	25,772	Alibaba	Apache 2.0
107	qwen3-235b-a22b-no-thinkingAlibaba	1,403	+/-5	38,226	Alibaba	Apache 2.0
109	qwen3-next-80b-a3b-instructAlibaba	1,402	+/-5	22,881	Alibaba	Apache 2.0
112	qwen3-235b-a22b-thinking-2507Alibaba	1,400	+/-7	8,993	Alibaba	Apache 2.0
114	DeepSeek-R1DeepSeek-AI	1,398	+/-5	18,524	DeepSeek-AI	MIT
115	qwen3.5-35b-a3bAlibaba	1,396	+/-4	27,304	Alibaba	Apache 2.0
116	qwen3.5-flashAlibaba	1,396	+/-4	29,647	Alibaba	Proprietary
117	qwen3-vl-235b-a22b-thinkingAlibaba	1,396	+/-7	7,947	Alibaba	Apache 2.0
118	hunyuan-vision-1.5-thinkingTencent	1,396	+/-12	2,220	Tencent	Proprietary
119	DeepSeek-V3-0324DeepSeek-AI	1,395	+/-4	45,518	DeepSeek-AI	MIT
121	Step 3.5 FlashStepFunAI	1,394	+/-4	34,466	StepFunAI	Apache 2.0
123	MiniMax M2.5MiniMaxAI	1,391	+/-4	36,265	MiniMaxAI	Modified MIT
128	qwen3-coder-480b-a35b-instructAlibaba	1,388	+/-5	25,741	Alibaba	Apache 2.0
129	hunyuan-t1-20250711Tencent	1,387	+/-9	4,711	Tencent	Proprietary
133	minimax-m2.1-previewMiniMax	1,385	+/-5	17,138	MiniMax	MIT
134	qwen3-30b-a3b-instruct-2507Alibaba	1,384	+/-5	23,746	Alibaba	Apache 2.0
136	hunyuan-turbos-20250416Tencent	1,382	+/-6	10,725	Tencent	Proprietary
140	qwen3-235b-a22bAlibaba	1,375	+/-5	26,268	Alibaba	Apache 2.0
142	qwen2.5-maxAlibaba	1,374	+/-4	32,623	Alibaba	Proprietary
147	qwen3-next-80b-a3b-thinkingAlibaba	1,370	+/-6	13,700	Alibaba	Apache 2.0
151	minimax-m1MiniMax	1,364	+/-4	35,214	MiniMax	Apache 2.0
156	deepseek-v3DeepSeek	1,358	+/-5	21,770	DeepSeek	DeepSeek
166	hunyuan-turbos-20250226Tencent	1,349	+/-12	2,220	Tencent	Proprietary
167	step-3StepFun	1,348	+/-7	6,545	StepFun	Apache 2.0
171	qwen3-32bAlibaba	1,347	+/-9	3,926	Alibaba	Apache 2.0
174	minimax-m2MiniMax	1,346	+/-8	6,875	MiniMax	Apache 2.0
175	qwen-plus-0125Alibaba	1,346	+/-8	5,819	Alibaba	Proprietary
178	glm-4-plus-0111Zhipu	1,343	+/-8	5,760	Zhipu	Proprietary
181	hunyuan-turbo-0110Tencent	1,341	+/-12	2,290	Tencent	Proprietary
185	qwq-32bAlibaba	1,336	+/-4	25,402	Alibaba	Apache 2.0
190	step-2-16k-exp-202412StepFun	1,334	+/-9	4,833	StepFun	Proprietary
196	qwen3-30b-a3bAlibaba	1,327	+/-5	26,495	Alibaba	Apache 2.0
198	hunyuan-large-2025-02-10Tencent	1,326	+/-10	3,738	Tencent	Proprietary
200	deepseek-v2.5-1210DeepSeek	1,323	+/-8	6,795	DeepSeek	DeepSeek
207	step-1o-turbo-202506StepFun	1,320	+/-7	9,038	StepFun	Proprietary
208	glm-4-plusZhipu AI	1,319	+/-5	26,126	Zhipu AI	Proprietary
211	qwen-max-0919Alibaba	1,318	+/-6	16,478	Alibaba	Qwen
215	qwen2.5-plus-1127Alibaba	1,315	+/-6	10,187	Alibaba	Proprietary
221	hunyuan-standard-2025-02-10Tencent	1,311	+/-10	3,904	Tencent	Proprietary
224	deepseek-v2.5DeepSeek	1,307	+/-5	24,572	DeepSeek	DeepSeek
232	qwen2.5-72b-instructAlibaba	1,303	+/-4	39,406	Alibaba	Qwen
234	hunyuan-large-visionTencent	1,294	+/-9	5,374	Tencent	Proprietary
255	qwen2.5-coder-32b-instructAlibaba	1,270	+/-8	5,432	Alibaba	Apache 2.0
258	deepseek-coder-v2DeepSeek	1,264	+/-6	15,147	DeepSeek	DeepSeek License
260	qwen2-72b-instructAlibaba	1,261	+/-5	37,325	Alibaba	Qianwen LICENSE
272	qwen1.5-110b-chatAlibaba	1,233	+/-6	26,195	Alibaba	Qianwen LICENSE
273	hunyuan-standard-256kTencent	1,233	+/-12	2,728	Tencent	Proprietary
275	qwen1.5-72b-chatAlibaba	1,232	+/-5	39,302	Alibaba	Qianwen LICENSE
289	qwen1.5-32b-chatAlibaba	1,203	+/-6	21,741	Alibaba	Qianwen LICENSE
295	internlm2_5-20b-chatInternLM	1,191	+/-7	9,901	InternLM	Other
296	qwen1.5-14b-chatAlibaba	1,190	+/-7	17,839	Alibaba	Qianwen LICENSE
298	deepseek-llm-67b-chatDeepSeek	1,184	+/-12	4,932	DeepSeek	DeepSeek License
315	qwq-32b-previewAlibaba	1,155	+/-11	3,231	Alibaba	Apache 2.0
324	qwen1.5-7b-chatAlibaba	1,143	+/-10	4,737	Alibaba	Qianwen LICENSE
328	qwen-14b-chatAlibaba	1,138	+/-11	4,964	Alibaba	Qianwen LICENSE
346	qwen1.5-4b-chatAlibaba	1,089	+/-9	7,597	Alibaba	Qianwen LICENSE

数据仅供参考，以官方来源为准。模型名称旁的链接可跳转到 DataLearner 模型详情页。

常见问题 (FAQ)

什么是 Text Generation Arena (LMArena)？

Text Generation Arena（原 LMSYS Chatbot Arena）是目前最具影响力的大模型匿名评测平台。用户向两个身份未知的模型提问，根据回答质量投票，系统通过 Elo 算法将数百万次投票汇聚为动态排行榜，被学术界和工业界广泛引用。

Arena Elo 分数是如何计算的？

Elo 算法源自国际象棋评分体系。每次对战后，胜者得分上升、败者下降，幅度取决于双方原始评分差距。95% 置信区间（CI）反映该模型参与对战次数的多少：CI 越窄说明数据越充分、排名越可信。

为什么同一模型会出现"Thinking"和普通两个版本？

部分模型支持"扩展思考"（Extended Thinking）模式，会在给出最终答案前进行更深入的内部推理。该模式通常在逻辑推理、数学和编程任务上得分更高，但响应时延也更长、成本更高。Arena 将两种模式分开评测，以便用户根据实际需求选择。

如何根据排行榜选择适合自己的大语言模型？

建议综合考虑：综合性能（看 Elo 总分）、成本（闭源 API 按量计费，开源可自部署）、中文支持、开源程度以及响应速度。

关于本排行榜

评测方法概要

匿名盲测：用户同时与两个"隐藏身份"的模型对话，根据回答质量投票，排除品牌偏见。

场景覆盖广泛：涵盖编程、创意写作、数学推理、知识问答、角色扮演等高频真实场景。

排名

模型名称

得分

95% CI

投票数

机构

许可证

qwen3.7-max-previewAlibaba

1,475

+/-10

3,755

Alibaba

Proprietary

ernie-5.1Baidu

1,470

+/-6

14,675

Baidu

Proprietary

qwen3.5-max-previewAlibaba

1,466

+/-5

20,212

Alibaba

Proprietary

kimi-k2.6Moonshot

1,462

+/-6

15,765

Moonshot

Modified MIT

qwen3.6-max-previewAlibaba

1,459

+/-9

4,648

Alibaba

Proprietary

deepseek-v4-pro-thinkingDeepSeek

1,458

+/-6

15,852

DeepSeek

MIT

dola-seed-2.0-proBytedance

1,456

+/-4

37,742

Bytedance

Proprietary

deepseek-v4-proDeepSeek

1,454

+/-6

16,920

DeepSeek

MIT

Kimi K2 ThinkingMoonshot AI

1,449

+/-4

36,795

Moonshot AI

Modified MIT

qwen3.6-plusAlibaba

1,444

+/-5

18,202

Alibaba

Proprietary

deepseek-v4-flash-thinkingDeepSeek

1,437

+/-6

16,545

DeepSeek

MIT

deepseek-v4-flashDeepSeek

1,433

+/-6

16,725

DeepSeek

MIT

kimi-k2.5-instantMoonshot

1,432

+/-7

8,197

Moonshot

Modified MIT

kimi-k2-thinking-turboMoonshot

1,430

+/-3

60,235

Moonshot

Modified MIT

DeepSeek V3.2-Exp (thinking)DeepSeek-AI

1,425

+/-7

9,064

DeepSeek-AI

MIT

DeepSeek V3.2DeepSeek-AI

1,424

+/-4

46,204

DeepSeek-AI

MIT

qwen3-max-2025-09-23Alibaba

1,424

+/-6

9,158

Alibaba

Proprietary

DeepSeek V3.2-ExpDeepSeek-AI

1,423

+/-6

11,941

DeepSeek-AI

MIT

DeepSeek-R1-0528DeepSeek-AI

1,422

+/-6

18,467

DeepSeek-AI

MIT

DeepSeek V3.2 (thinking)DeepSeek-AI

1,422

+/-4

40,111

DeepSeek-AI

MIT

kimi-k2-0905-previewMoonshot

1,418

+/-6

11,795

Moonshot

Modified MIT

DeepSeek-V3.1DeepSeek-AI

1,418

+/-6

14,969

DeepSeek-AI

MIT

deepseek-v3.1-terminus-thinkingDeepSeek

1,418

+/-10

3,468

DeepSeek

MIT

Kimi K2Moonshot AI

1,417

+/-5

27,643

Moonshot AI

Modified MIT

qwen3.5-122b-a10bAlibaba

1,417

+/-4

26,670

Alibaba

Apache 2.0

DeepSeek-V3.1 (thinking)DeepSeek-AI

1,417

+/-7

11,746

DeepSeek-AI

MIT

DeepSeek-V3.1 TerminusDeepSeek-AI

1,416

+/-10

3,705

DeepSeek-AI

MIT

hunyuan-hy3-previewTencent

1,416

+/-8

5,812

Tencent

tencent-hunyuan-community

MiniMax-M2.7MiniMaxAI

1,413

+/-5

23,278

MiniMaxAI

Modified MIT

104

qwen3.5-27bAlibaba

1,408

+/-5

25,772

Alibaba

Apache 2.0

107

qwen3-235b-a22b-no-thinkingAlibaba

1,403

+/-5

38,226

Alibaba

Apache 2.0

109

qwen3-next-80b-a3b-instructAlibaba

1,402

+/-5

22,881

Alibaba

Apache 2.0

112

qwen3-235b-a22b-thinking-2507Alibaba

1,400

+/-7

8,993

Alibaba

Apache 2.0

114

DeepSeek-R1DeepSeek-AI

1,398

+/-5

18,524

DeepSeek-AI

MIT

115

qwen3.5-35b-a3bAlibaba

1,396

+/-4

27,304

Alibaba

Apache 2.0

116

qwen3.5-flashAlibaba

1,396

+/-4

29,647

Alibaba

Proprietary

117

qwen3-vl-235b-a22b-thinkingAlibaba

1,396

+/-7

7,947

Alibaba

Apache 2.0

118

hunyuan-vision-1.5-thinkingTencent

1,396

+/-12

2,220

Tencent

Proprietary

119

DeepSeek-V3-0324DeepSeek-AI

1,395

+/-4

45,518

DeepSeek-AI

MIT

121

Step 3.5 FlashStepFunAI

1,394

+/-4

34,466

StepFunAI

Apache 2.0

123

MiniMax M2.5MiniMaxAI

1,391

+/-4

36,265

MiniMaxAI

Modified MIT

128

qwen3-coder-480b-a35b-instructAlibaba

1,388

+/-5

25,741

Alibaba

Apache 2.0

129

hunyuan-t1-20250711Tencent

1,387

+/-9

4,711

Tencent

Proprietary

133

minimax-m2.1-previewMiniMax

1,385

+/-5

17,138

MiniMax

MIT

134

qwen3-30b-a3b-instruct-2507Alibaba

1,384

+/-5

23,746

Alibaba

Apache 2.0

136

hunyuan-turbos-20250416Tencent

1,382

+/-6

10,725

Tencent

Proprietary

140

qwen3-235b-a22bAlibaba

1,375

+/-5

26,268

Alibaba

Apache 2.0

142

qwen2.5-maxAlibaba

1,374

+/-4

32,623

Alibaba

Proprietary

147

qwen3-next-80b-a3b-thinkingAlibaba

1,370

+/-6

13,700

Alibaba

Apache 2.0

151

minimax-m1MiniMax

1,364

+/-4

35,214

MiniMax

Apache 2.0

156

deepseek-v3DeepSeek

1,358

+/-5

21,770

DeepSeek

166

hunyuan-turbos-20250226Tencent

1,349

+/-12

2,220

Tencent

Proprietary

167

step-3StepFun

1,348

+/-7

6,545

StepFun

Apache 2.0

171

qwen3-32bAlibaba

1,347

+/-9

3,926

Alibaba

Apache 2.0

174

minimax-m2MiniMax

1,346

+/-8

6,875

MiniMax

Apache 2.0

175

qwen-plus-0125Alibaba

1,346

+/-8

5,819

Alibaba

Proprietary

178

glm-4-plus-0111Zhipu

1,343

+/-8

5,760

Zhipu

Proprietary

181

hunyuan-turbo-0110Tencent

1,341

+/-12

2,290

Tencent

Proprietary

185

qwq-32bAlibaba

1,336

+/-4

25,402

Alibaba

Apache 2.0

190

step-2-16k-exp-202412StepFun

1,334

+/-9

4,833

StepFun

Proprietary

196

qwen3-30b-a3bAlibaba

1,327

+/-5

26,495

Alibaba

Apache 2.0

198

hunyuan-large-2025-02-10Tencent

1,326

+/-10

3,738

Tencent

Proprietary

200

deepseek-v2.5-1210DeepSeek

1,323

+/-8

6,795

DeepSeek

207

step-1o-turbo-202506StepFun

1,320

+/-7

9,038

StepFun

Proprietary

208

glm-4-plusZhipu AI

1,319

+/-5

26,126

Zhipu AI

Proprietary

211

qwen-max-0919Alibaba

1,318

+/-6

16,478

Alibaba

Qwen

215

qwen2.5-plus-1127Alibaba

1,315

+/-6

10,187

Alibaba

Proprietary

221

hunyuan-standard-2025-02-10Tencent

1,311

+/-10

3,904

Tencent

Proprietary

224

deepseek-v2.5DeepSeek

1,307

+/-5

24,572

DeepSeek

232

qwen2.5-72b-instructAlibaba

1,303

+/-4

39,406

Alibaba

Qwen

234

hunyuan-large-visionTencent

1,294

+/-9

5,374

Tencent

Proprietary

255

qwen2.5-coder-32b-instructAlibaba

1,270

+/-8

5,432

Alibaba

Apache 2.0

258

deepseek-coder-v2DeepSeek

1,264

+/-6

15,147

DeepSeek

DeepSeek License

260

qwen2-72b-instructAlibaba

1,261

+/-5

37,325

Alibaba

Qianwen LICENSE

272

qwen1.5-110b-chatAlibaba

1,233

+/-6

26,195

Alibaba

Qianwen LICENSE

273

hunyuan-standard-256kTencent

1,233

+/-12

2,728

Tencent

Proprietary

275

qwen1.5-72b-chatAlibaba

1,232

+/-5

39,302

Alibaba

Qianwen LICENSE

289

qwen1.5-32b-chatAlibaba

1,203

+/-6

21,741

Alibaba

Qianwen LICENSE

295

internlm2_5-20b-chatInternLM

1,191

+/-7

9,901

InternLM

Other

296

qwen1.5-14b-chatAlibaba

1,190

+/-7

17,839

Alibaba

Qianwen LICENSE

298

deepseek-llm-67b-chatDeepSeek

1,184

+/-12

4,932

DeepSeek

DeepSeek License

315

qwq-32b-previewAlibaba

1,155

+/-11

3,231

Alibaba

Apache 2.0

324

qwen1.5-7b-chatAlibaba

1,143

+/-10

4,737

Alibaba

Qianwen LICENSE

328

qwen-14b-chatAlibaba

1,138

+/-11

4,964

Alibaba

Qianwen LICENSE

346

qwen1.5-4b-chatAlibaba

1,089

+/-9

7,597

Alibaba

Qianwen LICENSE

常见问题 (FAQ)

什么是 Text Generation Arena (LMArena)？

Arena Elo 分数是如何计算的？

为什么同一模型会出现"Thinking"和普通两个版本？

如何根据排行榜选择适合自己的大语言模型？

建议综合考虑：综合性能（看 Elo 总分）、成本（闭源 API 按量计费，开源可自部署）、中文支持、开源程度以及响应速度。