Text Generation Arena 文本生成模型排行榜
基于 Text Generation Arena 用户匿名投票的最新AI文本生成模型排行榜,涵盖各模型的 Elo 得分、95% 置信区间、投票量、机构与许可证。
榜首模型
qwen3.7-max-preview
最高得分
1,475
模型数量
360
数据版本
2026年05月28日
数据来源: LM Arena
关于本排行榜
本排行榜展示了当前最强 AI 大模型在文本生成任务中的综合实力排名。数据来源于 LMArena(前身为 LMSYS Chatbot Arena),这是目前全球最大的 AI 模型众包评测平台。用户在平台上与两个匿名模型同时对话,并投票选出更好的回答——排名完全由真实用户的偏好决定,而非实验室基准测试。
评测方法概要
匿名盲测:用户同时与两个"隐藏身份"的模型对话,根据回答质量投票,排除品牌偏见。
Elo 评分:基于国际象棋领域的 Elo Rating 体系(Bradley-Terry 模型),通过对战结果计算每个模型的实力分数。分数越高,说明模型在真实对话中被用户选中的概率越大。
场景覆盖广泛:涵盖编程、创意写作、数学推理、知识问答、角色扮演等高频真实场景。
DataLearner 在原始数据基础上提供中文解读与深度分析,并将排行榜模型关联至 DataLearner 模型库,方便您一键查看模型详情、API 定价、评测得分等完整信息。
排名总表
| 排名 | 模型名称 | 得分 | 95% CI | 投票数 | 机构 | 许可证 |
|---|---|---|---|---|---|---|
| 15 | qwen3.7-max-previewAlibaba | 1,475 | +/-10 | 3,755 | Alibaba | Proprietary |
| 21 | ernie-5.1Baidu | 1,470 | +/-6 | 14,675 | Baidu | Proprietary |
| 26 | qwen3.5-max-previewAlibaba | 1,466 | +/-5 | 20,212 | Alibaba | Proprietary |
| 28 | kimi-k2.6Moonshot | 1,462 | +/-6 | 15,765 | Moonshot | Modified MIT |
| 31 | qwen3.6-max-previewAlibaba | 1,459 | +/-9 | 4,648 | Alibaba | Proprietary |
| 32 | deepseek-v4-pro-thinkingDeepSeek | 1,458 | +/-6 | 15,852 | DeepSeek | MIT |
| 34 | dola-seed-2.0-proBytedance | 1,456 | +/-4 | 37,742 | Bytedance | Proprietary |
| 38 | deepseek-v4-proDeepSeek | 1,454 | +/-6 | 16,920 | DeepSeek | MIT |
| 41 | Kimi K2 ThinkingMoonshot AI | 1,449 | +/-4 | 36,795 | Moonshot AI | Modified MIT |
| 52 | qwen3.6-plusAlibaba | 1,444 | +/-5 | 18,202 | Alibaba | Proprietary |
| 58 | deepseek-v4-flash-thinkingDeepSeek | 1,437 | +/-6 | 16,545 | DeepSeek | MIT |
| 65 | deepseek-v4-flashDeepSeek | 1,433 | +/-6 | 16,725 | DeepSeek | MIT |
| 66 | kimi-k2.5-instantMoonshot | 1,432 | +/-7 | 8,197 | Moonshot | Modified MIT |
| 69 | kimi-k2-thinking-turboMoonshot | 1,430 | +/-3 | 60,235 | Moonshot | Modified MIT |
| 73 | DeepSeek V3.2-Exp (thinking)DeepSeek-AI | 1,425 | +/-7 | 9,064 | DeepSeek-AI | MIT |
| 74 | DeepSeek V3.2DeepSeek-AI | 1,424 | +/-4 | 46,204 | DeepSeek-AI | MIT |
| 76 | qwen3-max-2025-09-23Alibaba | 1,424 | +/-6 | 9,158 | Alibaba | Proprietary |
| 77 | DeepSeek V3.2-ExpDeepSeek-AI | 1,423 | +/-6 | 11,941 | DeepSeek-AI | MIT |
| 79 | DeepSeek-R1-0528DeepSeek-AI | 1,422 | +/-6 | 18,467 | DeepSeek-AI | MIT |
| 80 | DeepSeek V3.2 (thinking)DeepSeek-AI | 1,422 | +/-4 | 40,111 | DeepSeek-AI | MIT |
| 83 | kimi-k2-0905-previewMoonshot | 1,418 | +/-6 | 11,795 | Moonshot | Modified MIT |
| 84 | DeepSeek-V3.1DeepSeek-AI | 1,418 | +/-6 | 14,969 | DeepSeek-AI | MIT |
| 85 | deepseek-v3.1-terminus-thinkingDeepSeek | 1,418 | +/-10 | 3,468 | DeepSeek | MIT |
| 86 | Kimi K2Moonshot AI | 1,417 | +/-5 | 27,643 | Moonshot AI | Modified MIT |
| 87 | qwen3.5-122b-a10bAlibaba | 1,417 | +/-4 | 26,670 | Alibaba | Apache 2.0 |
| 88 | DeepSeek-V3.1 (thinking)DeepSeek-AI | 1,417 | +/-7 | 11,746 | DeepSeek-AI | MIT |
| 89 | DeepSeek-V3.1 TerminusDeepSeek-AI | 1,416 | +/-10 | 3,705 | DeepSeek-AI | MIT |
| 91 | hunyuan-hy3-previewTencent | 1,416 | +/-8 | 5,812 | Tencent | tencent-hunyuan-community |
| 96 | 1,413 | +/-5 | 23,278 | MiniMaxAI | Modified MIT | |
| 104 | qwen3.5-27bAlibaba | 1,408 | +/-5 | 25,772 | Alibaba | Apache 2.0 |
| 107 | qwen3-235b-a22b-no-thinkingAlibaba | 1,403 | +/-5 | 38,226 | Alibaba | Apache 2.0 |
| 109 | qwen3-next-80b-a3b-instructAlibaba | 1,402 | +/-5 | 22,881 | Alibaba | Apache 2.0 |
| 112 | qwen3-235b-a22b-thinking-2507Alibaba | 1,400 | +/-7 | 8,993 | Alibaba | Apache 2.0 |
| 114 | DeepSeek-R1DeepSeek-AI | 1,398 | +/-5 | 18,524 | DeepSeek-AI | MIT |
| 115 | qwen3.5-35b-a3bAlibaba | 1,396 | +/-4 | 27,304 | Alibaba | Apache 2.0 |
| 116 | qwen3.5-flashAlibaba | 1,396 | +/-4 | 29,647 | Alibaba | Proprietary |
| 117 | qwen3-vl-235b-a22b-thinkingAlibaba | 1,396 | +/-7 | 7,947 | Alibaba | Apache 2.0 |
| 118 | hunyuan-vision-1.5-thinkingTencent | 1,396 | +/-12 | 2,220 | Tencent | Proprietary |
| 119 | DeepSeek-V3-0324DeepSeek-AI | 1,395 | +/-4 | 45,518 | DeepSeek-AI | MIT |
| 121 | Step 3.5 FlashStepFunAI | 1,394 | +/-4 | 34,466 | StepFunAI | Apache 2.0 |
| 123 | 1,391 | +/-4 | 36,265 | MiniMaxAI | Modified MIT | |
| 128 | qwen3-coder-480b-a35b-instructAlibaba | 1,388 | +/-5 | 25,741 | Alibaba | Apache 2.0 |
| 129 | hunyuan-t1-20250711Tencent | 1,387 | +/-9 | 4,711 | Tencent | Proprietary |
| 133 | minimax-m2.1-previewMiniMax | 1,385 | +/-5 | 17,138 | MiniMax | MIT |
| 134 | qwen3-30b-a3b-instruct-2507Alibaba | 1,384 | +/-5 | 23,746 | Alibaba | Apache 2.0 |
| 136 | hunyuan-turbos-20250416Tencent | 1,382 | +/-6 | 10,725 | Tencent | Proprietary |
| 140 | qwen3-235b-a22bAlibaba | 1,375 | +/-5 | 26,268 | Alibaba | Apache 2.0 |
| 142 | qwen2.5-maxAlibaba | 1,374 | +/-4 | 32,623 | Alibaba | Proprietary |
| 147 | qwen3-next-80b-a3b-thinkingAlibaba | 1,370 | +/-6 | 13,700 | Alibaba | Apache 2.0 |
| 151 | minimax-m1MiniMax | 1,364 | +/-4 | 35,214 | MiniMax | Apache 2.0 |
| 156 | deepseek-v3DeepSeek | 1,358 | +/-5 | 21,770 | DeepSeek | DeepSeek |
| 166 | hunyuan-turbos-20250226Tencent | 1,349 | +/-12 | 2,220 | Tencent | Proprietary |
| 167 | step-3StepFun | 1,348 | +/-7 | 6,545 | StepFun | Apache 2.0 |
| 171 | qwen3-32bAlibaba | 1,347 | +/-9 | 3,926 | Alibaba | Apache 2.0 |
| 174 | minimax-m2MiniMax | 1,346 | +/-8 | 6,875 | MiniMax | Apache 2.0 |
| 175 | qwen-plus-0125Alibaba | 1,346 | +/-8 | 5,819 | Alibaba | Proprietary |
| 178 | glm-4-plus-0111Zhipu | 1,343 | +/-8 | 5,760 | Zhipu | Proprietary |
| 181 | hunyuan-turbo-0110Tencent | 1,341 | +/-12 | 2,290 | Tencent | Proprietary |
| 185 | qwq-32bAlibaba | 1,336 | +/-4 | 25,402 | Alibaba | Apache 2.0 |
| 190 | step-2-16k-exp-202412StepFun | 1,334 | +/-9 | 4,833 | StepFun | Proprietary |
| 196 | qwen3-30b-a3bAlibaba | 1,327 | +/-5 | 26,495 | Alibaba | Apache 2.0 |
| 198 | hunyuan-large-2025-02-10Tencent | 1,326 | +/-10 | 3,738 | Tencent | Proprietary |
| 200 | deepseek-v2.5-1210DeepSeek | 1,323 | +/-8 | 6,795 | DeepSeek | DeepSeek |
| 207 | step-1o-turbo-202506StepFun | 1,320 | +/-7 | 9,038 | StepFun | Proprietary |
| 208 | glm-4-plusZhipu AI | 1,319 | +/-5 | 26,126 | Zhipu AI | Proprietary |
| 211 | qwen-max-0919Alibaba | 1,318 | +/-6 | 16,478 | Alibaba | Qwen |
| 215 | qwen2.5-plus-1127Alibaba | 1,315 | +/-6 | 10,187 | Alibaba | Proprietary |
| 221 | hunyuan-standard-2025-02-10Tencent | 1,311 | +/-10 | 3,904 | Tencent | Proprietary |
| 224 | deepseek-v2.5DeepSeek | 1,307 | +/-5 | 24,572 | DeepSeek | DeepSeek |
| 232 | qwen2.5-72b-instructAlibaba | 1,303 | +/-4 | 39,406 | Alibaba | Qwen |
| 234 | hunyuan-large-visionTencent | 1,294 | +/-9 | 5,374 | Tencent | Proprietary |
| 255 | qwen2.5-coder-32b-instructAlibaba | 1,270 | +/-8 | 5,432 | Alibaba | Apache 2.0 |
| 258 | deepseek-coder-v2DeepSeek | 1,264 | +/-6 | 15,147 | DeepSeek | DeepSeek License |
| 260 | qwen2-72b-instructAlibaba | 1,261 | +/-5 | 37,325 | Alibaba | Qianwen LICENSE |
| 272 | qwen1.5-110b-chatAlibaba | 1,233 | +/-6 | 26,195 | Alibaba | Qianwen LICENSE |
| 273 | hunyuan-standard-256kTencent | 1,233 | +/-12 | 2,728 | Tencent | Proprietary |
| 275 | qwen1.5-72b-chatAlibaba | 1,232 | +/-5 | 39,302 | Alibaba | Qianwen LICENSE |
| 289 | qwen1.5-32b-chatAlibaba | 1,203 | +/-6 | 21,741 | Alibaba | Qianwen LICENSE |
| 295 | internlm2_5-20b-chatInternLM | 1,191 | +/-7 | 9,901 | InternLM | Other |
| 296 | qwen1.5-14b-chatAlibaba | 1,190 | +/-7 | 17,839 | Alibaba | Qianwen LICENSE |
| 298 | deepseek-llm-67b-chatDeepSeek | 1,184 | +/-12 | 4,932 | DeepSeek | DeepSeek License |
| 315 | qwq-32b-previewAlibaba | 1,155 | +/-11 | 3,231 | Alibaba | Apache 2.0 |
| 324 | qwen1.5-7b-chatAlibaba | 1,143 | +/-10 | 4,737 | Alibaba | Qianwen LICENSE |
| 328 | qwen-14b-chatAlibaba | 1,138 | +/-11 | 4,964 | Alibaba | Qianwen LICENSE |
| 346 | qwen1.5-4b-chatAlibaba | 1,089 | +/-9 | 7,597 | Alibaba | Qianwen LICENSE |
数据仅供参考,以官方来源为准。模型名称旁的链接可跳转到 DataLearner 模型详情页。
常见问题 (FAQ)
什么是 Text Generation Arena (LMArena)?
Text Generation Arena(原 LMSYS Chatbot Arena)是目前最具影响力的大模型匿名评测平台。用户向两个身份未知的模型提问,根据回答质量投票,系统通过 Elo 算法将数百万次投票汇聚为动态排行榜,被学术界和工业界广泛引用。
Arena Elo 分数是如何计算的?
Elo 算法源自国际象棋评分体系。每次对战后,胜者得分上升、败者下降,幅度取决于双方原始评分差距。95% 置信区间(CI)反映该模型参与对战次数的多少:CI 越窄说明数据越充分、排名越可信。
为什么同一模型会出现"Thinking"和普通两个版本?
部分模型支持"扩展思考"(Extended Thinking)模式,会在给出最终答案前进行更深入的内部推理。该模式通常在逻辑推理、数学和编程任务上得分更高,但响应时延也更长、成本更高。Arena 将两种模式分开评测,以便用户根据实际需求选择。
如何根据排行榜选择适合自己的大语言模型?
建议综合考虑:综合性能(看 Elo 总分)、成本(闭源 API 按量计费,开源可自部署)、中文支持、开源程度以及响应速度。







