DataLearner 标志DataLearnerAI
最新AI资讯
大模型排行榜
大模型评测基准
大模型列表
大模型对比
资源中心
工具
语言中文
DataLearner 标志DataLearner AI

专注大模型评测、数据资源与实践教学的知识平台,持续更新可落地的 AI 能力图谱。

产品

  • 评测榜单
  • 模型对比
  • 数据资源

资源

  • 部署教程
  • 原创内容
  • 工具导航

关于

  • 关于我们
  • 隐私政策
  • 数据收集方法
  • 联系我们

© 2026 DataLearner AI. DataLearner 持续整合行业数据与案例,为科研、企业与开发者提供可靠的大模型情报与实践指南。

隐私政策服务条款
首页综合排行榜Text Generation Arena 文本生成模型排行榜

LMArena 评测赛道

文本生成代码数学图像编辑文字生成视频图生视频文生图

Text Generation Arena 文本生成模型排行榜

基于 Text Generation Arena 用户匿名投票的最新AI文本生成模型排行榜,涵盖各模型的 Elo 得分、95% 置信区间、投票量、机构与许可证。

榜首模型

qwen3.7-max-preview

最高得分

1,475

模型数量

360

数据版本

2026年05月28日

数据来源: LM Arena

关于本排行榜

本排行榜展示了当前最强 AI 大模型在文本生成任务中的综合实力排名。数据来源于 LMArena(前身为 LMSYS Chatbot Arena),这是目前全球最大的 AI 模型众包评测平台。用户在平台上与两个匿名模型同时对话,并投票选出更好的回答——排名完全由真实用户的偏好决定,而非实验室基准测试。

评测方法概要

匿名盲测:用户同时与两个"隐藏身份"的模型对话,根据回答质量投票,排除品牌偏见。

Elo 评分:基于国际象棋领域的 Elo Rating 体系(Bradley-Terry 模型),通过对战结果计算每个模型的实力分数。分数越高,说明模型在真实对话中被用户选中的概率越大。

场景覆盖广泛:涵盖编程、创意写作、数学推理、知识问答、角色扮演等高频真实场景。

DataLearner 在原始数据基础上提供中文解读与深度分析,并将排行榜模型关联至 DataLearner 模型库,方便您一键查看模型详情、API 定价、评测得分等完整信息。

来源:全部国产模型
榜单历史快照月份:

排名总表

排名模型名称得分95% CI投票数机构许可证
15Alibabaqwen3.7-max-previewAlibaba1,475+/-103,755AlibabaProprietary
21Baiduernie-5.1Baidu1,470+/-614,675BaiduProprietary
26Alibabaqwen3.5-max-previewAlibaba1,466+/-520,212AlibabaProprietary
28Moonshotkimi-k2.6Moonshot1,462+/-615,765MoonshotModified MIT
31Alibabaqwen3.6-max-previewAlibaba1,459+/-94,648AlibabaProprietary
32DeepSeekdeepseek-v4-pro-thinkingDeepSeek1,458+/-615,852DeepSeekMIT
34Bytedancedola-seed-2.0-proBytedance1,456+/-437,742BytedanceProprietary
38DeepSeekdeepseek-v4-proDeepSeek1,454+/-616,920DeepSeekMIT
41Moonshot AIKimi K2 ThinkingMoonshot AI1,449+/-436,795Moonshot AIModified MIT
52Alibabaqwen3.6-plusAlibaba1,444+/-518,202AlibabaProprietary
58DeepSeekdeepseek-v4-flash-thinkingDeepSeek1,437+/-616,545DeepSeekMIT
65DeepSeekdeepseek-v4-flashDeepSeek1,433+/-616,725DeepSeekMIT
66Moonshotkimi-k2.5-instantMoonshot1,432+/-78,197MoonshotModified MIT
69Moonshotkimi-k2-thinking-turboMoonshot1,430+/-360,235MoonshotModified MIT
73DeepSeek-AIDeepSeek V3.2-Exp (thinking)DeepSeek-AI1,425+/-79,064DeepSeek-AIMIT
74DeepSeek-AIDeepSeek V3.2DeepSeek-AI1,424+/-446,204DeepSeek-AIMIT
76Alibabaqwen3-max-2025-09-23Alibaba1,424+/-69,158AlibabaProprietary
77DeepSeek-AIDeepSeek V3.2-ExpDeepSeek-AI1,423+/-611,941DeepSeek-AIMIT
79DeepSeek-AIDeepSeek-R1-0528DeepSeek-AI1,422+/-618,467DeepSeek-AIMIT
80DeepSeek-AIDeepSeek V3.2 (thinking)DeepSeek-AI1,422+/-440,111DeepSeek-AIMIT
83Moonshotkimi-k2-0905-previewMoonshot1,418+/-611,795MoonshotModified MIT
84DeepSeek-AIDeepSeek-V3.1DeepSeek-AI1,418+/-614,969DeepSeek-AIMIT
85DeepSeekdeepseek-v3.1-terminus-thinkingDeepSeek1,418+/-103,468DeepSeekMIT
86Moonshot AIKimi K2Moonshot AI1,417+/-527,643Moonshot AIModified MIT
87Alibabaqwen3.5-122b-a10bAlibaba1,417+/-426,670AlibabaApache 2.0
88DeepSeek-AIDeepSeek-V3.1 (thinking)DeepSeek-AI1,417+/-711,746DeepSeek-AIMIT
89DeepSeek-AIDeepSeek-V3.1 TerminusDeepSeek-AI1,416+/-103,705DeepSeek-AIMIT
91Tencenthunyuan-hy3-previewTencent1,416+/-85,812Tencenttencent-hunyuan-community
96MiniMaxAIMiniMax-M2.7MiniMaxAI1,413+/-523,278MiniMaxAIModified MIT
104Alibabaqwen3.5-27bAlibaba1,408+/-525,772AlibabaApache 2.0
107Alibabaqwen3-235b-a22b-no-thinkingAlibaba1,403+/-538,226AlibabaApache 2.0
109Alibabaqwen3-next-80b-a3b-instructAlibaba1,402+/-522,881AlibabaApache 2.0
112Alibabaqwen3-235b-a22b-thinking-2507Alibaba1,400+/-78,993AlibabaApache 2.0
114DeepSeek-AIDeepSeek-R1DeepSeek-AI1,398+/-518,524DeepSeek-AIMIT
115Alibabaqwen3.5-35b-a3bAlibaba1,396+/-427,304AlibabaApache 2.0
116Alibabaqwen3.5-flashAlibaba1,396+/-429,647AlibabaProprietary
117Alibabaqwen3-vl-235b-a22b-thinkingAlibaba1,396+/-77,947AlibabaApache 2.0
118Tencenthunyuan-vision-1.5-thinkingTencent1,396+/-122,220TencentProprietary
119DeepSeek-AIDeepSeek-V3-0324DeepSeek-AI1,395+/-445,518DeepSeek-AIMIT
121StepFunAIStep 3.5 FlashStepFunAI1,394+/-434,466StepFunAIApache 2.0
123MiniMaxAIMiniMax M2.5MiniMaxAI1,391+/-436,265MiniMaxAIModified MIT
128Alibabaqwen3-coder-480b-a35b-instructAlibaba1,388+/-525,741AlibabaApache 2.0
129Tencenthunyuan-t1-20250711Tencent1,387+/-94,711TencentProprietary
133MiniMaxminimax-m2.1-previewMiniMax1,385+/-517,138MiniMaxMIT
134Alibabaqwen3-30b-a3b-instruct-2507Alibaba1,384+/-523,746AlibabaApache 2.0
136Tencenthunyuan-turbos-20250416Tencent1,382+/-610,725TencentProprietary
140Alibabaqwen3-235b-a22bAlibaba1,375+/-526,268AlibabaApache 2.0
142Alibabaqwen2.5-maxAlibaba1,374+/-432,623AlibabaProprietary
147Alibabaqwen3-next-80b-a3b-thinkingAlibaba1,370+/-613,700AlibabaApache 2.0
151MiniMaxminimax-m1MiniMax1,364+/-435,214MiniMaxApache 2.0
156DeepSeekdeepseek-v3DeepSeek1,358+/-521,770DeepSeekDeepSeek
166Tencenthunyuan-turbos-20250226Tencent1,349+/-122,220TencentProprietary
167StepFunstep-3StepFun1,348+/-76,545StepFunApache 2.0
171Alibabaqwen3-32bAlibaba1,347+/-93,926AlibabaApache 2.0
174MiniMaxminimax-m2MiniMax1,346+/-86,875MiniMaxApache 2.0
175Alibabaqwen-plus-0125Alibaba1,346+/-85,819AlibabaProprietary
178ZHglm-4-plus-0111Zhipu1,343+/-85,760ZhipuProprietary
181Tencenthunyuan-turbo-0110Tencent1,341+/-122,290TencentProprietary
185Alibabaqwq-32bAlibaba1,336+/-425,402AlibabaApache 2.0
190StepFunstep-2-16k-exp-202412StepFun1,334+/-94,833StepFunProprietary
196Alibabaqwen3-30b-a3bAlibaba1,327+/-526,495AlibabaApache 2.0
198Tencenthunyuan-large-2025-02-10Tencent1,326+/-103,738TencentProprietary
200DeepSeekdeepseek-v2.5-1210DeepSeek1,323+/-86,795DeepSeekDeepSeek
207StepFunstep-1o-turbo-202506StepFun1,320+/-79,038StepFunProprietary
208ZHglm-4-plusZhipu AI1,319+/-526,126Zhipu AIProprietary
211Alibabaqwen-max-0919Alibaba1,318+/-616,478AlibabaQwen
215Alibabaqwen2.5-plus-1127Alibaba1,315+/-610,187AlibabaProprietary
221Tencenthunyuan-standard-2025-02-10Tencent1,311+/-103,904TencentProprietary
224DeepSeekdeepseek-v2.5DeepSeek1,307+/-524,572DeepSeekDeepSeek
232Alibabaqwen2.5-72b-instructAlibaba1,303+/-439,406AlibabaQwen
234Tencenthunyuan-large-visionTencent1,294+/-95,374TencentProprietary
255Alibabaqwen2.5-coder-32b-instructAlibaba1,270+/-85,432AlibabaApache 2.0
258DeepSeekdeepseek-coder-v2DeepSeek1,264+/-615,147DeepSeekDeepSeek License
260Alibabaqwen2-72b-instructAlibaba1,261+/-537,325AlibabaQianwen LICENSE
272Alibabaqwen1.5-110b-chatAlibaba1,233+/-626,195AlibabaQianwen LICENSE
273Tencenthunyuan-standard-256kTencent1,233+/-122,728TencentProprietary
275Alibabaqwen1.5-72b-chatAlibaba1,232+/-539,302AlibabaQianwen LICENSE
289Alibabaqwen1.5-32b-chatAlibaba1,203+/-621,741AlibabaQianwen LICENSE
295INinternlm2_5-20b-chatInternLM1,191+/-79,901InternLMOther
296Alibabaqwen1.5-14b-chatAlibaba1,190+/-717,839AlibabaQianwen LICENSE
298DeepSeekdeepseek-llm-67b-chatDeepSeek1,184+/-124,932DeepSeekDeepSeek License
315Alibabaqwq-32b-previewAlibaba1,155+/-113,231AlibabaApache 2.0
324Alibabaqwen1.5-7b-chatAlibaba1,143+/-104,737AlibabaQianwen LICENSE
328Alibabaqwen-14b-chatAlibaba1,138+/-114,964AlibabaQianwen LICENSE
346Alibabaqwen1.5-4b-chatAlibaba1,089+/-97,597AlibabaQianwen LICENSE

数据仅供参考,以官方来源为准。模型名称旁的链接可跳转到 DataLearner 模型详情页。

常见问题 (FAQ)

01

什么是 Text Generation Arena (LMArena)?

Text Generation Arena(原 LMSYS Chatbot Arena)是目前最具影响力的大模型匿名评测平台。用户向两个身份未知的模型提问,根据回答质量投票,系统通过 Elo 算法将数百万次投票汇聚为动态排行榜,被学术界和工业界广泛引用。

02

Arena Elo 分数是如何计算的?

Elo 算法源自国际象棋评分体系。每次对战后,胜者得分上升、败者下降,幅度取决于双方原始评分差距。95% 置信区间(CI)反映该模型参与对战次数的多少:CI 越窄说明数据越充分、排名越可信。

03

为什么同一模型会出现"Thinking"和普通两个版本?

部分模型支持"扩展思考"(Extended Thinking)模式,会在给出最终答案前进行更深入的内部推理。该模式通常在逻辑推理、数学和编程任务上得分更高,但响应时延也更长、成本更高。Arena 将两种模式分开评测,以便用户根据实际需求选择。

04

如何根据排行榜选择适合自己的大语言模型?

建议综合考虑:综合性能(看 Elo 总分)、成本(闭源 API 按量计费,开源可自部署)、中文支持、开源程度以及响应速度。