大模型排行榜

大模型评测基准

大模型列表

大模型对比

语言中文

搜索博客

DataLearner AI

专注大模型评测、数据资源与实践教学的知识平台，持续更新可落地的 AI 能力图谱。

产品

评测榜单
模型对比
数据资源

资源

部署教程
原创内容
工具导航

关于

关于我们
隐私政策
数据收集方法
联系我们

© 2026 DataLearner AI. DataLearner 持续整合行业数据与案例，为科研、企业与开发者提供可靠的大模型情报与实践指南。

隐私政策服务条款

Kimi K2.5 评测结果分析与模型对比 | DataLearnerAI

页面导航

页面导航

大模型列表Kimi K2.5评测分析

Kimi K2.5 评测详情

Kimi K2.5 当前已收录的代表性评测结果包括 HLE（17 / 149，得分 50.20）、LiveCodeBench（14 / 118，得分 85）、GPQA Diamond（31 / 175，得分 87.60）。并附有 1 个数据来源链接供参考。

评测结果

Kimi K2.5

评测结果

思考模式

工具使用

联网能力

综合评估

共 6 项评测

评测名称 / 模式

得分

排名/总数

开启思考

87.60

31 / 175

开启思考

78.50

64 / 124

开启思考

65.30

31 / 65

开启思考

30.10

69 / 149

开启思考工具

50.20

17 / 149

开启思考

11.80

35 / 58

编程与软件工程

共 4 项评测

评测名称 / 模式

得分

排名/总数

开启思考

85

14 / 118

SWE-bench Verified

开启思考工具

76.80

22 / 103

SWE-bench Multilingual

开启思考

73

8 / 17

SWE-Bench Pro - Public

开启思考工具

50.70

25 / 36

数学推理

共 4 项评测

评测名称 / 模式

得分

排名/总数

开启思考

96.10

21 / 106

开启思考

92.50

10 / 14

IMO-AnswerBench

开启思考

81.80

12 / 17

FrontierMath - Tier 4

常规模式

4.20

40 / 80

常识推理

共 1 项评测

评测名称 / 模式

得分

排名/总数

开启思考

46.80

13 / 27

AI Agent - 信息收集

共 1 项评测

评测名称 / 模式

得分

排名/总数

开启思考工具联网

60.60

27 / 43

AI Agent - 工具使用

共 1 项评测

评测名称 / 模式

得分

排名/总数

Terminal Bench 2.0

开启思考工具

50.80

30 / 43

生产力知识

共 1 项评测

评测名称 / 模式

得分

排名/总数

开启思考

40

14 / 20

长上下文能力

共 1 项评测

评测名称 / 模式

得分

排名/总数

开启思考

65

10 / 13

OpenClaw智能体能力综合测评

共 2 项评测

评测名称 / 模式

得分

排名/总数

开启思考工具

84.80

17 / 37

开启思考工具

81.70

18 / 29

与其他模型对比

数据来源

kimi.comkimi.com