DataLearner 标志DataLearnerAI
最新AI资讯
大模型排行榜
大模型评测基准
大模型列表
大模型对比
资源中心
工具
语言中文
DataLearner 标志DataLearner AI

专注大模型评测、数据资源与实践教学的知识平台,持续更新可落地的 AI 能力图谱。

产品

  • 评测榜单
  • 模型对比
  • 数据资源

资源

  • 部署教程
  • 原创内容
  • 工具导航

关于

  • 关于我们
  • 隐私政策
  • 数据收集方法
  • 联系我们

© 2026 DataLearner AI. DataLearner 持续整合行业数据与案例,为科研、企业与开发者提供可靠的大模型情报与实践指南。

隐私政策服务条款
页面导航
目录
大模型列表Kimi K2.5评测分析

Kimi K2.5 评测详情

Kimi K2.5 当前已收录的代表性评测结果包括 HLE(17 / 149,得分 50.20)、LiveCodeBench(14 / 118,得分 85)、GPQA Diamond(31 / 175,得分 87.60)。本页还提供与 2 个竞品模型及 3 个前代或同系列模型的对比,在有数据时会展示性能和价格视图。并附有 1 个数据来源链接供参考。

评测结果

Kimi K2.5

评测结果

思考模式
全部常规思考
思考模式细分 (1)
全部默认 (开启思考)
工具使用
全部使用工具不使用工具
联网能力
全部离线联网

综合评估

共 6 项评测
评测名称 / 模式
得分
排名/总数
GPQA Diamond
开启思考
87.60
31 / 175
MMLU Pro
开启思考
78.50
64 / 124
ARC-AGI
开启思考
65.30
31 / 65
HLE
开启思考
30.10
69 / 149
HLE
开启思考工具
50.20
17 / 149
ARC-AGI-2
开启思考
11.80
35 / 58

编程与软件工程

共 4 项评测
评测名称 / 模式
得分
排名/总数
LiveCodeBench
开启思考
85
14 / 118
SWE-bench Verified
开启思考工具
76.80
22 / 103
SWE-bench Multilingual
开启思考
73
8 / 17
SWE-Bench Pro - Public
开启思考工具
50.70
25 / 36

数学推理

共 3 项评测
评测名称 / 模式
得分
排名/总数
AIME2025
开启思考
96.10
21 / 106
AIME 2026
开启思考
92.50
10 / 14
IMO-AnswerBench
开启思考
81.80
12 / 17

常识推理

共 1 项评测
评测名称 / 模式
得分
排名/总数
Simple Bench
开启思考
46.80
13 / 27

AI Agent - 信息收集

共 1 项评测
评测名称 / 模式
得分
排名/总数
BrowseComp
开启思考工具联网
60.60
27 / 43

AI Agent - 工具使用

共 1 项评测
评测名称 / 模式
得分
排名/总数
Terminal Bench 2.0
开启思考工具
50.80
30 / 43

生产力知识

共 1 项评测
评测名称 / 模式
得分
排名/总数
GDPval-AA
开启思考
40
14 / 20

长上下文能力

共 1 项评测
评测名称 / 模式
得分
排名/总数
AA-LCR
开启思考
65
10 / 13

OpenClaw智能体能力综合测评

共 2 项评测
评测名称 / 模式
得分
排名/总数
Pinch Bench
开启思考工具
84.80
17 / 37
Claw Bench
开启思考工具
81.70
18 / 29
与其他模型对比

竞品对比

Kimi K2.5 与同类主流模型的评测得分对比

Kimi K2.5GLM-5MiniMax M2.5
评测类别:
柱状图按当前筛选范围内每个模型在各评测中的最高分展示;具体模式明细请看下方表格。

评测得分对比

12 项可对比评测得分汇总。每个模型展示最佳得分,模式在分数下方标注。

评测项Kimi K2.5当前GLM-5MiniMax M2.5
ARC-AGI
综合评估
65.30开启思考
44.70开启思考
63.70开启思考
ARC-AGI-2
综合评估
11.80开启思考
4.90开启思考
4.90开启思考
GPQA Diamond
综合评估
87.60开启思考
86.00开启思考
85.20开启思考
HLE
综合评估
50.20开启思考 | 工具
50.40开启思考 | 工具
19.40开启思考
SWE-Bench Pro - Public
编程与软件工程
50.70开启思考 | 工具
--
55.40开启思考 | 工具
SWE-bench Verified
编程与软件工程
76.80开启思考 | 工具
77.80开启思考
80.20开启思考 | 工具
AIME 2026
数学推理
92.50开启思考
92.70开启思考
--
AIME2025
数学推理
96.10开启思考
--
86.30开启思考
FrontierMath - Tier 4
数学推理
4.20常规模式
2.10常规模式
--
IMO-AnswerBench
数学推理
81.80开启思考
82.50开启思考
--
BrowseComp
AI Agent - 信息收集
60.60开启思考 | 工具
75.90开启思考 | 工具
76.30开启思考 | 工具
Terminal Bench 2.0
AI Agent - 工具使用
50.80开启思考 | 工具
61.10开启思考 | 工具
51.70开启思考 | 工具
其余 4 个 benchmark 仍可在上方图表中查看。

Kimi K2.5 与同类模型的标准 API 价格对比

按模型并排展示标准文本输入价与输出价;若存在超长上下文加价,仅保留阈值内标准价,并在下方说明适用范围。

数据来源:DataLearnerAI,展示默认供应商的标准文本价格。 · USD / 1M tokens

模型供应商标准输入标准输出标准价适用于
Kimi K2.5
—0.6 美元/100 万tokens3 美元/100 万tokens—
GLM-5
智谱AI$1 / 1M tokens$3.2 / 1M tokens—
MiniMax M2.5
MiniMaxAI$0.3 / 1M tokens$2.4 / 1M tokens—

历代版本对比

Kimi K2.5 系列各版本的评测成绩纵向对比

Kimi K2.5Kimi K2 ThinkingKimi K2 0905Kimi K2
评测类别:
柱状图按当前筛选范围内每个模型在各评测中的最高分展示;具体模式明细请看下方表格。

评测得分对比

12 项可对比评测得分汇总。每个模型展示最佳得分,模式在分数下方标注。· 点击任意行可切换下方趋势图。

评测项Kimi K2.5当前Kimi K2 ThinkingKimi K2 0905Kimi K2
ARC-AGI
综合评估
65.30开启思考
--
--
13.30常规模式
GPQA Diamond
综合评估
87.60开启思考
84.50开启思考
--
75.10常规模式
HLE
综合评估
50.20开启思考 | 工具
51.00开启思考 | 工具
21.70开启思考 | 工具
4.70常规模式
MMLU Pro
综合评估
78.50开启思考
84.60开启思考
--
81.10常规模式
LiveCodeBench
编程与软件工程
85.00开启思考
83.10开启思考
--
53.70常规模式
SWE-Bench Pro - Public
编程与软件工程
50.70开启思考 | 工具
--
27.67常规模式
--
SWE-bench Verified
编程与软件工程
76.80开启思考 | 工具
71.30开启思考 | 工具
69.20常规模式
51.80常规模式
AIME2025
数学推理
96.10开启思考
100.00开启思考 | 工具
75.20开启思考 | 工具
54.00常规模式
FrontierMath - Tier 4
数学推理
4.20常规模式
0.00开启思考
--
0.01常规模式
Simple Bench
常识推理
46.80开启思考
--
--
26.30常规模式
BrowseComp
AI Agent - 信息收集
60.60开启思考 | 工具
60.20开启思考 | 工具
--
--
Claw Bench
OpenClaw智能体能力综合测评
81.70开启思考 | 工具
82.50开启思考 | 工具
--
--

单评测历史趋势图

当前查看:ARC-AGI · 综合评估

选择评测
常规常规 + 工具推理推理 + 工具深度推理深度推理 + 工具

横轴为模型与发布时间,纵轴为分数;同一模式会用实线串起版本变化,同代不同模式继续用虚线辅助对齐。

Kimi K2.5 所在系列的标准 API 价格对比

按模型并排展示标准文本输入价与输出价;若存在超长上下文加价,仅保留阈值内标准价,并在下方说明适用范围。

数据来源:DataLearnerAI,展示默认供应商的标准文本价格。

这些模型的价格币种或计费单位不一致,暂不直接绘制统一柱状图,以下展示原始价格。

Kimi K2.5
标准输入: 0.6 美元/100 万tokens
标准输出: 3 美元/100 万tokens
Kimi K2 Thinking
标准输入: 0.6 美元/100 万tokens
标准输出: 2.5 美元/100 万tokens
Kimi K2 0905
标准输入: 0.60 美元/ 100 万tokens
标准输出: 2.5 美元/ 100 万tokens
Kimi K2
标准输入: 0.6 美元/100 万tokens
标准输出: 2.5 美元/100 万tokens
模型供应商标准输入标准输出标准价适用于
Kimi K2.5
—0.6 美元/100 万tokens3 美元/100 万tokens—
Kimi K2 Thinking
—0.6 美元/100 万tokens2.5 美元/100 万tokens—
Kimi K2 0905
—0.60 美元/ 100 万tokens2.5 美元/ 100 万tokens—
Kimi K2
—0.6 美元/100 万tokens2.5 美元/100 万tokens—

数据来源

kimi.com