Kimi K2 Thinking

Name: Kimi K2 Thinking
Availability: InStock
Author: Moonshot AI

推理大模型

Kimi K2 Thinking

发布时间: 2025-11-06更新于: 2025-11-07 09:40:591,927

在线体验 GitHub Hugging Face Compare

模型参数

10400亿

上下文长度

256K

中文支持

支持

推理能力

Kimi K2 Thinking 是由 Moonshot AI 发布的 AI 模型，发布时间为 2025-11-06，定位为推理大模型，参数规模约为 10400.0B，上下文长度为 256K，模型文件大小约 1.09 TB，采用 Modified MIT License 许可。

数据优先来自官方发布（GitHub、Hugging Face、论文），其次为评测基准官方结果，最后为第三方评测机构数据。了解数据收集方法

Kimi K2 Thinking

模型基本信息

推理过程

支持

思考模式

不支持思考模式

上下文长度

256K tokens

最大输出长度

暂无数据

模型类型

推理大模型

发布时间

2025-11-06

模型文件大小

1.09 TB

MoE架构

是

总参数 / 激活参数

10400 亿 / 320 亿

知识截止

暂无数据

Kimi K2 Thinking

开源和体验地址

代码开源状态

Modified MIT License

预训练权重开源

Modified MIT License- 免费商用授权

GitHub 源码

https://github.com/MoonshotAI/Kimi-K2

Hugging Face

https://huggingface.co/moonshotai/Kimi-K2-Thinking

在线体验

https://www.kimi.com/en/

Kimi K2 Thinking

官方介绍与博客

官方论文

Introducing Kimi K2 Thinking

DataLearnerAI博客

Moonshot AI 发布 Kimi K2 Thinking：连续执行200-300次顺序工具调用，人类最后难题评测得分超过所有模型，全球第一！依然免费开源商用！

Kimi K2 Thinking

API接口信息

接口速度

3/5

💡默认单位：$/100万 tokens。若计费单位不同，则以供应商公开的原始标注为准。

标准计费Standard

模态	输入	输出
文本	$0.6	$2.5

缓存计费Cache

模态	输入 Cache	输出 Cache
文本	$0.15	--

Kimi K2 Thinking

评测结果

Kimi K2 Thinking 当前已收录的代表性评测结果包括 AIME2025（1 / 106，得分 100）、HLE（13 / 149，得分 51）、Terminal-Bench（4 / 35，得分 47.10）。本页还汇总了参数规模、上下文长度与 API 价格，便于结合评测结果与部署约束一起判断模型适配度。

综合评估

共 6 项评测

评测名称 / 模式

得分

排名/总数

MMLU Pro

思考模式

84.60

30 / 124

GPQA Diamond

思考模式

84.50

49 / 175

LiveBench

思考模式

67.93

27 / 52

HLE

思考模式

23.90

85 / 149

HLE

思考模式工具

44.90

29 / 149

HLE

思考模式工具

13 / 149

编程与软件工程

共 2 项评测

评测名称 / 模式

得分

排名/总数

LiveCodeBench

思考模式

83.10

20 / 118

SWE-bench Verified

思考模式工具

71.30

46 / 103

数学推理

共 4 项评测

评测名称 / 模式

得分

排名/总数

AIME2025

思考模式

94.50

27 / 106

AIME2025

思考模式工具

99.10

12 / 106

AIME2025

思考模式工具

100

1 / 106

FrontierMath - Tier 4

思考模式

72 / 80

AI Agent - 工具使用

共 1 项评测

评测名称 / 模式

得分

排名/总数

Terminal-Bench

思考模式工具

47.10

4 / 35

Agent能力评测

共 1 项评测

评测名称 / 模式

得分

排名/总数

τ²-Bench - Telecom

思考模式工具

18 / 35

指令跟随

共 1 项评测

评测名称 / 模式

得分

排名/总数

IF Bench

思考模式

15 / 27

AI Agent - 信息收集

共 1 项评测

评测名称 / 模式

得分

排名/总数

BrowseComp

思考模式工具

60.20

28 / 43

OpenClaw智能体能力综合测评

共 1 项评测

评测名称 / 模式

得分

排名/总数

Claw Bench

思考模式工具

82.50

17 / 29

查看评测深度分析与其他模型对比

Kimi K2 Thinking

发布机构

Moonshot AI

查看发布机构详情

Kimi K2 Thinking

模型解读

Moonshot AI 于 2025 年 11 月 6 日发布了 Kimi K2 Thinking 模型。这是 Kimi K2 系列的第一个推理变体。该公司位于北京，由阿里巴巴支持。Kimi K2 系列此前在 2025 年 7 月和 9 月发布了非推理版本的 Kimi K2 Instruct 模型。

模型规格

Kimi K2 Thinking 采用混合专家（MoE）架构，总参数量为 1 万亿，活跃参数为 320 亿。它使用 INT4 精度，这比先前版本的 FP8 精度更节省空间，模型文件大小约为 594 GB。上下文窗口支持 256K 令牌。输入和输出仅限于文本模态。

Moonshot AI 在后训练阶段使用了量化感知训练，以实现 INT4 精度。这使得模型在较旧的 NVIDIA GPU 上运行时更高效，因为这些 GPU 不支持 FP4。

功能和能力

该模型设计为思考代理，支持多步推理和工具使用。它可以执行 200 到 300 个连续工具调用，而无需人类干预。主要应用包括推理、代理搜索和编码任务。在测试时，它通过扩展思考令牌和工具调用轮次来处理复杂任务。

在代理任务基准中，Kimi K2 Thinking 在 Tau2 Bench Telecom 上得分 93%，模拟客户服务代理场景。在 HLE 上得分 44.9%，在 BrowseComp 上得分 60.2%。这些分数使其在开源模型中位居前列。

DataLearner 官方微信

欢迎关注 DataLearner 官方微信，获得最新 AI 技术推送

模态

输入

输出

文本

$0.6

$2.5

模态

输入 Cache

输出 Cache

文本

$0.15