Moonshot AI 发布 Kimi K2 Thinking:连续执行200-300次顺序工具调用,人类最后难题评测得分超过所有模型,全球第一!依然免费开源商用!
就在今日,Moonshot AI 正式推出 Kimi K2 Thinking,这款开源思考代理模型以其革命性的工具集成和长程推理能力,瞬间点燃了开发者社区的热情。
Kimi K2能自主执行200-300次连续工具调用,跨越数百步推理,解决PhD级数学难题或实时网络谜题。本次发布的Kimi K2 Thinking版本的模型在各个评测基准上表现也十分亮眼,击败了许多闭源的模型,甚至成为人类最后难题(HLE)得分上首个突破50分的模型!

Kimi K2 Thinking模型的目标:解决AI Agent超长运行的问题
Kimi 系列自推出以来,一直以高效的中文理解和多模态能力著称,但早期版本在上仍面临瓶颈:工具调用易中断,推理链条过短,导致在动态环境中如网络搜索或代码调试时,准确率往往徘徊在30%-40%。这些不足源于传统Transformer架构对上下文长度的限制,以及缺乏内置的“自省”机制——模型难以在数百步内保持连贯性。

