MiniMax-M2.7 评测深度分析

本页面对 MiniMax-M2.7 的评测数据进行系统分析，涵盖综合推理、软件工程、Agent 能力、指令跟随、长上下文等多个维度，并提供与 Kimi K2.5、智谱 GLM-5 的横向对比，以及 M2 系列 M2.1、M2.5、M2.7 三代迭代数据对比。数据显示三者在 GPQA Diamond 等主流评测上差距在 3 分以内，处于同一竞争梯队，但 M2.7 的 API 输出定价约为 GLM-5 的 40%。

MiniMax-M2.7 是 MiniMaxAI（稀宇科技）于 2026 年 3 月 18 日发布的最新一代纯文本大语言模型，也是 M2 系列的第三次迭代。从发布节奏来看，M2 系列自 2025 年 12 月上线 M2.1 后，约每 6 至 8 周推出一个新版本，M2.5 于 2026 年 2 月发布，M2.7 间隔约 5 周跟进，整体属于快速迭代路线。

从评测数据整体看，M2.7 相对 M2.5 是一次有选择性的提升，而非全面的大幅跃升。多数指标有所改善，但也有个别维度出现小幅下滑，这一特征在后文会具体展开。

与同类竞品的定位比较

DataLearner 将 Kimi K2.5（月之暗面）和 GLM-5（智谱 AI）作为 M2.7 的横向参照模型。从综合评测数据来看，三者整体处于同一竞争层级。

GPQA Diamond 是一项针对研究生水平科学问题的综合推理基准，题目涵盖物理、化学、生物等学科的高难度问题，满分为 100。三者在该项得分分别为 M2.7（87）、Kimi K2.5（87.6）、GLM-5（86），差距不超过 2 分。Pinch Bench 是面向 Agent 综合执行能力的测试，M2.7 得 87.1，Kimi K2.5 得 84.8，GLM-5 得 86.4，同样在 3 分以内。从这两项可以看出，三者在主流评测上很难从单项得分判定绝对优劣。

值得注意的是定价差异。M2.7 的标准 API 输出定价为 $1.20 / 1M tokens，而 Kimi K2.5 为 $3.00、GLM-5 为 $3.20，后两者的输出价格约为 M2.7 的 2.5 至 2.7 倍。在性能处于同一梯队的前提下，这一价格差距在实际部署成本上是可感知的差异。

评测结果

MiniMax-M2.7

评测结果

综合评估

共 2 项评测

评测名称 / 模式

得分

排名/总数

GPQA Diamond

思考模式

35 / 175

HLE

思考模式

74 / 149

编程与软件工程

共 1 项评测

评测名称 / 模式

得分

排名/总数

SWE-Bench Pro - Public

思考模式工具

56.20

11 / 36

Agent能力评测

共 2 项评测

评测名称 / 模式

得分

排名/总数

τ²-Bench - Telecom

思考模式工具

24 / 35

Terminal Bench Hard

思考模式工具

5 / 13

指令跟随

共 1 项评测

评测名称 / 模式

得分

排名/总数

IF Bench

思考模式工具

4 / 27

生产力知识

共 1 项评测

评测名称 / 模式

得分

排名/总数

GDPval-AA

思考模式

12 / 20

长上下文能力

共 1 项评测

评测名称 / 模式

得分

排名/总数

AA-LCR

思考模式工具

4 / 13

OpenClaw智能体能力综合测评

共 2 项评测

评测名称 / 模式

得分

排名/总数

Claw Bench

思考模式工具

91.70

5 / 29

Pinch Bench

思考模式工具

87.10

9 / 37

与其他模型对比

MiniMax-M2.7 评测深度分析

与同类竞品的定位比较

评测结果

评测结果

综合评估

编程与软件工程

Agent能力评测

指令跟随

生产力知识

长上下文能力

OpenClaw智能体能力综合测评

数据来源

系列迭代：M2.1 → M2.5 → M2.7

M2.7 的能力分布特征

小结