MiniMax-M2.7 是 MiniMaxAI(稀宇科技)于 2026 年 3 月 18 日发布的最新一代纯文本大语言模型,也是 M2 系列的第三次迭代。从发布节奏来看,M2 系列自 2025 年 12 月上线 M2.1 后,约每 6 至 8 周推出一个新版本,M2.5 于 2026 年 2 月发布,M2.7 间隔约 5 周跟进,整体属于快速迭代路线。
从评测数据整体看,M2.7 相对 M2.5 是一次有选择性的提升,而非全面的大幅跃升。多数指标有所改善,但也有个别维度出现小幅下滑,这一特征在后文会具体展开。
与同类竞品的定位比较
DataLearner 将 Kimi K2.5(月之暗面)和 GLM-5(智谱 AI)作为 M2.7 的横向参照模型。从综合评测数据来看,三者整体处于同一竞争层级。
GPQA Diamond 是一项针对研究生水平科学问题的综合推理基准,题目涵盖物理、化学、生物等学科的高难度问题,满分为 100。三者在该项得分分别为 M2.7(87)、Kimi K2.5(87.6)、GLM-5(86),差距不超过 2 分。Pinch Bench 是面向 Agent 综合执行能力的测试,M2.7 得 87.1,Kimi K2.5 得 84.8,GLM-5 得 86.4,同样在 3 分以内。从这两项可以看出,三者在主流评测上很难从单项得分判定绝对优劣。
值得注意的是定价差异。M2.7 的标准 API 输出定价为 $1.20 / 1M tokens,而 Kimi K2.5 为 $3.00、GLM-5 为 $3.20,后两者的输出价格约为 M2.7 的 2.5 至 2.7 倍。在性能处于同一梯队的前提下,这一价格差距在实际部署成本上是可感知的差异。
不过有一项数据需要单独说明:HLE(Humanity's Last Exam)是一项覆盖各学科顶尖难度的综合评测基准,题目由全球顶尖学者出题,整体通过率极低,满分 100 分对大多数模型而言分值普遍偏低。该项中 GLM-5 得分 50.40,显著高于 M2.7(28)和 Kimi K2.5(30.1)。但 GLM-5 在该项启用了工具调用,而另外两者未开启,测试条件不一致,因此这 20 余分的差距不能直接解读为纯粹的模型能力差距。
系列迭代:M2.1 → M2.5 → M2.7
纵观三代数据,SWE-Bench Pro(针对真实 GitHub 代码仓库的软件工程修复任务,要求模型在真实代码库中定位并解决问题)是 M2 系列提升最为显著的方向:M2.1 得分 32.6,M2.5 跃升至 55.4,M2.7 进一步微升至 56.2,三代累计提升约 23 分,且提升主要集中在 M2.1 到 M2.5 阶段,M2.7 的边际增量已十分有限。目前该项排名第 3 / 19,是 M2.7 在所有评测中相对位置最靠前的维度。
GPQA Diamond 呈现持续线性上升(81 → 85.2 → 87),HLE 则走出了一条折线:M2.1 得 22 分,M2.5 回落至 19.4,M2.7 反弹至 28,达到三代最高。这种非线性变化在迭代模型中并不罕见,但具体原因尚无公开说明。
最值得关注的波动发生在 τ²-Bench - Telecom 上。该基准专项测试模型在电信领域复杂 Agent 任务中的执行能力,M2.5 在该项得分 97.8,接近满分,而 M2.7 下滑至 85,环比降幅 12.8 分。与此同时,竞品 GLM-5 在该项得分 98.0。这意味着 M2.5 在电信 Agent 场景下与 GLM-5 基本持平,但 M2.7 拉开了约 13 分的差距,是本次迭代中最明显的退步。该变化是否与训练数据调整或优化目标取舍有关,目前没有来自官方的解释。
IF Bench 是专项测试模型对复杂指令的理解与遵循能力的基准,M2.1 和 M2.5 均停留在 70 分,M2.7 提升至 76,是 M2.5 → M2.7 阶段有实质增量的维度之一。GDPval-AA 评测生产力知识应用能力,提升幅度更大,从 M2.5 的 36 分升至 M2.7 的 50 分,是本次迭代环比增幅最大的单项。
AA-LCR 是针对长上下文场景下信息检索与理解能力的基准,M2.5 得分 69.5,M2.7 微降至 69.0,基本持平。
M2.7 的能力分布特征
综合所有维度的排名位置来看,M2.7 在软件工程(3/19)、指令跟随(5/27)、Terminal Bench Hard(5/13,针对终端操作与命令执行的高难度 Agent 评测)和长上下文(4/12)上的相对位置较靠前,而在综合推理难题 HLE(48/114)和电信 Agent τ²-Bench(23/34)上的排名则相对靠后。
这一分布表明 M2.7 目前在执行类、工程类任务上的竞争力强于宽泛难题的推理能力。但需说明,当前 DataLearner 收录的评测数据共 9 个基准,整体画像尚不完整,上述分布特征仅基于现有数据。
小结
M2.7 是 M2 系列的一次稳步迭代,整体性能较 M2.5 有所改善,在软件工程和指令跟随方向延续了上升趋势,但在电信 Agent 场景出现了相对明显的下滑。与 Kimi K2.5 和 GLM-5 相比,三者在主流评测上的差距普遍在 3 分以内,整体属于同一梯队,而 M2.7 在 API 定价上是三者中最显著的可量化差异,输出价格约为另外两者的 37%–40%。