MiniMax-M2.7
MiniMax-M2.7 是 MiniMax 于 2026 年 3 月发布的推理大模型,采用 MoE(混合专家)架构,总参数量 2300 亿、激活参数 100 亿,支持 200K tokens 超长上下文。M2.7 最大的技术亮点是首次将模型引入自身训练循环:基于 M2.7 构建的强化学习 Harness 驱动了实验监控、日志排查、代码修复与评测循环,模型可承担相关研发工作流约 30–50% 的工作量。在软件工程方向,M2.7 在 SWE-Pro 评测上得分 56.22%,接近 GPT-5.3-Codex;在 SWE Multilingual 上达到 76.5;在专业办公场景中,GDPval-AA ELO 得分 1500,位列全球第四;工具调用基准 Toolathon 正确率 46.3%。M2.7 目前已通过 MiniMax Agent(agent.minimaxi.com)和 API 平台(platform.minimaxi.com)全量上线,API 输入定价 $0.30/1M tokens,输出 $1.20/1M tokens,不开源。
数据优先来自官方发布(GitHub、Hugging Face、论文),其次为评测基准官方结果,最后为第三方评测机构数据。 了解数据收集方法
MiniMax-M2.7 当前已收录的代表性评测结果包括 IF Bench(4 / 27,得分 76)、Claw Bench(5 / 29,得分 91.70)、GPQA Diamond(35 / 175,得分 87)。 本页还汇总了参数规模、上下文长度与 API 价格,便于结合评测结果与部署约束一起判断模型适配度。
2026年4月12日更新:Minimax M2.7正式开源,不过需要注意的是M2.7更换了开源协议,不允许商用!商用需要获取书面授权!
M2.7是MiniMaxAI在2026年3月18日发布的模型,也是业内首个深度参与自身训练流程的大语言模型。与以往模型不同,M2.7在训练过程中主动承担了强化学习流程中数十个复杂任务的构建,包括监控实验、排查日志、修复代码和运行评测,研究员仅在需要做关键决策时介入。官方数据显示,M2.7能承担整个研发工作流约30–50%的工作量。
M2.7最大的技术特点在于”模型训练模型”的闭环机制。MiniMax让M2.7在训练过程中自主优化内部的软件工程脚手架,模型自主执行了超过100轮完整的迭代循环,流程涵盖:
最终在内部评测中实现了30%的性能提升。这套机制使M2.7成为目前少数真正参与过自身训练迭代的商用大模型之一。
根据官方公布的数据,M2.7在多项基准测试中相较上代M2.5均有明显提升,部分指标已接近同期顶级闭源模型水平。Artificial Analysis大模型智力指数从42分提升至50分,涨幅约20%。
| 评测基准 | M2.7 | M2.5 | Gemini 3.1 Pro | Sonnet 4.6 | Opus 4.6 | GPT 5.4 |
|---|---|---|---|---|---|---|
| SWE Bench Pro | 56.2 | 55.4 | 54.2 | 57.2 | 57.3 | 57.7 |
| Multi-SWE Bench | 52.7 | 51.3 | — | 51.0 | 50.3 | 49.0 |
| VIBE-Pro | 55.6 | 54.2 | 41.0 | 56.1 | 55.6 | — |
| MLE-Bench Lite | 66.6 | 51.5 | 66.6 | 72.7 | 75.7 | 71.2 |
| GDPval-AA | 50 | 35 | 41 | 57 | 55 | 58 |
| Toolathlon | 46.3 | 38.3 | 48.8 | 44.8 | 47.2 | 54.6 |
| MM-ClawBench | 62.7 | 57.6 | 61.8 | 64.2 | 75.4 | 73.6 |
| Artificial Analysis | 50 | 42 | 57 | 52 | 53 | 57 |
在MLE-Bench Lite(22个机器学习任务,每次24小时自主迭代)中,M2.7三次测试平均得牌率66.6%,最佳成绩为9金5银1铜,与Gemini 3.1 Pro持平。
官方重点强调了M2.7在真实生产环境中的工程能力。在内部案例中,M2.7面对线上告警时可自主完成以下流程:
据官方介绍,基于M2.7已多次将线上故障恢复时间压缩至三分钟以内。需注意,上述案例均为内部数据,尚无独立第三方复现。
M2.7新增了原生的Agent Teams多智能体协作能力,支持多个AI智能体分工合作完成复杂任务。官方认为,这种能力必须内化到模型本身,单纯依靠提示词工程无法实现稳定的多智能体协作。
除软件工程外,M2.7在办公和娱乐场景也有所强化:
欢迎关注 DataLearner 官方微信,获得最新 AI 技术推送
