MiniMax M2.5 模型评测分析报告
引言
本报告基于官方公告页面信息,对 MiniMax M2.5 模型进行分析。分析焦点为评测指标、基准测试以及来源材料中呈现的比较。数据来源于提供的基准测试和规格说明,无额外解读。
模型概述
MiniMax M2.5 模型于 2026 年 2 月 12 日发布。包括两个版本:MiniMax-M2.5 和 MiniMax-M2.5-Lightning。两个版本能力相同,但在推理速度上不同。模型在数十万个复杂真实世界环境中使用强化学习进行训练。距离 M2 和 M2.1 版本发布已有三个半月。
能力覆盖超过 10 种语言的编码、代理工具使用、搜索以及办公任务。编码支持完整开发生命周期阶段,包括系统设计、环境设置、开发、功能迭代、代码审查和测试。处理跨平台的完整栈项目,如 Web、Android、iOS 和 Windows。
在代理工具使用和搜索方面,模型在令牌使用超过最大上下文的 30% 时丢弃历史记录。使用并行工具调用减少运行时间。办公工作集成包括 Word、PowerPoint 和 Excel 技能,用户可创建专家组合这些技能。