Muse Spark 整体水平接近但还没进头部第一梯队,有两个方向是真实的强项——医疗和多模态图表理解;有一个方向差距明显到不成比例——ARC-AGI-2 抽象推理;智能体编码是公认的短板,Meta 自己也承认了;最值得关注的数字是 Contemplating 深度推理模式下 HLE 排名全球第3,说明计算资源堆上去之后天花板比想象的高。
多模态:图表理解是真正的强项,其余接近但不突出
六项多模态基准里,Muse Spark 只有一项明确领先——CharXiv Reasoning(图表理解)86.4,比第二名 GPT-5.4 的 82.8 高出将近4分,Opus 4.6 只有 65.3,差距极大。这项基准考察的是从复杂学术图表中提取和推理信息的能力,Muse Spark 在这里的优势是实质性的,不是统计噪声。
SimpleVQA(视觉事实性)71.3 仅次于 Gemini 的 72.4,也算得上第二。
但其余四项基本是追着跑的状态:MMMU Pro 落后 Gemini 约3分,ERQA 落后 Gemini 约5分,ScreenSpot Pro 五家扎堆在 83–85 分没有分出高下。ZeroBench(多步视觉推理,pass@5)33.0 是五家里有数据的最低分,GPT-5.4 拿了 41.0。
多模态方向的总体判断:图表理解是一个有说服力的优势,其余项目跟头部差距不大但没有领先优势,整体是"部分领先、其余跟随"的格局。