Muse Spark 评测深度分析

Muse Spark 评测深度分析：基于20项基准数据，横向对比 GPT-5.4、Gemini 3.1 Pro、Claude Opus 4.6，拆解医疗、多模态、抽象推理、智能体编码四个维度的真实表现与强弱边界。

Muse Spark 整体水平接近但还没进头部第一梯队，有两个方向是真实的强项——医疗和多模态图表理解；有一个方向差距明显到不成比例——ARC-AGI-2 抽象推理；智能体编码是公认的短板，Meta 自己也承认了；最值得关注的数字是 Contemplating 深度推理模式下 HLE 排名全球第3，说明计算资源堆上去之后天花板比想象的高。

多模态：图表理解是真正的强项，其余接近但不突出

六项多模态基准里，Muse Spark 只有一项明确领先——CharXiv Reasoning（图表理解）86.4，比第二名 GPT-5.4 的 82.8 高出将近4分，Opus 4.6 只有 65.3，差距极大。这项基准考察的是从复杂学术图表中提取和推理信息的能力，Muse Spark 在这里的优势是实质性的，不是统计噪声。

SimpleVQA（视觉事实性）71.3 仅次于 Gemini 的 72.4，也算得上第二。

但其余四项基本是追着跑的状态：MMMU Pro 落后 Gemini 约3分，ERQA 落后 Gemini 约5分，ScreenSpot Pro 五家扎堆在 83–85 分没有分出高下。ZeroBench（多步视觉推理，pass@5）33.0 是五家里有数据的最低分，GPT-5.4 拿了 41.0。

多模态方向的总体判断：图表理解是一个有说服力的优势，其余项目跟头部差距不大但没有领先优势，整体是"部分领先、其余跟随"的格局。

评测结果

Muse Spark

评测结果

综合评估

共 5 项评测

评测名称 / 模式

得分

排名/总数

GPQA Diamond

思考模式

89.50

19 / 175

HLE

思考模式

42.80

36 / 149

HLE

思考模式工具

50.40

15 / 149

HLE

深度思考模式

3 / 149

ARC-AGI-2

思考模式

42.50

24 / 58

编程与软件工程

共 1 项评测

评测名称 / 模式

得分

排名/总数

SWE-bench Verified

思考模式工具

77.40

19 / 103

数学推理

共 3 项评测

评测名称 / 模式

得分

排名/总数

FrontierMath

思考模式

9 / 60

FrontierMath - Tier 4

常规模式

14.60

23 / 80

FrontierMath - Tier 4

思考模式

14.60

23 / 80

Agent能力评测

共 1 项评测

评测名称 / 模式

得分

排名/总数

τ²-Bench - Telecom

思考模式工具

20 / 35

AI Agent - 工具使用

共 1 项评测

评测名称 / 模式

得分

排名/总数

Terminal Bench 2.0

思考模式工具

21 / 43

生产力知识

共 1 项评测

评测名称 / 模式

得分

排名/总数

GDPval-AA

思考模式工具

1444

3 / 20

与其他模型对比

Muse Spark 评测深度分析

评测结果

评测结果

综合评估

编程与软件工程

数学推理

Agent能力评测

AI Agent - 工具使用

生产力知识

数据来源