DataLearner 标志DataLearnerAI
最新AI资讯
大模型排行榜
大模型评测基准
大模型列表
大模型对比
资源中心
工具
语言中文
DataLearner 标志DataLearner AI

专注大模型评测、数据资源与实践教学的知识平台,持续更新可落地的 AI 能力图谱。

产品

  • 评测榜单
  • 模型对比
  • 数据资源

资源

  • 部署教程
  • 原创内容
  • 工具导航

关于

  • 关于我们
  • 隐私政策
  • 数据收集方法
  • 联系我们

© 2026 DataLearner AI. DataLearner 持续整合行业数据与案例,为科研、企业与开发者提供可靠的大模型情报与实践指南。

隐私政策服务条款
页面导航
目录
大模型列表Muse Spark
MU

Muse Spark

推理大模型

Muse Spark by Meta Superintelligence Labs

发布时间: 2026-04-08更新于: 2026-04-09 13:19:26.598933
在线体验GitHubHugging FaceCompare
模型参数
未披露
上下文长度
262K
中文支持
不支持
推理能力

Meta Muse Spark 是 Meta Superintelligence Labs 于 2026 年 4 月发布的首款模型,也是 Llama 4 失利后 Meta 全面重建 AI 研发体系的第一个对外成果。模型由首席 AI 官 Alexandr Wang 领导团队历时九个月开发完成,原生支持多模态输入,内置多智能体并行推理机制。基准测试中,Muse Spark 在医疗问答(HealthBench Hard 42.8%)和图表理解(CharXiv Reasoning 86.4)上表现突出,整体推理和智能体编码能力与 GPT-5.4、Gemini 3.1 Pro 仍有差距。Meta 将其定位为 Muse 系列的起点,更大规模的后续模型已在开发中。

数据优先来自官方发布(GitHub、Hugging Face、论文),其次为评测基准官方结果,最后为第三方评测机构数据。 了解数据收集方法

Muse Spark

模型基本信息

推理过程
支持
思考模式
思考模式 (默认)常规模式
上下文长度
262K tokens
最大输出长度
暂无数据
模型类型
推理大模型
发布时间
2026-04-08
模型文件大小
暂无数据
MoE架构
否
总参数 / 激活参数
暂无数据 / 不涉及
知识截止
暂无数据
Muse Spark

开源和体验地址

代码开源状态
不开源
预训练权重开源
不开源- 不开源
GitHub 源码
暂无GitHub开源地址
Hugging Face
暂无开源HuggingFace地址
在线体验
https://www.meta.ai
Muse Spark

官方介绍与博客

官方论文
Introducing Muse Spark: Scaling Towards Personal Superintelligence
DataLearnerAI博客
暂无介绍博客
Muse Spark

API接口信息

接口速度
3/5
暂无公开的 API 定价信息。
Muse Spark

评测结果

Muse Spark 当前已收录的代表性评测结果包括 HLE(3 / 149,得分 58)、GPQA Diamond(19 / 175,得分 89.50)、GDPval-AA(3 / 20,得分 1444)。 本页还汇总了参数规模、上下文长度与 API 价格,便于结合评测结果与部署约束一起判断模型适配度。

思考模式
全部常规思考
思考模式细分 (2)
全部默认 (思考模式)深度
工具使用
全部使用工具不使用工具
并行模式
排除并行全部并行模式

综合评估

共 1 项评测
评测名称 / 模式
得分
排名/总数
HLE
深度
58
3 / 149
查看评测深度分析与其他模型对比
Muse Spark

发布机构

Facebook AI研究实验室
Facebook AI研究实验室
查看发布机构详情
Muse Spark by Meta Superintelligence Labs

模型解读

2026年4月8日,Meta 正式发布 Muse Spark,这是其新成立的 Meta Superintelligence Labs(MSL)推出的第一个模型,也是 Meta 在 Llama 4 遭受广泛批评后的核心反击动作。


背景:Muse Spark 是什么来历

Muse Spark 的内部代号是 Avocado,历时九个月开发完成。它不属于 Llama 系列,而是 Meta 全新启动的 Muse 系列第一款产品。

这背后有一个明确的组织背景:2025年6月,Meta 以143亿美元收购了数据标注公司 Scale AI 49% 的非投票股权,并将 Scale AI 创始人兼 CEO Alexandr Wang 引入 Meta,出任首席 AI 官(CAO)——这也是 Meta 历史上设立的第一个 CAO 职位。Muse Spark 是 Wang 领导 MSL 团队交出的第一份成绩单。

Meta 官方将 Muse Spark 定位为"通往个人超级智能的第一步",并明确说明这是一个"小而快"的起始模型,更大规模的后续模型已在开发中。换句话说,Muse Spark 在 Meta 的技术路线图中是探路者,不是旗舰。


模型能力:多模态原生,多智能体并行推理

从技术架构看,Muse Spark 是一个原生多模态推理模型,支持文本、图像和语音输入,当前输出仅限文本。核心能力包括:工具调用(tool-use)、视觉思维链(visual chain of thought)和多智能体编排(multi-agent orchestration)。

推理模式上,Muse Spark 提供两种主要模式:

  • 快速模式:处理日常简单查询,低延迟优先
  • Contemplating 模式:将多个子智能体并行调度,共同攻克复杂问题

Meta 的技术解释是:为了在不大幅增加延迟的情况下扩展测试时推理算力,可以通过增加并行协作智能体的数量来实现——这和 Gemini Deep Think 或 GPT Pro 的思路一脉相承。

Contemplating 模式的基准结果:

  • Humanity's Last Exam:58%
  • FrontierScience Research:38%

这两个数字是 Contemplating 模式下的性能,对应的是 Meta 所说的"极端推理模式"对比赛道。


基准表现:健康领域拿下第一,推理整体略落后头部

Meta 发布了主要基准对比数据,以下是关键数字:

基准Muse SparkGPT-5.4Claude Opus 4.6Gemini 3.1 Pro

GPQA Diamond(博士级推理)89.5%92.8%92.7%94.3%

HealthBench Hard(医疗)42.8%略低明显更低明显更低

GPQA Diamond 上,Muse Spark 的 89.5% 落后于三家主要竞争对手,差距在 3-5 个百分点。HealthBench Hard 则是 Muse Spark 的强项,42.8% 超过所有对手,这与 Meta 在医疗数据上的针对性投入直接相关——官方披露了与超过 1,000 名医生合作整理训练数据的细节。

Meta 在官方技术博客中主动承认了短板:长链路智能体任务和代码工作流是当前的明显性能缺口,这两个方向仍在持续投入中。


视觉能力是差异化方向之一

Meta 重点强调了 Muse Spark 的多模态视觉能力,具体场景包括:

  • 视觉 STEM 题目(强项)
  • 实体识别与定位
  • 从图像中解读营养标签、健身动作肌肉激活图等健康信息
  • 基于文字描述直接生成可运行的迷你游戏或可视化界面(visual coding)

这些能力目前通过图像输入触发,输出仍为文本或交互式内容。


部署范围:闭源为主,开源版本后续跟进

与 Llama 系列完全开放权重不同,Muse Spark 目前是闭源部署:

  • 立即上线:Meta AI 官方 App 和 meta.ai 网站
  • 数周内陆续上线:WhatsApp、Instagram、Facebook、Messenger 以及 Ray-Ban Meta AI 智能眼镜
  • API 访问:仅开放给精选合作伙伴的私有预览(Private Preview)
  • 未来计划:Meta 已明确将发布 Muse Spark 的开源版本(open-source license)

Axios 是最早确认开源计划的媒体之一。这意味着 Meta 在这一代模型上走的是"先闭源部署、后开源"的路线,与其 Llama 系列从一开始就完全开放权重的策略明显不同。

目前所有模式均免费,但 Meta 可能会在后续引入使用频率限制。


隐私问题值得关注

使用 Muse Spark 需要用 Facebook 或 Instagram 账号登录。Meta 官方没有明确说明 AI 不会调用账号的个人数据,而 Meta 的隐私政策历来对用户数据的使用范围限制较少。此外,Meta 明确表示 Muse Spark 未来将整合 Instagram、Facebook 和 Threads 上的内容与推荐信号,用于购物模式等个性化功能——这意味着用户的社交行为数据将与 AI 推理过程产生交叉。


历史包袱:Llama 4 基准造假问题

这里需要提一个背景。Llama 4 在 2025 年 4 月发布时,曾因使用专为特定任务微调的内部特殊版本来刷基准数据,而非用向公众开放的版本,被独立研究者揭露并迫使 Meta 承认。这一事件严重损害了 Meta 在 AI 评测社区的公信力。

Muse Spark 的基准数据能否经得起独立复现验证,目前尚待社区确认。


Muse 系列的定位:这只是起点

Meta 在官方声明中非常明确地将 Muse Spark 描述为"Muse 系列的第一步"——刻意做小、做快,用于验证整个训练栈的扩展性。更大规模的后续模型已在研发,Zuckerberg 在 Threads 上也表示未来将发布"包括新开源模型在内的越来越先进的模型"。

从 Meta 的叙事逻辑看,Muse Spark 的核心价值不在于当前的绝对性能,而在于证明其重建后的训练基础设施可以有效扩展。这是为后续更大模型铺路的信号。


总结

Muse Spark 是 Meta 在 Llama 4 失利后的系统性重建成果,由 Alexandr Wang 领导的 MSL 团队历时九个月完成。模型在医疗基准上取得当前最佳成绩,多模态能力较扎实,但在整体推理水平和代码能力上仍落后于 GPT-5.4、Claude Opus 4.6 和 Gemini 3.1 Pro。闭源部署、私有 API 的策略标志着 Meta 在这一代产品上的商业模式转变。基准数据能否经得起独立验证,是后续最值得关注的核实点。

DataLearner 官方微信

欢迎关注 DataLearner 官方微信,获得最新 AI 技术推送

DataLearner 官方微信二维码