DataLearner 标志DataLearnerAI
最新AI资讯
大模型排行榜
大模型评测基准
大模型列表
大模型对比
资源中心
工具
语言中文
DataLearner 标志DataLearner AI

专注大模型评测、数据资源与实践教学的知识平台,持续更新可落地的 AI 能力图谱。

产品

  • 评测榜单
  • 模型对比
  • 数据资源

资源

  • 部署教程
  • 原创内容
  • 工具导航

关于

  • 关于我们
  • 隐私政策
  • 数据收集方法
  • 联系我们

© 2026 DataLearner AI. DataLearner 持续整合行业数据与案例,为科研、企业与开发者提供可靠的大模型情报与实践指南。

隐私政策服务条款
页面导航
目录
大模型列表Muse Spark
MU

Muse Spark

推理大模型

Muse Spark by Meta Superintelligence Labs

发布时间: 2026-04-08更新于: 2026-04-09 13:19:26.598933
在线体验GitHubHugging FaceCompare
模型参数
未披露
上下文长度
262K
中文支持
不支持
推理能力

Meta Muse Spark 是 Meta Superintelligence Labs 于 2026 年 4 月发布的首款模型,也是 Llama 4 失利后 Meta 全面重建 AI 研发体系的第一个对外成果。模型由首席 AI 官 Alexandr Wang 领导团队历时九个月开发完成,原生支持多模态输入,内置多智能体并行推理机制。基准测试中,Muse Spark 在医疗问答(HealthBench Hard 42.8%)和图表理解(CharXiv Reasoning 86.4)上表现突出,整体推理和智能体编码能力与 GPT-5.4、Gemini 3.1 Pro 仍有差距。Meta 将其定位为 Muse 系列的起点,更大规模的后续模型已在开发中。

数据优先来自官方发布(GitHub、Hugging Face、论文),其次为评测基准官方结果,最后为第三方评测机构数据。 了解数据收集方法

Muse Spark

模型基本信息

推理过程
支持
思考模式
思考模式 (默认)常规模式
上下文长度
262K tokens
最大输出长度
暂无数据
模型类型
推理大模型
发布时间
2026-04-08
模型文件大小
暂无数据
MoE架构
否
总参数 / 激活参数
暂无数据 / 不涉及
知识截止
暂无数据
Muse Spark

开源和体验地址

代码开源状态
不开源
预训练权重开源
不开源- 不开源
GitHub 源码
暂无GitHub开源地址
Hugging Face
暂无开源HuggingFace地址
在线体验
https://www.meta.ai
Muse Spark

官方介绍与博客

官方论文
Introducing Muse Spark: Scaling Towards Personal Superintelligence
DataLearnerAI博客
暂无介绍博客
Muse Spark

API接口信息

接口速度
3/5
暂无公开的 API 定价信息。
Muse Spark

评测结果

Muse Spark 当前已收录的代表性评测结果包括 HLE(3 / 149,得分 58)、GPQA Diamond(19 / 175,得分 89.50)、GDPval-AA(3 / 20,得分 1444)。 本页还汇总了参数规模、上下文长度与 API 价格,便于结合评测结果与部署约束一起判断模型适配度。

思考模式
全部常规思考
思考模式细分 (2)
全部默认 (思考模式)深度
工具使用
全部使用工具不使用工具
并行模式
排除并行全部并行模式
当前筛选暂无评测数据。
查看评测深度分析与其他模型对比
Muse Spark

发布机构

Facebook AI研究实验室
Facebook AI研究实验室
查看发布机构详情
Muse Spark by Meta Superintelligence Labs

模型解读

2026年4月8日,Meta 正式发布 Muse Spark,这是其新成立的 Meta Superintelligence Labs(MSL)推出的第一个模型,也是 Meta 在 Llama 4 遭受广泛批评后的核心反击动作。


背景:Muse Spark 是什么来历

Muse Spark 的内部代号是 Avocado,历时九个月开发完成。它不属于 Llama 系列,而是 Meta 全新启动的 Muse 系列第一款产品。

这背后有一个明确的组织背景:2025年6月,Meta 以143亿美元收购了数据标注公司 Scale AI 49% 的非投票股权,并将 Scale AI 创始人兼 CEO Alexandr Wang 引入 Meta,出任首席 AI 官(CAO)——这也是 Meta 历史上设立的第一个 CAO 职位。Muse Spark 是 Wang 领导 MSL 团队交出的第一份成绩单。

Meta 官方将 Muse Spark 定位为"通往个人超级智能的第一步",并明确说明这是一个"小而快"的起始模型,更大规模的后续模型已在开发中。换句话说,Muse Spark 在 Meta 的技术路线图中是探路者,不是旗舰。


模型能力:多模态原生,多智能体并行推理

从技术架构看,Muse Spark 是一个原生多模态推理模型,支持文本、图像和语音输入,当前输出仅限文本。核心能力包括:工具调用(tool-use)、视觉思维链(visual chain of thought)和多智能体编排(multi-agent orchestration)。

推理模式上,Muse Spark 提供两种主要模式:

  • 快速模式:处理日常简单查询,低延迟优先
  • Contemplating 模式:将多个子智能体并行调度,共同攻克复杂问题

Meta 的技术解释是:为了在不大幅增加延迟的情况下扩展测试时推理算力,可以通过增加并行协作智能体的数量来实现——这和 Gemini Deep Think 或 GPT Pro 的思路一脉相承。

Contemplating 模式的基准结果:

  • Humanity's Last Exam:58%
  • FrontierScience Research:38%

这两个数字是 Contemplating 模式下的性能,对应的是 Meta 所说的"极端推理模式"对比赛道。


基准表现:健康领域拿下第一,推理整体略落后头部

Meta 发布了主要基准对比数据,以下是关键数字:

基准Muse SparkGPT-5.4Claude Opus 4.6Gemini 3.1 Pro

GPQA Diamond(博士级推理)89.5%92.8%92.7%94.3%

HealthBench Hard(医疗)42.8%略低明显更低明显更低

GPQA Diamond 上,Muse Spark 的 89.5% 落后于三家主要竞争对手,差距在 3-5 个百分点。HealthBench Hard 则是 Muse Spark 的强项,42.8% 超过所有对手,这与 Meta 在医疗数据上的针对性投入直接相关——官方披露了与超过 1,000 名医生合作整理训练数据的细节。

Meta 在官方技术博客中主动承认了短板:长链路智能体任务和代码工作流是当前的明显性能缺口,这两个方向仍在持续投入中。


视觉能力是差异化方向之一

Meta 重点强调了 Muse Spark 的多模态视觉能力,具体场景包括:

  • 视觉 STEM 题目(强项)
  • 实体识别与定位
  • 从图像中解读营养标签、健身动作肌肉激活图等健康信息
  • 基于文字描述直接生成可运行的迷你游戏或可视化界面(visual coding)

这些能力目前通过图像输入触发,输出仍为文本或交互式内容。


部署范围:闭源为主,开源版本后续跟进

与 Llama 系列完全开放权重不同,Muse Spark 目前是闭源部署:

  • 立即上线:Meta AI 官方 App 和 meta.ai 网站
  • 数周内陆续上线:WhatsApp、Instagram、Facebook、Messenger 以及 Ray-Ban Meta AI 智能眼镜
  • API 访问:仅开放给精选合作伙伴的私有预览(Private Preview)
  • 未来计划:Meta 已明确将发布 Muse Spark 的开源版本(open-source license)

Axios 是最早确认开源计划的媒体之一。这意味着 Meta 在这一代模型上走的是"先闭源部署、后开源"的路线,与其 Llama 系列从一开始就完全开放权重的策略明显不同。

目前所有模式均免费,但 Meta 可能会在后续引入使用频率限制。


隐私问题值得关注

使用 Muse Spark 需要用 Facebook 或 Instagram 账号登录。Meta 官方没有明确说明 AI 不会调用账号的个人数据,而 Meta 的隐私政策历来对用户数据的使用范围限制较少。此外,Meta 明确表示 Muse Spark 未来将整合 Instagram、Facebook 和 Threads 上的内容与推荐信号,用于购物模式等个性化功能——这意味着用户的社交行为数据将与 AI 推理过程产生交叉。


历史包袱:Llama 4 基准造假问题

这里需要提一个背景。Llama 4 在 2025 年 4 月发布时,曾因使用专为特定任务微调的内部特殊版本来刷基准数据,而非用向公众开放的版本,被独立研究者揭露并迫使 Meta 承认。这一事件严重损害了 Meta 在 AI 评测社区的公信力。

Muse Spark 的基准数据能否经得起独立复现验证,目前尚待社区确认。


Muse 系列的定位:这只是起点

Meta 在官方声明中非常明确地将 Muse Spark 描述为"Muse 系列的第一步"——刻意做小、做快,用于验证整个训练栈的扩展性。更大规模的后续模型已在研发,Zuckerberg 在 Threads 上也表示未来将发布"包括新开源模型在内的越来越先进的模型"。

从 Meta 的叙事逻辑看,Muse Spark 的核心价值不在于当前的绝对性能,而在于证明其重建后的训练基础设施可以有效扩展。这是为后续更大模型铺路的信号。


总结

Muse Spark 是 Meta 在 Llama 4 失利后的系统性重建成果,由 Alexandr Wang 领导的 MSL 团队历时九个月完成。模型在医疗基准上取得当前最佳成绩,多模态能力较扎实,但在整体推理水平和代码能力上仍落后于 GPT-5.4、Claude Opus 4.6 和 Gemini 3.1 Pro。闭源部署、私有 API 的策略标志着 Meta 在这一代产品上的商业模式转变。基准数据能否经得起独立验证,是后续最值得关注的核实点。

DataLearner 官方微信

欢迎关注 DataLearner 官方微信,获得最新 AI 技术推送

DataLearner 官方微信二维码