DataLearner 标志DataLearnerAI
最新AI资讯
大模型排行榜
大模型评测基准
大模型列表
大模型对比
资源中心
工具
语言中文
DataLearner 标志DataLearner AI

专注大模型评测、数据资源与实践教学的知识平台,持续更新可落地的 AI 能力图谱。

产品

  • 评测榜单
  • 模型对比
  • 数据资源

资源

  • 部署教程
  • 原创内容
  • 工具导航

关于

  • 关于我们
  • 隐私政策
  • 数据收集方法
  • 联系我们

© 2026 DataLearner AI. DataLearner 持续整合行业数据与案例,为科研、企业与开发者提供可靠的大模型情报与实践指南。

隐私政策服务条款
  1. 首页/
  2. 博客列表/
  3. 博客详情

月之暗面开源了一个全新的160亿参数规模的MoE大语言模型Moonlight-16B:其训练算力仅需业界主流的一半

2025/02/23 21:08:11
1,027 阅读
MoE大模型MoE架构Moonlight-16B开源大模型

月之暗面(Moonshot AI)是此前中国大模型企业中非常受关注的一家企业。旗下的Kimi大模型和产品因为强悍的性能、超长的上下文以及非常快速的响应引起了广泛的关注。不过,此前MoonshotAI的策略一直是闭源模型,但是产品免费。也许是受到了DeepSeek的压力,月之暗面在2025年2月23日首次开源了旗下的一个小规模参数的大语言模型Moonlight-16B。

Moonlight-16B模型简介

Moonlight-16B是一个大规模的混合专家(MoE)模型,参数数量160亿。官方开源的模型名字是Moonlight-16B-A3B,因为它是160亿参数的大模型,但是每次推理仅激活其中的24亿参数,所以加了一个A3B,A是激活Activation,3B是24亿的参数。

根据官方开源的模型参数,Moonlight-16B-A3B有64个专家和2个共享专家,每次推理的时候每个token会激活其中6个专家。

Moonlight的另一个关键创新点是其使用了Muon优化器,这是一种基于矩阵正交化的优化算法,能够大大提高训练过程的效率和稳定性。通过结合MoE架构和Muon优化器,Moonlight模型不仅提高了训练效率,还展现了强大的性能。根据官网的数据,Moonlight模型在训练中使用了5.7万亿tokens的训练数据,但是因为使用了Muon优化器,所需的训练计算量比传统方法减少了50%。

Moonlight-16B模型的评测效果

在多个基准测试中,Moonlight-16B模型展现了超越同类模型的表现(与3B规模模型对比):

Moonlight-16B-A3B模型与其它模型对比
Moonlight-16B-A3B模型与其它模型对比
上图数据来源DataLearner大模型评测对比表:https://www.datalearner.com/ai-models/ai-benchmarks-tests/compare-result?benchmarkInputString=15,16,17,18,19,27,28&modelInputString=516,483,466,465,419

可以看到,与业界同等参数规模的优秀代表Qwen2.5-3B和Llama-3.2-3B对比来看,Moonlight-16B都非常优秀,出了GSM8K略低于Qwen2.5-3B外,其它评测结果都显著高于另外2个模型。

即使和业界70亿参数规模相比,Moonlight-16B模型也展现了不俗的效果:

Moonlight-16B-A3B和业界大模型对比(7B)
Moonlight-16B-A3B和业界大模型对比(7B)
上图来源DataLearnerAI大模型评测对比系统:https://www.datalearner.com/ai-models/ai-benchmarks-tests/compare-result?benchmarkInputString=15,16,17,18,19,27,28&modelInputString=516,483,466,465,419,449,460,461,436

以MMLU Pro为例,非常接近业界的Qwen2.5-7B和Google的Gemma2-9B。

Moonlight-16B-A3B的核心创新是使用Muon优化器

在神经网络训练中,优化器负责调整模型的权重(即神经网络的参数),以使得模型的输出越来越接近预期。AdamW是目前最常用的优化器之一,它通过计算梯度(损失函数对权重的导数)并利用动量来更新权重。

而本次MoonlightAI最大的创新是基于Muon优化器训练得到Moonlight-16B-A3B模型。而Muon的创新之处在于,它不仅仅是利用梯度和动量来更新权重,它还会通过一种叫做“正交化”的技术来“调整”权重更新的方向。通过正交化,Muon确保权重更新不会沿着某些“偏向性”的方向走得太远,避免了某些方向更新过多,导致模型不稳定。

同时,该优化器使得Moonlight-16B-A3B模型的训练成本也大幅降低。

Moonlight-16B模型总结

本次MoonshotAI开源的Moonlight-16B-A3B包含2个版本,一个是基座版本的Moonlight-16B-A3B,一个是Moonlight-16B-A3B-Instruct。MoE的架构使得这个模型的显存占用与160亿参数规模相当,但是推理速度与24亿参数的大模型一致。意味着速度会非常快。

关于Moonlight-16B-A3B的模型详细和评测结果参考DataLearnerAI的模型信息卡地址:https://www.datalearner.com/ai-models/pretrained-models/Moonlight-16B-A3B-Instruct

也许是因为迫于DeepSeek开源之后带来的压力,传闻月之暗面最近也减少了市场推广的投放,而首次开源大模型,极力宣传他们技术的创新可能也意味着一些方向的改变。但不管怎么说,对于开源大模型来说,中国企业似乎显得比美国企业Open的多!

DataLearner 官方微信

欢迎关注 DataLearner 官方微信,获得最新 AI 技术推送

DataLearner 官方微信二维码
返回博客列表

相关博客

  • MistralAI正式官宣开源全球最大的混合专家大模型Mixtral 8x22B,官方模型上架HuggingFace,包含指令微调后的版本!
  • Moonshot AI发布Kimi K2-Instruct-0905:256K上下文长度加持,全面升级的开放式智能体模型
  • Zhipu AI重磅发布GLM-4.5系列:技术深度解析与多维度性能评测
  • Kimi K2为什么开源?基于Kimi团队成员内容解释Kimi K2模型背后的决策思路与技术细节:继承于DeepSeek V3架构,只为追求模型智能的上限
  • Kimi开源K2大模型:全球首个开源可商用的1万亿参数规模大模型,MoE架构,评测结果与DeepSeekV3相当,但模型文件有1TB!
  • 复杂问题推理能力大幅提升,DeepSeekAI发布DeepSeek V3.2正式版本以及一个评测结果可以媲美Gemini 3.0 Pro的将开源模型推到极限性能的DeepSeek-V3.2-Speciale模型
  • Moonshot AI 发布 Kimi K2 Thinking:连续执行200-300次顺序工具调用,人类最后难题评测得分超过所有模型,全球第一!依然免费开源商用!
  • 你的MiniMax M2模型效果为什么不好?可能是用错了,官方建议正确使用Interleaved Thinking,模型效果最多可提升35%的效果

热门博客

  • 1Dirichlet Distribution(狄利克雷分布)与Dirichlet Process(狄利克雷过程)
  • 2回归模型中的交互项简介(Interactions in Regression)
  • 3贝塔分布(Beta Distribution)简介及其应用
  • 4矩母函数简介(Moment-generating function)
  • 5普通最小二乘法(Ordinary Least Squares,OLS)的详细推导过程
  • 6使用R语言进行K-means聚类并分析结果
  • 7深度学习技巧之Early Stopping(早停法)
  • 8手把手教你本地部署清华大学的ChatGLM-6B模型——Windows+6GB显卡本地部署