MistralAI发布了Mixtral 8×7B MoE模型的论文,更详细的参数和对比结果~
1,103 阅读
在人工智能快速发展的今天,创新型模型如Mixtral 8x7B的出现,不仅推动了技术的进步,还为未来的AI应用开辟了新的可能性。这款基于Sparse Mixture of Experts(SMoE)架构的模型,不仅在技术层面上实现了创新,还在实际应用中展示了卓越的性能。尽管一个月前这个模型就发布,但是MistralAI今天才上传了这个模型的论文,我们可以看到更详细的信息。

以下是该模型关键特性的简要表格:
-
架构:基于Transformer的混合专家层。每层有8个前馈块(专家)。一个路由网络在每层为每个token选择两个专家。
-
参数:
- 总参数数:47B
- 推理时活动参数:13B
- 前馈维度:4096
- 层数:32
- 头部维度:128
- 隐藏维度:14336
- 头部数量:32
- KV头部:8
- 上下文长度:32768 tokens
- 词汇量:32000
