MistralAI发布了Mixtral 8×7B MoE模型的论文，更详细的参数和对比结果~

在人工智能快速发展的今天，创新型模型如Mixtral 8x7B的出现，不仅推动了技术的进步，还为未来的AI应用开辟了新的可能性。这款基于Sparse Mixture of Experts（SMoE）架构的模型，不仅在技术层面上实现了创新，还在实际应用中展示了卓越的性能。尽管一个月前这个模型就发布，但是MistralAI今天才上传了这个模型的论文，我们可以看到更详细的信息。

以下是该模型关键特性的简要表格：

架构：基于Transformer的混合专家层。每层有8个前馈块（专家）。一个路由网络在每层为每个token选择两个专家。
参数：
- 总参数数：47B
- 推理时活动参数：13B
- 前馈维度：4096
- 层数：32
- 头部维度：128
- 隐藏维度：14336
- 头部数量：32
- KV头部：8
- 上下文长度：32768 tokens
- 词汇量：32000

基准测试	Mixtral	Llama 2 70B	GPT-3.5
MMLU	70.6%	69.9%	70.0%
HellaSwag	84.4%	85.4%	85.5%
WinoGrande	77.2%	80.4%	81.6%
PIQA	83.6%	82.6%	-
ARC-Easy	83.1%	79.9%	-
Natural Questions	30.6%	25.4%	-
TriviaQA	71.5%	73.0%	-
Code (Humaneval)	40.2%	29.3%	-
数学 (MATH数据集)	28.4%	13.8%	-
GSM8K	74.4%	69.6%	-

MistralAI发布了Mixtral 8×7B MoE模型的论文，更详细的参数和对比结果~

DataLearner 官方微信

热门博客