MistralAI的混合专家大模型Mistral-7B×8-MoE详细介绍，效果超过LLaMA2-70B和GPT-3.5，推理速度快6倍

12月8日晚上，MistralAI在他们的推特账号上发布了一个磁力链接，大家下载之后根据名字推断这是一个混合专家模型（Mixture of Experts，MoE）（详情参考DataLearnerAI此前的介绍：MistralAI开源全球首个（可能）基于MoE（Mixture of Experts）技术的大模型：预训练下载链接全球直发，但实测表现似乎一般！）。这种模型因为较低的成本和更高的性能被认为是大模型技术中非常重要的路径。也是GPT-4可能的方案。MistralAI在今天发布了博客，正式介绍了这个强大的模型。

根据官方的介绍，Mistral-7B×8-MoE是一个高质量稀疏型的专家混合模型。是8个70亿参数规模大模型的混合。它的主要特点如下：

评测数据集	LLAMA 270B	GPT-3.5	Mixtral 8x7B
MMLU (MCQ in 57 subjects)	69.9%	70.0%	70.6%
HellaSwag (10-shot)	87.1%	85.5%	86.7%
ARC Challenge (25-shot)	85.1%	85.2%	85.8%
WinoGrande (5-shot)	83.2%	81.6%	81.2%
MBPP (pass@1)	49.8%	52.2%	60.7%
GSM-8K (5-shot)	53.6%	57.1%	58.4%
MT Bench (for Instruct Models)	6.86	8.32	8.30