DataLearner 标志DataLearnerAI
最新AI资讯
大模型排行榜
大模型评测基准
大模型列表
大模型对比
资源中心
工具
语言中文
DataLearner 标志DataLearner AI

专注大模型评测、数据资源与实践教学的知识平台,持续更新可落地的 AI 能力图谱。

产品

  • 评测榜单
  • 模型对比
  • 数据资源

资源

  • 部署教程
  • 原创内容
  • 工具导航

关于

  • 关于我们
  • 隐私政策
  • 数据收集方法
  • 联系我们

© 2026 DataLearner AI. DataLearner 持续整合行业数据与案例,为科研、企业与开发者提供可靠的大模型情报与实践指南。

隐私政策服务条款
  1. 首页/
  2. 博客列表/
  3. 博客详情

开源领域大语言模型再上台阶:Databricks开源1320亿参数规模的混合专家大语言模型DBRX-16×12B,评测表现超过Mixtral-8×7B-MoE,免费商用授权!

2024/03/27 22:34:43
1,321 阅读
DBRXMoE混合专家大模型

基于混合专家技术的大语言模型是当前大语言模型的一个重要方向。去年MistralAI开源了全球最有影响力的Mixtal-8×7B-MoE模型,吸引了很多关注。在2024年3月27日的今天,Databricks宣布开源一个全新的1320亿参数的混合专家大语言模型DBRX。

  • DBRX简介
  • DBRX模型的评测结果
  • DBRX在长上下文和检索增强任务的评测
  • DBRX模型总结

DBRX简介

DBRX是Databricks开源的一个transformer架构的大语言模型。包含1320亿参数,共16个专家网络组成,每次推理使用其中的4个专家网络,激活了360亿参数。

它与业界著名的混合专家网络模型对比结果如下:

| 模型信息 | 总参数数量 | 专家网络数目 |推理使用参数量 | 模型信息卡地址| | ------------ | ------------ | ------------ | ------------ | |DBRX | 1320 | 16 | 360 | https://www.datalearner.com/ai-models/pretrained-models/DBRX-Instruct| |Mixtral-8×7B-MoE | 467 | 8 | 120 | https://www.datalearner.com/ai-models/pretrained-models/Mistral-7B-MoE | | Grok-1 | 3140 | 8 | 860 | https://www.datalearner.com/ai-models/pretrained-models/Grok-1 |DeepSeekMoE-16B | 164 | 8 | 28| https://www.datalearner.com/ai-models/pretrained-models/DeepSeekMoE-16B-Chat |

可以看到,DBRX模型已经是业界混合专家模型中规模较大的一个了,而且与大家都不同的是它有16个专家网络,每次推理会使用其中的4个。而且每次推理使用的参数量也不少,有360亿。根据官方的数据,它的推理速度是Llama2-70B的2倍,效果却比Llama2-70B效果更好。

官方说,它们专家组合的可能数量是常规的8个专家网络组成的混合专家网络的65倍,计算逻辑应该是16个选4个专家可能有1820种组合,而8个专家任选2个有28种可能。所以是65倍的组合可能性!这个角度怎么说呢,不知道影响有多大。

另外,DBRX模型是在12万亿tokens的文本和代码数据集上训练得到,使用了RoPE、GLU、GQA等技术。在3072个NVIDIA H100上训练了2-3个月时间。DBRX分为两个版本,一个是预训练的基座大模型DBRX Base,一个是指令优化微调的DBRX Instruct。

DBRX模型的评测结果

官方公布了DBRX与其它模型的评测对比,我们这里先看一下几个MoE模型的对比结果:

| 模型信息 | MMLU | GSM8K | HumanEval | MT-Bench | | ------------ | ------------ | ------------ | ------------ | |DBRX-Instruct | 73.7 | 72.8 | 70.1 | 8.39| |Mixtral-8×7B-MoE | 71.4 | 61.1 | 54.8 | 8.3| | Grok-1 | 73.0 | 62.9 | 63.2 | - |DeepSeekMoE-16B | 47.2 | 62.2 | 45.7| - |

这里的MMLU是综合理解能力,GSM8是数学推理能力,HumanEval是代码能力,而MT-Bench则是基于GPT-4的评分。从这个对比结果看,DBRX Instruct在各项评测上结果都很优秀,表现超过了其它MoE大模型。此前,开源的Mixtral-8×7B-MoE在各个应用领域好评如潮,因此,DBRX值得期待。不过需要注意的是,DBRX至少需要320GB显存才能进行推理。而Mixtral-8×7B-MoE是95GB即可运行。硬件成本差距较大!

在DataLearnerAI收集的大模型排行榜数据种,按照MMLU评分排序,DBRX Instruct排名为止仅仅比Grok-1高,低于李开复零一万物的Yi-34B和Qwen1.5-72B。

数据来源:https://www.datalearner.com/ai-models/llm-evaluation

DBRX在长上下文和检索增强任务的评测

除了常规的评测外,Databricks还公布了DBRX在长上下文任务以及检索增强生成(Retrieval Augmented Generation, RAG)任务中的表现。

首先是大海捞针测试:

ModelDBRX InstructMixtral InstructGPT-3.5 Turbo (API)GPT-4 Turbo (API)
Answer in Beginning Third of Context45.1%41.3%37.3%*49.3%
Answer in Middle Third of Context45.3%42.7%37.3%*49.0%
Answer in Last Third of Context48.0%44.4%37.0%*50.9%
2K Context59.1%64.6%36.3%69.3%
4K Context65.1%59.9%35.9%63.5%
8K Context59.5%55.3%45.0%61.5%
16K Context27.0%20.1%31.7%26.0%
32K Context19.9%14.0%—28.5%

在较长的上下文中,DBRX Instruct比Mixtral Instruct略好。

而在RAG任务中,DBRX表现也很好。

ModelDBRX InstructMixtral InstructLLaMa2-70B ChatGPT 3.5 Turbo (API)GPT 4 Turbo (API)
Natural Questions60.0%59.1%56.5%57.7%63.9%
HotPotQA55.0%54.2%54.7%53.0%62.9%

DBRX模型总结

DBRX模型是Databricks自家的开源协议,可以免费商用。而这么大的模型推理成本也很高,大部分人估计很难用上。而现在Databricks自己也提供了这个模型的API接口,可以达到每秒150个tokens,这个速度也非常可以。

DBRX Base模型开源地址和其它信息:https://www.datalearner.com/ai-models/pretrained-models/DBRX-Base DBRX Instruct模型开源地址和其它信息:https://www.datalearner.com/ai-models/pretrained-models/DBRX-Instruct

DataLearner 官方微信

欢迎关注 DataLearner 官方微信,获得最新 AI 技术推送

DataLearner 官方微信二维码
返回博客列表

相关博客

  • 国产MoE架构模型大爆发!深圳元象科技XVERSE开源256亿参数MoE大模型XVERSE-MoE-A4.2B,评测结果接近Llama1-65B
  • 重磅!阿里巴巴开源自家首个MoE技术大模型:Qwen1.5-MoE-A2.7B,性能约等于70亿参数规模的大模型Mistral-7B
  • A21 Labs宣布开源520亿参数的全新混合专家大模型(Mixture of Experts,MoE)Jamba:单个GPU的上下文长度是Mixtral 8x7B的三倍
  • 重磅!谷歌宣布发布Gemini 1.5 Pro,距离Gemini发布仅仅一个半月!最高支持1000万上下文长度,GSM8K评测全球第一
  • DeepSeekAI开源国产第一个基于混合专家技术的大模型:DeepSeekMoE-16B,未来还有1450亿参数的MoE大模型
  • MistralAI的混合专家大模型Mistral-7B×8-MoE详细介绍,效果超过LLaMA2-70B和GPT-3.5,推理速度快6倍
  • MistralAI开源全球首个(可能)基于MoE(Mixture of Experts)技术的大模型:预训练下载链接全球直发,但实测表现似乎一般!

热门博客

  • 1Dirichlet Distribution(狄利克雷分布)与Dirichlet Process(狄利克雷过程)
  • 2回归模型中的交互项简介(Interactions in Regression)
  • 3贝塔分布(Beta Distribution)简介及其应用
  • 4矩母函数简介(Moment-generating function)
  • 5普通最小二乘法(Ordinary Least Squares,OLS)的详细推导过程
  • 6使用R语言进行K-means聚类并分析结果
  • 7深度学习技巧之Early Stopping(早停法)
  • 8手把手教你本地部署清华大学的ChatGLM-6B模型——Windows+6GB显卡本地部署