国产开源中文大语言模型再添重磅玩家:清华大学NLP实验室发布开源可商用大语言模型CPM-Bee
5月27日,OpenBMB发布了一个最高有100亿参数规模的开源大语言模型CPM-BEE,OpenBMB是清华大学NLP实验室联合智源研究院成立的一个开源组织。该模型针对高质量中文数据集做了训练优化,支持中英文。根据官方的测试结果,其英文测试水平约等于LLaMA-13B,中文评测结果优秀。

此前,国产开源大语言模型最强的应该是ChatGLM-6B(https://www.datalearner.com/ai-models/pretrained-models/ChatGLM-6B ),这也是清华大学研究成果,是清华大学KEG小组发布的,在国内外都有很好的反响,截止5月26日,ChatGLM-6B 全球下载达到200万。相比较ChatGLM-6B,CPM-Bee的主要特点如下:
- 开源协议更加友好,只要获取书面授权即可商用。代码、预训练结果均开源,训练过程也是全球直播。
- 从评测结果看,CPM-Bee模型效果也很优秀,中文ZeroCLUE评测中远超其它模型,英文多个任务评测结果也与LLaMA-13B差不多,部分任务上的表现超越GPT-3。
- 推理成本与ChatGLM-6B差不多,最低10亿参数规模的模型仅需要4.1GB显存可做推理,而100亿参数规模的推理仅需20GB显卡,单张消费级显卡即可。
总的来说,CPM-Bee是值得大家关注的模型,如果商用协议未来保持友好,且不断升级迭代,那也许会是一个可以和ChatGLM-6B模型竞争的一个国产替代好选择~
CPM-Bee简介
CPM全称Chinese Pretrained Model,Bee是该系列模型的第二个里程碑版本。
CPM-Bee模型是基于CPM-Ant模型继续训练得到。后者是2022年5月到9月训练的大语言模型。而CPM-Bee则是从2022年10月13日开启训练,相比之前,模型在很多任务上做了优化,包括文字填空、文本生成、问答等。
这是一个基于transformer架构的自回归模型,在高质量的中英文数据集上训练了半年左右的时间。包含4个系列的预训练结果,参数分别是10亿、20亿、50亿和100亿。CPM-Bee模型的相关信息如下:


