大规模中文开源数据集发布！2TB、几十亿条可商用的中文数据集书生·万卷 1.0开源~中文大模型能力可能要更上一层楼了！

随着近年来GPT-3、ChatGPT等大模型的兴起，高质量的数据集在模型训练中扮演着越来越重要的角色。但是当前领先的预训练模型使用的数据集细节往往不公开，开源数据的匮乏制约着研究社区的进一步发展。特别是大规模中文数据集十分缺乏，对中文大模型以及业界模型的中文支持都有很大的影响。此次，上海人工智能实验室发布的这个书生·万卷 1.0数据集包含了丰富的中文，对于大模型的中文能力提升十分有价值。

书生·万卷 1.0数据集概览

书生·万卷 1.0数据集整合了中文和英文数据，内容涵盖文本、图像文本和视频三种模态，数据总量超过2TB。文本数据中包含不同领域的6亿份文档；图像文本数据经处理后形成了超过2200万个文档；视频数据有1000多个文件。

在数据集的构建中，研究团队通过算法处理和人工审核相结合的方式，确保了数据的安全性、高质量以及价值取向。所有数据均采用统一的JSON格式组织，并提供了数据集下载工具及相关文档。

这个开源的大规模多语言多模态数据集已被用于InternLM模型的训练，相比同规模模型，InternLM在多维度评测中展现出明显优势。WanJuan的发布填补了公开源数据的空白，有助于自然语言处理、计算机视觉等领域的技术进步，特别是需要多模态理解生成的任务。

InternLM模型在各项评测中也十分优秀，看样子这份数据集功不可没！

来源	具体内容	数据集规模
英文互联网数据	来源于Common Crawl的网页数据	3.83亿个文件,542.51GB
中文互联网数据	来源于网络上的各种网页、文档等	2.2亿个文件,466.54GB
中文法律数据	来源于法律法规、判决文书等法律领域数据	800万个文件,37.89GB
中文新闻数据	来源于各大新闻媒体的新闻报道	700万个文件,21.53GB
中文考试数据	来源于各类考试的题目、试卷等	400万个文件,18.46GB
中文专利数据	来源于专利文献数据库	100万个文件,4.62GB
中文教材数据	来源于各学科教材	45.4万个文件,2.38GB
中文维基百科	来源于中文维基百科	9.2万个文件,0.11GB

来源	占比	数据量
英文维基百科	37.7%	900万对
中文权威媒体新闻	5.3%	200万对
中文自媒体新闻	53.4%	1000万对
中文维基百科	3.6%	88.2万对

大规模中文开源数据集发布！2TB、几十亿条可商用的中文数据集书生·万卷 1.0开源~中文大模型能力可能要更上一层楼了！

书生·万卷 1.0数据集概览

DataLearner 官方微信

书生·万卷 1.0文本数据集介绍

书生·万卷 1.0文本-图像对数据集介绍

书生·万卷 1.0视频数据集介绍

书生·万卷 1.0数据集总结

书生·万卷 1.0数据集的下载地址和其它资源