h2oGPT
h2oGPT 是由 H2O 发布的 AI 模型,发布时间为 2023-04-19,定位为 基础大模型,参数规模约为 200.0B,上下文长度为 2K,模型文件大小约 41.4GB。
数据优先来自官方发布(GitHub、Hugging Face、论文),其次为评测基准官方结果,最后为第三方评测机构数据。 了解数据收集方法
h2oGPT是H2O公司开源的一个类似ChatGPT的应用。是基于EleutherAI发布的GPT-NeoX-20b模型微调的结果。使用的是H2O自己收集的数据集。
h2oGPT的最大特点是具有完全宽松、商业可用的代码、数据和模型。
使用的是h2ogpt-oig-oasst1-instruct-cleaned-v1数据集做微调。H2O.ai 的 h2ogpt-oig-oasst1-instruct-cleaned-v1 是一个用于大型语言模型微调的开源指导类型数据集,可用于商业用途,包含349837条数据,共575MB。数据集的每一条有3列,分别是输入、来源和prompt_type。数据样例如下:

数据集地址:https://huggingface.co/datasets/h2oai/h2ogpt-oig-oasst1-instruct-cleaned-v1
欢迎关注 DataLearner 官方微信,获得最新 AI 技术推送
