DataLearner 标志DataLearnerAI
最新AI资讯
大模型排行榜
大模型评测基准
大模型列表
大模型对比
资源中心
工具
语言中文
DataLearner 标志DataLearner AI

专注大模型评测、数据资源与实践教学的知识平台,持续更新可落地的 AI 能力图谱。

产品

  • 评测榜单
  • 模型对比
  • 数据资源

资源

  • 部署教程
  • 原创内容
  • 工具导航

关于

  • 关于我们
  • 隐私政策
  • 数据收集方法
  • 联系我们

© 2026 DataLearner AI. DataLearner 持续整合行业数据与案例,为科研、企业与开发者提供可靠的大模型情报与实践指南。

隐私政策服务条款
  1. 首页/
  2. 博客列表/
  3. 博客详情

李开复创业公司零一万物开源迄今为止最长上下文大模型:Yi-6B和Yi-34B,支持200K超长上下文

2023/11/09 18:40:55
1,648 阅读
Long-ContextYi-34BYi-6B零一万物

零一万物(01.AI)是由李开复在2023年3月份创办的一家大模型创业企业,并在2023年6月份正式开始运营。在2023年11月6日,零一万物开源了4个大语言模型,包括Yi-6B、Yi-6B-200K、Yi-34B、Yi-34B-200k。模型在MMLU的评分上登顶,最高支持200K超长上下文输入,获得了社区的广泛关注。

01.AI开源Yi-6B、Yi-34B等大模型
01.AI开源Yi-6B、Yi-34B等大模型
  • Yi-6B、Yi-34B模型简介
  • Yi-6B和Yi-34B模型的训练细节
  • Yi-6B和Yi-34B的开源情况

Yi-6B、Yi-34B模型简介

这是李开复亲自担任CEO的一家企业,可以说相当地重视。本次发布的模型包括4个:

Yi系列模型名称模型参数上下文长度DataLearner模型信息卡地址
Yi-6B60亿4K/32Khttps://www.datalearner.com/ai-models/pretrained-models/Yi-6B
Yi-6B-200K60亿200Khttps://www.datalearner.com/ai-models/pretrained-models/Yi-6B-200K
Yi-34B340亿4K/32Khttps://www.datalearner.com/ai-models/pretrained-models/Yi-34B
Yi-34B-200K340亿200Khttps://www.datalearner.com/ai-models/pretrained-models/Yi-34B-200K

注意,这里的4K/32K表示模型本身在4K的序列上进行训练,但是在推理阶段可以扩展到32K。

这四个模型最大的特点是最高支持200K的上下文长度,是目前全球支持的最长的上下文大模型。

此外,这四个模型的表现也十分好,在MMLU的语言理解评测上得分76.3,是目前为止全球最高的开源大模型(预训练结果测试结果,不包含特殊微调的模型):

Yi-34B的MMLU得分76.3,开源第一
Yi-34B的MMLU得分76.3,开源第一
数据来源:https://www.datalearner.com/ai-models/llm-evaluation

由于该模型也在HuggingFace的OpenLLM Leaderboard上提交了数据,也引起了国外很多人的关注。

Yi-6B和Yi-34B模型的训练细节

关于Yi-6B和Yi-34B的模型训练细节,官方没有透露,只说明了这两个模型在多语言语料上训练,语料的数据达到3万亿tokens。官方说明这些模型是双语模型,支持中文和英文。

6B的模型可以在消费级显卡上运行。而34B的模型是可以出现涌现能力的最低参数规模,这可能也是发布这两个模型的初衷。

Yi-6B和Yi-34B的开源情况

模型本身的GitHub代码采用Apache2.0开源方式,但是模型的预训练结果则是自有开源协议,个人和科研完全免费使用,商用需要获得授权申请,但是申请免费。

模型的其它信息参考DataLearner信息卡:

  • Yi-6B : https://www.datalearner.com/ai-models/pretrained-models/Yi-6B
  • Yi-6B-200K:https://www.datalearner.com/ai-models/pretrained-models/Yi-6B-200K
  • Yi-34B :https://www.datalearner.com/ai-models/pretrained-models/Yi-34B
  • Yi-34B-200K: https://www.datalearner.com/ai-models/pretrained-models/Yi-34B-200K

DataLearner 官方微信

欢迎关注 DataLearner 官方微信,获得最新 AI 技术推送

DataLearner 官方微信二维码
返回博客列表

相关博客

  • 全球首个200万上下文商业产品开始内测!月之暗面Kimi助手开启最长上下文模型内测邀请。
  • 智谱AI发布国产最强大模型GLM4,理解评测与数学能力仅次于Gemini Ultra和GPT-4,编程能力超过Gemini-pro,还有对标GPTs商店的GLMs
  • 国产全球最长上下文大语言模型开源:XVERSE-13B-256K,一次支持25万字输入,免费商用授权~
  • 如何提高大模型在超长上下文的表现?Claude实验表明加一句prompt立即提升效果~
  • GPT-4-Turbo的128K长度上下文性能如何?超过73K Tokens的数据支持依然不太好!
  • 让大模型支持更长的上下文的方法哪个更好?训练支持更长上下文的模型还是基于检索增强?
  • 解决大语言模型的长输入限制:MetaAI发布MegaByte最高支持几百万上下文输入!
  • 大模型如何使用长上下文信息?斯坦福大学最新论文证明,你需要将重要的信息放在输入的开始或者结尾处!

热门博客

  • 1Dirichlet Distribution(狄利克雷分布)与Dirichlet Process(狄利克雷过程)
  • 2回归模型中的交互项简介(Interactions in Regression)
  • 3贝塔分布(Beta Distribution)简介及其应用
  • 4矩母函数简介(Moment-generating function)
  • 5普通最小二乘法(Ordinary Least Squares,OLS)的详细推导过程
  • 6使用R语言进行K-means聚类并分析结果
  • 7深度学习技巧之Early Stopping(早停法)
  • 8手把手教你本地部署清华大学的ChatGLM-6B模型——Windows+6GB显卡本地部署