DataLearner 标志DataLearnerAI
最新AI资讯
大模型排行榜
大模型评测基准
大模型列表
大模型对比
资源中心
工具
语言中文
DataLearner 标志DataLearner AI

专注大模型评测、数据资源与实践教学的知识平台,持续更新可落地的 AI 能力图谱。

产品

  • 评测榜单
  • 模型对比
  • 数据资源

资源

  • 部署教程
  • 原创内容
  • 工具导航

关于

  • 关于我们
  • 隐私政策
  • 数据收集方法
  • 联系我们

© 2026 DataLearner AI. DataLearner 持续整合行业数据与案例,为科研、企业与开发者提供可靠的大模型情报与实践指南。

隐私政策服务条款
页面导航
页面导航
大模型列表CogView4-6B
CO

CogView4-6B

多模态大模型

CogView4-6B

发布时间: 2025-03-04更新于: 2025-03-04 19:47:27749
在线体验GitHubHugging FaceCompare
模型参数
60亿
上下文长度
32K
中文支持
支持
推理能力

CogView4-6B 是由 智谱AI 发布的 AI 模型,发布时间为 2025-03-04,定位为 多模态大模型,参数规模约为 60.0B,上下文长度为 32K,模型文件大小约 12.73GB,采用 Apache 2.0 许可。

数据优先来自官方发布(GitHub、Hugging Face、论文),其次为评测基准官方结果,最后为第三方评测机构数据。 了解数据收集方法

CogView4-6B

模型基本信息

推理过程
不支持
思考模式
不支持思考模式
上下文长度
32K tokens
最大输出长度
暂无数据
模型类型
多模态大模型
发布时间
2025-03-04
模型文件大小
12.73GB
MoE架构
否
总参数 / 激活参数
60 亿 / 不涉及
知识截止
暂无数据
CogView4-6B

开源和体验地址

代码开源状态
Apache 2.0
预训练权重开源
Apache 2.0- 免费商用授权
GitHub 源码
https://github.com/THUDM/CogView4
Hugging Face
https://huggingface.co/THUDM/CogView4-6B
在线体验
暂无在线体验地址
CogView4-6B

官方介绍与博客

官方论文
SOTA!首个能生成汉字的开源文生图模型CogView4|智谱开源年No.1
DataLearnerAI博客
智谱AI开源了一个可以带文字的图像的多模态大模型CogView4-6B:图片文本带有中英文混排,指定比例范围内的任意尺寸图像可生成,免费商用授权
CogView4-6B

API接口信息

接口速度
暂无数据
暂无公开的 API 定价信息。
CogView4-6B

评测结果

当前尚无可展示的评测数据。

和其他模型对比

暂时没有为该模型整理的相关对比页面。

想自定义其他组合?打开对比工具

CogView4-6B

发布机构

智谱AI
智谱AI
查看发布机构详情
CogView4-6B

模型解读

该模型更加详细介绍参考DataLearnerAI的官方博客: https://www.datalearner.com/blog/1051741086171429 




作为智谱AI「2025开源年」的首发成果,CogView4-6B首次在开源领域实现原生汉字生成能力,以Apache 2.0协议重塑多模态生成生态。该模型在DPG-Bench基准测试中以85.13综合得分登顶开源文生图模型榜首,同时突破传统模型的中文处理瓶颈,标志着中文场景文本-图像生成技术迈入新纪元。

核心技术创新

  1. 跨语言语义理解架构双语编码器革新:采用GLM-4编码器替代传统T5架构,通过中英双语图文联合训练,实现跨语言语义空间映射。汉字生成突破:在开源模型中首次实现汉字自然嵌入,广告海报、古诗意境等场景的文本渲染准确率提升87%(F1 Score 0.6168 vs 基线0.2880)。
  2. 动态生成范式分辨率自适应:通过二维旋转位置编码(2D RoPE)与线性动态噪声规划,支持512-2048px任意分辨率生成,训练效率提升30%。超长文本处理:突破传统512 token限制,在200-300 token平均长度场景下减少50%冗余,支持复杂叙事结构(如四格漫画分镜生成)。
  3. 混合训练体系四阶段渐进式训练:基础分辨率建模(512×512)泛分辨率泛化(动态宽高比)高质量数据微调人类偏好对齐(审美优化)模态适配优化:为文本/图像设计独立LayerNorm层,实现跨模态特征解耦。

关键性能指标

评估体系指标优势对比模型表现
DPG-Bench综合得分85.13(开源SOTA)SD3-Medium 84.08 / DALL-E 3 83.50
中文生成F1 Score 0.6168(行业基准2.1倍提升)Kolors 0.2880
推理效率2048×2048分辨率显存占用14GB(优化后)传统方案>40GB
生态开放性首个Apache 2.0协议图像生成模型主流模型多为非商用协议

行业应用价值

  1. 中文创意产业广告设计:精准渲染含中文品牌标识的营销素材影视制作:基于古诗文生成分镜(如"野径云俱黑,江船火独明"意境构建)游戏开发:支持超长剧本的多角色场景批量生成
  2. 技术扩展性即将推出ControlNet插件实现精准控制生成配套微调工具包支持垂直领域适配

DataLearner 官方微信

欢迎关注 DataLearner 官方微信,获得最新 AI 技术推送

DataLearner 官方微信二维码