EM

Emu

多模态大模型

Emu

发布时间: 2023-09-27更新于: 2023-12-10 21:31:19.285681

在线体验GitHubHugging FaceCompare

模型参数

28亿

上下文长度

2K

中文支持

不支持

推理能力

Emu 是由 Facebook AI研究实验室发布的 AI 模型，发布时间为 2023-09-27，定位为多模态大模型，参数规模约为 28.0B，上下文长度为 2K，模型文件大小约 6GB，采用不开源许可。

数据优先来自官方发布（GitHub、Hugging Face、论文），其次为评测基准官方结果，最后为第三方评测机构数据。了解数据收集方法

Emu

模型基本信息

推理过程

不支持

思考模式

不支持思考模式

上下文长度

2K tokens

最大输出长度

暂无数据

模型类型

多模态大模型

发布时间

2023-09-27

模型文件大小

6GB

MoE架构

否

总参数 / 激活参数

28 亿 / 不涉及

知识截止

暂无数据

Emu

开源和体验地址

代码开源状态

不开源

预训练权重开源

不开源

GitHub 源码

暂无GitHub开源地址

Hugging Face

暂无开源HuggingFace地址

在线体验

暂无在线体验地址

Emu

官方介绍与博客

官方论文

Emu: Enhancing Image Generation Models Using Photogenic Needles in a Haystack

DataLearnerAI博客

暂无介绍博客

Emu

API接口信息

接口速度

暂无数据

暂无公开的 API 定价信息。

Emu

评测结果

当前尚无可展示的评测数据。

和其他模型对比

暂时没有为该模型整理的相关对比页面。

想自定义其他组合？打开对比工具

Emu

发布机构

Facebook AI研究实验室

查看发布机构详情

Emu

模型解读

MetaAI发布的Emu模型是一个高质量的文本生成图片大模型，它包含了两个阶段，预训练阶段使用11亿的图像文本数据集训练，然后再使用高质量的几千张数据集进行微调。这个模型的最大特点是提出了指令微调这个概念，可以用较少的高质量图片微调文本生成图像大模型，获得更高质量的输出结果，但是不丢失预训练获得的基础能力。

Emu的模型技术细节

Emu不是一个开源的模型，因此缺少很多细节，MetaAI在论文中表示，他们使用了一个11亿参数的很大的U-Net来做预训练。他们增加了模型中的channel size以及每个阶段堆叠的残差块数量来扩大U-Net网络。

U-Net 是一种深度学习网络，最初用于医学图像分割。它的特点是具有一个对称的“U”形结构，由两部分组成：收缩路径（用于捕获上下文信息）和扩展路径（用于精确定位）。这种结构使U-Net特别适合图像中精确位置信息的处理任务。U-Net被认为是一种高效且实用的网络，特别是在需要精确分割的应用场景中。

Emu的具体信息总结如下：

项目	详细信息
模型架构	基于潜在扩散模型的单阶段模型
预训练参数量	自动编码器:16通道<br>U-Net:可训练参数28亿
预训练数据量	11亿幅图像文本对
微调数据量	2000幅人工筛选高质量图像
微调设置	批量大小64,噪声偏移0.1
微调迭代轮数	15000轮
生成分辨率	1024x1024
效果	视觉诱惑性明显优于当前SOTA模型SDXLv1.0
提出方法	质量调优 - 使用极少量高质量数据微调
主要结论	- 微调数据质量高于数量<br>- 质量调优可泛化到其他模型架构

尽管MetaAI没有开源这个模型，但是论文中给出了模型的具体效果，十分震撼。而且作者将其与Stable Diffusion XL 1.0做了对比，认为Emu比SDXL 1.0好。在人工匿名评价中，68.4%的人更加喜欢Emu生成的结果。

Emu在线演示系统

尽管MetaAI没有开源这个模型，但是Meta却上线了一个免费的文本生成图片的系统：Imagine，目前可以免费使用，额度很高，速度很快，但是目前仅支持美国地区。

地址： https://imagine.meta.com/

DataLearner 官方微信

欢迎关注 DataLearner 官方微信，获得最新 AI 技术推送

DataLearner 官方微信二维码