StabilityAI发布实时文本生成图片大模型SDXL Turbo——生成一张图片可能只需要0.207秒

StabilityAI是当前最流行的开源文本生成图像大模型Stable Diffusion背后的公司。这家公司在文本生成图片和文本生成视频方面开源了诸多的大模型。其中，Stable Diffusion是目前使用人数最多的开源文本生成图像大模型。就在刚才，StabilityAI又发布了一个全新的实时的文本生成图像大模型Stable Diffusion XL Turbo，这个最新的模型在A100上生成一张图片只需要0.207秒！

上图是SDXL的实例，有加速和压缩

Stable Diffusion Turbo简介

Stable Diffusio XL Turbon是基于Stable Diffusion XL 1.0继续迭代训练得到的。但是使用了一种新的蒸馏技术，即Adversaral Diffusion Distillation（ADD），ADD是一种新颖的训练方法，它能够在仅需1-4步的采样中高效生成大规模基础图像扩散模型，同时保持高质量的图像。这种方法结合了得分蒸馏（作为教师信号）和对抗性损失，以确保即使在仅有一两步采样的低步骤范围内也能保持高图像保真度。

ADD在单步中明显优于现有的少步骤方法（如GANs、潜在一致性模型），并且在仅四步中就能达到最先进扩散模型（如SDXL）的性能。它是首个实现单步、实时图像合成的方法。这也是Stable Diffusion Turbo能大幅提高图像生成速度的原因。

Stable Diffusion Turbo模型的生成速度

根据官方公布的信息，！但是，这个时间实际上包括prompt的编码、单次去噪步骤和解码过程。而正常的Stable Diffusion模型在A100上生成图片的时间大概在3-5秒左右，压缩优化后也需要一秒以上！

StabilityAI发布实时文本生成图片大模型SDXL Turbo——生成一张图片可能只需要0.207秒

Stable Diffusion Turbo简介

Stable Diffusion Turbo模型的生成速度

DataLearner 官方微信

Stable Diffusion Turbo模型图像生成质量

SDXL Turbo开源情况和其它参考信息

热门博客