可能比runway更好!StabilityAI最新开源文本生成视频大模型:Stable Video Diffusion,可以生成最多20帧的视频,但不可商用
在深度学习和计算机视觉的发展历程中,视频生成技术一直是一个极具挑战和创新的领域。而发布了一系列开源领域最强图像生成模型Stable Diffusion系列模型背后的企业StabilityAI最近又开源了一个的文本生成视频大模型Stable Video Diffusion模型,这个模型可以生成最多20帧的视频。

SVD模型简介
SVD全称Stable Video Diffusion,是StabilityAI最新的开源文本生成视频大模型。这个模型是基于Stable Diffusion 2.1进行初始化,然后通过在图像模型中插入时空卷积和注意力层来构建这个视频生成模型的架构,最终在1.52亿视频数据集上训练得到。
SVD模型是一种潜在视频扩散模型,用于高分辨率的文本到视频和图像到视频生成。这种模型的核心思想是在已有的2D图像合成模型基础上,通过加入时序层并在高质量的视频数据集上进行微调,从而实现生成视频的能力。
SVD系列模型包含2个版本,一个是可以生成14帧576x1024图像的SVD常规模板,一个是可以生成20帧的SVD-XT的微调版本。二者除了生成视频的帧数不一样外,其它都是完全相同的。

