Pika和HeyGen的开源替代品：上海人工智能实验室开源可以生成高质量最长61秒视频的LaVie文本生成视频大模型

最近，初创企业Pika引起了全球的目光。这家公司发布的Pika 1.0产品可以基于生成式AI技术来创建3D动画视频或者电影级别的视频。由于其逼真的效果，引起了很多人的关注。本文则介绍一个由上海人工智能实验室开源的文本生成视频大模型LaVie。这个模型可以根据文本生成高质量的视频内容。

LaVie效果

LaVie模型的代码和预训练结果均已开源，地址参考DataLearnerAI模型信息卡：https://www.datalearner.com/ai-models/pretrained-models/LaVie

LaVie模型是一个可以基于文本提示生成视频的大模型，也是三个模型连接的级联模型。LaVie模型的论文在9月底就已经公开。但是模型预训练结果是11月中上旬开源，这个模型参数共30亿，由三个模型级联组成。

LaVie在生成视频方面展现出了极高的质量。这主要得益于它的三部分架构：基础的文本到视频（T2V）模型、时间插值模型和视频超分辨率模型。这种集成方法允许LaVie在保持高视觉质量的同时，生成在时间上连贯和流畅的视频。

LaVie框架包含三个模块，它们的训练过程如下。

模块	初始化	主要数据集	其他数据集	目标
基础T2V模型	Stable Diffusion 1.4预训练模型	WebVid10M	Laion5B	生成关键帧，保留创造性
时间插值(TI)模型	基础T2V模型	WebVid10M	-	增强流畅性，补充细节
视频超分(VSR)模型	图像超分模型	WebVid10M Laion5B	Laion5B(分辨率≥1024)	提升视觉质量与分辨率

	Step1	Step2	Step3	分辨率	视频长度
选型1	✔			320x512	16
选型2	✔	✔		320x512	61
选型3	✔		✔	1280x2048	16
选型4	✔	✔	✔	1280x2048	61