Pika和HeyGen的开源替代品:上海人工智能实验室开源可以生成高质量最长61秒视频的LaVie文本生成视频大模型
最近,初创企业Pika引起了全球的目光。这家公司发布的Pika 1.0产品可以基于生成式AI技术来创建3D动画视频或者电影级别的视频。由于其逼真的效果,引起了很多人的关注。本文则介绍一个由上海人工智能实验室开源的文本生成视频大模型LaVie。这个模型可以根据文本生成高质量的视频内容。

LaVie模型的代码和预训练结果均已开源,地址参考DataLearnerAI模型信息卡:https://www.datalearner.com/ai-models/pretrained-models/LaVie
LaVie模型介绍
LaVie模型是一个可以基于文本提示生成视频的大模型,也是三个模型连接的级联模型。LaVie模型的论文在9月底就已经公开。但是模型预训练结果是11月中上旬开源,这个模型参数共30亿,由三个模型级联组成。
LaVie在生成视频方面展现出了极高的质量。这主要得益于它的三部分架构:基础的文本到视频(T2V)模型、时间插值模型和视频超分辨率模型。这种集成方法允许LaVie在保持高视觉质量的同时,生成在时间上连贯和流畅的视频。
LaVie框架包含三个模块,它们的训练过程如下。




