Phenaki,一种能够在给定一系列文本提示的情况下进行逼真视频合成的模型。由于计算成本、高质量文本视频数据数量有限和视频长度可变,从文本生成视频尤其具有挑战性。为了解决这些问题,我们引入了一种新的因果模型来学习视频表示,它将视频压缩为离散标记的小表示。此标记器及时使用因果注意,这使其可以处理可变长度的视频。为了从文本中生成视频标记,我们使用了一个以预先计算的文本标记为条件的双向掩码转换器。随后对生成的视频令牌进行去令牌化以创建实际视频。为了解决数据问题,我们展示了对大量图像-文本对以及少量视频-文本示例的联合训练如何导致超出视频数据集中可用的泛化。与以前的视频生成方法相比,Phenaki 可以在开放域中生成以一系列提示(即时间变量文本或故事)为条件的任意长视频。
收起
点评