依赖于新的采样技术,Imagen 允许使用大的引导权重,所以不会像原有工作一样使样本质量下降。这么一来,图像具有更高的保真度,并且能更好地完成图像-文本对齐。
概念说起来简单,但 Imagen 的效果还是令人大为震撼的。Imagen Video使用级联扩散模型生成高分辨率视频:本质上就是说,单独一个模型不能够生成高分辨率,但是我可以堆叠多个小模型,来完成这一个目标。
第一步:获取输入文本提示,并使用T5文本编码器将其编码。
第二步:基于视频扩散模型生成一个16帧的视频,分辨率为24*48,每一秒3帧;然后利用时域超分辨率模型和空间超分辨率模型,以1280×768分辨率和每秒24帧的速度进行上采样,并最终生成128帧的视频,共5.3秒。
收起