视频预测是一个重要但充满挑战的问题。负担着生成未来框架和学习环境动态的任务。最近,通过将视频预测分为两个子问题:预训练图像生成器模型,随后学习图像生成器的潜在空间中的自动回归预测模型,可以将视频预测分为两个子问题,从而成为强大的视频预测工具。 。但是,成功产生高保真性和高分辨率视频尚待观察。在这项工作中,我们研究了如何培训自回归潜在的潜在视频预测模型,能够预测高保真的未来帧,并对现有模型进行最小的修改,并产生高分辨率(256x256)视频。具体而言,我们通过使用因果变压器模型采用高保真图像发生器(VQ-GAN)来扩展先前的模型,并引入TOP-K采样和数据增强的其他技术,以进一步提高视频预测质量。尽管简单起见,但提出的方法仍可以在标准视频预测基准的最新方法中实现竞争性能,而参数较少,并在复杂和大规模数据集上实现了高分辨率的视频预测。视频可从https://sites.google.com/view/harp-videos/home获得。
translated by 谷歌翻译