生成符合用户意图的可控视频是计算机愿景中的一种吸引人而具有挑战性的话题。为了依次启用可动性的控制,提出了一种新颖的视频生成任务,名为Text-Image-to-Video Generation(TI2V)。通过可控的外观和运动,TI2V旨在从静态图像和文本描述生成视频。 TI2V任务的关键挑战在于从不同方式的外观和运动方面既呈对齐,以及在文本描述中处理不确定性。为了解决这些挑战,我们提出了一种基于运动锚的视频发生器(MAGE),其具有创新的运动锚(MA)结构来存储外观运动对准表示。为了模拟不确定性并提高多样性,它进一步允许注入显式条件和隐式随机性。通过三维轴向变压器,MA与给定图像相互作用以递归地产生令人满意的可控性和多样性的下一个帧。伴随新任务,我们构建了基于MNIST的两个新的视频文本成对数据集,并满足了评估。在这些数据集上进行的实验验证了法师的有效性并显示了TI2V任务的吸引力。模型和数据集的源代码即将推出。
translated by 谷歌翻译