我们提出了一种流动引导的变压器,该变压器创新地利用光学流体暴露的运动差异来指导变压器中的注意力检索,以进行高保真视频介绍。更特别地,我们设计了一个新颖的流程完成网络,以通过利用当地时间窗口中的相关流量来完成损坏的流。有了完整的流,我们将内容传播到视频框架上,并采用流引导的变压器来合成其余的损坏区域。我们将变压器沿时间和空间尺寸解开,因此我们可以轻松地集成本地相关的完整流量以仅指导空间注意力。此外,我们设计了一个流蛋白模块,以精确控制完整的流对每个空间变压器的影响。为了效率,我们将窗口分区策略引入空间和颞变压器。尤其是在空间变压器中,我们设计了双重透视空间MHSA,该空间MHSA将全局令牌集成到基于窗口的注意力上。广泛的实验证明了该方法在定性和定量上的有效性。代码可在https://github.com/hitachinsk/fgt上找到。
translated by 谷歌翻译