运动传输是根据来自给定驾驶视频的运动来合成单个源图像的未来视频帧的任务。由于运动表示的复杂性和驾驶视频与源图像之间的未知关系,此任务是具有挑战性的。尽管有这种困难,但这个问题吸引了近年来研究的极大兴趣,逐渐改进。问题可能被认为是运动和外观的去耦,这通常通过从关键点移动中提取运动来解决。我们选择解决通用,无监督的设置,在那里我们需要将动画应用于任何任意对象,而没有任何用于输入结构的域特定模型。在这项工作中,我们从Keypoint Heatmap中提取结构,没有明确的运动表示。然后,从图像和视频中提取来自图像的结构以根据视频,由深发电机横断图像。
translated by 谷歌翻译
Image animation consists of generating a video sequence so that an object in a source image is animated according to the motion of a driving video. Our framework addresses this problem without using any annotation or prior information about the specific object to animate. Once trained on a set of videos depicting objects of the same category (e.g. faces, human bodies), our method can be applied to any object of this class. To achieve this, we decouple appearance and motion information using a self-supervised formulation. To support complex motions, we use a representation consisting of a set of learned keypoints along with their local affine transformations. A generator network models occlusions arising during target motions and combines the appearance extracted from the source image and the motion derived from the driving video. Our framework scores best on diverse benchmarks and on a variety of object categories. Our source code is publicly available 1 .
translated by 谷歌翻译
手语是人们表达自己的感受和情感的不同能力的窗口。但是,人们在短时间内学习手语仍然具有挑战性。为了应对这项现实世界中的挑战,在这项工作中,我们研究了运动传输系统,该系统可以将用户照片传输到特定单词的手语视频。特别是,输出视频的外观内容来自提供的用户图像,而视频的运动是从指定的教程视频中提取的。我们观察到采用最先进的运动转移方法来产生语言的两个主要局限性:(1)现有的运动转移工作忽略了人体的先前几何知识。 (2)先前的图像动画方法仅将图像对作为训练阶段的输入,这无法完全利用视频中的时间信息。为了解决上述局限性,我们提出了结构感知的时间一致性网络(STCNET),以共同优化人类的先前结构,并具有符号语言视频生成的时间一致性。本文有两个主要贡献。 (1)我们利用细粒骨骼检测器来提供人体关键点的先验知识。这样,我们确保关键点运动在有效范围内,并使模型变得更加可解释和强大。 (2)我们引入了两个周期矛盾损失,即短期周期损失和长期周期损失,这些损失是为了确保生成的视频的连续性。我们以端到端的方式优化了两个损失和关键点检测器网络。
translated by 谷歌翻译
超声(US)广泛用于实时成像,无辐射和便携性的优势。在临床实践中,分析和诊断通常依赖于美国序列,而不是单个图像来获得动态的解剖信息。对于新手来说,这是一项挑战,因为使用患者的足够视频进行练习是临床上不可行的。在本文中,我们提出了一个新颖的框架,以综合高保真美国视频。具体而言,合成视频是通过基于给定驾驶视频的动作来动画源内容图像来生成的。我们的亮点是三倍。首先,利用自我监督学习的优势,我们提出的系统以弱监督的方式进行了培训,以进行关键点检测。然后,这些关键点为处理美国视频中的复杂动态动作提供了重要信息。其次,我们使用双重解码器将内容和纹理学习解除,以有效地减少模型学习难度。最后,我们采用了对抗性训练策略,并采用了GAN损失,以进一步改善生成的视频的清晰度,从而缩小了真实和合成视频之间的差距。我们在具有高动态运动的大型内部骨盆数据集上验证我们的方法。广泛的评估指标和用户研究证明了我们提出的方法的有效性。
translated by 谷歌翻译
Figure 1: "Do as I Do" motion transfer: given a YouTube clip of a ballerina (top), and a video of a graduate student performing various motions, our method transfers the ballerina's performance onto the student (bottom).
translated by 谷歌翻译
图像动画旨在使用从驾驶视频中学到的运动来对源图像进行动画映像。当前的最新方法通常使用卷积神经网络(CNN)来预测运动信息,例如运动关键点和相应的局部变换。但是,这些基于CNN的方法并未明确对运动之间的相互作用进行建模。结果,可能会忽略重要的基础运动关系,这可能会导致生成的动画视频中产生明显的伪影。为此,我们提出了一种新方法,即运动变压器,这是基于视觉变压器构建运动估计器的首次尝试。更具体地说,我们在提出的方法中介绍了两种类型的令牌:i)由补丁特征和相应位置编码形成的图像令牌; ii)用运动信息编码的运动令牌。两种类型的令牌都被发送到视觉变压器中,以通过多头自我注意力块促进它们之间的基本相互作用。通过采用此过程,可以更好地学习运动信息以提高模型性能。然后,最终嵌入式运动令牌用于预测相应的运动关键点和局部变换。基准数据集上的广泛实验表明,我们提出的方法为最先进的基准取得了令人鼓舞的结果。我们的源代码将公开可用。
translated by 谷歌翻译
当网络条件恶化时,视频会议系统的用户体验差,因为当前的视频编解码器根本无法在极低的比特率下运行。最近,已经提出了几种神经替代方案,可以使用每个框架的稀疏表示,例如面部地标信息,以非常低的比特率重建说话的头视频。但是,这些方法在通话过程中具有重大运动或遮挡的情况下会产生不良的重建,并且不会扩展到更高的分辨率。我们设计了Gemino,这是一种基于新型高频条件超分辨率管道的新型神经压缩系统,用于视频会议。 Gemino根据从单个高分辨率参考图像中提取的信息来增强高频细节(例如,皮肤纹理,头发等),为每个目标框架的一个非常低分辨率的版本(例如,皮肤纹理,头发等)。我们使用多尺度体系结构,该体系结构在不同的分辨率下运行模型的不同组件,从而使其扩展到可与720p相当的分辨率,并且我们个性化模型以学习每个人的特定细节,在低比特率上实现了更好的保真度。我们在AIORTC上实施了Gemino,这是WEBRTC的开源Python实现,并表明它在A100 GPU上实时在1024x1024视频上运行,比比特率的比特率低于传统的视频Codecs,以相同的感知质量。
translated by 谷歌翻译
生成对抗网络(GAN)的最近成功在面部动画任务方面取得了很大进展。然而,面部图像的复杂场景结构仍然使得产生具有显着偏离源图像的面部姿势的视频的挑战。一方面,在不知道面部几何结构的情况下,生成的面部图像可能被扭曲不当。另一方面,所生成的图像的一些区域可以在源图像中封闭,这使得GaN难以产生现实的外观。为了解决这些问题,我们提出了一种结构意识的面部动画(SAFA)方法,其构造特定的几何结构,以模拟面部图像的不同组件。在识别良好的基于​​运动的面部动画技术之后,我们使用3D可变模型(3dmm)来模拟面部,多个仿射变换,以模拟其他前景组件,如头发和胡须,以及模拟背景的身份变换。 3DMM几何嵌入不仅有助于为驾驶场景产生现实结构,而且有助于更好地感知所生成的图像中的遮挡区域。此外,我们进一步建议利用广泛研究的初探技术忠实地恢复封闭的图像区域。定量和定性实验结果都显示出我们方法的优越性。代码可在https://github.com/qiulin-w/safa获得。
translated by 谷歌翻译
生成的对抗网络(GANS)已经实现了图像生成的照片逼真品质。但是,如何最好地控制图像内容仍然是一个开放的挑战。我们介绍了莱特基照片,这是一个两级GaN,它在古典GAN目标上训练了训练,在一组空间关键点上有内部调节。这些关键点具有相关的外观嵌入,分别控制生成对象的位置和样式及其部件。我们使用合适的网络架构和培训方案地址的一个主要困难在没有领域知识和监督信号的情况下将图像解开到空间和外观因素中。我们展示了莱特基点提供可解释的潜在空间,可用于通过重新定位和交换Keypoint Embedding来重新安排生成的图像,例如通过组合来自不同图像的眼睛,鼻子和嘴巴来产生肖像。此外,关键点和匹配图像的显式生成启用了一种用于无监督的关键点检测的新的GaN的方法。
translated by 谷歌翻译
发型转移是将源发型修改为目标的任务。尽管最近的发型转移模型可以反映发型的精致特征,但它们仍然有两个主要局限性。首先,当源和目标图像具有不同的姿势(例如,查看方向或面部尺寸)时,现有方法无法转移发型,这在现实世界中很普遍。同样,当源图像中有非平凡的区域被其原始头发遮住时,先前的模型会产生不切实际的图像。当将长发修改为短发时,肩膀或背景被长发遮住了。为了解决这些问题,我们为姿势不变的发型转移,发型提出了一个新颖的框架。我们的模型包括两个阶段:1)基于流动的头发对齐和2)头发合成。在头发对齐阶段,我们利用基于关键点的光流估计器将目标发型与源姿势对齐。然后,我们基于语义区域感知的嵌入面膜(SIM)估计器在头发合成阶段生成最终的发型转移图像。我们的SIM估计器将源图像中的封闭区域划分为不同的语义区域,以反映其在涂料过程中的独特特征。为了证明我们的模型的有效性,我们使用多视图数据集(K-Hairstyle和Voxceleb)进行定量和定性评估。结果表明,发型通过在不同姿势的图像之间成功地转移发型来实现最先进的表现,而这是以前从未实现的。
translated by 谷歌翻译
在运动中的运动中综合动态外观在诸如AR / VR和视频编辑的应用中起着核心作用。虽然已经提出了最近的许多方法来解决这个问题,但处理具有复杂纹理和高动态运动的松散服装仍然仍然具有挑战性。在本文中,我们提出了一种基于视频的外观综合方法,可以解决此类挑战,并为之前尚未显示的野外视频的高质量结果。具体而言,我们采用基于样式的基于STYLEGAN的架构,对基于人的特定视频的运动retrargeting的任务。我们介绍了一种新的运动签名,用于调制发电机权重以捕获动态外观变化以及正规化基于帧的姿势估计以提高时间一致性。我们在一组具有挑战性的视频上评估我们的方法,并表明我们的方法可以定性和定量地实现最先进的性能。
translated by 谷歌翻译
人类视频运动转移(HVMT)的目的是鉴于源头的形象,生成了模仿驾驶人员运动的视频。 HVMT的现有方法主要利用生成对抗网络(GAN),以根据根据源人员图像和每个驾驶视频框架估计的流量来执行翘曲操作。但是,由于源头,量表和驾驶人员之间的巨大差异,这些方法始终会产生明显的人工制品。为了克服这些挑战,本文提出了基于gan的新型人类运动转移(远程移动)框架。为了产生逼真的动作,远遥采用了渐进的一代范式:它首先在没有基于流动的翘曲的情况下生成每个身体的零件,然后将所有零件变成驾驶运动的完整人。此外,为了保留自然的全球外观,我们设计了一个全球对齐模块,以根据其布局与驾驶员的规模和位置保持一致。此外,我们提出了一个纹理对准模块,以使人的每个部分都根据纹理的相似性对齐。最后,通过广泛的定量和定性实验,我们的远及以两个公共基准取得了最先进的结果。
translated by 谷歌翻译
从单个图像的面部图像动画取得了显着的进展。然而,当只有稀疏的地标作为驱动信号时,它仍然具有挑战性。鉴于源人面部图像和一系列稀疏面部地标,我们的目标是生成模仿地标运动的脸部的视频。我们开发了一种高效有效的方法,用于从稀疏地标到面部图像的运动转移。然后,我们将全局和局部运动估计结合在统一的模型中以忠实地传输运动。该模型可以学习从背景中分割移动前景并不仅产生全局运动,例如面部的旋转和翻译,还可以微妙地进行诸如凝视变化的局部运动。我们进一步改善了视频的面部地标检测。随着时间上更好地对齐的训练的标志性序列,我们的方法可以产生具有更高视觉质量的时间相干视频。实验表明,我们实现了与最先进的图像驱动方法相当的结果,在相同的身份测试和交叉标识测试上的更好结果。
translated by 谷歌翻译
我们提出了一种学习来自未标识的行为视频的代理的姿势和结构的方法。从观察开始,表现代理通常是行为视频中的主要运动来源,我们的方法使用具有几何瓶颈的编码器 - 解码器架构来重建视频帧之间的差异。只要仅关注运动区域,我们的方法直接在输入视频上工作,而无需手动注释,例如关键点或边界框。关于各种代理类型(鼠标,飞,人,水母和树木)的实验展示了我们的方法的一般性,并揭示了我们发现的关键点代表着语义有意义的身体部位,这在关键点回归上实现了最先进的性能在自我监督的方法中。此外,我们发现的关键点可实现可比的性能,以对下游任务的监督关键点,例如行为分类,表明我们的方法可以大大降低模型培训VIS-VIS监督方法的成本。
translated by 谷歌翻译
Quantifying motion in 3D is important for studying the behavior of humans and other animals, but manual pose annotations are expensive and time-consuming to obtain. Self-supervised keypoint discovery is a promising strategy for estimating 3D poses without annotations. However, current keypoint discovery approaches commonly process single 2D views and do not operate in the 3D space. We propose a new method to perform self-supervised keypoint discovery in 3D from multi-view videos of behaving agents, without any keypoint or bounding box supervision in 2D or 3D. Our method uses an encoder-decoder architecture with a 3D volumetric heatmap, trained to reconstruct spatiotemporal differences across multiple views, in addition to joint length constraints on a learned 3D skeleton of the subject. In this way, we discover keypoints without requiring manual supervision in videos of humans and rats, demonstrating the potential of 3D keypoint discovery for studying behavior.
translated by 谷歌翻译
我们建议在不使用任何手动注释的情况下为人类的姿势估算器进行个性化。虽然人类姿势估计有重大进步,但对于模型来说概括到不同的未知环境和看不见的人仍然非常具有挑战性。我们而不是为每个测试用例使用固定模型,我们在测试时间期间调整我们的姿势估算器以利用特定人的信息。我们首先将我们的模型与监督和自我监督的姿势估算目标相同。我们使用变压器模型来构建自我监控的关键点和监督关键点之间的转换。在测试时间期间,我们通过通过自我监督目标进行微调来个性化和调整我们的模型。然后通过转换更新的自我监督的关键点来改进姿势。我们尝试多个数据集,并显示我们自我监督个性化的姿势估算的显着改进。
translated by 谷歌翻译
运动转移旨在将驱动视频的运动转移到源图像。当驾驶视频中的对象与源图像中的对象之间存在很大差异时,传统的单个域运动转移方法通常会产生显着的伪影。例如,合成的图像可能无法保留源图像的人类形状(参见图1(a))。为了解决这个问题,在这项工作中,我们提出了一种运动和外观适应(MAA)进行跨域运动转移的方法,在该方法中,我们将合成图像中的对象正规化,以捕获驾驶框架中对象的运动,而仍保留对象在源图像中的形状和外观。一方面,考虑合成图像和驾驶框架的对象形状可能有所不同,我们设计了一个形状不变的运动适应模块,该模块可以在两个图像中强制对象零件的角度的一致性来捕获运动信息。另一方面,我们引入了一个结构引导的外观一致性模块,旨在使合成图像的相应贴片和源图像之间的相似性正式化,而不会影响合成图像中学习的运动。我们提出的MAA模型可以通过循环重建损失以端到端的方式进行训练,并最终产生令人满意的运动转移结果(参见图1(b))。我们在人类舞蹈数据集Mixamo-Video上进行了广泛的实验,以便于时尚视频和人脸数据集vox-celeb到cufs;在这两个方面,我们的MAA模型在定量和定性上都优于现有方法。
translated by 谷歌翻译
我们提出了自由式 - 人体神经通话的头部合成系统。我们表明,具有稀疏3D面部标志的建模面孔足以实现最先进的生成性能,而无需依赖诸如3D可变形模型之类的强统计学先验。除了3D姿势和面部表情外,我们的方法还能够将目光从驾驶演员转移到源身份。我们的完整管道由三个组件组成:一个规范的3D密钥估计器,可回归3D姿势和与表达相关的变形,凝视估计网络和建立在Headgan架构上的生成器。我们进一步实验发电机的扩展,以使用注意机制可容纳几次学习,以防万一可用多个源图像。与最新的重演和运动转移模型相比,我们的系统实现了更高的照片真实性与优越的身份保护,同时提供明确的注视控制。
translated by 谷歌翻译
视频生成是计算机愿景中的一个有趣问题。它非常受欢迎的数据增强,Move,AR / VR等特殊效果。随着深度学习的进步,已经提出了许多深入的生成模型来解决这项任务。这些深度生成模型提供了在线使用所有未标记的图像和视频,因为它可以使用无人监督的方式学习深度特征表示。这些模型还可以生成不同类型的图像,这对于可视应用具有很大的值。然而,生成视频将更具挑战性,因为我们不仅需要模型,不仅需要视频中的对象的外观,而且需要它们的时间运动。在这项工作中,我们会将视频中的任何帧分解为内容和姿势。我们首先使用预先训练的人的姿势检测从视频中提取姿势信息,并使用生成模型来基于内容代码和姿态代码来综合视频。
translated by 谷歌翻译
音频驱动的单次谈话脸生成方法通常培训各种人的视频资源。然而,他们创建的视频经常遭受不自然的口腔形状和异步嘴唇,因为这些方法努力学习来自不同扬声器的一致语音风格。我们观察到从特定扬声器学习一致的语音风格会更容易,这导致正宗的嘴巴运动。因此,我们通过从特定扬声器探讨音频和视觉运动之间的一致相关性,然后将音频驱动的运动场转移到参考图像来提出一种新颖的单次谈论的谈话脸。具体地,我们开发了一种视听相关变压器(AVCT),其旨在从输入音频推断由基于KeyPoint基的密集运动场表示的谈话运动。特别是,考虑到音频可能来自部署中的不同身份,我们将音素合并以表示音频信号。以这种方式,我们的AVCT可以本质地推广其他身份的音频。此外,由于面部键点用于表示扬声器,AVCT对训练扬声器的外观不可知,因此允许我们容易地操纵不同标识的面部图像。考虑到不同的面形状导致不同的运动,利用运动场传输模块来减少训练标识和一次性参考之间的音频驱动的密集运动场间隙。一旦我们获得了参考图像的密集运动场,我们就会使用图像渲染器从音频剪辑生成其谈话脸视频。由于我们学识到的一致口语风格,我们的方法会产生真正的口腔形状和生动的运动。广泛的实验表明,在视觉质量和唇部同步方面,我们的合成视频优于现有技术。
translated by 谷歌翻译