生成的对抗性模型(GANS)继续在静止图像的视觉质量方面产生进步,以及时间相关的学习。但是,很少有效地设法将这两个有趣的功能组合用于综合视频内容:大多数方法需要广泛的训练数据集来学习时间相关性,同时在输出的分辨率和视觉质量中相当有限。我们提出了一种新的视频综合问题方法,有助于大大提高视觉质量,大大减少生成视频所需的培训数据和资源的量。我们的配方将空间域分开,其中从时间域中合成单个帧,其中产生运动。对于空间域,我们使用预先训练的样式手册网络,潜在的空间允许控制它培训的对象的外观。该模型的表现力量使我们能够在样式潜在空间中嵌入我们的培训视频。然后,我们的时间架构不受RGB帧的序列培训,而是验证RGB帧的序列,而是在样式龙舌码的序列上。样式卡空间的有利特性简化了时间相关的发现。我们证明,只需10分钟的镜头为1个受试者约6小时即可培训我们的时间架构就足够了。在培训之后,我们的模型不仅可以为培训主题生成新的纵向视频,还可以为任何可以嵌入在样式卡空间中的任何随机对象。
translated by 谷歌翻译
在计算机视觉和图形社区中,长期以来,现实的生成面部视频综合一直是追求。但是,现有的视频生成方法倾向于产生具有漂移的面部身份和不自然运动的低质量框架。为了应对这些挑战,我们提出了一个名为stylefacev的原则框架,该框架生产具有生动动作的高保真身份的面部视频。我们的核心洞察力是分解外观并构成信息,并在StyleGan3的潜在空间中重新组装它们,以产生稳定而动态的结果。具体而言,stylegan3为高保真的面部图像生成提供了强大的先验,但潜在空间本质上是纠缠的。通过仔细检查其潜在特性,我们提出了分解和重组设计,从而可以使面部外观和运动的结合结合在一起。此外,依赖时间依赖的模型是建立在分解的潜在特征的基础上的,并示例了能够生成现实且具有时间连贯的面部视频的合理运动序列。特别是,我们的管道对静态图像和高质量视频数据的联合培训策略进行了培训,该策略具有更高的数据效率。广泛的实验表明,我们的框架可以在定性和定量上实现最先进的视频生成。值得注意的是,即使没有高分辨率培训视频,StyleFacev也能够生成现实$ 1024 \ times1024 $面对视频。
translated by 谷歌翻译
视频显示连续事件,但大多数 - 如果不是全部 - 视频综合框架及时酌情对待它们。在这项工作中,我们想到它们应该是连续的信号的视频,并扩展神经表示的范式以构建连续时间视频发生器。为此,我们首先通过位置嵌入的镜头设计连续运动表示。然后,我们探讨了在非常稀疏的视频上培训问题,并证明可以使用每剪辑的少数为2帧来学习良好的发电机。之后,我们重新思考传统的图像和视频鉴别器对并建议使用基于Hypernetwork的一个。这降低了培训成本并向发电机提供了更丰富的学习信号,使得可以首次直接培训1024美元$ ^ 2 $视频。我们在Stylegan2的顶部构建我们的模型,并且在同样的分辨率下培训速度速度较高5%,同时实现几乎相同的图像质量。此外,我们的潜在空间具有类似的属性,使我们的方法可以及时传播的空间操纵。我们可以在任意高帧速率下任意长的视频,而现有工作努力以固定速率生成均匀的64个帧。我们的模型在四个现代256美元$ ^ 2 $视频综合基准测试中实现最先进的结果,一个1024美元$ ^ 2 $ state。视频和源代码在项目网站上提供:https://universome.github.io/stylegan-v。
translated by 谷歌翻译
生成模型已成为许多图像合成和编辑任务的基本构件。该领域的最新进展还使得能够生成具有多视图或时间一致性的高质量3D或视频内容。在我们的工作中,我们探索了学习无条件生成3D感知视频的4D生成对抗网络(GAN)。通过将神经隐式表示与时间感知歧视器相结合,我们开发了一个GAN框架,该框架仅通过单眼视频进行监督的3D视频。我们表明,我们的方法学习了可分解的3D结构和动作的丰富嵌入,这些结构和动作可以使时空渲染的新视觉效果,同时以与现有3D或视频gan相当的质量产生图像。
translated by 谷歌翻译
Our goal with this survey is to provide an overview of the state of the art deep learning technologies for face generation and editing. We will cover popular latest architectures and discuss key ideas that make them work, such as inversion, latent representation, loss functions, training procedures, editing methods, and cross domain style transfer. We particularly focus on GAN-based architectures that have culminated in the StyleGAN approaches, which allow generation of high-quality face images and offer rich interfaces for controllable semantics editing and preserving photo quality. We aim to provide an entry point into the field for readers that have basic knowledge about the field of deep learning and are looking for an accessible introduction and overview.
translated by 谷歌翻译
Visual signals in a video can be divided into content and motion. While content specifies which objects are in the video, motion describes their dynamics. Based on this prior, we propose the Motion and Content decomposed Generative Adversarial Network (MoCoGAN) framework for video generation. The proposed framework generates a video by mapping a sequence of random vectors to a sequence of video frames. Each random vector consists of a content part and a motion part. While the content part is kept fixed, the motion part is realized as a stochastic process. To learn motion and content decomposition in an unsupervised manner, we introduce a novel adversarial learning scheme utilizing both image and video discriminators. Extensive experimental results on several challenging datasets with qualitative and quantitative comparison to the state-of-theart approaches, verify effectiveness of the proposed framework. In addition, we show that MoCoGAN allows one to generate videos with same content but different motion as well as videos with different content and same motion.
translated by 谷歌翻译
我们提出了一种新颖的方法,用于生成语音音频和单个“身份”图像的高分辨率视频。我们的方法基于卷积神经网络模型,该模型结合了预训练的样式Gener。我们将每个帧建模为Stylegan潜在空间中的一个点,以便视频对应于潜在空间的轨迹。培训网络分为两个阶段。第一阶段是根据语音话语调节潜在空间中的轨迹。为此,我们使用现有的编码器倒转发电机,将每个视频框架映射到潜在空间中。我们训练一个经常性的神经网络,以从语音话语绘制到图像发生器潜在空间中的位移。这些位移是相对于从训练数据集中所描绘的个体选择的身份图像的潜在空间的反向预测的。在第二阶段,我们通过在单个图像或任何选择的身份的简短视频上调整图像生成器来提高生成视频的视觉质量。我们对标准度量(PSNR,SSIM,FID和LMD)的模型进行评估,并表明它在两个常用数据集之一上的最新方法明显优于最新的最新方法,另一方面给出了可比的性能。最后,我们报告了验证模型组成部分的消融实验。可以在https://mohammedalghamdi.github.io/talking-heads-acm-mm上找到实验的代码和视频
translated by 谷歌翻译
我们提出了一个视频生成模型,该模型可以准确地重现对象运动,摄像头视图的变化以及随着时间的推移而产生的新内容。现有的视频生成方法通常无法生成新内容作为时间的函数,同时保持在真实环境中预期的一致性,例如合理的动态和对象持久性。一个常见的故障情况是,由于过度依赖归纳偏见而提供时间一致性,因此内容永远不会改变,例如单个潜在代码决定整个视频的内容。在另一个极端情况下,没有长期一致性,生成的视频可能会在不同场景之间不切实际。为了解决这些限制,我们通过重新设计暂时的潜在表示并通过较长的视频培训从数据中学习长期一致性来优先考虑时间轴。为此,我们利用了两阶段的培训策略,在该策略中,我们以低分辨率和高分辨率的较短视频分别训练了较长的视频。为了评估模型的功能,我们介绍了两个新的基准数据集,并明确关注长期时间动态。
translated by 谷歌翻译
关于语言引导的图像操纵的最新作品在提供丰富的语义方面表现出了极大的语言力量,尤其是对于面部图像。但是,语言中的其他自然信息,动作的探索较少。在本文中,我们利用运动信息并研究一项新颖的任务,语言引导的面部动画,旨在在语言的帮助下对静态面部图像进行动画。为了更好地利用语言的语义和动作,我们提出了一个简单而有效的框架。具体而言,我们提出了一个经常性运动生成器,以从语言中提取一系列语义和运动信息,并将其与视觉信息一起提供给预训练的样式,以生成高质量的帧。为了优化所提出的框架,提出了三个精心设计的损失功能,包括保持面部身份的正规化损失,路径长度正规化损失以确保运动平滑度和对比度损失,以在一个模型中使用各种语言指导启用视频综合。对不同领域的定性和定量评估进行了广泛的实验(\ textit {ef。语。代码将在https://github.com/tiankaihang/language-guided-animation.git上找到。
translated by 谷歌翻译
创建视频是为了表达情感,交换信息和分享经验。视频合成很长时间以来一直吸引了研究人员。尽管视觉合成的进步驱动了迅速的进展,但大多数现有研究都集中在提高框架的质量和之间的过渡上,而在生成更长的视频方面几乎没有取得进展。在本文中,我们提出了一种基于3D-VQGAN和Transformers的方法,以生成具有数千帧的视频。我们的评估表明,我们的模型在16架视频剪辑中培训了来自UCF-101,Sky TimeLapse和Taichi-HD数据集等标准基准测试片段,可以生成多样化,连贯和高质量的长视频。我们还展示了我们通过将时间信息与文本和音频结合在一起来生成有意义的长视频的方法的条件扩展。可以在https://songweige.github.io/projects/tats/index.html上找到视频和代码。
translated by 谷歌翻译
Video generation requires synthesizing consistent and persistent frames with dynamic content over time. This work investigates modeling the temporal relations for composing video with arbitrary length, from a few frames to even infinite, using generative adversarial networks (GANs). First, towards composing adjacent frames, we show that the alias-free operation for single image generation, together with adequately pre-learned knowledge, brings a smooth frame transition without compromising the per-frame quality. Second, by incorporating the temporal shift module (TSM), originally designed for video understanding, into the discriminator, we manage to advance the generator in synthesizing more consistent dynamics. Third, we develop a novel B-Spline based motion representation to ensure temporal smoothness to achieve infinite-length video generation. It can go beyond the frame number used in training. A low-rank temporal modulation is also proposed to alleviate repeating contents for long video generation. We evaluate our approach on various datasets and show substantial improvements over video generation baselines. Code and models will be publicly available at https://genforce.github.io/StyleSV.
translated by 谷歌翻译
使用单视图2D照片仅集合,无监督的高质量多视图 - 一致的图像和3D形状一直是一个长期存在的挑战。现有的3D GAN是计算密集型的,也是没有3D-一致的近似;前者限制了所生成的图像的质量和分辨率,并且后者对多视图一致性和形状质量产生不利影响。在这项工作中,我们提高了3D GAN的计算效率和图像质量,而无需依赖这些近似。为此目的,我们介绍了一种表现力的混合明确隐式网络架构,与其他设计选择一起,不仅可以实时合成高分辨率多视图一致图像,而且还产生高质量的3D几何形状。通过解耦特征生成和神经渲染,我们的框架能够利用最先进的2D CNN生成器,例如Stylega2,并继承它们的效率和表现力。在其他实验中,我们展示了与FFHQ和AFHQ猫的最先进的3D感知合成。
translated by 谷歌翻译
Recent 3D-aware GANs rely on volumetric rendering techniques to disentangle the pose and appearance of objects, de facto generating entire 3D volumes rather than single-view 2D images from a latent code. Complex image editing tasks can be performed in standard 2D-based GANs (e.g., StyleGAN models) as manipulation of latent dimensions. However, to the best of our knowledge, similar properties have only been partially explored for 3D-aware GAN models. This work aims to fill this gap by showing the limitations of existing methods and proposing LatentSwap3D, a model-agnostic approach designed to enable attribute editing in the latent space of pre-trained 3D-aware GANs. We first identify the most relevant dimensions in the latent space of the model controlling the targeted attribute by relying on the feature importance ranking of a random forest classifier. Then, to apply the transformation, we swap the top-K most relevant latent dimensions of the image being edited with an image exhibiting the desired attribute. Despite its simplicity, LatentSwap3D provides remarkable semantic edits in a disentangled manner and outperforms alternative approaches both qualitatively and quantitatively. We demonstrate our semantic edit approach on various 3D-aware generative models such as pi-GAN, GIRAFFE, StyleSDF, MVCGAN, EG3D and VolumeGAN, and on diverse datasets, such as FFHQ, AFHQ, Cats, MetFaces, and CompCars. The project page can be found: \url{https://enisimsar.github.io/latentswap3d/}.
translated by 谷歌翻译
Recent advances in generative adversarial networks (GANs) have demonstrated the capabilities of generating stunning photo-realistic portrait images. While some prior works have applied such image GANs to unconditional 2D portrait video generation and static 3D portrait synthesis, there are few works successfully extending GANs for generating 3D-aware portrait videos. In this work, we propose PV3D, the first generative framework that can synthesize multi-view consistent portrait videos. Specifically, our method extends the recent static 3D-aware image GAN to the video domain by generalizing the 3D implicit neural representation to model the spatio-temporal space. To introduce motion dynamics to the generation process, we develop a motion generator by stacking multiple motion layers to generate motion features via modulated convolution. To alleviate motion ambiguities caused by camera/human motions, we propose a simple yet effective camera condition strategy for PV3D, enabling both temporal and multi-view consistent video generation. Moreover, PV3D introduces two discriminators for regularizing the spatial and temporal domains to ensure the plausibility of the generated portrait videos. These elaborated designs enable PV3D to generate 3D-aware motion-plausible portrait videos with high-quality appearance and geometry, significantly outperforming prior works. As a result, PV3D is able to support many downstream applications such as animating static portraits and view-consistent video motion editing. Code and models will be released at https://showlab.github.io/pv3d.
translated by 谷歌翻译
在本文中,我们解决了神经面部重演的问题,鉴于一对源和目标面部图像,我们需要通过将目标的姿势(定义为头部姿势及其面部表情定义)通过同时保留源的身份特征(例如面部形状,发型等),即使在源头和目标面属于不同身份的挑战性情况下也是如此。在此过程中,我们解决了最先进作品的一些局限在推理期间标记的数据以及c)它们不保留大型头部姿势变化中的身份。更具体地说,我们提出了一个框架,该框架使用未配对的随机生成的面部图像学会通过合并最近引入的样式空间$ \ Mathcal $ \ Mathcal {S} $ of Stylegan2的姿势,以将面部的身份特征从其姿势中解脱出来表现出显着的分解特性。通过利用这一点,我们学会使用3D模型的监督成功地混合了一对源和目标样式代码。随后用于重新制定的最终潜在代码由仅与源的面部姿势相对应的潜在单位和仅与源身份相对应的单位组成,从而显着改善了与最近的状态性能相比的重新制定性能。艺术方法。与艺术的状态相比,我们定量和定性地表明,即使在极端的姿势变化下,提出的方法也会产生更高的质量结果。最后,我们通过首先将它们嵌入预告片发电机的潜在空间来报告实际图像。我们在:https://github.com/stelabou/stylemask上公开提供代码和预估计的模型
translated by 谷歌翻译
We propose an efficient algorithm to embed a given image into the latent space of StyleGAN. This embedding enables semantic image editing operations that can be applied to existing photographs. Taking the StyleGAN trained on the FFHQ dataset as an example, we show results for image morphing, style transfer, and expression transfer. Studying the results of the embedding algorithm provides valuable insights into the structure of the StyleGAN latent space. We propose a set of experiments to test what class of images can be embedded, how they are embedded, what latent space is suitable for embedding, and if the embedding is semantically meaningful.
translated by 谷歌翻译
最近,音频驱动的会说话的面部视频产生引起了广泛的关注。但是,很少有研究能够解决这些会说话的面部视频的情感编辑问题,并具有连续可控的表达式,这是行业中强烈的需求。面临的挑战是,与语音有关的表达和与情感有关的表达通常是高度耦合的。同时,由于表达式与其他属性(例如姿势)的耦合,即在每个框架中翻译角色的表达可能会同时改变头部姿势,因此传统的图像到图像翻译方法无法在我们的应用中很好地工作。培训数据分布。在本文中,我们提出了一种高质量的面部表达编辑方法,用于谈话面部视频,使用户可以连续控制编辑视频中的目标情感。我们为该任务提供了一个新的视角,作为运动信息编辑的特殊情况,我们使用3DMM捕获主要的面部运动和由StyleGAN模拟的相关纹理图,以捕获外观细节。两种表示(3DMM和纹理图)都包含情感信息,并且可以通过神经网络进行连续修改,并通过系数/潜在空间平均轻松平滑,从而使我们的方法变得简单而有效。我们还引入了口腔形状的保存损失,以控制唇部同步和编辑表达的夸张程度之间的权衡。广泛的实验和用户研究表明,我们的方法在各种评估标准中实现了最先进的表现。
translated by 谷歌翻译
在本文中,我们建议通过从GAN中学习独立反向潜在代码的轨迹来对视频动态进行建模。整个序列被视为初始潜在代码连续轨迹的离散时间观察,通过将每个潜在代码视为移动粒子,而潜在空间是高维动态系统。因此,代表不同框架的潜在代码被重新重新构成初始框架的状态转换,可以通过神经普通微分方程对其进行建模。学习的连续轨迹使我们能够执行无限的框架插值和一致的视频操作。后一个任务是重新引入的,用于视频编辑,其优势是仅在所有框架上保持时间一致性时才需要将核心操作应用于第一帧。广泛的实验表明,我们的方法实现了最先进的性能,但计算较少。
translated by 谷歌翻译
在运动中的运动中综合动态外观在诸如AR / VR和视频编辑的应用中起着核心作用。虽然已经提出了最近的许多方法来解决这个问题,但处理具有复杂纹理和高动态运动的松散服装仍然仍然具有挑战性。在本文中,我们提出了一种基于视频的外观综合方法,可以解决此类挑战,并为之前尚未显示的野外视频的高质量结果。具体而言,我们采用基于样式的基于STYLEGAN的架构,对基于人的特定视频的运动retrargeting的任务。我们介绍了一种新的运动签名,用于调制发电机权重以捕获动态外观变化以及正规化基于帧的姿势估计以提高时间一致性。我们在一组具有挑战性的视频上评估我们的方法,并表明我们的方法可以定性和定量地实现最先进的性能。
translated by 谷歌翻译