虽然近期拍摄图像造型化的最近进步,但这些方法无法捕捉对人类显而易见的文体细节。诸如眼睛形状的细节,线的粗糙度,对于模型来说特别困难,特别是在有限的数据设置下。在这项工作中,我们的目的是执行一个拍摄的一拍图像风格化,以获得细节。给定参考样式图像,我们使用GaN反转和Finetune使用该近似配对数据来近似配对的实际数据。然后,我们鼓励风格终体概括,以便学习风格可以应用于所有其他图像。
translated by 谷歌翻译
Figure 1. The proposed pixel2style2pixel framework can be used to solve a wide variety of image-to-image translation tasks. Here we show results of pSp on StyleGAN inversion, multi-modal conditional image synthesis, facial frontalization, inpainting and super-resolution.
translated by 谷歌翻译
最近,由于高质量的发电和解除戒开的潜在空间,Stylegan已经启用了各种图像操纵和编辑任务。但是,通常需要额外的架构或特定于特定的培训范式来实现不同的任务。在这项工作中,我们深入了解样式甘蓝的空间属性。我们展示使用普雷雷达的样式总是以及一些操作,没有任何额外的架构,我们可以相当于各种任务的最先进的方法执行,包括图像混合,全景生成,从单个图像,可控的生成本地多模式图像到图像转换和属性传输。所提出的方法简单,有效,有效,适用于任何现有的预制样式模型。
translated by 谷歌翻译
在本文中,我们调查了一项开放的研究任务,该任务是从单个2D GAN产生人体面部且没有3D监督的3D卡通面部形状,在那里我们还可以操纵3D形状的面部表情。为此,我们发现了Stylegan潜在空间的语义含义,因此我们能够通过控制潜在代码来产生各种表达式,姿势和照明的面部图像。具体而言,我们首先对卡通数据集中预验证的Stylegan脸部模型进行了修复。通过将相同的潜在代码喂入面部和卡通生成模型,我们的目标是实现从2D人脸图像到卡通风格的化身的翻译。然后,我们发现了甘恩潜在空间的语义方向,以试图在保留原始身份的同时改变面部表情。由于我们没有任何针对卡通脸的3D注释,因此我们操纵潜在代码以生成具有不同姿势和照明的图像,以便我们可以重建3D卡通脸部形状。我们在定性和定量上验证了方法在三个卡通数据集上的疗效。
translated by 谷歌翻译
我们为一个拍摄域适应提供了一种新方法。我们方法的输入是训练的GaN,其可以在域B中产生域A和单个参考图像I_B的图像。所提出的算法可以将训练的GaN的任何输出从域A转换为域B.我们的主要优点有两个主要优点方法与当前现有技术相比:首先,我们的解决方案实现了更高的视觉质量,例如通过明显减少过度装箱。其次,我们的解决方案允许更多地控制域间隙的自由度,即图像I_B的哪些方面用于定义域B.从技术上讲,我们通过在预先训练的样式生成器上建立新方法作为GaN和A用于代表域间隙的预先训练的夹模型。我们提出了几种新的常规程序来控制域间隙,以优化预先训练的样式生成器的权重,以输出域B中的图像而不是域A.常规方法防止优化来自单个参考图像的太多属性。我们的结果表明,对现有技术的显着视觉改进以及突出了改进控制的多个应用程序。
translated by 谷歌翻译
Our goal with this survey is to provide an overview of the state of the art deep learning technologies for face generation and editing. We will cover popular latest architectures and discuss key ideas that make them work, such as inversion, latent representation, loss functions, training procedures, editing methods, and cross domain style transfer. We particularly focus on GAN-based architectures that have culminated in the StyleGAN approaches, which allow generation of high-quality face images and offer rich interfaces for controllable semantics editing and preserving photo quality. We aim to provide an entry point into the field for readers that have basic knowledge about the field of deep learning and are looking for an accessible introduction and overview.
translated by 谷歌翻译
最近的面部生成方法试图根据给定的轮廓条件(例如低分辨率图像或草图)合成面部。但是,身份歧义的问题仍未解决,通常在轮廓太模糊而无法提供可靠的身份信息时(例如,当其分辨率极低时)发生。因此,可行的图像恢复解决方案可能是无限的。在这项工作中,我们提出了一个新颖的框架,该框架采用轮廓和一个额外的图像,将身份指定为输入,轮廓可以是各种方式,包括低分辨率图像,草图和语义标签映射。具体而言,我们提出了一种新颖的双重编码架构,其中身份编码器提取与身份相关的特征,并伴随着主编码器,以获取粗糙的轮廓信息并将所有信息进一步融合在一起。编码器输出迭代地馈入预训练的样式Generator,直到获得令人满意的结果为止。据我们所知,这是在多模式轮廓图像中获得身份引导的面部生成的第一部作品。此外,我们的方法可以以1024 $ \ times $ 1024的分辨率产生照片现实效果。
translated by 谷歌翻译
生成高质量的艺术肖像视频是计算机图形和愿景中的一项重要且理想的任务。尽管已经提出了一系列成功的肖像图像图像模型模型,但这些面向图像的方法在应用于视频(例如固定框架尺寸,面部对齐的要求,缺失的非种族细节和缺失的非种族细节和缺失的要求)时,具有明显的限制。时间不一致。在这项工作中,我们通过引入一个新颖的Vtoonify框架来研究具有挑战性的可控高分辨率肖像视频风格转移。具体而言,Vtoonify利用了Stylegan的中高分辨率层,以基于编码器提取的多尺度内容功能来渲染高质量的艺术肖像,以更好地保留框架细节。由此产生的完全卷积体系结构接受可变大小的视频中的非对齐面孔作为输入,从而有助于完整的面部区域,并在输出中自然动作。我们的框架与现有的基于Stylegan的图像图像模型兼容,以将其扩展到视频化,并继承了这些模型的吸引力,以进行柔性风格控制颜色和强度。这项工作分别为基于收藏和基于示例的肖像视频风格转移而建立在Toonify和DualStylegan的基于Toonify和Dualstylegan的Vtoonify的两个实例化。广泛的实验结果证明了我们提出的VTOONIFY框架对现有方法的有效性在生成具有灵活风格控件的高质量和临时艺术肖像视频方面的有效性。
translated by 谷歌翻译
在本文中,我们解决了神经面部重演的问题,鉴于一对源和目标面部图像,我们需要通过将目标的姿势(定义为头部姿势及其面部表情定义)通过同时保留源的身份特征(例如面部形状,发型等),即使在源头和目标面属于不同身份的挑战性情况下也是如此。在此过程中,我们解决了最先进作品的一些局限在推理期间标记的数据以及c)它们不保留大型头部姿势变化中的身份。更具体地说,我们提出了一个框架,该框架使用未配对的随机生成的面部图像学会通过合并最近引入的样式空间$ \ Mathcal $ \ Mathcal {S} $ of Stylegan2的姿势,以将面部的身份特征从其姿势中解脱出来表现出显着的分解特性。通过利用这一点,我们学会使用3D模型的监督成功地混合了一对源和目标样式代码。随后用于重新制定的最终潜在代码由仅与源的面部姿势相对应的潜在单位和仅与源身份相对应的单位组成,从而显着改善了与最近的状态性能相比的重新制定性能。艺术方法。与艺术的状态相比,我们定量和定性地表明,即使在极端的姿势变化下,提出的方法也会产生更高的质量结果。最后,我们通过首先将它们嵌入预告片发电机的潜在空间来报告实际图像。我们在:https://github.com/stelabou/stylemask上公开提供代码和预估计的模型
translated by 谷歌翻译
We present NeRFEditor, an efficient learning framework for 3D scene editing, which takes a video captured over 360{\deg} as input and outputs a high-quality, identity-preserving stylized 3D scene. Our method supports diverse types of editing such as guided by reference images, text prompts, and user interactions. We achieve this by encouraging a pre-trained StyleGAN model and a NeRF model to learn from each other mutually. Specifically, we use a NeRF model to generate numerous image-angle pairs to train an adjustor, which can adjust the StyleGAN latent code to generate high-fidelity stylized images for any given angle. To extrapolate editing to GAN out-of-domain views, we devise another module that is trained in a self-supervised learning manner. This module maps novel-view images to the hidden space of StyleGAN that allows StyleGAN to generate stylized images on novel views. These two modules together produce guided images in 360{\deg}views to finetune a NeRF to make stylization effects, where a stable fine-tuning strategy is proposed to achieve this. Experiments show that NeRFEditor outperforms prior work on benchmark and real-world scenes with better editability, fidelity, and identity preservation.
translated by 谷歌翻译
In this work, we propose TediGAN, a novel framework for multi-modal image generation and manipulation with textual descriptions. The proposed method consists of three components: StyleGAN inversion module, visual-linguistic similarity learning, and instance-level optimization. The inversion module maps real images to the latent space of a well-trained StyleGAN. The visual-linguistic similarity learns the text-image matching by mapping the image and text into a common embedding space. The instancelevel optimization is for identity preservation in manipulation. Our model can produce diverse and high-quality images with an unprecedented resolution at 1024 2 . Using a control mechanism based on style-mixing, our Tedi-GAN inherently supports image synthesis with multi-modal inputs, such as sketches or semantic labels, with or without instance guidance. To facilitate text-guided multimodal synthesis, we propose the Multi-Modal CelebA-HQ, a large-scale dataset consisting of real face images and corresponding semantic segmentation map, sketch, and textual descriptions. Extensive experiments on the introduced dataset demonstrate the superior performance of our proposed method. Code and data are available at https://github.com/weihaox/TediGAN.
translated by 谷歌翻译
最近,大型预磨损模型(例如,BERT,STYLEGAN,CLIP)在其域内的各种下游任务中表现出很好的知识转移和泛化能力。在这些努力的启发中,在本文中,我们提出了一个统一模型,用于开放域图像编辑,重点是开放式域图像的颜色和音调调整,同时保持原始内容和结构。我们的模型了解许多现有照片编辑软件中使用的操作空间(例如,对比度,亮度,颜色曲线)更具语义,直观,易于操作的统一编辑空间。我们的模型属于图像到图像转换框架,由图像编码器和解码器组成,并且在图像之前和图像的成对上培训以产生多模式输出。我们认为,通过将图像对反馈到学习编辑空间的潜在代码中,我们的模型可以利用各种下游编辑任务,例如语言引导图像编辑,个性化编辑,编辑式聚类,检索等。我们广泛地研究实验中编辑空间的独特属性,并在上述任务上展示了卓越的性能。
translated by 谷歌翻译
尽管最近通过生成对抗网络(GAN)操纵面部属性最近取得了非常成功的成功,但在明确控制姿势,表达,照明等特征的明确控制方面仍然存在一些挑战。最近的方法通过结合2D生成模型来实现对2D图像的明确控制和3dmm。但是,由于3DMM缺乏现实主义和纹理重建的清晰度,因此合成图像与3DMM的渲染图像之间存在域间隙。由于渲染的3DMM图像仅包含面部区域,因此直接计算这两个域之间的损失是不理想的,因此训练有素的模型将是偏差的。在这项研究中,我们建议通过控制3DMM的参数来明确编辑验证样式的潜在空间。为了解决域间隙问题,我们提出了一个名为“地图和编辑”的新网络,以及一种简单但有效的属性编辑方法,以避免渲染和合成图像之间的直接损失计算。此外,由于我们的模型可以准确地生成多视图的面部图像,而身份保持不变。作为副产品,结合可见性掩模,我们提出的模型还可以生成质地丰富和高分辨率的紫外面部纹理。我们的模型依赖于验证的样式,并且提出的模型以自我监督的方式进行了训练,而无需任何手动注释或数据集训练。
translated by 谷歌翻译
深层生成模型通过自动化基于收集的数据集的多样性,现实内容的综合,使新手用户更容易访问视觉内容。但是,当前的机器学习方法错过了创作过程的关键要素 - 综合远远超出数据分配和日常体验的东西的能力。为了开始解决此问题,我们可以通过仅编辑一些具有所需几何变化的原始模型输出来“扭曲”给定模型。我们的方法将低级更新应用于单个模型层以重建编辑的示例。此外,为了打击过度拟合,我们建议一种基于样式混合的潜在空间增强方法。我们的方法允许用户创建一个模型,该模型可以通过定义的几何更改合成无尽的对象,从而可以创建新的生成模型,而无需策划大规模数据集。我们还证明可以组成编辑的模型以实现汇总效果,并提出了一个交互式界面,以使用户能够通过组合创建新的模型。对多个测试案例的经验测量表明,我们方法对最近的GAN微调方法的优势。最后,我们使用编辑的模型展示了多个应用程序,包括潜在空间插值和图像编辑。
translated by 谷歌翻译
We introduce a new method for diverse foreground generation with explicit control over various factors. Existing image inpainting based foreground generation methods often struggle to generate diverse results and rarely allow users to explicitly control specific factors of variation (e.g., varying the facial identity or expression for face inpainting results). We leverage contrastive learning with latent codes to generate diverse foreground results for the same masked input. Specifically, we define two sets of latent codes, where one controls a pre-defined factor (``known''), and the other controls the remaining factors (``unknown''). The sampled latent codes from the two sets jointly bi-modulate the convolution kernels to guide the generator to synthesize diverse results. Experiments demonstrate the superiority of our method over state-of-the-arts in result diversity and generation controllability.
translated by 谷歌翻译
反转生成对抗网络(GAN)可以使用预训练的发电机来促进广泛的图像编辑任务。现有方法通常采用gan的潜在空间作为反转空间,但观察到空间细节的恢复不足。在这项工作中,我们建议涉及发电机的填充空间,以通过空间信息补充潜在空间。具体来说,我们替换具有某些实例感知系数的卷积层中使用的恒定填充(例如,通常为零)。通过这种方式,可以适当地适当地适应了预训练模型中假定的归纳偏差以适合每个单独的图像。通过学习精心设计的编码器,我们设法在定性和定量上提高了反演质量,超过了现有的替代方案。然后,我们证明了这样的空间扩展几乎不会影响天然甘纳的歧管,因此我们仍然可以重复使用甘斯(Gans)对各种下游应用学到的先验知识。除了在先前的艺术中探讨的编辑任务外,我们的方法还可以进行更灵活的图像操纵,例如对面部轮廓和面部细节的单独控制,并启用一种新颖的编辑方式,用户可以高效地自定义自己的操作。
translated by 谷歌翻译
在许多远程成像的应用中,我们面临的情景,其中出现在捕获的图像中的人通常被大气湍流降级。然而,由于劣化使图像成为几何扭曲和模糊,因此恢复用于面部验证的这种降级的图像是困难的。为了减轻湍流效果,本文提出了第一种湍流缓解方法,该方法利用培训的GaN封装的视觉前沿。基于视觉前沿,我们建议学习在空间周期性上下文距离上保留恢复图像的身份。在考虑网络学习中的身份差异时,这种距离可以保持来自GaN的恢复图像的现实主义。另外,提出了通过在没有身份变化的情况下引入更多外观方差来促进身份保留学习的分层伪连接。广泛的实验表明,我们的方法在恢复结果的视觉质量和面部验证准确性中显着优于现有技术。
translated by 谷歌翻译
Several face de-identification methods have been proposed to preserve users' privacy by obscuring their faces. These methods, however, can degrade the quality of photos, and they usually do not preserve the utility of faces, e.g., their age, gender, pose, and facial expression. Recently, advanced generative adversarial network models, such as StyleGAN, have been proposed, which generate realistic, high-quality imaginary faces. In this paper, we investigate the use of StyleGAN in generating de-identified faces through style mixing, where the styles or features of the target face and an auxiliary face get mixed to generate a de-identified face that carries the utilities of the target face. We examined this de-identification method with respect to preserving utility and privacy, by implementing several face detection, verification, and identification attacks. Through extensive experiments and also comparing with two state-of-the-art face de-identification methods, we show that StyleGAN preserves the quality and utility of the faces much better than the other approaches and also by choosing the style mixing levels correctly, it can preserve the privacy of the faces much better than other methods.
translated by 谷歌翻译
The introduction of high-quality image generation models, particularly the StyleGAN family, provides a powerful tool to synthesize and manipulate images. However, existing models are built upon high-quality (HQ) data as desired outputs, making them unfit for in-the-wild low-quality (LQ) images, which are common inputs for manipulation. In this work, we bridge this gap by proposing a novel GAN structure that allows for generating images with controllable quality. The network can synthesize various image degradation and restore the sharp image via a quality control code. Our proposed QC-StyleGAN can directly edit LQ images without altering their quality by applying GAN inversion and manipulation techniques. It also provides for free an image restoration solution that can handle various degradations, including noise, blur, compression artifacts, and their mixtures. Finally, we demonstrate numerous other applications such as image degradation synthesis, transfer, and interpolation.
translated by 谷歌翻译