最近关于多领域面部图像翻译的研究取得了令人印象深刻的结果。现有方法通常提供具有辅助分类器的鉴别器,以施加域转换。但是,这些方法忽略了关于域分布匹配的重要信息。为了解决这个问题,我们提出了一种与更自适应的鉴别器结构和匹配的发电机具有更自适应的鉴别器结构和匹配的发电机之间的开关生成的对抗网络(SwitchGan),以在多个域之间执行精密图像转换。提出了一种特征切换操作以在我们的条件模块中实现特征选择和融合。我们展示了我们模型的有效性。此外,我们还引入了发电机的新功能,该功能代表了属性强度控制,并在没有定制培训的情况下提取内容信息。在视觉上和定量地显示了Morph,RAFD和Celeba数据库的实验,表明我们扩展的SwitchGan(即,门控SwitchGan)可以实现比Stargan,Attgan和Staggan更好的翻译结果。使用培训的Reset-18模型实现的属性分类准确性和使用ImageNet预先预订的Inception-V3模型获得的FIC分数也定量展示了模型的卓越性能。
translated by 谷歌翻译
Figure 1. Multi-domain image-to-image translation results on the CelebA dataset via transferring knowledge learned from the RaFD dataset. The first and sixth columns show input images while the remaining columns are images generated by StarGAN. Note that the images are generated by a single generator network, and facial expression labels such as angry, happy, and fearful are from RaFD, not CelebA.
translated by 谷歌翻译
图像生成在学术界和工业领域提出了巨大的关注,特别是对于有条件和目标导向的图像生成,例如犯罪肖像和时装设计。虽然目前的研究已经沿着这个方向实现了初步结果,但它们总是将课堂标签集中在阶级标签中作为空间内容从潜伏向量随机产生的条件。边缘细节通常模糊,因为空间信息难以保持。鉴于此,我们提出了一种新型的空间受限的生成对抗网络(SCAGAN),其从潜伏向量中分离出空间约束,并使这些约束可行作为额外的可控信号。为了增强空间可控性,发电机网络专门设计用于逐步采用语义分割,潜在的传染媒介和属性级标签作为输入。此外,构造分段网络以对发电机施加空间约束。在实验上,我们在Celeba和Deepfashion数据集中提供视觉和定量结果,并证明所提出的Scang在控制空间内容以及产生高质量图像方面非常有效。
translated by 谷歌翻译
尽管具有生成对抗网络(GAN)的图像到图像(I2I)翻译的显着进步,但使用单对生成器和歧视器将图像有效地转换为多个目标域中的一组不同图像仍然具有挑战性。现有的I2i翻译方法采用多个针对不同域的特定于域的内容编码,其中每个特定于域的内容编码器仅经过来自同一域的图像的训练。然而,我们认为应从所有域之间的图像中学到内容(域变相)特征。因此,现有方案的每个特定于域的内容编码器都无法有效提取域不变特征。为了解决这个问题,我们提出了一个灵活而通用的Sologan模型,用于在多个域之间具有未配对数据的多模式I2I翻译。与现有方法相反,Solgan算法使用具有附加辅助分类器的单个投影鉴别器,并为所有域共享编码器和生成器。因此,可以使用来自所有域的图像有效地训练Solgan,从而可以有效提取域 - 不变性内容表示。在多个数据集中,针对多个同行和sologan的变体的定性和定量结果证明了该方法的优点,尤其是对于挑战i2i翻译数据集的挑战,即涉及极端形状变化的数据集或在翻译后保持复杂的背景,需要保持复杂的背景。此外,我们通过消融研究证明了Sogan中每个成分的贡献。
translated by 谷歌翻译
我们提出了Vecgan,这是一个图像到图像翻译框架,用于带有可解释潜在方向的面部属性编辑。面部属性编辑任务面临着精确属性编辑的挑战,具有可控的强度和图像的其他属性的保存。对于此目标,我们通过潜在空间分解设计属性编辑,对于每个属性,我们学习了与其他属性正交的线性方向。另一个组件是变化的可控强度,标量值。在我们的框架中,可以通过投影从参考图像中对此标量进行采样或编码。我们的工作灵感来自固定预验证的gan的潜在空间分解作品。但是,尽管这些模型无法进行端到端训练,并难以精确编辑编码的图像,但Vecgan受到了端到端的培训,用于图像翻译任务,并成功地编辑了属性,同时保留了其他属性。我们的广泛实验表明,vecgan对本地和全球编辑的最先进进行了重大改进。
translated by 谷歌翻译
相对属性(RA),参考在特定属性的强度上的两个图像上的偏好,可以使由于其丰富的语义信息来实现良好的图像到图像转换。然而,基于RAS的现有工作未能调和细粒度翻译的目标以及高质量一代的目标。我们提出了一个新的模型之旅,以协调这两个目标,以获得高质量的细粒度翻译。特别是,我们同时培训了两个模块:一个发电机,它将输入图像转换为所需图像,具有相对于感兴趣的属性的平滑微妙变化;和排名由输入图像和所需图像组成的竞争偏好的排名。竞争对手的偏好是指对抗性排名过程:(1)排名师在所需属性方面认为所需图像和输入图像之间没有差异; (2)发电机欺骗排名师以相信所需图像根据需要在输入图像上改变属性。介绍了RAS成对的真实图像,以指导排名仪对仅对感兴趣的属性进行排名对。通过有效的排名,发电机将通过产生与输入图像相比,通过产生所需改变的高质量图像来“赢得”对抗游戏。两个面部图像数据集和一个鞋图像数据集的实验表明,我们的旅行实现了最先进的导致生成高保真图像,这表现出对感兴趣的属性的平滑变化。
translated by 谷歌翻译
生成的对抗网络(GANS)最近引入了执行图像到图像翻译的有效方法。这些模型可以应用于图像到图像到图像转换中的各种域而不改变任何参数。在本文中,我们调查并分析了八个图像到图像生成的对策网络:PIX2PX,Cyclegan,Cogan,Stargan,Munit,Stargan2,Da-Gan,以及自我关注GaN。这些模型中的每一个都呈现了最先进的结果,并引入了构建图像到图像的新技术。除了对模型的调查外,我们还调查了他们接受培训的18个数据集,并在其上进行了评估的9个指标。最后,我们在常见的一组指标和数据集中呈现6种这些模型的受控实验的结果。结果混合并显示,在某些数据集,任务和指标上,某些型号优于其他型号。本文的最后一部分讨论了这些结果并建立了未来研究领域。由于研究人员继续创新新的图像到图像GAN,因此他们非常重要地了解现有方法,数据集和指标。本文提供了全面的概述和讨论,以帮助构建此基础。
translated by 谷歌翻译
本文的目标是对面部素描合成(FSS)问题进行全面的研究。然而,由于获得了手绘草图数据集的高成本,因此缺乏完整的基准,用于评估过去十年的FSS算法的开发。因此,我们首先向FSS引入高质量的数据集,名为FS2K,其中包括2,104个图像素描对,跨越三种类型的草图样式,图像背景,照明条件,肤色和面部属性。 FS2K与以前的FSS数据集不同于难度,多样性和可扩展性,因此应促进FSS研究的进展。其次,我们通过调查139种古典方法,包括34个手工特征的面部素描合成方法,37个一般的神经式传输方法,43个深映像到图像翻译方法,以及35个图像 - 素描方法。此外,我们详细说明了现有的19个尖端模型的综合实验。第三,我们为FSS提供了一个简单的基准,名为FSGAN。只有两个直截了当的组件,即面部感知屏蔽和风格矢量扩展,FSGAN将超越所提出的FS2K数据集的所有先前最先进模型的性能,通过大边距。最后,我们在过去几年中汲取的经验教训,并指出了几个未解决的挑战。我们的开源代码可在https://github.com/dengpingfan/fsgan中获得。
translated by 谷歌翻译
Facial attribute editing aims to manipulate single or multiple attributes of a face image, i.e., to generate a new face with desired attributes while preserving other details. Recently, generative adversarial net (GAN) and encoder-decoder architecture are usually incorporated to handle this task with promising results. Based on the encoder-decoder architecture, facial attribute editing is achieved by decoding the latent representation of the given face conditioned on the desired attributes. Some existing methods attempt to establish an attributeindependent latent representation for further attribute editing. However, such attribute-independent constraint on the latent representation is excessive because it restricts the capacity of the latent representation and may result in information loss, leading to over-smooth and distorted generation. Instead of imposing constraints on the latent representation, in this work we apply an attribute classification constraint to the generated image to just guarantee the correct change of desired attributes, i.e., to "change what you want". Meanwhile, the reconstruction learning is introduced to preserve attribute-excluding details, in other words, to "only change what you want". Besides, the adversarial learning is employed for visually realistic editing. These three components cooperate with each other forming an effective framework for high quality facial attribute editing, referred as AttGAN. Furthermore, our method is also directly applicable for attribute intensity control and can be naturally extended for attribute style manipulation. Experiments on CelebA dataset show that our method outperforms the state-of-the-arts on realistic attribute editing with facial details well preserved.
translated by 谷歌翻译
语义引导的条件生成的对抗网络(CGANS)已成为近年来面对面编辑的流行方法。然而,大多数现有方法将语义掩模引入发电机的直接条件输入,并且通常需要目标掩模在RGB空间中执行相应的转换。我们提出Secgan,一种新的标签引导,用于利用语义信息编辑面部图像,无需指定目标语义掩模。在培训期间,Secgan有两个发电机分支机构和鉴别者并行运行,有一个训练,用于翻译RGB图像和另一个用于语义面具。要以互利的方式桥接两个分支机构,我们介绍了一个语义一致性损失,限制了两个分支以具有一致的语义输出。虽然在训练期间需要两个分支机构,但RGB分支是我们的主要网络,并且不需要语义分支。我们的结果在Celeba和Celeba-HQ上表明,我们的方法能够以更准确的属性生成面部图像,在目标属性识别率方面表现出竞争性基线,同时维持自我监督的FR \ {E} CHET Inception等质量指标距离和成立得分。
translated by 谷歌翻译
最近的研究表明了对面部表情合成的多域图像到图像转换的令人印象深刻的结果。虽然有效,但这些方法需要大量标记的样本进行合理的结果。当我们在较小的数据集中训练时,他们的性能显着降低。为了解决这一限制,在这项工作中,我们展示了US-GaN,通过采用显着的小型数据集来合成合理表达的较小有效的方法。所提出的方法包括编码层,单个残差块,解码层和终极跳过连接,其将输入图像链接到输出图像。与最先进的面部表情合成方法相比,参数具有三倍。实验结果表明了我们提出的方法的定量和定性效果。此外,我们还表明,终极跳过连接足以恢复较大的最先进模型无法恢复的输入面部图像的富有的面部和整体颜色细节。
translated by 谷歌翻译
鉴于输入面部照片,漫画生成的目标是生产风格化,夸张的漫画,与照片共享与相同的身份。它需要同时传输和形状夸张,具有丰富的多样性,同时保留输入的身份。为了解决这一具有挑战性的问题,我们提出了一种名为Multi-Warping GaN(MW-GAN)的新型框架,包括风格网络和几何网络,旨在分别进行样式传输和几何夸张。我们通过双向设计弥合图像的风格和地标之间的差距,并通过双向设计来生成具有任意样式和几何夸张的漫画,可以通过潜在代码或给定的随机采样来指定漫画样本。此外,我们对图像空间和地标空间施加身份保持损失,导致产生漫画的质量的巨大改善。实验表明,由MW-GaN产生的漫画具有比现有方法更好的质量。
translated by 谷歌翻译
我们建议使用单个图像进行面部表达到表达翻译的简单而强大的地标引导的生成对抗网络(Landmarkgan),这在计算机视觉中是一项重要且具有挑战性的任务,因为表达到表达的翻译是非 - 线性和非对准问题。此外,由于图像中的对象可以具有任意的姿势,大小,位置,背景和自我观念,因此需要在输入图像和输出图像之间有一个高级的语义理解。为了解决这个问题,我们建议明确利用面部地标信息。由于这是一个具有挑战性的问题,我们将其分为两个子任务,(i)类别引导的地标生成,以及(ii)具有里程碑意义的指导表达式对表达的翻译。两项子任务以端到端的方式进行了培训,旨在享受产生的地标和表情的相互改善的好处。与当前的按键指导的方法相比,提议的Landmarkgan只需要单个面部图像即可产生各种表达式。四个公共数据集的广泛实验结果表明,与仅使用单个图像的最先进方法相比,所提出的Landmarkgan获得了更好的结果。该代码可从https://github.com/ha0tang/landmarkgan获得。
translated by 谷歌翻译
基于生成神经辐射场(GNERF)基于生成神经辐射场(GNERF)的3D感知gan已达到令人印象深刻的高质量图像产生,同时保持了强3D一致性。最显着的成就是在面部生成领域中取得的。但是,这些模型中的大多数都集中在提高视图一致性上,但忽略了分离的方面,因此这些模型无法提供高质量的语义/属性控制对生成。为此,我们引入了一个有条件的GNERF模型,该模型使用特定属性标签作为输入,以提高3D感知生成模型的控制能力和解散能力。我们利用预先训练的3D感知模型作为基础,并集成了双分支属性编辑模块(DAEM),该模块(DAEM)利用属性标签来提供对生成的控制。此外,我们提出了一个Triot(作为INIT的训练,并针对调整进行优化),以优化潜在矢量以进一步提高属性编辑的精度。广泛使用的FFHQ上的广泛实验表明,我们的模型在保留非目标区域的同时产生具有更好视图一致性的高质量编辑。该代码可在https://github.com/zhangqianhui/tt-gnerf上找到。
translated by 谷歌翻译
Facial image manipulation has achieved great progress in recent years. However, previous methods either operate on a predefined set of face attributes or leave users little freedom to interactively manipulate images. To overcome these drawbacks, we propose a novel framework termed MaskGAN, enabling diverse and interactive face manipulation. Our key insight is that semantic masks serve as a suitable intermediate representation for flexible face manipulation with fidelity preservation. MaskGAN has two main components: 1) Dense Mapping Network (DMN) and 2) Editing Behavior Simulated Training (EBST). Specifically, DMN learns style mapping between a free-form user modified mask and a target image, enabling diverse generation results. EBST models the user editing behavior on the source mask, making the overall framework more robust to various manipulated inputs. Specifically, it introduces dual-editing consistency as the auxiliary supervision signal. To facilitate extensive studies, we construct a large-scale high-resolution face dataset with fine-grained mask annotations named CelebAMask-HQ. MaskGAN is comprehensively evaluated on two challenging tasks: attribute transfer and style copy, demonstrating superior performance over other state-of-the-art methods. The code, models, and dataset are available at https://github.com/switchablenorms/CelebAMask-HQ.
translated by 谷歌翻译
使用生成对抗网络(GAN)生成的面孔已经达到了前所未有的现实主义。这些面孔,也称为“深色伪造”,看起来像是逼真的照片,几乎没有像素级扭曲。尽管某些工作使能够培训模型,从而导致该主题的特定属性,但尚未完全探索基于自然语言描述的面部图像。对于安全和刑事识别,提供基于GAN的系统的能力像素描艺术家一样有用。在本文中,我们提出了一种新颖的方法,可以从语义文本描述中生成面部图像。学习的模型具有文本描述和面部类型的轮廓,该模型用于绘制功能。我们的模型是使用仿射组合模块(ACM)机制训练的,以使用自发动矩阵结合伯特和甘恩潜在空间的文本。这避免了由于“注意力”不足而导致的功能丧失,如果简单地将文本嵌入和潜在矢量串联,这可能会发生。我们的方法能够生成非常准确地与面部面部的详尽文本描述相符的图像,并具有许多细节的脸部特征,并有助于生成更好的图像。如果提供了其他文本描述或句子,则提出的方法还能够对先前生成的图像进行增量更改。
translated by 谷歌翻译
通过对抗训练的雾霾图像转换的关键程序在于仅涉及雾度合成的特征,即表示不变语义内容的特征,即内容特征。以前的方法通过利用它在培训过程中对Haze图像进行分类来分开单独的内容。然而,在本文中,我们认识到在这种技术常规中的内容式解剖学的不完整性。缺陷的样式功能与内容信息纠缠不可避免地引导阴霾图像的呈现。要解决,我们通过随机线性插值提出自我监督的风格回归,以减少风格特征中的内容信息。烧蚀实验表明了静态感知雾度图像合成中的解开的完整性及其优越性。此外,所产生的雾度数据应用于车辆检测器的测试概括。雾度和检测性能之间的进一步研究表明,雾度对车辆探测器的概括具有明显的影响,并且这种性能降低水平与雾度水平线性相关,反过来验证了该方法的有效性。
translated by 谷歌翻译
In this work, we propose TediGAN, a novel framework for multi-modal image generation and manipulation with textual descriptions. The proposed method consists of three components: StyleGAN inversion module, visual-linguistic similarity learning, and instance-level optimization. The inversion module maps real images to the latent space of a well-trained StyleGAN. The visual-linguistic similarity learns the text-image matching by mapping the image and text into a common embedding space. The instancelevel optimization is for identity preservation in manipulation. Our model can produce diverse and high-quality images with an unprecedented resolution at 1024 2 . Using a control mechanism based on style-mixing, our Tedi-GAN inherently supports image synthesis with multi-modal inputs, such as sketches or semantic labels, with or without instance guidance. To facilitate text-guided multimodal synthesis, we propose the Multi-Modal CelebA-HQ, a large-scale dataset consisting of real face images and corresponding semantic segmentation map, sketch, and textual descriptions. Extensive experiments on the introduced dataset demonstrate the superior performance of our proposed method. Code and data are available at https://github.com/weihaox/TediGAN.
translated by 谷歌翻译