虽然现代形象翻译技术可以创造光电态合成图像,但它们具有有限的风格可控性,因此可能遭受翻译误差。在这项工作中,我们表明激活功能是控制图像合成方向的重要组件之一。具体地,我们明确证明整流器的斜率参数可以改变数据分布并独立使用以控制翻译方向。为了提高风格可控性,提出了两种简单但有效的技术,包括自适应Relu(Adarelu)和结构自适应功能。 Adarelu可以根据目标风格动态调整斜率参数,并且可以用于通过与自适应实例归一化(Adain)组合来提高可控性。同时,结构适应性功能使整流器能够更有效地操纵特征图的结构。它由所提出的结构卷积(Struconv)组成,一种有效的卷积模块,可以根据AADAIN指定的平均值和方差选择要激活的区域。广泛的实验表明,所提出的技术可以大大提高基于风格的图像转换任务的网络可控性和输出分集。
translated by 谷歌翻译
自适应实例归一化(ADAIN)已成为样式注入的标准方法:通过通过缩放和迁移操作重新归一化功能,它发现在样式传输,图像生成和图像到图像转换中广泛使用。在这项工作中,我们提出了Adain的概括,该概括依赖于我们配音的美白和着色转化(WCT),我们将其申请在大型gan中申请样式注射。我们通过对Starganv2体系结构的实验来展示这种概括(尽管在概念上很简单,但在生成的图像的质量上都显着改善。
translated by 谷歌翻译
尽管具有生成对抗网络(GAN)的图像到图像(I2I)翻译的显着进步,但使用单对生成器和歧视器将图像有效地转换为多个目标域中的一组不同图像仍然具有挑战性。现有的I2i翻译方法采用多个针对不同域的特定于域的内容编码,其中每个特定于域的内容编码器仅经过来自同一域的图像的训练。然而,我们认为应从所有域之间的图像中学到内容(域变相)特征。因此,现有方案的每个特定于域的内容编码器都无法有效提取域不变特征。为了解决这个问题,我们提出了一个灵活而通用的Sologan模型,用于在多个域之间具有未配对数据的多模式I2I翻译。与现有方法相反,Solgan算法使用具有附加辅助分类器的单个投影鉴别器,并为所有域共享编码器和生成器。因此,可以使用来自所有域的图像有效地训练Solgan,从而可以有效提取域 - 不变性内容表示。在多个数据集中,针对多个同行和sologan的变体的定性和定量结果证明了该方法的优点,尤其是对于挑战i2i翻译数据集的挑战,即涉及极端形状变化的数据集或在翻译后保持复杂的背景,需要保持复杂的背景。此外,我们通过消融研究证明了Sogan中每个成分的贡献。
translated by 谷歌翻译
生成的对抗网络(GANS)最近引入了执行图像到图像翻译的有效方法。这些模型可以应用于图像到图像到图像转换中的各种域而不改变任何参数。在本文中,我们调查并分析了八个图像到图像生成的对策网络:PIX2PX,Cyclegan,Cogan,Stargan,Munit,Stargan2,Da-Gan,以及自我关注GaN。这些模型中的每一个都呈现了最先进的结果,并引入了构建图像到图像的新技术。除了对模型的调查外,我们还调查了他们接受培训的18个数据集,并在其上进行了评估的9个指标。最后,我们在常见的一组指标和数据集中呈现6种这些模型的受控实验的结果。结果混合并显示,在某些数据集,任务和指标上,某些型号优于其他型号。本文的最后一部分讨论了这些结果并建立了未来研究领域。由于研究人员继续创新新的图像到图像GAN,因此他们非常重要地了解现有方法,数据集和指标。本文提供了全面的概述和讨论,以帮助构建此基础。
translated by 谷歌翻译
语义图像编辑利用本地语义标签图来生成所需的内容。最近的工作借用了Spade Block来实现语义图像编辑。但是,由于编辑区域和周围像素之间的样式差异,它无法产生令人愉悦的结果。我们将其归因于以下事实:Spade仅使用与图像无关的局部语义布局,但忽略了已知像素中包含的图像特定样式。为了解决此问题,我们提出了一个样式保存的调制(SPM),其中包括两个调制过程:第一个调制包含上下文样式和语义布局,然后生成两个融合的调制参数。第二次调制采用融合参数来调制特征图。通过使用这两种调制,SPM可以在保留特定图像的上下文样式的同时注入给定的语义布局。此外,我们设计了一种渐进式体系结构,以粗到精细的方式生成编辑的内容。提出的方法可以获得上下文一致的结果,并显着减轻生成区域和已知像素之间的不愉快边界。
translated by 谷歌翻译
连续的一到一对映射是在低级视觉和神经图像翻译中较少研究但重要的任务。在本文中,我们提出了一种称为MonoPix的新配方,这是一个无监督和对比的连续调制模型,并进一步迈出了一个像素级的空间控制,这是至关重要的,但以前无法正确处理。这项工作的关键特征是建模具有新颖的对比度调制框架和相应的单调性约束之间控制信号与域歧视器之间的单调性。我们还引入了具有对数近似复杂性并支持快速域适应的选择性推理策略。在各种连续的映射任务上,包括AFHQ Cat-Dog和Yosemite夏季冬季翻译,对最先进的性能进行了验证。引入的方法还有助于为许多低级任务(如低光增强和自然噪声产生)提供新的解决方案,这超出了一对一训练和推理的长期实践。代码可从https://github.com/lukun199/monopix获得。
translated by 谷歌翻译
Our goal with this survey is to provide an overview of the state of the art deep learning technologies for face generation and editing. We will cover popular latest architectures and discuss key ideas that make them work, such as inversion, latent representation, loss functions, training procedures, editing methods, and cross domain style transfer. We particularly focus on GAN-based architectures that have culminated in the StyleGAN approaches, which allow generation of high-quality face images and offer rich interfaces for controllable semantics editing and preserving photo quality. We aim to provide an entry point into the field for readers that have basic knowledge about the field of deep learning and are looking for an accessible introduction and overview.
translated by 谷歌翻译
使用机器学习的数据驱动的范例在图像处理和通信中变得普遍存在。特别地,图像到图像(I2I)转换是一种通用和广泛使用的图像处理问题的方法,例如图像合成,样式传输和图像恢复。同时,神经图像压缩被出现为可视通信中传统编码方法的数据驱动替代方法。在本文中,我们将这两种范例的组合与联合I2I压缩和翻译框架一起研究,重点是多域图像合成。首先通过将量化和熵编码集成到I2I翻译框架(即i2iCodec)中提出分布式I2I转换。在实践中,也希望图像压缩功能(即自动编码),需要与常规图像编解码器一起部署。因此,我们进一步提出了一个统一的框架,其允许在单个编解码器中进行平移和自动编码功能。在翻译/压缩模式下调节的自适应残差块提供灵活的适应性对所需功能。实验表明,使用单个模型的I2I平移和图像压缩均有前景。
translated by 谷歌翻译
在这项工作中,我们为面部年龄编辑提出了一种新颖的架构,该架构可以产生结构修改,同时保持原始图像中存在相关细节。我们删除输入图像的样式和内容,并提出了一个新的解码器网络,该网络采用了一种基于样式的策略来结合输入图像的样式和内容表示,同时将输出在目标年龄上调节。我们超越了现有的衰老方法,使用户可以在推理过程中调整输入图像中的结构保存程度。为此,我们引入了一种掩盖机制,即自定义结构保存模块,该模块将输入图像中的相关区域与应丢弃的区域区分开。尖峰不需要其他监督。最后,我们的定量和定性分析在内,包括用户研究,表明我们的方法优于先前的艺术,并证明了我们在图像编辑和可调节结构保存方面的策略的有效性。可以在https://github.com/guillermogogotre/cusp上获得代码和预估计的模型。
translated by 谷歌翻译
与Stylegan的图像操纵近年来一直是越来越多的问题。由于这些潜在空间中的语义和空间操纵精度有限,而且由于这些潜在空间中的语义和空间操纵精度有限,而且,则在分析几个语义潜在空间方面取得了巨大成功。然而,由于这些潜在空间中的语义和空间操纵精度有限,现有的努力被击败在细粒度的样式图像操作中,即本地属性翻译。要解决此问题,我们发现特定于属性的控制单元,该单元由多个特征映射和调制样式组成。具体而言,我们协同处理调制样式通道,并以控制单元而不是单独的方式映射,以获得语义和空间解除态控制。此外,我们提出了一种简单但有效的方法来检测特定于属性的控制单元。我们沿着特定稀疏方向向量移动调制样式,并更换用于计算要素映射的滤波器方号以操纵这些控制单元。我们在各种面部属性操纵任务中评估我们所提出的方法。广泛的定性和定量结果表明,我们的提出方法对最先进的方法有利地表现出。实图像的操纵结果进一步显示了我们方法的有效性。
translated by 谷歌翻译
图像综合和图像识别已经见证了显着的进展,但通常以计算昂贵的训练和推断为代价。学习轻量级又表达深度模型已成为一个重要而有趣的方向。本文提出了略微展开的展开构建模块(SLIM),促进了图像合成模型的略微学习,以及相同层变体(称为纤细TOO)作为图像识别的众所周知的RENEXT的替代品更强。在SLIM中,输入特征图首先将多个组(例如,4)。然后转换为潜在风格的向量(通过通道 - 明智地注意)和潜在的空间掩模(通过空间注意)。学习的潜在掩码和潜在风格向量被聚合以调制目标特征映射。对于生成的学习,纤细地建立在最近提出的轻质生成的对抗网络(即,Fastgans)上,该网络展示了跳过层励磁(SLE)模块。对于少量图像综合任务,所提出的纤细可以实现比SLE工作和其他相关方法更好的性能。对于单次图像综合任务,它显示比现有技术(例如初版)保留图像结构的更强能力。对于图像分类任务,所提出的纤细被用作Resnet中的卷积层的替代品(导致Resnext的模型),并在MageNET-1000数据集中实现更好的精度,模型复杂性显着更小
translated by 谷歌翻译
我们通过将此任务视为视觉令牌生成问题来提出新的视角来实现图像综合。与现有的范例不同,即直接从单个输入(例如,潜像)直接合成完整图像,新配方使得能够为不同的图像区域进行灵活的本地操作,这使得可以学习内容感知和细粒度的样式控制用于图像合成。具体地,它需要输入潜像令牌的序列,以预测用于合成图像的视觉令牌。在这种观点来看,我们提出了一个基于令牌的发电机(即Tokengan)。特别是,Tokengan输入了两个语义不同的视觉令牌,即,来自潜在空间的学习常量内容令牌和风格代币。鉴于一系列风格令牌,Tokengan能够通过用变压器将样式分配给内容令牌来控制图像合成。我们进行了广泛的实验,并表明拟议的Tokengan在几个广泛使用的图像综合基准上实现了最先进的结果,包括FFHQ和LSUN教会,具有不同的决议。特别地,发电机能够用1024x1024尺寸合成高保真图像,完全用卷曲分配。
translated by 谷歌翻译
We propose semantic region-adaptive normalization (SEAN), a simple but effective building block for Generative Adversarial Networks conditioned on segmentation masks that describe the semantic regions in the desired output image. Using SEAN normalization, we can build a network architecture that can control the style of each semantic region individually, e.g., we can specify one style reference image per region. SEAN is better suited to encode, transfer, and synthesize style than the best previous method in terms of reconstruction quality, variability, and visual quality. We evaluate SEAN on multiple datasets and report better quan-titative metrics (e.g. FID, PSNR) than the current state of the art. SEAN also pushes the frontier of interactive image editing. We can interactively edit images by changing segmentation masks or the style for any given region. We can also interpolate styles from two reference images per region. Code: https://github.com/ZPdesu/SEAN .
translated by 谷歌翻译
在本文中,我们提出了一种有效且有效的单级框架(Divergan),根据自然语言描述产生多样化,可粘性和语义一致的图像。 Divergan采用两种新颖的单词级注意模块,即通道关注模块(CAM)和像素 - 注意模块(PAM),这在允许网络允许将较大的权重分配给定句子中的每个单词的重要性与突出字,语义对齐的重要通道和像素。之后,引入了条件自适应实例层归一化(CADailn)以使语言提示嵌入的句子中的语言线索灵活地操纵形状和纹理的变化量,进一步改善视觉语义表示和帮助稳定训练。此外,开发了双剩余结构以保持更多原始的视觉功能,同时允许更深的网络,从而产生更快的收敛速度和更生动的细节。此外,我们建议将完全连接的层插入管道以解决缺乏多样性问题,因为我们观察到致密层会显着提高网络的生成能力,平衡低于之间的权衡尺寸随机潜代码有助于使用高维和文本上下文来强度特征映射的变体和调制模块。在第二个残差块之后插入线性层,实现最佳品种和质量。基准数据集的定性和定量结果都展示了我们的潜水员实现多样性的优越性,而不会损害质量和语义一致性。
translated by 谷歌翻译
交换自动编码器在深层图像操纵和图像到图像翻译中实现了最先进的性能。我们通过基于梯度逆转层引入简单而有效的辅助模块来改善这项工作。辅助模块的损失迫使发电机学会使用全零纹理代码重建图像,从而鼓励结构和纹理信息之间更好地分解。提出的基于属性的转移方法可以在样式传输中进行精致的控制,同时在不使用语义掩码的情况下保留结构信息。为了操纵图像,我们将对象的几何形状和输入图像的一般样式编码为两个潜在代码,并具有实施结构一致性的附加约束。此外,由于辅助损失,训练时间大大减少。提出的模型的优越性在复杂的域中得到了证明,例如已知最先进的卫星图像。最后,我们表明我们的模型改善了广泛的数据集的质量指标,同时通过多模式图像生成技术实现了可比的结果。
translated by 谷歌翻译
我们提出了Vecgan,这是一个图像到图像翻译框架,用于带有可解释潜在方向的面部属性编辑。面部属性编辑任务面临着精确属性编辑的挑战,具有可控的强度和图像的其他属性的保存。对于此目标,我们通过潜在空间分解设计属性编辑,对于每个属性,我们学习了与其他属性正交的线性方向。另一个组件是变化的可控强度,标量值。在我们的框架中,可以通过投影从参考图像中对此标量进行采样或编码。我们的工作灵感来自固定预验证的gan的潜在空间分解作品。但是,尽管这些模型无法进行端到端训练,并难以精确编辑编码的图像,但Vecgan受到了端到端的培训,用于图像翻译任务,并成功地编辑了属性,同时保留了其他属性。我们的广泛实验表明,vecgan对本地和全球编辑的最先进进行了重大改进。
translated by 谷歌翻译
近年来,面部语义指导(包括面部地标,面部热图和面部解析图)和面部生成对抗网络(GAN)近年来已广泛用于盲面修复(BFR)。尽管现有的BFR方法在普通案例中取得了良好的性能,但这些解决方案在面对严重降解和姿势变化的图像时具有有限的弹性(例如,在现实世界情景中看起来右,左看,笑等)。在这项工作中,我们提出了一个精心设计的盲人面部修复网络,具有生成性面部先验。所提出的网络主要由非对称编解码器和stylegan2先验网络组成。在非对称编解码器中,我们采用混合的多路残留块(MMRB)来逐渐提取输入图像的弱纹理特征,从而可以更好地保留原始面部特征并避免过多的幻想。 MMRB也可以在其他网络中插入插件。此外,多亏了StyleGAN2模型的富裕和多样化的面部先验,我们采用了微调的方法来灵活地恢复自然和现实的面部细节。此外,一种新颖的自我监督训练策略是专门设计用于面部修复任务的,以使分配更接近目标并保持训练稳定性。关于合成和现实世界数据集的广泛实验表明,我们的模型在面部恢复和面部超分辨率任务方面取得了卓越的表现。
translated by 谷歌翻译
The introduction of high-quality image generation models, particularly the StyleGAN family, provides a powerful tool to synthesize and manipulate images. However, existing models are built upon high-quality (HQ) data as desired outputs, making them unfit for in-the-wild low-quality (LQ) images, which are common inputs for manipulation. In this work, we bridge this gap by proposing a novel GAN structure that allows for generating images with controllable quality. The network can synthesize various image degradation and restore the sharp image via a quality control code. Our proposed QC-StyleGAN can directly edit LQ images without altering their quality by applying GAN inversion and manipulation techniques. It also provides for free an image restoration solution that can handle various degradations, including noise, blur, compression artifacts, and their mixtures. Finally, we demonstrate numerous other applications such as image degradation synthesis, transfer, and interpolation.
translated by 谷歌翻译