生成对抗网络(GAN)是使用一组真实示例生成假数据的框架。但是,甘在训练阶段不稳定。为了稳定gan,噪声注入已被用来扩大真实和虚假分布的重叠,而差异为增加。扩散(或平滑)可能会降低数据的固有潜在维度,但它抑制了甘斯在训练程序中学习高频信息的能力。基于这些观察结果,我们为GAN训练(称为嘈杂的尺度空间(NSS))提出了一个数据表示,该数据表示用平衡的噪声将平滑性应用于数据,以通过随机数据替换高频信息,从而导致高频信息。对gan的粗到精细训练。我们基于基于基准数据集的DCGAN和stylegan2尝试NSS,在大多数情况下,基于NSS的GANS的gans优于最先进的方法。
translated by 谷歌翻译
为了稳定地训练生成对抗网络(GAN),将实例噪声注入歧视器的输入中被认为是理论上的声音解决方案,但是,在实践中尚未实现其承诺。本文介绍了采用高斯混合物分布的扩散 - 在正向扩散链的所有扩散步骤中定义,以注入实例噪声。从观察到或生成的数据扩散的混合物中的随机样品被作为歧视器的输入。通过将其梯度通过前向扩散链进行反向传播来更新,该链的长度可自适应地调节以控制每个训练步骤允许的最大噪声与数据比率。理论分析验证了所提出的扩散gan的声音,该扩散器提供了模型和域 - 不可分割的可区分增强。在各种数据集上进行的一系列实验表明,扩散 - GAN可以提供稳定且具有数据效率的GAN训练,从而使对强GAN基准的性能保持一致,以综合构成照片现实的图像。
translated by 谷歌翻译
生成对抗网络(GAN)是最受欢迎的图像生成模型,在各种计算机视觉任务上取得了显着进度。但是,训练不稳定仍然是所有基于GAN的算法的开放问题之一。已经提出了许多方法来稳定gan的训练,其重点分别放在损失功能,正则化和归一化技术,训练算法和模型体系结构上。与上述方法不同,在本文中,提出了有关稳定gan训练的新观点。发现有时发电机产生的图像在训练过程中像歧视者的对抗示例一样,这可能是导致gan不稳定训练的原因的一部分。有了这一发现,我们提出了直接的对抗训练(DAT)方法来稳定gan的训练过程。此外,我们证明DAT方法能够适应歧视器的Lipschitz常数。 DAT的高级性能在多个损失功能,网络体系结构,超参数和数据集上进行了验证。具体而言,基于SSGAN的CIFAR-100无条件生成,DAT在CIFAR-100的无条件生成上实现了11.5%的FID,基于SSGAN的STL-10无条件生成的FID和基于SSGAN的LSUN卧室无条件生成的13.2%FID。代码将在https://github.com/iceli1007/dat-gan上找到
translated by 谷歌翻译
我们提出了一种具有多个鉴别器的生成的对抗性网络,其中每个鉴别者都专门用于区分真实数据集的子集。这种方法有助于学习与底层数据分布重合的发电机,从而减轻慢性模式崩溃问题。从多项选择学习的灵感来看,我们引导每个判别者在整个数据的子集中具有专业知识,并允许发电机在没有监督训练示例和鉴别者的数量的情况下自动找到潜伏和真实数据空间之间的合理对应关系。尽管使用多种鉴别器,但骨干网络在鉴别器中共享,并且培训成本的增加最小化。我们使用多个评估指标展示了我们算法在标准数据集中的有效性。
translated by 谷歌翻译
生成的对抗网络(GANS)能够生成从真实图像视觉无法区分的图像。然而,最近的研究表明,生成和实际图像在频域中共享显着差异。在本文中,我们探讨了高频分量在GAN训练中的影响。根据我们的观察,在大多数GAN的培训期间,严重的高频差异使鉴别器聚焦在过度高频成分上,阻碍了发电机拟合了对学习图像内容很重要的低频分量。然后,我们提出了两个简单但有效的频率操作,以消除由GAN训练的高频差异引起的副作用:高频混淆(HFC)和高频滤波器(HFF)。拟议的操作是一般的,可以应用于大多数现有的GAN,一小部分成本。在多丢失函数,网络架构和数据集中验证了所提出的操作的高级性能。具体而言,拟议的HFF在Celeba(128 * 128)基于SSNGAN的Celeba无条件生成的Celeba(128 * 128)无条件一代,在Celeba无条件一代基于SSGAN的13.2 \%$ 30.2 \%$ 69.3 \%$ 69.3 \%$ FID在Celeba无条件一代基于Infomaxgan。
translated by 谷歌翻译
生成的对抗网络(GANS)产生高质量的图像,但致力于训练。它们需要仔细正常化,大量计算和昂贵的超参数扫描。我们通过将生成和真实样本投影到固定的预级特征空间中,在这些问题上进行了重要的头路。发现鉴别者无法充分利用来自预押模型的更深层次的特征,我们提出了更有效的策略,可以在渠道和分辨率中混合特征。我们预计的GaN提高了图像质量,样品效率和收敛速度。它与最多一个百万像素的分辨率进一步兼容,并在二十二个基准数据集上推进最先进的FR \'Echet Inception距离(FID)。重要的是,预计的GAN符合先前最低的FID速度快40倍,鉴于相同的计算资源,将壁钟时间从5天切割到不到3小时。
translated by 谷歌翻译
我们研究了GaN调理问题,其目标是使用标记数据将普雷雷尼的无条件GaN转换为条件GaN。我们首先识别并分析这一问题的三种方法 - 从头开始​​,微调和输入重新编程的条件GaN培训。我们的分析表明,当标记数据的数量很小时,输入重新编程执行最佳。通过稀缺标记数据的现实世界情景,我们专注于输入重编程方法,并仔细分析现有算法。在识别出先前输入重新编程方法的一些关键问题之后,我们提出了一种名为INREP +的新算法。我们的算法INREP +解决了现有问题,具有可逆性神经网络的新颖用途和正面未标记(PU)学习。通过广泛的实验,我们表明Inrep +优于所有现有方法,特别是当标签信息稀缺,嘈杂和/或不平衡时。例如,对于用1%标记数据调节CiFar10 GaN的任务,Inrep +实现了82.13的平均峰值,而第二个最佳方法达到114.51。
translated by 谷歌翻译
最近,诸如Interovae和S-Introvae之类的内省模型在图像生成和重建任务方面表现出色。内省模型的主要特征是对VAE的对抗性学习,编码器试图区分真实和假(即合成)图像。但是,由于有效度量标准无法评估真实图像和假图像之间的差异,因此后塌陷和消失的梯度问题仍然存在,从而降低了合成图像的保真度。在本文中,我们提出了一种称为对抗性相似性距离内省变化自动编码器(AS-Introvae)的新变体。我们理论上分析了消失的梯度问题,并使用2-Wasserstein距离和内核技巧构建了新的对抗相似性距离(AS-cantance)。随着重量退火,AS-Introvae能够产生稳定和高质量的图像。通过每批次尝试转换图像,以使其更好地适合潜在空间中的先前分布,从而解决了后塌陷问题。与每个图像方法相比,该策略促进了潜在空间中更多样化的分布,从而使我们的模型能够产生巨大的多样性图像。基准数据集的全面实验证明了AS-Introvae对图像生成和重建任务的有效性。
translated by 谷歌翻译
We describe a new training methodology for generative adversarial networks. The key idea is to grow both the generator and discriminator progressively: starting from a low resolution, we add new layers that model increasingly fine details as training progresses. This both speeds the training up and greatly stabilizes it, allowing us to produce images of unprecedented quality, e.g., CELEBA images at 1024 2 . We also propose a simple way to increase the variation in generated images, and achieve a record inception score of 8.80 in unsupervised CIFAR10. Additionally, we describe several implementation details that are important for discouraging unhealthy competition between the generator and discriminator. Finally, we suggest a new metric for evaluating GAN results, both in terms of image quality and variation. As an additional contribution, we construct a higher-quality version of the CELEBA dataset.
translated by 谷歌翻译
生成对抗性网络(甘斯)已经成为对解决图像生成的问题,最常用的网络。自我监督甘斯将在后面提出,以避免鉴相器的灾难性的遗忘,提高图像质量产生不需要的类标签。然而,在不同的GAN架构自检任务概不前研究。为此,我们深入地分析以前提出的自我监督任务的贡献,概背景下DeshuffleGANs的混洗。我们分配混洗的任务,以两种不同的GAN鉴别和研究了这两种体系结构的任务的影响。我们比较各种数据集先前提出的DeshuffleGANs延长评估。我们表明,DeshuffleGAN获得最佳FID结果几个数据集相对于其他自主监督甘斯。此外,我们比较的是首先部署到GAN培训和证明其贡献超过了预测旋转的旋转预测混洗。我们设计的名为cDeshuffleGAN评估了解到表示质量的条件DeshuffleGAN。最后,我们表现出的自我监管任务的损失景观和目前认为这些任务的影响可能不会合作,以在某些环境对抗训练GAN培训的贡献。我们的代码可以在https://github.com/gulcinbaykal/DeshuffleGAN找到。
translated by 谷歌翻译
现代生成的对抗网络(GANS)主要使用判别者(或批评者)中的分段线性激活功能,包括Relu和Leaceryru。这些模型学习分段线性映射,其中每个部分处理输入空间的子集,每个子​​集的梯度​​是分段常数。在这样一类鉴别者(或批评者)函数下,我们呈现梯度标准化(Gran),一种新的输入相关标准化方法,可确保输入空间中的分段k-lipschitz约束。与光谱归一化相比,Gran不约束各个网络层的处理,并且与梯度惩罚不同,严格执行几乎无处不在的分段Lipschitz约束。凭经验,我们展示了多个数据集的改进了图像生成性能(包括Cifar-10/100,STL-10,LSUN卧室和Celeba),GaN丢失功能和指标。此外,我们分析了在几个标准GAN中改变了经常无核的Lipschitz常数K,而不仅仅是实现显着的性能增益,还可以在普通的ADAM优化器中找到K和培训动态之间的连接,特别是在低梯度损失平台之间。
translated by 谷歌翻译
基于得分的生成模型(SGM)是最近提出的深层生成任务范式,现在显示出最新的采样性能。众所周知,原始SGM设计解决了生成三元素的两个问题:i)取样质量,ii)采样多样性。但是,三元素的最后一个问题没有解决,即,众所周知,他们的训练/采样复杂性很高。为此,将SGM蒸馏成更简单的模型,例如生成对抗网络(GAN),目前正在引起很多关注。我们提出了一种增强的蒸馏方法,称为直透插值GAN(SPI-GAN),可以将其与最新的基于快捷方式的蒸馏方法进行比较,称为Denoising扩散GAN(DD-GAN)。但是,我们的方法对应于一种极端方法,该方法不使用反向SDE路径的任何中间快捷方式,在这种情况下,DD-GAN无法获得良好的结果。然而,我们的直径插值方法极大地稳定了整体训练过程。结果,就CIFAR-10,Celeba-HQ-256和Lsun-Church-256的采样质量/多样性/时间而言,SPI-GAN是最佳模型之一。
translated by 谷歌翻译
生成对抗网络(GAN)的最新发展驱动了许多计算机视觉应用。尽管综合质量很高,但训练甘斯经常会面临几个问题,包括非缔合,模式崩溃和梯度消失。有几个解决方法,例如,正规化Lipschitz的连续性和采用Wasserstein距离。尽管这些方法可以部分解决问题,但我们认为这些问题是由于用深神经网络对歧视者建模而引起的。在本文中,我们基于新衍生的深神网络理论,称为神经切线内核(NTK),并提出了一种称为生成对抗性NTK(GA-NTK)的新生成算法。 GA-NTK将鉴别器建模为高斯过程(GP)。借助NTK理论,可以用封闭式公式来描述GA-NTK的训练动力学。为了将数据与封闭形式公式合成,可以将目标简化为单层对抗优化问题。我们在现实世界数据集上进行了广泛的实验,结果表明,GA-NTK可以生成与GAN相当的图像,但在各种条件下训练要容易得多。我们还研究了GA-NTK的当前局限性,并提出了一些解决方法,以使GA-NTK更加实用。
translated by 谷歌翻译
生成的对抗网络(GANS)通常需要充分的数据进行培训,以综合高保真图像。最近的研究表明,由于鉴别器过度拟合,带有有限数据的培训GAN仍然是强大的,阻碍发电机收敛的根本原因。本文介绍了一种称为自适应伪增强(APA)的新战略,以鼓励发电机与鉴别者之间的健康竞争。作为依赖标准数据增强或模型正则化的现有方法的替代方法,APA通过采用发电机本身增加具有生成图像的真实数据分布来缓解过度装备,这使得判别符号自适应地欺骗鉴别器。广泛的实验证明了APA在降低数据制度中改善合成质量方面的有效性。我们提供了理论分析,以研究我们新培训策略的收敛性和合理性。 APA简单有效。它可以无缝添加到强大的当代GAN,例如Stylegan2,计算成本可忽略不计。
translated by 谷歌翻译
Generative Adversarial Networks (GANs) typically suffer from overfitting when limited training data is available. To facilitate GAN training, current methods propose to use data-specific augmentation techniques. Despite the effectiveness, it is difficult for these methods to scale to practical applications. In this work, we present ScoreMix, a novel and scalable data augmentation approach for various image synthesis tasks. We first produce augmented samples using the convex combinations of the real samples. Then, we optimize the augmented samples by minimizing the norms of the data scores, i.e., the gradients of the log-density functions. This procedure enforces the augmented samples close to the data manifold. To estimate the scores, we train a deep estimation network with multi-scale score matching. For different image synthesis tasks, we train the score estimation network using different data. We do not require the tuning of the hyperparameters or modifications to the network architecture. The ScoreMix method effectively increases the diversity of data and reduces the overfitting problem. Moreover, it can be easily incorporated into existing GAN models with minor modifications. Experimental results on numerous tasks demonstrate that GAN models equipped with the ScoreMix method achieve significant improvements.
translated by 谷歌翻译
最近对变形金刚的爆炸利益提出了他们成为计算机视觉任务的强大“通用”模型的潜力,例如分类,检测和分割。虽然这些尝试主要研究歧视模型,但我们探索变压器,更加臭名昭着的难以愿景任务,例如生成的对抗网络(GANS)。我们的目标是通过仅使用纯的变压器的架构,开展一项完全没有卷曲的GAN的试点研究。我们的Vanilla GaN架构被称为Cransgan,包括一个基于内存友好的变换器的发电机,逐渐增加了特征分辨率,并且相应地是多尺度鉴别器来捕获同时语义上下文和低级纹理。在他们之上,我们介绍了新的网格自我关注模块,以便进一步缓解记忆瓶颈,以便扩展到高分辨率的发电。我们还开发了一个独特的培训配方,包括一系列技术,可以减轻转发的培训不稳定问题,例如数据增强,修改的归一化和相对位置编码。与使用卷积骨架的当前最先进的GAN相比,我们最好的建筑达到了竞争力的表现。具体而言,转发在STL-10上设置10.43和18.28的最新的最新成立得分为18.28,表现优于样式。当涉及更高分辨率(例如256 x 256)的生成任务时,例如Celeba-HQ和Lsun-Church,Rancorgan继续生产具有高保真度和令人印象深刻的纹理细节的不同视觉示例。此外,我们通过可视化培训动力学,深入了解基于变压器的生成模型,了解他们的行为如何与卷积的行为。代码可在https://github.com/vita-group/transgan中获得。
translated by 谷歌翻译
过去十年已经开发了各种各样的深度生成模型。然而,这些模型通常同时努力解决三个关键要求,包括:高样本质量,模式覆盖和快速采样。我们称之为这些要求所征收的挑战是生成的学习Trielemma,因为现有模型经常为他人交易其中一些。特别是,去噪扩散模型表明了令人印象深刻的样本质量和多样性,但它们昂贵的采样尚未允许它们在许多现实世界应用中应用。在本文中,我们认为这些模型中的缓慢采样基本上归因于去噪步骤中的高斯假设,这些假设仅针对小型尺寸的尺寸。为了使得具有大步骤的去噪,从而减少去噪步骤的总数,我们建议使用复杂的多模态分布来模拟去噪分布。我们引入了去噪扩散生成的对抗网络(去噪扩散GANS),其使用多模式条件GaN模拟每个去噪步骤。通过广泛的评估,我们表明去噪扩散GAN获得原始扩散模型的样本质量和多样性,而在CIFAR-10数据集中是2000 $ \时代。与传统的GAN相比,我们的模型表现出更好的模式覆盖和样本多样性。据我们所知,去噪扩散GaN是第一模型,可在扩散模型中降低采样成本,以便允许它们廉价地应用于现实世界应用。项目页面和代码:https://nvlabs.github.io/denoising-diffusion-gan
translated by 谷歌翻译
Training generative adversarial networks (GAN) using too little data typically leads to discriminator overfitting, causing training to diverge. We propose an adaptive discriminator augmentation mechanism that significantly stabilizes training in limited data regimes. The approach does not require changes to loss functions or network architectures, and is applicable both when training from scratch and when fine-tuning an existing GAN on another dataset. We demonstrate, on several datasets, that good results are now possible using only a few thousand training images, often matching StyleGAN2 results with an order of magnitude fewer images. We expect this to open up new application domains for GANs. We also find that the widely used CIFAR-10 is, in fact, a limited data benchmark, and improve the record FID from 5.59 to 2.42.
translated by 谷歌翻译
Diffusion models are rising as a powerful solution for high-fidelity image generation, which exceeds GANs in quality in many circumstances. However, their slow training and inference speed is a huge bottleneck, blocking them from being used in real-time applications. A recent DiffusionGAN method significantly decreases the models' running time by reducing the number of sampling steps from thousands to several, but their speeds still largely lag behind the GAN counterparts. This paper aims to reduce the speed gap by proposing a novel wavelet-based diffusion structure. We extract low-and-high frequency components from both image and feature levels via wavelet decomposition and adaptively handle these components for faster processing while maintaining good generation quality. Furthermore, we propose to use a reconstruction term, which effectively boosts the model training convergence. Experimental results on CelebA-HQ, CIFAR-10, LSUN-Church, and STL-10 datasets prove our solution is a stepping-stone to offering real-time and high-fidelity diffusion models. Our code and pre-trained checkpoints will be available at \url{https://github.com/VinAIResearch/WaveDiff.git}.
translated by 谷歌翻译
本文提出了有条件生成对抗性网络(CGANS)的两个重要贡献,以改善利用此架构的各种应用。第一个主要贡献是对CGANS的分析表明它们没有明确条件。特别地,将显示鉴别者和随后的Cgan不会自动学习输入之间的条件。第二种贡献是一种新方法,称为逆时针,该方法通过新颖的逆损失明确地模拟了对抗架构的两部分的条件,涉及培训鉴别者学习无条件(不利)示例。这导致了用于GANS(逆学习)的新型数据增强方法,其允许使用不利示例将发电机的搜索空间限制为条件输出。通过提出概率分布分析,进行广泛的实验以评估判别符的条件。与不同应用的CGAN架构的比较显示了众所周知的数据集的性能的显着改进,包括使用不同度量的不同度量的语义图像合成,图像分割,单眼深度预测和“单个标签” - 图像(FID) ),平均联盟(Miou)交叉口,根均线误差日志(RMSE日志)和统计上不同的箱数(NDB)。
translated by 谷歌翻译