The performance of generative adversarial networks (GANs) heavily deteriorates given a limited amount of training data. This is mainly because the discriminator is memorizing the exact training set. To combat it, we propose Differentiable Augmentation (DiffAugment), a simple method that improves the data efficiency of GANs by imposing various types of differentiable augmentations on both real and fake samples. Previous attempts to directly augment the training data manipulate the distribution of real images, yielding little benefit; DiffAugment enables us to adopt the differentiable augmentation for the generated samples, effectively stabilizes training, and leads to better convergence. Experiments demonstrate consistent gains of our method over a variety of GAN architectures and loss functions for both unconditional and class-conditional generation. With DiffAugment, we achieve a state-of-the-art FID of 6.80 with an IS of 100.8 on ImageNet 128×128 and 2-4× reductions of FID given 1,000 images on FFHQ and LSUN. Furthermore, with only 20% training data, we can match the top performance on CIFAR-10 and CIFAR-100. Finally, our method can generate high-fidelity images using only 100 images without pre-training, while being on par with existing transfer learning algorithms. Code is available at https://github.com/mit-han-lab/data-efficient-gans.
translated by 谷歌翻译
Generative Adversarial Networks (GANs) typically suffer from overfitting when limited training data is available. To facilitate GAN training, current methods propose to use data-specific augmentation techniques. Despite the effectiveness, it is difficult for these methods to scale to practical applications. In this work, we present ScoreMix, a novel and scalable data augmentation approach for various image synthesis tasks. We first produce augmented samples using the convex combinations of the real samples. Then, we optimize the augmented samples by minimizing the norms of the data scores, i.e., the gradients of the log-density functions. This procedure enforces the augmented samples close to the data manifold. To estimate the scores, we train a deep estimation network with multi-scale score matching. For different image synthesis tasks, we train the score estimation network using different data. We do not require the tuning of the hyperparameters or modifications to the network architecture. The ScoreMix method effectively increases the diversity of data and reduces the overfitting problem. Moreover, it can be easily incorporated into existing GAN models with minor modifications. Experimental results on numerous tasks demonstrate that GAN models equipped with the ScoreMix method achieve significant improvements.
translated by 谷歌翻译
生成的对抗网络(GANS)通常需要充分的数据进行培训,以综合高保真图像。最近的研究表明,由于鉴别器过度拟合,带有有限数据的培训GAN仍然是强大的,阻碍发电机收敛的根本原因。本文介绍了一种称为自适应伪增强(APA)的新战略,以鼓励发电机与鉴别者之间的健康竞争。作为依赖标准数据增强或模型正则化的现有方法的替代方法,APA通过采用发电机本身增加具有生成图像的真实数据分布来缓解过度装备,这使得判别符号自适应地欺骗鉴别器。广泛的实验证明了APA在降低数据制度中改善合成质量方面的有效性。我们提供了理论分析,以研究我们新培训策略的收敛性和合理性。 APA简单有效。它可以无缝添加到强大的当代GAN,例如Stylegan2,计算成本可忽略不计。
translated by 谷歌翻译
大规模训练的出现产生了强大的视觉识别模型的聚宝盆。然而,传统上以无人监督的方式从划痕训练的生成模型。可以利用来自一大堆预用的视觉模型的集体“知识”来改善GaN培训吗?如果是这样,有这么多的模型可供选择,应该选择哪一个,并且以什么方式最有效?我们发现预磨削的计算机视觉模型可以在鉴别器的集合中使用时显着提高性能。值得注意的是,所选模型的特定子集极大地影响性能。我们提出了一种有效的选择机制,通过探测预训练模型嵌入的实际和假样本之间的线性可分性,选择最准确的模型,并逐步将其添加到鉴别器集合中。有趣的是,我们的方法可以在有限的数据和大规模设置中提高GaN培训。只有10K培训样本,我们的LSUN猫的FID与1.6M图像培训的风格挂牌匹配。在完整的数据集上,我们的方法将FID提高了1.5倍的LSUN猫,教堂和马类的2倍。
translated by 谷歌翻译
Training generative adversarial networks (GAN) using too little data typically leads to discriminator overfitting, causing training to diverge. We propose an adaptive discriminator augmentation mechanism that significantly stabilizes training in limited data regimes. The approach does not require changes to loss functions or network architectures, and is applicable both when training from scratch and when fine-tuning an existing GAN on another dataset. We demonstrate, on several datasets, that good results are now possible using only a few thousand training images, often matching StyleGAN2 results with an order of magnitude fewer images. We expect this to open up new application domains for GANs. We also find that the widely used CIFAR-10 is, in fact, a limited data benchmark, and improve the record FID from 5.59 to 2.42.
translated by 谷歌翻译
生成的对抗网络(GANS)产生高质量的图像,但致力于训练。它们需要仔细正常化,大量计算和昂贵的超参数扫描。我们通过将生成和真实样本投影到固定的预级特征空间中,在这些问题上进行了重要的头路。发现鉴别者无法充分利用来自预押模型的更深层次的特征,我们提出了更有效的策略,可以在渠道和分辨率中混合特征。我们预计的GaN提高了图像质量,样品效率和收敛速度。它与最多一个百万像素的分辨率进一步兼容,并在二十二个基准数据集上推进最先进的FR \'Echet Inception距离(FID)。重要的是,预计的GAN符合先前最低的FID速度快40倍,鉴于相同的计算资源,将壁钟时间从5天切割到不到3小时。
translated by 谷歌翻译
在生成的对抗网络中,改进鉴别器是生成性能的关键组件之一。由于图像分类器偏向纹理和脱扎,提高了准确性,我们调查1)如果判别者被偏见,而且2)如果脱位鉴别者将提高发电表现。实际上,我们发现实证证据证明鉴别者对图像的风格(\ equeg。,纹理和颜色)敏感。作为一个补救措施,我们提出了功能统计混合正常化(FSMR),鼓励鉴别者的预测不变于输入图像的样式。具体地,我们在鉴别者的特征空间中生成原始的混合特征和参考图像,并且我们应用正则化,使得混合特征的预测与原始图像的预测一致。我们进行了广泛的实验,以证明我们的正则化导致对风格的敏感性降低,一致地提高了九个数据集上各种GAN架构的性能。此外,将FSMR添加到最近提出的基于增强的GaN方法进一步提高了图像质量。代码将在线公开提供研究界。
translated by 谷歌翻译
旨在学习具有少量培训数据的生成模型的数据有效gan(DE-GAN)遇到了生成高质量样本的几个挑战。由于数据增强策略在很大程度上已经减轻了训练的不稳定性,因此如何进一步改善De-Gans的生成性能成为热点。最近,对比学习表明,提高了DE-GAN的合成质量的巨大潜力,但相关原则并未得到很好的探索。在本文中,我们对De-Gans中的不同对比度学习策略进行了比较,并确定(i)当前生成性能的瓶颈是潜在空间的不连续性; (ii)与其他对比的学习策略相比,实例扰动可用于潜在空间连续性,从而为De-Gans带来了重大改进。基于这些观察结果,我们提出了FakeClR,该观察只在扰动的假样品上应用对比度学习,并设计了三种相关的训练技术:与噪声​​相关的潜在增强,多样性吸引的排队和排队的遗忘因素。我们的实验结果表明了几乎没有发电和有限数据的新艺术状态。在多个数据集上,与现有DE-GAN相比,Fakeclr获得了15%以上的FID提高。代码可从https://github.com/iceli1007/fakeclr获得。
translated by 谷歌翻译
生成对抗网络(GAN)是现实图像合成的最新生成模型之一。虽然培训和评估GAN变得越来越重要,但当前的GAN研究生态系统并未提供可靠的基准,以始终如一地进行评估。此外,由于GAN实施很少,因此研究人员将大量时间用于重现基线。我们研究了GAN方法的分类法,并提出了一个名为Studiogan的新开源库。 Studiogan支持7种GAN体系结构,9种调理方法,4种对抗损失,13个正则化模块,3个可区分的增强,7个评估指标和5个评估骨干。通过我们的培训和评估协议,我们使用各种数据集(CIFAR10,ImageNet,AFHQV2,FFHQ和Baby/Papa/Granpa-Imagenet)和3个不同的评估骨干(InceptionV3,Swav,Swav和Swin Transformer)提出了大规模的基准。与GAN社区中使用的其他基准不同,我们在统一的培训管道中培训了包括Biggan,stylegan2和stylegan3在内的代表GAN,并使用7个评估指标量化了生成性能。基准测试评估其他尖端生成模型(例如,stylegan-xl,adm,maskgit和rq-transformer)。 Studiogan提供了预先训练的权重的GAN实现,培训和评估脚本。 Studiogan可从https://github.com/postech-cvlab/pytorch-studiogan获得。
translated by 谷歌翻译
深尾学习旨在培训有用的深层网络,以实用现实世界中的不平衡分布,其中大多数尾巴类别的标签都与一些样本相关联。有大量的工作来训练判别模型,以进行长尾分布的视觉识别。相比之下,我们旨在训练有条件的生成对抗网络,这是一类长尾分布的图像生成模型。我们发现,类似于识别图像产生的最新方法类似,也遭受了尾部类别的性能降解。性能降解主要是由于尾部类别的类别模式塌陷,我们观察到与调节参数矩阵的光谱爆炸相关。我们提出了一种新型的组光谱正规剂(GSR),以防止光谱爆炸减轻模式崩溃,从而导致尾巴类别的形象产生多样化和合理的图像产生。我们发现GSR有效地与现有的增强和正则化技术结合在一起,从而导致长尾数据上的最新图像生成性能。广泛的实验证明了我们的常规器在不同程度不平衡的长尾数据集上的功效。
translated by 谷歌翻译
培训有效的生成对抗性网络(GANS)需要大量的培训数据,但是训练型模型通常是用鉴别器过度拟合的次优。通过大规模和手工制作的数据增强,通过扩大有限培训数据的分布来解决此问题的几项问题。我们从一个非常不同的角度处理数据限制图像生成。具体而言,我们设计Genco,这是一种生成的共同培训网络,通过引入多种互补鉴别者来减轻鉴别者过度拟合问题,这些判别符号在培训中提供多种独特的观点来提供不同的监督。我们以两种方式实例化了Genco的想法。首先是重量差异共同训练(WECO),其通过多样化它们的参数共同列举多个独特的鉴别器。第二种方式是数据差异共同训练(DACO),其通过馈送具有输入图像的不同视图的鉴别器(例如,输入图像的不同频率分量)来实现共同训练。在多个基准上进行广泛的实验表明,Genco实现了具有有限培训数据的优异发电。此外,Genco还通过组合时补充了增强方法,并在结合时进行了一致和明确的性能。
translated by 谷歌翻译
有条件图像生成的最新方法受益于密集的监督,例如分割标签图,以实现高保真性。但是,很少探索使用密集的监督进行无条件的图像生成。在这里,我们探讨了密集监督在无条件生成中的功效,找到生成器特征图可以替代成本昂贵的语义标签图。从我们的经验证据来看,我们提出了一种新的生成器引导的鉴别剂正则化(GGDR),其中生成器的特征地图监督了歧视者在无条件生成中具有丰富的语义表示。具体而言,我们采用了一个U-NET架构进行鉴别器,该体系结构经过训练,可以预测发电机特征图作为输入的伪造图像。关于Mulitple数据集的广泛实验表明,我们的GGDR始终在定量和定性方面提高基线方法的性能。代码可从https://github.com/naver-ai/ggdr获得
translated by 谷歌翻译
近年来有条件的GAN已经成熟,并且能够产生高质量的现实形象。但是,计算资源和培训高质量的GAN所需的培训数据是巨大的,因此对这些模型的转移学习的研究是一个紧急话题。在本文中,我们探讨了从高质量预训练的无条件GAN到有条件的GAN的转移。为此,我们提出了基于HyperNetwork的自适应权重调制。此外,我们介绍了一个自我初始化过程,不需要任何真实数据才能初始化HyperNetwork参数。为了进一步提高知识转移的样本效率,我们建议使用自我监督(对比)损失来改善GaN判别者。在广泛的实验中,我们验证了多个标准基准上的Hypernetworks,自我初始化和对比损失的效率。
translated by 谷歌翻译
使用诸如GAN的生成模型产生多样化和现实图像通常需要大量的图像训练。具有极其限制的数据培训的GAN可以容易地覆盖很少的训练样本,并显示出“楼梯”潜在的空间,如潜在空间的过渡存在不连续性,偶尔会产生输出的突然变化。在这项工作中,我们认为我们的兴趣或可转让源数据集没有大规模数据集的情况,并寻求培训具有最小的过度和模式折叠的现有生成模型。我们在发电机和对应鉴别器的特征空间上提出基于潜在的混合距离正则化,这促使这两个玩家不仅仅是关于稀缺观察到的数据点,而且驻留的特征空间中的相对距离。不同数据集的定性和定量评估表明,我们的方法通常适用于现有模型,以在有限数据的约束下提高保真度和多样性。代码将公开。
translated by 谷歌翻译
生成模型的培训尤其是生成的对抗网络可以在低数据设置中轻松分歧。为了减轻这个问题,我们提出了一种新颖的隐含数据增强方法,促进了稳定的培训和综合各种样品。具体地,我们将鉴别者视为真实数据歧管的度量嵌入,它在真实数据点之间提供适当的距离。然后,我们利用特征空间中的信息来开发数据驱动的增强方法。我们进一步提高了一个简单的指标来评估合成样本的多样性。少量发电任务的实验表明,与当前方法相比,我们的方法提高了结果的FID和多样性,并允许使用少于100个训练样本产生高质量和多样化的图像。
translated by 谷歌翻译
组织病理学分析是对癌前病变诊断的本金标准。从数字图像自动组织病理学分类的目标需要监督培训,这需要大量的专家注释,这可能是昂贵且耗时的收集。同时,精确分类从全幻灯片裁剪的图像斑块对于基于标准滑动窗口的组织病理学幻灯片分类方法是必不可少的。为了减轻这些问题,我们提出了一个精心设计的条件GaN模型,即hostogan,用于在类标签上合成现实组织病理学图像补丁。我们还研究了一种新颖的合成增强框架,可选择地添加由我们提出的HADOGAN生成的新的合成图像补丁,而不是直接扩展与合成图像的训练集。通过基于其指定标签的置信度和实际标记图像的特征相似性选择合成图像,我们的框架为合成增强提供了质量保证。我们的模型在两个数据集上进行评估:具有有限注释的宫颈组织病理学图像数据集,以及具有转移性癌症的淋巴结组织病理学图像的另一个数据集。在这里,我们表明利用具有选择性增强的组织产生的图像导致对宫颈组织病理学和转移性癌症数据集分别的分类性能(分别为6.7%和2.8%)的显着和一致性。
translated by 谷歌翻译
我们提出了一种具有多个鉴别器的生成的对抗性网络,其中每个鉴别者都专门用于区分真实数据集的子集。这种方法有助于学习与底层数据分布重合的发电机,从而减轻慢性模式崩溃问题。从多项选择学习的灵感来看,我们引导每个判别者在整个数据的子集中具有专业知识,并允许发电机在没有监督训练示例和鉴别者的数量的情况下自动找到潜伏和真实数据空间之间的合理对应关系。尽管使用多种鉴别器,但骨干网络在鉴别器中共享,并且培训成本的增加最小化。我们使用多个评估指标展示了我们算法在标准数据集中的有效性。
translated by 谷歌翻译
本文提出了一种新颖的卷积层,称为扰动卷积(PCONV),该层侧重于同时实现两个目标:改善生成的对抗网络(GaN)性能并减轻判断者将所有图像从给定数据集记住的记忆问题,因为培训进步。在PCONV中,通过在执行卷积操作之前随机扰乱输入张量来产生扰动特征。这种方法很简单,但令人惊讶地有效。首先,为了产生类似的输出,即使使用扰动的张量,鉴别器中的每层也应该学习具有小本地嘴唇尖端值的鲁棒特征。其次,由于输入张量在培训过程中随机扰乱了神经网络中的辍学时,可以减轻记忆问题。为了展示所提出的方法的泛化能力,我们对各种丢失函数和数据集进行了广泛的实验,包括CIFAR-10,Celeba,Celeba-HQ,LSUN和微型想象成。定量评估表明,在FRECHET成立距离(FID)方面,PCONV有效地提高了GaN和条件GaN的性能。
translated by 谷歌翻译
最近对变形金刚的爆炸利益提出了他们成为计算机视觉任务的强大“通用”模型的潜力,例如分类,检测和分割。虽然这些尝试主要研究歧视模型,但我们探索变压器,更加臭名昭着的难以愿景任务,例如生成的对抗网络(GANS)。我们的目标是通过仅使用纯的变压器的架构,开展一项完全没有卷曲的GAN的试点研究。我们的Vanilla GaN架构被称为Cransgan,包括一个基于内存友好的变换器的发电机,逐渐增加了特征分辨率,并且相应地是多尺度鉴别器来捕获同时语义上下文和低级纹理。在他们之上,我们介绍了新的网格自我关注模块,以便进一步缓解记忆瓶颈,以便扩展到高分辨率的发电。我们还开发了一个独特的培训配方,包括一系列技术,可以减轻转发的培训不稳定问题,例如数据增强,修改的归一化和相对位置编码。与使用卷积骨架的当前最先进的GAN相比,我们最好的建筑达到了竞争力的表现。具体而言,转发在STL-10上设置10.43和18.28的最新的最新成立得分为18.28,表现优于样式。当涉及更高分辨率(例如256 x 256)的生成任务时,例如Celeba-HQ和Lsun-Church,Rancorgan继续生产具有高保真度和令人印象深刻的纹理细节的不同视觉示例。此外,我们通过可视化培训动力学,深入了解基于变压器的生成模型,了解他们的行为如何与卷积的行为。代码可在https://github.com/vita-group/transgan中获得。
translated by 谷歌翻译
条件生成的对抗性网络(CGAN)通过将类信息纳入GaN来生成现实图像。虽然最受欢迎的CGANS是一种辅助分类器GAN,但众所周知,随着数据集中的类别的数量增加,培训acgan正在挑战。偶数还倾向于产生缺乏多样性的容易甲型样本。在本文中,我们介绍了两种治疗方法。首先,我们识别分类器中的梯度爆炸可能会导致早期训练中的不良崩溃,并将输入向量投影到单元间隔子上可以解决问题。其次,我们提出了数据到数据跨熵丢失(D2D-CE)来利用类标记的数据集中的关系信息。在这个基础上,我们提出了重新启动的辅助分类器生成对抗网络(Reacgan)。实验结果表明,Reacgan在CIFAR10,微小想象成,CUB200和Imagenet数据集上实现了最先进的生成结果。我们还验证了来自可分辨率的增强的ReacanggaN的利益,以及D2D-CE与Stylegan2架构协调。模型权重和提供代表性CGANS实现的软件包和我们纸上的所有实验都可以在https://github.com/postech-cvlab/pytorch-studiogan获得。
translated by 谷歌翻译