使用诸如GAN的生成模型产生多样化和现实图像通常需要大量的图像训练。具有极其限制的数据培训的GAN可以容易地覆盖很少的训练样本,并显示出“楼梯”潜在的空间,如潜在空间的过渡存在不连续性,偶尔会产生输出的突然变化。在这项工作中,我们认为我们的兴趣或可转让源数据集没有大规模数据集的情况,并寻求培训具有最小的过度和模式折叠的现有生成模型。我们在发电机和对应鉴别器的特征空间上提出基于潜在的混合距离正则化,这促使这两个玩家不仅仅是关于稀缺观察到的数据点,而且驻留的特征空间中的相对距离。不同数据集的定性和定量评估表明,我们的方法通常适用于现有模型,以在有限数据的约束下提高保真度和多样性。代码将公开。
translated by 谷歌翻译
Generative Adversarial Networks (GANs) typically suffer from overfitting when limited training data is available. To facilitate GAN training, current methods propose to use data-specific augmentation techniques. Despite the effectiveness, it is difficult for these methods to scale to practical applications. In this work, we present ScoreMix, a novel and scalable data augmentation approach for various image synthesis tasks. We first produce augmented samples using the convex combinations of the real samples. Then, we optimize the augmented samples by minimizing the norms of the data scores, i.e., the gradients of the log-density functions. This procedure enforces the augmented samples close to the data manifold. To estimate the scores, we train a deep estimation network with multi-scale score matching. For different image synthesis tasks, we train the score estimation network using different data. We do not require the tuning of the hyperparameters or modifications to the network architecture. The ScoreMix method effectively increases the diversity of data and reduces the overfitting problem. Moreover, it can be easily incorporated into existing GAN models with minor modifications. Experimental results on numerous tasks demonstrate that GAN models equipped with the ScoreMix method achieve significant improvements.
translated by 谷歌翻译
Denoising diffusion probabilistic models (DDPMs) have been proven capable of synthesizing high-quality images with remarkable diversity when trained on large amounts of data. However, to our knowledge, few-shot image generation tasks have yet to be studied with DDPM-based approaches. Modern approaches are mainly built on Generative Adversarial Networks (GANs) and adapt models pre-trained on large source domains to target domains using a few available samples. In this paper, we make the first attempt to study when do DDPMs overfit and suffer severe diversity degradation as training data become scarce. Then we propose to adapt DDPMs pre-trained on large source domains to target domains using limited data. Our results show that utilizing knowledge from pre-trained DDPMs can significantly accelerate convergence and improve the quality and diversity of the generated images. Moreover, we propose a DDPM-based pairwise similarity loss to preserve the relative distances between generated samples during domain adaptation. In this way, we further improve the generation diversity of the proposed DDPM-based approaches. We demonstrate the effectiveness of our approaches qualitatively and quantitatively on a series of few-shot image generation tasks and achieve results better than current state-of-the-art GAN-based approaches in quality and diversity.
translated by 谷歌翻译
可以训练生成模型,以从特定域中生成图像,仅由文本提示引导,而不看到任何图像?换句话说:可以将图像生成器“盲目地训练”吗?利用大规模对比语言图像预训练(CLIP)模型的语义力量,我们提出了一种文本驱动方法,允许将生成模型转移到新域,而无需收集单个图像。我们展示通过自然语言提示和几分钟的培训,我们的方法可以通过各种风格和形状的多种域调整发电机。值得注意的是,许多这些修改难以与现有方法达到困难或完全不可能。我们在广泛的域中进行了广泛的实验和比较。这些证明了我们方法的有效性,并表明我们的移动模型保持了对下游任务吸引的生成模型的潜在空间属性。
translated by 谷歌翻译
我们提出了一种具有多个鉴别器的生成的对抗性网络,其中每个鉴别者都专门用于区分真实数据集的子集。这种方法有助于学习与底层数据分布重合的发电机,从而减轻慢性模式崩溃问题。从多项选择学习的灵感来看,我们引导每个判别者在整个数据的子集中具有专业知识,并允许发电机在没有监督训练示例和鉴别者的数量的情况下自动找到潜伏和真实数据空间之间的合理对应关系。尽管使用多种鉴别器,但骨干网络在鉴别器中共享,并且培训成本的增加最小化。我们使用多个评估指标展示了我们算法在标准数据集中的有效性。
translated by 谷歌翻译
近年来有条件的GAN已经成熟,并且能够产生高质量的现实形象。但是,计算资源和培训高质量的GAN所需的培训数据是巨大的,因此对这些模型的转移学习的研究是一个紧急话题。在本文中,我们探讨了从高质量预训练的无条件GAN到有条件的GAN的转移。为此,我们提出了基于HyperNetwork的自适应权重调制。此外,我们介绍了一个自我初始化过程,不需要任何真实数据才能初始化HyperNetwork参数。为了进一步提高知识转移的样本效率,我们建议使用自我监督(对比)损失来改善GaN判别者。在广泛的实验中,我们验证了多个标准基准上的Hypernetworks,自我初始化和对比损失的效率。
translated by 谷歌翻译
这项工作旨在将在一个图像域上预先训练的生成的对抗网络(GaN)转移到新域名,其仅仅是只有一个目标图像。主要挑战是,在有限的监督下,综合照片现实和高度多样化的图像非常困难,同时获取目标的代表性。不同于采用Vanilla微调策略的现有方法,我们分别将两个轻量级模块导入发电机和鉴别器。具体地,我们将属性适配器引入发电机中冻结其原始参数,通过该参数,它可以通过其重复利用现有知识,因此保持合成质量和多样性。然后,我们用一个属性分类器装备了学习良好的鉴别器骨干,以确保生成器从引用中捕获相应的字符。此外,考虑到培训数据的多样性差(即,只有一个图像),我们建议在培训过程中建议在生成域中的多样性限制,减轻优化难度。我们的方法在各种环境下提出了吸引力的结果,基本上超越了最先进的替代方案,特别是在合成多样性方面。明显的是,我们的方法即使具有大域间隙,并且在几分钟内为每个实验提供鲁棒地收敛。
translated by 谷歌翻译
GAN的进展使高分辨率的感性质量形象产生了产生。 stylegans允许通过数学操作对W/W+空间中的潜在样式向量进行数学操作进行引人入胜的属性修改,从而有效调节生成器的丰富层次结构表示。最近,此类操作已被推广到原始StyleGan纸中的属性交换之外,以包括插值。尽管StyleGans有许多重大改进,但仍被认为会产生不自然的图像。生成的图像的质量基于两个假设。 (a)生成器学到的层次表示的丰富性,以及(b)样式空间的线性和平滑度。在这项工作中,我们提出了一个层次的语义正常化程序(HSR),该层次正常化程序将生成器学到的层次表示与大量数据学到的相应的强大功能保持一致。 HSR不仅可以改善发电机的表示,还可以改善潜在风格空间的线性和平滑度,从而导致产生更自然的样式编辑的图像。为了证明线性改善,我们提出了一种新型的度量 - 属性线性评分(ALS)。通过改善感知路径长度(PPL)度量的改善,在不同的标准数据集中平均16.19%的不自然图像的生成显着降低,同时改善了属性编辑任务中属性变化的线性变化。
translated by 谷歌翻译
学习为仅基于几个图像(称为少数图像生成的少数图像)生成新类别的新图像,引起了研究的兴趣。几项最先进的作品取得了令人印象深刻的结果,但多样性仍然有限。在这项工作中,我们提出了一个新型的三角洲生成对抗网络(Deltagan),该网络由重建子网和一代子网组成。重建子网捕获了类别内转换,即“ delta”,在相同类别对之间。生成子网为输入图像生成了特定于样本的“ delta”,该图像与此输入图像结合使用,以在同一类别中生成新图像。此外,对抗性的三角洲匹配损失旨在将上述两个子网链接在一起。在五个少量图像数据集上进行的广泛实验证明了我们提出的方法的有效性。
translated by 谷歌翻译
学习为仅基于几个图像(称为少数图像生成的少数图像)生成新类别的新图像,引起了研究的兴趣。几项最先进的作品取得了令人印象深刻的结果,但多样性仍然有限。在这项工作中,我们提出了一个新型的三角洲生成对抗网络(Deltagan),该网络由重建子网和一代子网组成。重建子网捕获了类别内转换,即同一类别对之间的三角洲。该生成子网为输入图像生成了特定于样本的三角洲,该图像与此输入图像结合使用,以在同一类别中生成新图像。此外,对抗性的三角洲匹配损失旨在将上述两个子网链接在一起。六个基准数据集的广泛实验证明了我们提出的方法的有效性。我们的代码可从https://github.com/bcmi/deltagan-few-shot-image-generation获得。
translated by 谷歌翻译
生成的对抗网络(GANS)产生高质量的图像,但致力于训练。它们需要仔细正常化,大量计算和昂贵的超参数扫描。我们通过将生成和真实样本投影到固定的预级特征空间中,在这些问题上进行了重要的头路。发现鉴别者无法充分利用来自预押模型的更深层次的特征,我们提出了更有效的策略,可以在渠道和分辨率中混合特征。我们预计的GaN提高了图像质量,样品效率和收敛速度。它与最多一个百万像素的分辨率进一步兼容,并在二十二个基准数据集上推进最先进的FR \'Echet Inception距离(FID)。重要的是,预计的GAN符合先前最低的FID速度快40倍,鉴于相同的计算资源,将壁钟时间从5天切割到不到3小时。
translated by 谷歌翻译
当今的生成模型能够综合高保真图像,但是每个模型都专门研究特定的目标域。这增加了模型合并的需求:将两个或多个预贴的生成模型组合到单个统一模型中。在这项工作中,我们解决了模型合并的问题,鉴于在现实世界中经常出现的两个限制:(1)无法访问原始培训数据,并且(2)没有增加神经网络的大小。据我们所知,到目前为止尚未研究在这些约束下合并的模型。我们提出了一种新颖的两阶段解决方案。在第一阶段,我们将所有模型的权重转换为相同的参数空间,通过我们项模型生根的技术。在第二阶段,我们仅使用原始训练的模型生成的数据将其平均重量平均并为每个特定域进行微调来合并。我们证明我们的方法优于基线方法和现有的转移学习技术,并研究了几种应用。
translated by 谷歌翻译
The performance of generative adversarial networks (GANs) heavily deteriorates given a limited amount of training data. This is mainly because the discriminator is memorizing the exact training set. To combat it, we propose Differentiable Augmentation (DiffAugment), a simple method that improves the data efficiency of GANs by imposing various types of differentiable augmentations on both real and fake samples. Previous attempts to directly augment the training data manipulate the distribution of real images, yielding little benefit; DiffAugment enables us to adopt the differentiable augmentation for the generated samples, effectively stabilizes training, and leads to better convergence. Experiments demonstrate consistent gains of our method over a variety of GAN architectures and loss functions for both unconditional and class-conditional generation. With DiffAugment, we achieve a state-of-the-art FID of 6.80 with an IS of 100.8 on ImageNet 128×128 and 2-4× reductions of FID given 1,000 images on FFHQ and LSUN. Furthermore, with only 20% training data, we can match the top performance on CIFAR-10 and CIFAR-100. Finally, our method can generate high-fidelity images using only 100 images without pre-training, while being on par with existing transfer learning algorithms. Code is available at https://github.com/mit-han-lab/data-efficient-gans.
translated by 谷歌翻译
旨在学习具有少量培训数据的生成模型的数据有效gan(DE-GAN)遇到了生成高质量样本的几个挑战。由于数据增强策略在很大程度上已经减轻了训练的不稳定性,因此如何进一步改善De-Gans的生成性能成为热点。最近,对比学习表明,提高了DE-GAN的合成质量的巨大潜力,但相关原则并未得到很好的探索。在本文中,我们对De-Gans中的不同对比度学习策略进行了比较,并确定(i)当前生成性能的瓶颈是潜在空间的不连续性; (ii)与其他对比的学习策略相比,实例扰动可用于潜在空间连续性,从而为De-Gans带来了重大改进。基于这些观察结果,我们提出了FakeClR,该观察只在扰动的假样品上应用对比度学习,并设计了三种相关的训练技术:与噪声​​相关的潜在增强,多样性吸引的排队和排队的遗忘因素。我们的实验结果表明了几乎没有发电和有限数据的新艺术状态。在多个数据集上,与现有DE-GAN相比,Fakeclr获得了15%以上的FID提高。代码可从https://github.com/iceli1007/fakeclr获得。
translated by 谷歌翻译
生成对抗网络(GAN)的适应旨在将预训练的GAN转移到具有有限培训数据的给定领域。在本文中,我们专注于单次案例,这在以前的作品中更具挑战性,很少探索。我们认为,从源域到目标域的适应性可以分为两个部分:全球样式(如纹理和颜色)的转移,以及不属于源域的新实体的出现。虽然先前的作品主要关注样式转移,但我们提出了一个新颖而简洁的框架\ footNote {\ url {https://github.com/thevoidname/generalized-onerized-one-one-shot-gan-adaption}},以解决\ textit {对样式和实体传输的一般性单发适应性}任务,其中提供了参考图像及其二进制实体掩码。我们的核心目标是通过切成薄片的瓦斯坦距离来限制参考文献和合成的内部分布之间的差距。为了更好地实现这一目标,首先使用样式固定来大致获得模范样式,并将辅助网络引入原始生成器以删除实体和样式传输。此外,为了实现跨域的对应关系,我们提出了变异的拉普拉斯正则化以限制适应性发生器的平滑度。定量和定性实验都证明了我们方法在各种情况下的有效性。
translated by 谷歌翻译
有条件图像生成的最新方法受益于密集的监督,例如分割标签图,以实现高保真性。但是,很少探索使用密集的监督进行无条件的图像生成。在这里,我们探讨了密集监督在无条件生成中的功效,找到生成器特征图可以替代成本昂贵的语义标签图。从我们的经验证据来看,我们提出了一种新的生成器引导的鉴别剂正则化(GGDR),其中生成器的特征地图监督了歧视者在无条件生成中具有丰富的语义表示。具体而言,我们采用了一个U-NET架构进行鉴别器,该体系结构经过训练,可以预测发电机特征图作为输入的伪造图像。关于Mulitple数据集的广泛实验表明,我们的GGDR始终在定量和定性方面提高基线方法的性能。代码可从https://github.com/naver-ai/ggdr获得
translated by 谷歌翻译
现有的少量图像生成方法通常在图像或特征级别采用基于融合的策略来生成新图像。但是,以前的方法很难通过细节良好的细节合成高频信号,从而恶化了合成质量。为了解决这个问题,我们提出了Wovegan,这是一种用于几弹图像生成的频率感知模型。具体而言,我们将编码的特征分解为多个频率组件,并执行低频跳过连接以保留轮廓和结构信息。然后,我们通过采用高频跳过连接来减轻发电机综合细节的斗争,从而为发电机提供信息频率信息。此外,我们在生成的图像和真实图像上利用频率L1损失来进一步阻碍频率信息丢失。广泛的实验证明了我们方法在三个数据集上的有效性和进步。值得注意的是,我们以FID 42.17,LPIPS 0.3868,FID 30.35,LPIPS 0.5076和FID 4.96,LPIPS分别为0.3822,在花,动物面和VGGFace上分别为0.3822。 github:https://github.com/kobeshegu/eccv2022_wavegan
translated by 谷歌翻译
生成的对抗网络(GANS)通常需要充分的数据进行培训,以综合高保真图像。最近的研究表明,由于鉴别器过度拟合,带有有限数据的培训GAN仍然是强大的,阻碍发电机收敛的根本原因。本文介绍了一种称为自适应伪增强(APA)的新战略,以鼓励发电机与鉴别者之间的健康竞争。作为依赖标准数据增强或模型正则化的现有方法的替代方法,APA通过采用发电机本身增加具有生成图像的真实数据分布来缓解过度装备,这使得判别符号自适应地欺骗鉴别器。广泛的实验证明了APA在降低数据制度中改善合成质量方面的有效性。我们提供了理论分析,以研究我们新培训策略的收敛性和合理性。 APA简单有效。它可以无缝添加到强大的当代GAN,例如Stylegan2,计算成本可忽略不计。
translated by 谷歌翻译