有条件的生成对抗性网络(CGANS)是隐式生成模型,允许从类条件分布中进行采样。现有的CGANS基于各种不同的不同鉴别器设计和培训目标。早期作品中的一个流行的设计是在培训期间包括分类器,假设良好的分类器可以帮助消除使用错误类生成的样本。然而,包括CGANs的分类器通常具有仅产生易于分类的样本的副作用。最近,一些代表性的CGANS避免了缺点和达到最先进的表现而没有分类器。不知何故,它仍然未解决分类器是否可以复活以设计更好的CGANS。在这项工作中,我们证明可以正确利用分类器来改善CGANS。我们首先使用联合概率分布的分解来将CGANS的目标连接为统一框架。该框架以及经典能源模型与参数化分配,以原则方式为CGANS的分类器的使用证明了对标准的。它解释了几种流行的Cgan变体,例如acgan,projgan和contragan,作为具有不同近似水平的特殊情况,这提供了统一的观点,并为理解CGAN带来了新的见解。实验结果表明,由所提出的框架灵感的设计优于多个基准数据集上的最先进的CGAN,特别是在最具挑战性的想象中。该代码可在https://github.com/sian-chen/pytorch-ecgan获得。
translated by 谷歌翻译
有条件的生成模型旨在学习数据和标签的基础联合分布,以实现有条件的数据生成。其中,辅助分类器生成的对抗网络(AC-GAN)已被广泛使用,但遭受了生成样品的阶层内多样性的问题。本文指出的基本原因是,AC-GAN的分类器是生成器 - 静脉器,因此不能为发电机提供接近联合分布的信息指导,从而最小化条件熵,从而减少了阶级内的阶级。多样性。在这种理解的推动下,我们提出了一个具有辅助判别分类器(ADC-GAN)的新型条件gan,以解决上述问题。具体而言,提出的辅助判别分类器通过识别真实数据的类标签和生成的数据而成为生成器感知。我们的理论分析表明,即使没有原始歧视者,发电机也可以忠实地学习联合分布,从而使拟议的ADC-GAN可靠,可适应该系数超参数的价值和GAN损失的选择,并在训练过程中稳定。关于合成和现实世界数据集的广泛实验结果表明,与基于最新的分类器和基于基于投影的条件gan相比,有条件生成建模中ADC-GAN的优势。
translated by 谷歌翻译
条件生成的对抗性网络(CGAN)通过将类信息纳入GaN来生成现实图像。虽然最受欢迎的CGANS是一种辅助分类器GAN,但众所周知,随着数据集中的类别的数量增加,培训acgan正在挑战。偶数还倾向于产生缺乏多样性的容易甲型样本。在本文中,我们介绍了两种治疗方法。首先,我们识别分类器中的梯度爆炸可能会导致早期训练中的不良崩溃,并将输入向量投影到单元间隔子上可以解决问题。其次,我们提出了数据到数据跨熵丢失(D2D-CE)来利用类标记的数据集中的关系信息。在这个基础上,我们提出了重新启动的辅助分类器生成对抗网络(Reacgan)。实验结果表明,Reacgan在CIFAR10,微小想象成,CUB200和Imagenet数据集上实现了最先进的生成结果。我们还验证了来自可分辨率的增强的ReacanggaN的利益,以及D2D-CE与Stylegan2架构协调。模型权重和提供代表性CGANS实现的软件包和我们纸上的所有实验都可以在https://github.com/postech-cvlab/pytorch-studiogan获得。
translated by 谷歌翻译
有条件的生成对抗网络(CGANs)将标准无条件GaN框架扩展到学习样本的联合数据标签分布,并已建立为能够产生高保真图像的强大生成模型。这种模型的训练挑战在于将课程信息恰当地注入到其发电机和鉴别器中。对于鉴别器,可以通过(1)直接将标签作为输入或(2)涉及辅助分类损失的标签来实现类调节。在本文中,我们表明前者直接对齐类条件的假和实际数据分布$ p(\ text {image} | \ text {class})$({\ EM数据匹配}),而后者对齐数据调节类分布$ p(\ text {class} | \ text {image})$({\ EM标签匹配})。虽然类别可分离性并不直接转化为样本质量,并且如果分类本身是本质上困难的话,如果不同类别的特征映射到同一点,则不能为发电机提供有用的指导,因此可以为同一点映射并因此变得不可分割。通过这种直觉激励,我们提出了一种双重投影GaN(P2Gan)模型,它学会在{\ EM数据匹配}和{\ EM标签匹配}之间平衡。然后,我们提出了一种改进的Cgan模型,通过辅助分类,通过最大限度地减少$ F $ -divergence,通过辅助分类直接对准假和实际条件$ p(\ text {class} | \ text {image})$。高斯(MOG)数据集的合成混合物和各种现实世界数据集的实验,包括CIFAR100,ImageNet和Vggface2,证明了我们所提出的模型的功效。
translated by 谷歌翻译
最近,基于转换的自我监督学习已经应用于生成的对抗性网络(GANS),通过引入静止学习环境来缓解争夺者中的灾难性遗忘。然而,现有的自我监督GAN中的单独自我监督任务导致目标不一致,因为它们的自我监督分类器对发电机分配不可知。为了解决这个问题,我们提出了一种新颖的自我监督GaN,通过自我监督通过数据转换增强GaN标签(真实或假),将GaN任务统一了GAN任务。具体地,原始鉴别器和自我监督分类器统一到标签增强的鉴别器中,预测增强标签要知道每个转换下的发电机分配和数据分布,然后提供它们之间的差异以优化发电机。从理论上讲,我们证明了最佳发生器可以收敛以复制实际数据分布。凭经验,我们表明,该方法显着优异地优于先前的自我监督和数据增强GAN在基准数据集中的生成建模和代表学习。
translated by 谷歌翻译
我们研究了GaN调理问题,其目标是使用标记数据将普雷雷尼的无条件GaN转换为条件GaN。我们首先识别并分析这一问题的三种方法 - 从头开始​​,微调和输入重新编程的条件GaN培训。我们的分析表明,当标记数据的数量很小时,输入重新编程执行最佳。通过稀缺标记数据的现实世界情景,我们专注于输入重编程方法,并仔细分析现有算法。在识别出先前输入重新编程方法的一些关键问题之后,我们提出了一种名为INREP +的新算法。我们的算法INREP +解决了现有问题,具有可逆性神经网络的新颖用途和正面未标记(PU)学习。通过广泛的实验,我们表明Inrep +优于所有现有方法,特别是当标签信息稀缺,嘈杂和/或不平衡时。例如,对于用1%标记数据调节CiFar10 GaN的任务,Inrep +实现了82.13的平均峰值,而第二个最佳方法达到114.51。
translated by 谷歌翻译
生成对抗网络(GAN)是最受欢迎的图像生成模型,在各种计算机视觉任务上取得了显着进度。但是,训练不稳定仍然是所有基于GAN的算法的开放问题之一。已经提出了许多方法来稳定gan的训练,其重点分别放在损失功能,正则化和归一化技术,训练算法和模型体系结构上。与上述方法不同,在本文中,提出了有关稳定gan训练的新观点。发现有时发电机产生的图像在训练过程中像歧视者的对抗示例一样,这可能是导致gan不稳定训练的原因的一部分。有了这一发现,我们提出了直接的对抗训练(DAT)方法来稳定gan的训练过程。此外,我们证明DAT方法能够适应歧视器的Lipschitz常数。 DAT的高级性能在多个损失功能,网络体系结构,超参数和数据集上进行了验证。具体而言,基于SSGAN的CIFAR-100无条件生成,DAT在CIFAR-100的无条件生成上实现了11.5%的FID,基于SSGAN的STL-10无条件生成的FID和基于SSGAN的LSUN卧室无条件生成的13.2%FID。代码将在https://github.com/iceli1007/dat-gan上找到
translated by 谷歌翻译
我们提出了一种具有多个鉴别器的生成的对抗性网络,其中每个鉴别者都专门用于区分真实数据集的子集。这种方法有助于学习与底层数据分布重合的发电机,从而减轻慢性模式崩溃问题。从多项选择学习的灵感来看,我们引导每个判别者在整个数据的子集中具有专业知识,并允许发电机在没有监督训练示例和鉴别者的数量的情况下自动找到潜伏和真实数据空间之间的合理对应关系。尽管使用多种鉴别器,但骨干网络在鉴别器中共享,并且培训成本的增加最小化。我们使用多个评估指标展示了我们算法在标准数据集中的有效性。
translated by 谷歌翻译
这是关于生成对抗性网络(GaN),对抗性自身额外的教程和调查纸张及其变体。我们开始解释对抗性学习和香草甘。然后,我们解释了条件GaN和DCGAN。介绍了模式崩溃问题,介绍了各种方法,包括小纤维GaN,展开GaN,Bourgan,混合GaN,D2Gan和Wasserstein GaN,用于解决这个问题。然后,GaN中的最大似然估计与F-GaN,对抗性变分贝叶斯和贝叶斯甘甘相同。然后,我们涵盖了GaN,Infogan,Gran,Lsgan,Enfogan,Gran,Lsgan,Catgan,MMD Gan,Lapgan,Progressive Gan,Triple Gan,Lag,Gman,Adagan,Cogan,逆甘,Bigan,Ali,Sagan,Sagan,Sagan,Sagan,甘肃,甘肃,甘河的插值和评估。然后,我们介绍了GaN的一些应用,例如图像到图像转换(包括Pacchgan,Cyclegan,Deepfacedrawing,模拟GaN,Interactive GaN),文本到图像转换(包括Stackgan)和混合图像特征(包括罚球和mixnmatch)。最后,我们解释了基于对冲学习的AutoEncoders,包括对手AutoEncoder,Pixelgan和隐式AutoEncoder。
translated by 谷歌翻译
We propose a novel, projection based way to incorporate the conditional information into the discriminator of GANs that respects the role of the conditional information in the underlining probabilistic model. This approach is in contrast with most frameworks of conditional GANs used in application today, which use the conditional information by concatenating the (embedded) conditional vector to the feature vectors. With this modification, we were able to significantly improve the quality of the class conditional image generation on ILSVRC2012 (Im-ageNet) 1000-class image dataset from the current state-of-the-art result, and we achieved this with a single pair of a discriminator and a generator. We were also able to extend the application to super-resolution and succeeded in producing highly discriminative super-resolution images. This new structure also enabled high quality category transformation based on parametric functional transformation of conditional batch normalization layers in the generator. The code with Chainer (Tokui et al., 2015), generated images and pretrained models are available at https://github.com/pfnet-research/sngan_projection.
translated by 谷歌翻译
Generative neural samplers are probabilistic models that implement sampling using feedforward neural networks: they take a random input vector and produce a sample from a probability distribution defined by the network weights. These models are expressive and allow efficient computation of samples and derivatives, but cannot be used for computing likelihoods or for marginalization. The generativeadversarial training method allows to train such models through the use of an auxiliary discriminative neural network. We show that the generative-adversarial approach is a special case of an existing more general variational divergence estimation approach. We show that any f -divergence can be used for training generative neural samplers. We discuss the benefits of various choices of divergence functions on training complexity and the quality of the obtained generative models.
translated by 谷歌翻译
基于能量的模型(EBMS)最近成功地代表了少量图像的复杂分布。然而,对它们的抽样需要昂贵的马尔可夫链蒙特卡罗(MCMC)迭代在高维像素空间中缓慢混合。与EBMS不同,变形AutoEncoders(VAES)快速生成样本,并配备潜在的空间,使得数据歧管的快速遍历。然而,VAE倾向于将高概率密度分配到实际数据分布之外的数据空间中的区域,并且经常在产生清晰图像时失败。在本文中,我们提出了VAE的一个共生组成和ebm的vaebm,提供了两个世界的eBM。 VAEBM使用最先进的VAE捕获数据分布的整体模式结构,它依赖于其EBM组件,以明确地从模型中排除非数据样区域并优化图像样本。此外,VAEBM中的VAE组件允许我们通过在VAE的潜空间中重新处理它们来加速MCMC更新。我们的实验结果表明,VAEBM在几个基准图像数据集上以大量边距开辟了最先进的VAES和EBMS。它可以产生高于256 $ \倍的高质量图像,使用短MCMC链。我们还证明了VAEBM提供了完整的模式覆盖范围,并在分配外检测中表现良好。源代码可在https://github.com/nvlabs/vaebm上获得
translated by 谷歌翻译
近年来,生成的对抗网络(GAN)在各种任务和应用中都显示出了令人信服的结果。但是,模式崩溃仍然是gan的关键问题。在本文中,我们提出了一条新型的培训管道,以解决甘恩斯的模式崩溃问题。与现有方法不同,我们建议将鉴别器概括为特征嵌入,并最大程度地提高鉴别器学到的嵌入空间中分布的熵。具体而言,两个正则化术语,即深度局部线性嵌入(DLLE)和深度等距特征映射(疾病),旨在鼓励歧视者学习嵌​​入数据中的结构信息,以便可以是歧视器所学的嵌入空间,可以是可以得到的。形成良好。基于鉴别器支持的良好学习嵌入空间,非参数熵估计量旨在有效地最大化嵌入向量的熵,以最大化生成分布的熵的近似值。通过改善鉴别器并最大化嵌入空间中最相似的样品的距离,我们的管道可有效地减少模式崩溃的情况,而无需牺牲生成的样品的质量。广泛的实验结果表明,我们的方法的有效性超过了GAN基线,MAF-GAN在Celeba上(9.13 vs. 12.43),超过了最新的基于动漫的能量模型(Anime-Face DataSet( 2.80 vs. 2.26的成立得分)。
translated by 谷歌翻译
有条件的生成对抗网络(CGANS)在课堂条件生成任务中显示出卓越的结果。为了同时控制多个条件,CGAN需要多标签训练数据集,其中可以将多个标签分配给每个数据实例。然而,巨大的注释成本限制了在现实世界中多标签数据集的可访问性。因此,我们探索称为单个正设置的实用设置,其中每个数据实例仅由一个没有明确的负标签的一个正标记。为了在单个正面设置中生成多标签数据,我们提出了一种基于马尔可夫链蒙特卡洛方法的新型抽样方法,称为单一标记(S2M)采样。作为一种广泛适用的“附加”方法,我们提出的S2M采样使现有的无条件和有条件的gans能够以最小的注释成本绘制高质量的多标签数据。在真实图像数据集上进行的广泛实验可以验证我们方法的有效性和正确性,即使与经过完全注释的数据集训练的模型相比。
translated by 谷歌翻译
为了稳定地训练生成对抗网络(GAN),将实例噪声注入歧视器的输入中被认为是理论上的声音解决方案,但是,在实践中尚未实现其承诺。本文介绍了采用高斯混合物分布的扩散 - 在正向扩散链的所有扩散步骤中定义,以注入实例噪声。从观察到或生成的数据扩散的混合物中的随机样品被作为歧视器的输入。通过将其梯度通过前向扩散链进行反向传播来更新,该链的长度可自适应地调节以控制每个训练步骤允许的最大噪声与数据比率。理论分析验证了所提出的扩散gan的声音,该扩散器提供了模型和域 - 不可分割的可区分增强。在各种数据集上进行的一系列实验表明,扩散 - GAN可以提供稳定且具有数据效率的GAN训练,从而使对强GAN基准的性能保持一致,以综合构成照片现实的图像。
translated by 谷歌翻译
深尾学习旨在培训有用的深层网络,以实用现实世界中的不平衡分布,其中大多数尾巴类别的标签都与一些样本相关联。有大量的工作来训练判别模型,以进行长尾分布的视觉识别。相比之下,我们旨在训练有条件的生成对抗网络,这是一类长尾分布的图像生成模型。我们发现,类似于识别图像产生的最新方法类似,也遭受了尾部类别的性能降解。性能降解主要是由于尾部类别的类别模式塌陷,我们观察到与调节参数矩阵的光谱爆炸相关。我们提出了一种新型的组光谱正规剂(GSR),以防止光谱爆炸减轻模式崩溃,从而导致尾巴类别的形象产生多样化和合理的图像产生。我们发现GSR有效地与现有的增强和正则化技术结合在一起,从而导致长尾数据上的最新图像生成性能。广泛的实验证明了我们的常规器在不同程度不平衡的长尾数据集上的功效。
translated by 谷歌翻译
我们研究了一种基于对抗性训练(AT)的学习基于能量的模型(EBM)的新方法。我们表明(二进制)学习一种特殊的能量功能,可以模拟数据分布的支持,并且学习过程与基于MCMC的EBM的最大似然学习密切相关。我们进一步提出了改进的与AT生成建模的技术,并证明这种新方法能够产生多样化和现实的图像。除了具有竞争性的图像生成性能到明确的EBM外,研究的方法还可以稳定训练,非常适合图像翻译任务,并且表现出强大的分布外对抗性鲁棒性。我们的结果证明了AT生成建模方法的生存能力,表明AT是学习EBM的竞争性替代方法。
translated by 谷歌翻译
基于能量的模型(EBMS)为密度估计提供了优雅的框架,但它们难以训练。最近的工作已经建立了与生成的对抗网络的联系,eBM通过具有变分值函数的最小游戏培训。我们提出了EBM Log-似然的双向界限,使得我们最大限度地提高了较低的界限,并在解决Minimax游戏时最小化上限。我们将一个绑定到梯度惩罚的一个稳定,稳定培训,从而提供最佳工程实践的基础。为了评估界限,我们开发了EBM发生器的Jacobi确定的新的高效估算器。我们证明这些发展显着稳定培训并产生高质量密度估计和样品生成。
translated by 谷歌翻译
扩散降级概率模型(DDPM)和视觉变压器(VIT)分别在生成任务和判别任务中表现出重大进展,到目前为止,这些模型已在其自身领域中很大程度上开发出来。在本文中,我们通过将VIT结构集成到DDPM之间,建立DDPM和VIT之间的直接联系,并引入一种称为“生成Vit(Genvit)”的新生成模型。VIT的建模灵活性使我们能够将Genvit进一步扩展到混合判别生成建模,并引入混合VIT(HYBVIT)。我们的工作是最早探索单个VIT以共同探索图像生成和分类的人之一。我们进行了一系列实验,以分析提出的模型的性能,并证明它们在生成和判别任务中都超过了先前的最新技术。我们的代码和预培训模型可以在https://github.com/sndnyang/diffusion_vit中找到。
translated by 谷歌翻译
具有集群潜在空间的生成对抗网络(GANS)可以以完全无监督的方式执行条件生成。在现实世界中,未标记数据的突出属性可能是不平衡的。但是,现有的大多数无监督的条件GAN不能正确地将这些数据的群集属于它们的潜在空间,因为它们假设属性的均匀分布。为了解决这个问题,我们理论上派生的斯坦潜在优化,提供了在连续潜在空间中之前的高斯混合物的潜在分布参数的重新传播参数的梯度估计。在结构上,我们引入了编码器网络和新颖的无监督条件对比丢失,以确保从单个混合组件生成的数据表示单个属性。我们确认,即使在没有属性信息的情况下。此外,我们证明可以使用少量探测数据来操纵所学习的属性。
translated by 谷歌翻译