在学习断开分布时,已知生成对抗网络(GAN)面临模型错误指定。实际上,从单峰潜伏分布到断开连接的连续映射是不可能的,因此甘斯一定会在目标分布支持之外生成样品。这提出了一个基本问题:最小化这些领域的衡量标准的潜在空间分区是什么?基于几何测量理论的最新结果,我们证明,最佳甘恩必须将其潜在空间构造为“简单群集” - 一个voronoi分区,其中细胞是凸锥 - 当潜在空间的尺寸大于大于的数量时模式。在此配置中,每个Voronoi单元格映射到数据的不同模式。我们在gan学习断开的歧管的最佳精度上得出了上限和下限。有趣的是,这两个界限具有相同的减小顺序:$ \ sqrt {\ log m} $,$ m $是模式的数量。最后,我们执行了几项实验,以表现出潜在空间的几何形状,并在实验上表明gan具有与理论相似的几何形状。
translated by 谷歌翻译
生成的对抗网络后面的数学力量提高了具有挑战性的理论问题。通过表征产生的分布的几何特性的重要问题,我们在有限的样本和渐近制度中对Wassersein Gans(WGAN)进行了彻底分析。我们研究了潜伏空间是单变量的特定情况,并且不管输出空间的尺寸如何有效。我们特别地显示出用于固定的样本大小,最佳WGAN与连接路径紧密相连,最小化采样点之间的平方欧几里德距离的总和。我们还强调了WGAN能够接近的事实(对于1-Wasserstein距离)目标分布,因为样本大小趋于无穷大,在给定的会聚速率下,并且提供了生成的Lipschitz函数的家族适当地增长。我们在半离散环境中获得了在最佳运输理论上传递新结果。
translated by 谷歌翻译
The ability to automatically estimate the quality and coverage of the samples produced by a generative model is a vital requirement for driving algorithm research. We present an evaluation metric that can separately and reliably measure both of these aspects in image generation tasks by forming explicit, non-parametric representations of the manifolds of real and generated data. We demonstrate the effectiveness of our metric in StyleGAN and BigGAN by providing several illustrative examples where existing metrics yield uninformative or contradictory results. Furthermore, we analyze multiple design variants of StyleGAN to better understand the relationships between the model architecture, training methods, and the properties of the resulting sample distribution. In the process, we identify new variants that improve the state-of-the-art. We also perform the first principled analysis of truncation methods and identify an improved method. Finally, we extend our metric to estimate the perceptual quality of individual samples, and use this to study latent space interpolations.
translated by 谷歌翻译
深度学习在学习高维数据的低维表示方面取得了巨大的成功。如果在感兴趣的数据中没有隐藏的低维结构,那么这一成功将是不可能的。这种存在是由歧管假设提出的,该假设指出数据在于固有维度低的未知流形。在本文中,我们认为该假设无法正确捕获数据中通常存在的低维结构。假设数据在于单个流形意味着整个数据空间的内在维度相同,并且不允许该空间的子区域具有不同数量的变异因素。为了解决这一缺陷,我们提出了多种假设的结合,该假设适应了非恒定固有维度的存在。我们从经验上验证了在常用图像数据集上的这一假设,发现确实应该允许内在维度变化。我们还表明,具有较高内在维度的类更难分类,以及如何使用这种见解来提高分类精度。然后,我们将注意力转移到该假设的影响下,在深层生成模型(DGM)的背景下。当前的大多数DGM都难以建模具有几个连接组件和/或不同固有维度的数据集建模。为了解决这些缺点,我们提出了群集的DGM,首先将数据聚集,然后在每个群集上训练DGM。我们表明,聚类的DGM可以模拟具有不同固有维度的多个连接组件,并在没有增加计算要求的情况下经验优于其非簇的非群体。
translated by 谷歌翻译
有条件的生成模型旨在学习数据和标签的基础联合分布,以实现有条件的数据生成。其中,辅助分类器生成的对抗网络(AC-GAN)已被广泛使用,但遭受了生成样品的阶层内多样性的问题。本文指出的基本原因是,AC-GAN的分类器是生成器 - 静脉器,因此不能为发电机提供接近联合分布的信息指导,从而最小化条件熵,从而减少了阶级内的阶级。多样性。在这种理解的推动下,我们提出了一个具有辅助判别分类器(ADC-GAN)的新型条件gan,以解决上述问题。具体而言,提出的辅助判别分类器通过识别真实数据的类标签和生成的数据而成为生成器感知。我们的理论分析表明,即使没有原始歧视者,发电机也可以忠实地学习联合分布,从而使拟议的ADC-GAN可靠,可适应该系数超参数的价值和GAN损失的选择,并在训练过程中稳定。关于合成和现实世界数据集的广泛实验结果表明,与基于最新的分类器和基于基于投影的条件gan相比,有条件生成建模中ADC-GAN的优势。
translated by 谷歌翻译
我们介绍了用于生成建模的广义能量模型(GEBM)。这些模型组合了两个训练有素的组件:基本分布(通常是隐式模型),可以在高维空间中学习具有低固有尺寸的数据的支持;和能量功能,优化学习支持的概率质量。能量函数和基座都共同构成了最终模型,与GANS不同,它仅保留基本分布(“发电机”)。通过在学习能量和基础之间交替进行培训GEBMS。我们表明,两种培训阶段都明确定义:通过最大化广义可能性来学习能量,并且由此产生的能源的损失提供了学习基础的信息梯度。可以通过MCMC获得来自训练模型的潜在空间的后部的样品,从而在该空间中找到产生更好的质量样本的区域。经验上,图像生成任务上的GEBM样本比来自学习发电机的图像更好,表明所有其他相同,GEBM将优于同样复杂性的GAN。当使用归一化流作为基础测量时,GEBMS成功地启动密度建模任务,返回相当的性能以直接相同网络的最大可能性。
translated by 谷歌翻译
有条件的生成对抗网络(CGANS)在课堂条件生成任务中显示出卓越的结果。为了同时控制多个条件,CGAN需要多标签训练数据集,其中可以将多个标签分配给每个数据实例。然而,巨大的注释成本限制了在现实世界中多标签数据集的可访问性。因此,我们探索称为单个正设置的实用设置,其中每个数据实例仅由一个没有明确的负标签的一个正标记。为了在单个正面设置中生成多标签数据,我们提出了一种基于马尔可夫链蒙特卡洛方法的新型抽样方法,称为单一标记(S2M)采样。作为一种广泛适用的“附加”方法,我们提出的S2M采样使现有的无条件和有条件的gans能够以最小的注释成本绘制高质量的多标签数据。在真实图像数据集上进行的广泛实验可以验证我们方法的有效性和正确性,即使与经过完全注释的数据集训练的模型相比。
translated by 谷歌翻译
基于能量的模型(EBMS)为密度估计提供了优雅的框架,但它们难以训练。最近的工作已经建立了与生成的对抗网络的联系,eBM通过具有变分值函数的最小游戏培训。我们提出了EBM Log-似然的双向界限,使得我们最大限度地提高了较低的界限,并在解决Minimax游戏时最小化上限。我们将一个绑定到梯度惩罚的一个稳定,稳定培训,从而提供最佳工程实践的基础。为了评估界限,我们开发了EBM发生器的Jacobi确定的新的高效估算器。我们证明这些发展显着稳定培训并产生高质量密度估计和样品生成。
translated by 谷歌翻译
许多生成模型通过使用确定性神经网络转换标准高斯随机变量来合成数据。这些模型包括变异自动编码器和生成对抗网络。在这项工作中,我们称它们为“推动”模型并研究其表现力。我们表明,这些生成网络的Lipschitz常数必须很大才能拟合多模式分布。更确切地说,我们表明,生成的和数据分布之间的总变化距离和kullback-leibler差异是根据模式分离和Lipschitz常数从下面界定的。由于限制神经网络的Lipschitz常数是稳定生成模型的一种常见方法,因此推动向前模型近似多模式分布的能力与训练的稳定性之间存在可证明的权衡。我们在一维和图像数据集上验证了我们的发现,并从经验上表明,在每个步骤中具有随机输入的堆叠网络组成的生成模型,例如扩散模型不会受到此类限制。
translated by 谷歌翻译
在这项工作中,我们对香草生成的对抗网络(GAN)的非渐近性质进行了彻底的研究。We derive theoretical guarantees for the density estimation with GANs under a proper choice of the deep neural networks classes representing generators and discriminators.特别是,我们证明了由此产生的估计会聚到真实密度$ \ mathsf {p} ^ * $以jensen-shannon(js)以$(\ log {n} / n)^ {2 \Beta /(2 \ beta + d)} $ why $ n $是样本大小和$ \ beta $ commentines $ \ mathsf {p} ^ * $的平滑度。据我们所知,这是使用Vanilla Gans的浓度估计的文献中的第一个结果,这些融合率比N ^ { - 1/2} $更快地在政权$ \ beta> D / 2 $中。此外,我们表明所获得的速率是考虑的密度类别的最低限度最佳(最高因子因子)。
translated by 谷歌翻译
生成的对抗网络(GAN)在无监督学习方面取得了巨大的成功。尽管具有显着的经验表现,但关于gan的统计特性的理论研究有限。本文提供了gan的近似值和统计保证,以估算具有H \“ {o} lder空间密度的数据分布。我们的主要结果表明,如果正确选择了生成器和鉴别器网络架构,则gan是一致的估计器在较强的差异指标下的数据分布(例如Wasserstein-1距离。 ,这不受环境维度的诅咒。我们对低维数据的分析基于具有Lipschitz连续性保证的神经网络的通用近似理论,这可能具有独立的兴趣。
translated by 谷歌翻译
We introduce a new algorithm named WGAN, an alternative to traditional GAN training. In this new model, we show that we can improve the stability of learning, get rid of problems like mode collapse, and provide meaningful learning curves useful for debugging and hyperparameter searches. Furthermore, we show that the corresponding optimization problem is sound, and provide extensive theoretical work highlighting the deep connections to different distances between distributions.
translated by 谷歌翻译
现代生成模型大致分为两个主要类别:(1)可以产生高质量随机样品但无法估算新数据点的确切密度的模型,以及(2)提供精确密度估计的模型,以样本为代价潜在空间的质量和紧凑性。在这项工作中,我们提出了LED,这是一种与gan密切相关的新生成模型,不仅允许有效采样,而且允许有效的密度估计。通过最大程度地提高对数可能的歧视器输出,我们得出了一个替代对抗优化目标,鼓励生成的数据多样性。这种表述提供了对几种流行生成模型之间关系的见解。此外,我们构建了一个基于流的生成器,该发电机可以计算生成样品的精确概率,同时允许低维度变量作为输入。我们在各种数据集上的实验结果表明,我们的密度估计器会产生准确的估计值,同时保留了生成的样品质量良好。
translated by 谷歌翻译
Deep neural networks can approximate functions on different types of data, from images to graphs, with varied underlying structure. This underlying structure can be viewed as the geometry of the data manifold. By extending recent advances in the theoretical understanding of neural networks, we study how a randomly initialized neural network with piece-wise linear activation splits the data manifold into regions where the neural network behaves as a linear function. We derive bounds on the density of boundary of linear regions and the distance to these boundaries on the data manifold. This leads to insights into the expressivity of randomly initialized deep neural networks on non-Euclidean data sets. We empirically corroborate our theoretical results using a toy supervised learning problem. Our experiments demonstrate that number of linear regions varies across manifolds and the results hold with changing neural network architectures. We further demonstrate how the complexity of linear regions is different on the low dimensional manifold of images as compared to the Euclidean space, using the MetFaces dataset.
translated by 谷歌翻译
这项工作提出了一种新的计算框架,用于学习用于真实数据集的明确生成模型。特别地,我们建议在包含多个独立的多维线性子空间组成的特征空间中的多类多维数据分发和{线性判别表示(LDR)}之间学习{\ EM闭环转录}。特别地,我们认为寻求的最佳编码和解码映射可以被配制为编码器和解码器之间的{\ em二手最小游戏的均衡点}。该游戏的自然实用功能是所谓的{\ em速率减少},这是一个简单的信息定理措施,用于特征空间中子空间类似的高斯的混合物之间的距离。我们的配方利用来自控制系统的闭环误差反馈的灵感,避免昂贵的评估和最小化数据空间或特征空间的任意分布之间的近似距离。在很大程度上,这种新的制定统一了自动编码和GaN的概念和益处,并自然将它们扩展到学习多级和多维实际数据的判别和生成}表示的设置。我们对许多基准图像数据集的广泛实验表明了这种新的闭环配方的巨大潜力:在公平的比较下,学习的解码器的视觉质量和编码器的分类性能是竞争力的,并且通常比基于GaN,VAE或基于GaN,VAE或基于GaN,VAE的方法更好的方法两者的组合。我们注意到所以,不同类别的特征在特征空间中明确地映射到大约{em独立的主管子空间};每个类中的不同视觉属性由每个子空间中的{\ em独立主体组件}建模。
translated by 谷歌翻译
基于似然或显式的深层生成模型使用神经网络来构建灵活的高维密度。该公式直接与歧管假设相矛盾,该假设指出,观察到的数据位于嵌入高维环境空间中的低维歧管上。在本文中,我们研究了在这种维度不匹配的情况下,最大可能的训练的病理。我们正式证明,在学习歧管本身而不是分布的情况下,可以实现堕落的优点,而我们称之为多种歧视的现象过于拟合。我们提出了一类两步程序,该过程包括降低降低步骤,然后进行最大样子密度估计,并证明它们在非参数方面恢复了数据生成分布,从而避免了多种歧视。我们还表明,这些过程能够对隐式模型(例如生成对抗网络)学到的流形进行密度估计,从而解决了这些模型的主要缺点。最近提出的几种方法是我们两步程序的实例。因此,我们统一,扩展和理论上证明了一大批模型。
translated by 谷歌翻译
我们研究了GaN调理问题,其目标是使用标记数据将普雷雷尼的无条件GaN转换为条件GaN。我们首先识别并分析这一问题的三种方法 - 从头开始​​,微调和输入重新编程的条件GaN培训。我们的分析表明,当标记数据的数量很小时,输入重新编程执行最佳。通过稀缺标记数据的现实世界情景,我们专注于输入重编程方法,并仔细分析现有算法。在识别出先前输入重新编程方法的一些关键问题之后,我们提出了一种名为INREP +的新算法。我们的算法INREP +解决了现有问题,具有可逆性神经网络的新颖用途和正面未标记(PU)学习。通过广泛的实验,我们表明Inrep +优于所有现有方法,特别是当标签信息稀缺,嘈杂和/或不平衡时。例如,对于用1%标记数据调节CiFar10 GaN的任务,Inrep +实现了82.13的平均峰值,而第二个最佳方法达到114.51。
translated by 谷歌翻译
速率 - 失真(R-D)函数,信息理论中的关键数量,其特征在于,通过任何压缩算法,通过任何压缩算法将数据源可以压缩到保真标准的基本限制。随着研究人员推动了不断提高的压缩性能,建立给定数据源的R-D功能不仅具有科学的兴趣,而且还在可能的空间上揭示了改善压缩算法的可能性。以前的解决此问题依赖于数据源上的分布假设(Gibson,2017)或仅应用于离散数据。相比之下,本文使得第一次尝试播放常规(不一定是离散的)源仅需要i.i.d的算法的算法。数据样本。我们估计高斯和高尺寸香蕉形源的R-D三明治界,以及GaN生成的图像。我们在自然图像上的R-D上限表示在各种比特率的PSNR中提高最先进的图像压缩方法的性能的空间。
translated by 谷歌翻译
我们提出了一种具有多个鉴别器的生成的对抗性网络,其中每个鉴别者都专门用于区分真实数据集的子集。这种方法有助于学习与底层数据分布重合的发电机,从而减轻慢性模式崩溃问题。从多项选择学习的灵感来看,我们引导每个判别者在整个数据的子集中具有专业知识,并允许发电机在没有监督训练示例和鉴别者的数量的情况下自动找到潜伏和真实数据空间之间的合理对应关系。尽管使用多种鉴别器,但骨干网络在鉴别器中共享,并且培训成本的增加最小化。我们使用多个评估指标展示了我们算法在标准数据集中的有效性。
translated by 谷歌翻译
Recent advances in generative modeling have led to an increased interest in the study of statistical divergences as means of model comparison. Commonly used evaluation methods, such as the Fréchet Inception Distance (FID), correlate well with the perceived quality of samples and are sensitive to mode dropping. However, these metrics are unable to distinguish between different failure cases since they only yield one-dimensional scores. We propose a novel definition of precision and recall for distributions which disentangles the divergence into two separate dimensions. The proposed notion is intuitive, retains desirable properties, and naturally leads to an efficient algorithm that can be used to evaluate generative models. We relate this notion to total variation as well as to recent evaluation metrics such as Inception Score and FID. To demonstrate the practical utility of the proposed approach we perform an empirical study on several variants of Generative Adversarial Networks and Variational Autoencoders. In an extensive set of experiments we show that the proposed metric is able to disentangle the quality of generated samples from the coverage of the target distribution.
translated by 谷歌翻译