基于能量的模型(EBMS)为密度估计提供了优雅的框架,但它们难以训练。最近的工作已经建立了与生成的对抗网络的联系,eBM通过具有变分值函数的最小游戏培训。我们提出了EBM Log-似然的双向界限,使得我们最大限度地提高了较低的界限,并在解决Minimax游戏时最小化上限。我们将一个绑定到梯度惩罚的一个稳定,稳定培训,从而提供最佳工程实践的基础。为了评估界限,我们开发了EBM发生器的Jacobi确定的新的高效估算器。我们证明这些发展显着稳定培训并产生高质量密度估计和样品生成。
translated by 谷歌翻译
基于能量的模型(EBMS)最近成功地代表了少量图像的复杂分布。然而,对它们的抽样需要昂贵的马尔可夫链蒙特卡罗(MCMC)迭代在高维像素空间中缓慢混合。与EBMS不同,变形AutoEncoders(VAES)快速生成样本,并配备潜在的空间,使得数据歧管的快速遍历。然而,VAE倾向于将高概率密度分配到实际数据分布之外的数据空间中的区域,并且经常在产生清晰图像时失败。在本文中,我们提出了VAE的一个共生组成和ebm的vaebm,提供了两个世界的eBM。 VAEBM使用最先进的VAE捕获数据分布的整体模式结构,它依赖于其EBM组件,以明确地从模型中排除非数据样区域并优化图像样本。此外,VAEBM中的VAE组件允许我们通过在VAE的潜空间中重新处理它们来加速MCMC更新。我们的实验结果表明,VAEBM在几个基准图像数据集上以大量边距开辟了最先进的VAES和EBMS。它可以产生高于256 $ \倍的高质量图像,使用短MCMC链。我们还证明了VAEBM提供了完整的模式覆盖范围,并在分配外检测中表现良好。源代码可在https://github.com/nvlabs/vaebm上获得
translated by 谷歌翻译
基于似然或显式的深层生成模型使用神经网络来构建灵活的高维密度。该公式直接与歧管假设相矛盾,该假设指出,观察到的数据位于嵌入高维环境空间中的低维歧管上。在本文中,我们研究了在这种维度不匹配的情况下,最大可能的训练的病理。我们正式证明,在学习歧管本身而不是分布的情况下,可以实现堕落的优点,而我们称之为多种歧视的现象过于拟合。我们提出了一类两步程序,该过程包括降低降低步骤,然后进行最大样子密度估计,并证明它们在非参数方面恢复了数据生成分布,从而避免了多种歧视。我们还表明,这些过程能够对隐式模型(例如生成对抗网络)学到的流形进行密度估计,从而解决了这些模型的主要缺点。最近提出的几种方法是我们两步程序的实例。因此,我们统一,扩展和理论上证明了一大批模型。
translated by 谷歌翻译
我们介绍了用于生成建模的广义能量模型(GEBM)。这些模型组合了两个训练有素的组件:基本分布(通常是隐式模型),可以在高维空间中学习具有低固有尺寸的数据的支持;和能量功能,优化学习支持的概率质量。能量函数和基座都共同构成了最终模型,与GANS不同,它仅保留基本分布(“发电机”)。通过在学习能量和基础之间交替进行培训GEBMS。我们表明,两种培训阶段都明确定义:通过最大化广义可能性来学习能量,并且由此产生的能源的损失提供了学习基础的信息梯度。可以通过MCMC获得来自训练模型的潜在空间的后部的样品,从而在该空间中找到产生更好的质量样本的区域。经验上,图像生成任务上的GEBM样本比来自学习发电机的图像更好,表明所有其他相同,GEBM将优于同样复杂性的GAN。当使用归一化流作为基础测量时,GEBMS成功地启动密度建模任务,返回相当的性能以直接相同网络的最大可能性。
translated by 谷歌翻译
基于能量的模型(EBMS)提供灵活的分布参数化。然而,由于难以应变的分隔功能,它们通常通过对比发散培训,以获得最大似然估计。在本文中,我们提出了伪球形对比偏差(PS-CD)来概括eBM的最大似然学习。 PS-CD源自严格适当的同质评分规则系列的最大化,这避免了难以处理分区功能的计算,并提供了包括对比分歧的广义学习目标作为特殊情况。此外,PS-CD允许我们灵活地选择各种学习目标,以便在没有额外的计算成本或变分性最低限度优化的情况下培训EBM。关于合成数据和常用图像数据集的提出方法和广泛实验的理论分析证明了PS-CD的有效性和建模灵活性,以及​​其对数据污染的鲁棒性,从而显示出其最大可能性和$ F $的优势 - ebms。
translated by 谷歌翻译
我们研究了一种基于对抗性训练(AT)的学习基于能量的模型(EBM)的新方法。我们表明(二进制)学习一种特殊的能量功能,可以模拟数据分布的支持,并且学习过程与基于MCMC的EBM的最大似然学习密切相关。我们进一步提出了改进的与AT生成建模的技术,并证明这种新方法能够产生多样化和现实的图像。除了具有竞争性的图像生成性能到明确的EBM外,研究的方法还可以稳定训练,非常适合图像翻译任务,并且表现出强大的分布外对抗性鲁棒性。我们的结果证明了AT生成建模方法的生存能力,表明AT是学习EBM的竞争性替代方法。
translated by 谷歌翻译
近年来,生成的对抗网络(GAN)在各种任务和应用中都显示出了令人信服的结果。但是,模式崩溃仍然是gan的关键问题。在本文中,我们提出了一条新型的培训管道,以解决甘恩斯的模式崩溃问题。与现有方法不同,我们建议将鉴别器概括为特征嵌入,并最大程度地提高鉴别器学到的嵌入空间中分布的熵。具体而言,两个正则化术语,即深度局部线性嵌入(DLLE)和深度等距特征映射(疾病),旨在鼓励歧视者学习嵌​​入数据中的结构信息,以便可以是歧视器所学的嵌入空间,可以是可以得到的。形成良好。基于鉴别器支持的良好学习嵌入空间,非参数熵估计量旨在有效地最大化嵌入向量的熵,以最大化生成分布的熵的近似值。通过改善鉴别器并最大化嵌入空间中最相似的样品的距离,我们的管道可有效地减少模式崩溃的情况,而无需牺牲生成的样品的质量。广泛的实验结果表明,我们的方法的有效性超过了GAN基线,MAF-GAN在Celeba上(9.13 vs. 12.43),超过了最新的基于动漫的能量模型(Anime-Face DataSet( 2.80 vs. 2.26的成立得分)。
translated by 谷歌翻译
在概率密度范围内相对于Wassersein度量的空间的梯度流程通常具有很好的特性,并且已在几种机器学习应用中使用。计算Wasserstein梯度流量的标准方法是有限差异,使网格上的基础空间离散,并且不可扩展。在这项工作中,我们提出了一种可扩展的近端梯度型算法,用于Wassersein梯度流。我们的方法的关键是目标函数的变分形式,这使得可以通过引流 - 双重优化实现JKO近端地图。可以通过替代地更新内部和外环中的参数来有效地解决该原始问题。我们的框架涵盖了包括热方程和多孔介质方程的所有经典Wasserstein梯度流。我们展示了若干数值示例的算法的性能和可扩展性。
translated by 谷歌翻译
归一化流量是具有易于易变量的神经网络的可逆性网络,其允许通过最大可能性优化它们的参数来有效地执行。然而,通常假设感兴趣的数据生活在嵌入在高维环境空间中的一些(通常未知)的低维歧管中。结果是自建设中以来的建模不匹配 - 可逆性要求意味着学习分布的高维支持。注射流量,从低到高维空间的映射,旨在通过学习歧管的分布来解决这种差异,但是由此产生的体积变化术语变得更具挑战性。目前方法避免完全使用各种启发式计算该术语,或者假设歧管预先已知,因此不广泛适用。相反,我们提出了两种方法来对模型的参数来促进该术语的梯度,依赖于仔细使用来自数值线性代数的自动分化和技术。两种方法都对将其投射到这种歧管上的数据执行端到端非线性歧管学习和密度估计。我们研究了我们所提出的方法之间的权衡,经验验证我们优于更准确地学习歧管和对应的相应分布忽略音量变化术语的优先级,并显示出对分布外检测的有希望的结果。我们的代码可在https://github.com/layer6ai-labs/rectangular-flows中找到。
translated by 谷歌翻译
For distributions $\mathbb{P}$ and $\mathbb{Q}$ with different supports or undefined densities, the divergence $\textrm{D}(\mathbb{P}||\mathbb{Q})$ may not exist. We define a Spread Divergence $\tilde{\textrm{D}}(\mathbb{P}||\mathbb{Q})$ on modified $\mathbb{P}$ and $\mathbb{Q}$ and describe sufficient conditions for the existence of such a divergence. We demonstrate how to maximize the discriminatory power of a given divergence by parameterizing and learning the spread. We also give examples of using a Spread Divergence to train implicit generative models, including linear models (Independent Components Analysis) and non-linear models (Deep Generative Networks).
translated by 谷歌翻译
We introduce a new generative model where samples are produced via Langevin dynamics using gradients of the data distribution estimated with score matching. Because gradients can be ill-defined and hard to estimate when the data resides on low-dimensional manifolds, we perturb the data with different levels of Gaussian noise, and jointly estimate the corresponding scores, i.e., the vector fields of gradients of the perturbed data distribution for all noise levels. For sampling, we propose an annealed Langevin dynamics where we use gradients corresponding to gradually decreasing noise levels as the sampling process gets closer to the data manifold. Our framework allows flexible model architectures, requires no sampling during training or the use of adversarial methods, and provides a learning objective that can be used for principled model comparisons. Our models produce samples comparable to GANs on MNIST, CelebA and CIFAR-10 datasets, achieving a new state-of-the-art inception score of 8.87 on CIFAR-10. Additionally, we demonstrate that our models learn effective representations via image inpainting experiments.
translated by 谷歌翻译
在没有明确或易于处理的可能性的情况下,贝叶斯人经常诉诸于贝叶斯计算(ABC)进行推理。我们的工作基于生成的对抗网络(GAN)和对抗性变分贝叶斯(GAN),为ABC桥接了ABC。 ABC和GAN都比较了观察到的数据和假数据的各个方面,分别从后代和似然模拟。我们开发了一个贝叶斯gan(B-GAN)采样器,该采样器通过解决对抗性优化问题直接靶向后部。 B-GAN是由有条件gan在ABC参考上学习的确定性映射驱动的。一旦训练了映射,就可以通过以可忽略的额外费用过滤噪声来获得IID后样品。我们建议使用(1)数据驱动的提案和(2)变化贝叶斯提出两项后处理的本地改进。我们通过常见的bayesian结果支持我们的发现,表明对于某些神经网络发生器和歧视器,真实和近似后骨之间的典型总变化距离收敛到零。我们对模拟数据的发现相对于一些最新的无可能后验模拟器显示出竞争激烈的性能。
translated by 谷歌翻译
现代生成模型大致分为两个主要类别:(1)可以产生高质量随机样品但无法估算新数据点的确切密度的模型,以及(2)提供精确密度估计的模型,以样本为代价潜在空间的质量和紧凑性。在这项工作中,我们提出了LED,这是一种与gan密切相关的新生成模型,不仅允许有效采样,而且允许有效的密度估计。通过最大程度地提高对数可能的歧视器输出,我们得出了一个替代对抗优化目标,鼓励生成的数据多样性。这种表述提供了对几种流行生成模型之间关系的见解。此外,我们构建了一个基于流的生成器,该发电机可以计算生成样品的精确概率,同时允许低维度变量作为输入。我们在各种数据集上的实验结果表明,我们的密度估计器会产生准确的估计值,同时保留了生成的样品质量良好。
translated by 谷歌翻译
我们开发了一个探索漏洞利用马尔可夫链Monte Carlo算法($ \ OperatorName {ex ^ 2mcmc} $),它结合了多个全局提议和本地移动。所提出的方法是巨大的平行化和极其计算的高效。我们证明$ \ operatorname {ex ^ 2mcmc} $下的$ v $ v $ -unique几何ergodicity在现实条件下,并计算混合速率的显式界限,显示多个全局移动带来的改进。我们展示$ \ operatorname {ex ^ 2mcmc} $允许通过提出依赖全局移动的新方法进行微调剥削(本地移动)和探索(全球移动)。最后,我们开发了一个自适应方案,$ \ OperatorName {Flex ^ 2mcmc} $,它学习使用归一化流的全局动作的分布。我们说明了许多经典采样基准测试的$ \ OperatorName {ex ^ 2mccmc} $及其自适应版本的效率。我们还表明,这些算法提高了对基于能量的模型的抽样GAN的质量。
translated by 谷歌翻译
最近推出的热集成技术已经了解并改善变推理(VI),提供了一个新的框架。在这项工作中,我们提出了热力学变目标(TVO)的仔细分析,弥合现有的变分目标和脱落的新见解,以推动该领域的差距。特别是,我们阐明了如何将TVO自然连接三个关键变方案,即重要性加权VI,仁义-VI,和MCMC-VI,它包含了最VI目标在实践中采用。为了解释理论和实践之间的性能差距,我们揭示热力学曲线的病理几何形状是如何产生负面影响TVO。通过推广加权平均持有人从几何平均值的整合路径,我们扩展TVO的理论和发现提高VI新的机遇。这促使我们的新VI的目标,命名为持有人的边界,这拼合热力学曲线和承诺,以实现精确的边缘数似然的一步逼近。提供对数字估计的选择的全面讨论。我们目前的合成和真实世界的数据集强有力的实证证据来支持我们的要求。
translated by 谷歌翻译
Normalizing flows provide a general mechanism for defining expressive probability distributions, only requiring the specification of a (usually simple) base distribution and a series of bijective transformations. There has been much recent work on normalizing flows, ranging from improving their expressive power to expanding their application. We believe the field has now matured and is in need of a unified perspective. In this review, we attempt to provide such a perspective by describing flows through the lens of probabilistic modeling and inference. We place special emphasis on the fundamental principles of flow design, and discuss foundational topics such as expressive power and computational trade-offs. We also broaden the conceptual framing of flows by relating them to more general probability transformations. Lastly, we summarize the use of flows for tasks such as generative modeling, approximate inference, and supervised learning.
translated by 谷歌翻译
深生成模型(DGM)是数据浏览的。从本质上讲,这是因为在有限数据上学习一个复杂的模型,遭受了较大的差异和容易过度的折磨。受\ emph {偏见 - 变化困境}的启发,我们提出了\ emph {正则化的深生成模型}(reg-dgm),该模型}(reg-dgm)利用了不可转移的预训练模型来减少具有有限数据的生成模型的变异。正式地,Reg-DGM优化了数据分布与DGM之间一定差异的加权总和,以及预先训练的模型W.R.T.定义的能量函数的期望。 DGM。从理论上讲,我们表征了Reg-DGM在非参数环境中全球最小值的存在和独特性,并严格证明Reg-DGM W.R.T.的统计益处。在一个简单而代表性的高斯拟合示例中,平均误差和预期风险。从经验上讲,在Reg-DGM中指定DGM和预训练的模型是非常灵活的。尤其是,使用RESNET-18分类器在ImageNet上进行了预先培训和数据依赖性能量功能,Reg-DGM始终在几个基准上改善了强大的DGM的生成性能,包括StyleGAN2和ADA在几个基准上,具有有限的数据,并为国家取得了竞争性的结果 - 艺术方法。
translated by 谷歌翻译
Generative neural samplers are probabilistic models that implement sampling using feedforward neural networks: they take a random input vector and produce a sample from a probability distribution defined by the network weights. These models are expressive and allow efficient computation of samples and derivatives, but cannot be used for computing likelihoods or for marginalization. The generativeadversarial training method allows to train such models through the use of an auxiliary discriminative neural network. We show that the generative-adversarial approach is a special case of an existing more general variational divergence estimation approach. We show that any f -divergence can be used for training generative neural samplers. We discuss the benefits of various choices of divergence functions on training complexity and the quality of the obtained generative models.
translated by 谷歌翻译
由于难以应变的分区功能,通过最大可能性培训基于能量的模型(EBMS)需要Markov链蒙特卡罗(MCMC)采样,以近似数据和模型分布之间的kullback-Leibler发散的梯度。然而,由于模式之间的混合难以混合,因此从EBM中的样本是不普遍的。在本文中,我们建议学习变形式自动编码器(VAE)以初始化有限步骤MCMC,例如源自能量函数的Langevin动态,用于EBM的有效摊销采样。利用这些倒置的MCMC样品,可以通过最大似然训练EBM,其遵循“通过合成分析”方案;虽然VAE通过变分贝叶斯从这些MCMC样品中学习。我们称之为该联合训练算法的变分MCMC教学,其中VAE将ebm追溯到数据分布。我们将学习算法解释为信息几何上下文中的动态交替投影。我们所提出的模型可以生成与GANS和EBM相当的样本。此外,我们证明我们的模型可以了解有效的概率分布对受监督的条件学习任务。
translated by 谷歌翻译
在学习断开分布时,已知生成对抗网络(GAN)面临模型错误指定。实际上,从单峰潜伏分布到断开连接的连续映射是不可能的,因此甘斯一定会在目标分布支持之外生成样品。这提出了一个基本问题:最小化这些领域的衡量标准的潜在空间分区是什么?基于几何测量理论的最新结果,我们证明,最佳甘恩必须将其潜在空间构造为“简单群集” - 一个voronoi分区,其中细胞是凸锥 - 当潜在空间的尺寸大于大于的数量时模式。在此配置中,每个Voronoi单元格映射到数据的不同模式。我们在gan学习断开的歧管的最佳精度上得出了上限和下限。有趣的是,这两个界限具有相同的减小顺序:$ \ sqrt {\ log m} $,$ m $是模式的数量。最后,我们执行了几项实验,以表现出潜在空间的几何形状,并在实验上表明gan具有与理论相似的几何形状。
translated by 谷歌翻译