We propose the Wasserstein Auto-Encoder (WAE)-a new algorithm for building a gen-erative model of the data distribution. WAE minimizes a penalized form of the Wasserstein distance between the model distribution and the target distribution, which leads to a different regularizer than the one used by the Variational Auto-Encoder (VAE) [1]. This regularizer encourages the encoded training distribution to match the prior. We compare our algorithm with several other techniques and show that it is a generalization of adversarial auto-encoders (AAE) [2]. Our experiments show that WAE shares many of the properties of VAEs (sta-ble training, encoder-decoder architecture, nice latent manifold structure) while generating samples of better quality, as measured by the FID score.
translated by 谷歌翻译
Optimal Transport提供了学习生成自动编码模型的最大可能性的替代方案。我们展示了这个原理如何决定编码器聚合后部和先前之间的Wasserstein距离的最小化以及重建误差。我们证明了在参数限制中,如果两个分布完全匹配,则自动编码器生成数据分布,并且最佳值可以通过确定性自动编码器获得。然后我们介绍SinkhornAutoEncoder(SAE),它将问题转化为潜在空间的最佳传输。通过Sinkhorn算法的反向传播使得到的Wasserstein距离最小化。 SAE将聚合后验模型设计为隐式分布,因此不需要重新参数化技术来进行梯度估计。而且,它几乎不需要适应不同的先前分布。我们通过考虑具有超球面和Dirichlet先验的模型以及概率编程的简单情况来展示其灵活性。 SAE在视觉质量和FID分数方面匹配或优于其他自动编码模型。
translated by 谷歌翻译
我们提出了一种新的生成模型Cramer-Wold Autoencoder(CWAE)。在WAE之后,我们直接鼓励潜在空间的正常性。我们的论文使用了最近的切片WAE(SWAE)模型的想法,该模型使用一维投影作为验证两个分布的接近度的方法。关键的新成分是在密度空间中引入新的(Cramer-Wold)度量,它取代了SWAE中使用的Wasserstein度量。我们证明高斯混合物之间的Cramer-Wold度量是由简单的解析公式给出的,其结果在取消采样时需要估算WAE和SWAE模型中的成本函数。因此,在大大简化优化程序的同时,CWAE生成与其他SOTA模型匹配的感知质量的样本。
translated by 谷歌翻译
The ability to compare two degenerate probability distributions, that is two distributions supported on low-dimensional manifolds in much higher-dimensional spaces, is a crucial factor in the estimation of generative models .It is therefore no surprise that optimal transport (OT) metrics and their ability to handle measures with non-overlapping supports have emerged as a promising tool. Yet, training generative machines using OT raises formidable computational and statistical challenges , because of (i) the computational burden of evaluating OT losses, (ii) their instability and lack of smoothness, (iii) the difficulty to estimate them, as well as their gradients, in high dimension. This paper presents the first tractable method to train large scale gen-erative models using an OT-based loss called Sinkhorn loss which tackles these three issues by relying on two key ideas: (a) entropic smoothing, which turns the original OT loss into a differentiable and more robust quantity that can be computed using Sinkhorn fixed point iterations; (b) algorithmic (automatic) differentiation of these iterations with seamless GPU execution. Additionally, Entropic smoothing generates a family of losses interpolating between Wasserstein (OT) and Energy distance/Maximum Mean Discrepancy (MMD) losses, thus allowing to find a sweet spot leveraging the geometry of OT on the one hand, and the favorable high-dimensional sample complexity of MMD, which comes with un-biased gradient estimates. The resulting computational architecture complements nicely standard deep network generative models by Preliminary work. Under review by AISTATS 2018. Do not distribute. a stack of extra layers implementing the loss function.
translated by 谷歌翻译
变分自动编码器将其学习的中间潜在间隔分布强制实施为简单分布,例如各向同性高斯分布。然而,这会导致后塌陷问题并且失去对于诸如面部图像之类的数据集很重要的流形结构。 GAN可以将简单分布转换为潜在空间数据分布,从而保留了流形结构,但优化GAN涉及解决最小优化问题,这是一个困难且难以理解的问题。因此,我们提出了一种类似GAN的方法,通过仅求解最小化问题,将简单分布转换为潜在空间中的数据分布。这种最小化问题来自于在简单分布和潜在空间数据分布之间训练鉴别器。然后,我们明确地制定最优传输(OT)问题,该问题计算两个分布之间的期望映射。这意味着我们可以在不解决困难的Min-Max优化问题的情况下进行转换分布。在八高斯数据集上的实验结果表明,所提出的OT可以处理多簇分布。 MNIST和CelebAdatasets的结果验证了所提方法的有效性。
translated by 谷歌翻译
具有离散和连续潜变量的生成模型受到许多现实世界数据集的结构的高度推动。然而,他们提出了训练中的微妙之处,这些微妙之处通常体现在不连续的潜在弱势中。在本文中,我们表明,当使用WassersteinAutoencoders的最优传输框架时,这些模型更易于进行。我们发现我们的离散潜变量在训练时由模型完全利用,而不需要对目标函数进行任何修改或显着的微调。我们的模型使用相对简单的神经网络生成与其他样本相当的样本,因为离散变量带有很多描述性负担。此外,离散潜能提供了对生成的显着控制。
translated by 谷歌翻译
近年来,对图像生成方法的研究一直在迅速发展。 2013年提出了自动编码变分贝叶斯方法(VAE),它使用变分推理从图像数据库中学习潜在空间,然后使用解码器生成图像。生成对抗网络(GANs)作为一种有前途的框架出现,它使用对抗训练来提高生成器的生成能力。然而,GAN生成的图像通常是模糊的。然后提出深度卷积生成对抗网络(DCGAN)来容忍生成图像的质量。由于输入噪声矢量是从高斯分布中随机采样的,因此发生器必须从正常分布映射到图像。这使得DCGAN无法反映训练数据的固有结构。在本文中,我们提出了一种新的深度模型,称为具有解码器 - 编码器输出噪声(DE-GAN)的生成对抗网络,它利用对抗训练和变换贝叶斯推理来提高图像生成的性能.DE-GAN使用经过预先训练的解码器 - 编码器架构,将随机高斯噪声向量映射到信息量较高的向量,并将它们传递给对抗网络的生成器。由于解码器 - 编码器架构由与发生器相同的图像训练,因此输出矢量可以携带原始图像的内在分布信息。此外,DE-GAN的损失功能不同于GAN和DCGAN。隐藏空间损失函数增加了对抗性损失函数,增强了模型的鲁棒性。大量的实证结果表明,DE-GAN可以加速对抗训练过程的收敛,提高生成的图像质量。
translated by 谷歌翻译
我们提出并研究了保持分布的有损压缩问题。受极端图像压缩的最新进展的影响,即使在非常低的比特率下也能维持无伪像的重建,我们建议在构造遵循训练数据分布的约束条件下优化速率 - 失真权衡。由此产生的压缩系统恢复了光谱的两端:一方面,在零比特率下,它学习了数据的生成模型,并且在足够高的比特率下实现了完美的重建。此外,对于中间比特,它在学习训练数据的生成模型和完美重建训练样本之间平滑地插入。我们研究了几种近似解决所提出的优化问题的方法,包括Wasserstein GAN和Wasserstein Autoencoder的新组合,并对所提出的压缩系统进行了广泛的理论和经验表征。
translated by 谷歌翻译
生成矩匹配网络(GMMN)是一种深度生成模型,它通过用基于内核最大度差异(MMD)的双样本测试替换GAN中的识别符来改变生成对抗网络(GAN)。尽管已经研究了MMD的一些理论保证,但GMMN的经验性能仍然不如GAN在具有挑战性的大型基准数据集上具有竞争力。与GAN相比,GMMN的计算效率也不太理想,部分地在训练期间需要相当大的批量大小。在本文中,我们提出通过引入对抗核学习技术来改进GMMN的模型表达性及其计算效率,作为原始GMMN中固定高斯核的替代。新方法结合了GMMN和GAN中的关键思想,因此我们将其命名为MMD GAN .MMD GAN中的新距离测量是一种有意义的损失,具有弱拓扑的优点,并且可以通过梯度下降和相对较小的批量大小进行优化。在我们对多个基准数据集(包括MNIST,CIFAR-10,CelebA和LSUN)的评估中,MMD-GAN的性能明显优于GMMN,并且与其他代表性的GAN工作相比具有竞争力。
translated by 谷歌翻译
生成对抗网络模型和变分自动编码器都被广泛用于近似数据集的概率分布。虽然他们都使用参数化分布来近似基础数据分布,其精确推理是难以处理的,但它们的行为却非常不同。在本报告中,我们总结了我们的实验结果,在保真度和模式崩溃方面比较了这两类模型。我们提供了一个假设来解释他们的不同行为,并提出一个基于这个假设的新模型。我们在MNISTdataset和CelebA数据集上进一步测试了我们提出的模型。
translated by 谷歌翻译
在本文中,我们使用自动编码器研究生成建模,同时使用最优传输(OT)问题和瓦瑟斯坦距离的优雅几何属性。我们引入了Sliced-Wasserstein自动编码器(SWAE),它们是生成模型,使人们可以将thelatent空间的分布形成任何可抽取的概率分布,而无需强制对抗网络或为分布定义封闭形式。简而言之,我们用编码的训练样本的分布和预定的可抽象分布之间的切片 - Wassersteindistance来规范自动编码器损失。我们证明了所提出的公式具有有效的数值解,其提供与WassersteinAutoencoders(WAE)和变分自动编码器(VAE)类似的功能,同时受益于简单的实现。
translated by 谷歌翻译
Although Generative Adversarial Networks achieve state-of-the-art results ona variety of generative tasks, they are regarded as highly unstable and proneto miss modes. We argue that these bad behaviors of GANs are due to the veryparticular functional shape of the trained discriminators in high dimensionalspaces, which can easily make training stuck or push probability mass in thewrong direction, towards that of higher concentration than that of the datagenerating distribution. We introduce several ways of regularizing theobjective, which can dramatically stabilize the training of GAN models. We alsoshow that our regularizers can help the fair distribution of probability massacross the modes of the data generating distribution, during the early phasesof training and thus providing a unified solution to the missing modes problem.
translated by 谷歌翻译
A new form of variational autoencoder (VAE) is developed, in which the jointdistribution of data and codes is considered in two (symmetric) forms: ($i$)from observed data fed through the encoder to yield codes, and ($ii$) fromlatent codes drawn from a simple prior and propagated through the decoder tomanifest data. Lower bounds are learned for marginal log-likelihood fitsobserved data and latent codes. When learning with the variational bound, oneseeks to minimize the symmetric Kullback-Leibler divergence of joint densityfunctions from ($i$) and ($ii$), while simultaneously seeking to maximize thetwo marginal log-likelihoods. To facilitate learning, a new form of adversarialtraining is developed. An extensive set of experiments is performed, in whichwe demonstrate state-of-the-art data reconstruction and generation on severalimage benchmark datasets.
translated by 谷歌翻译
我们为Generative AdversarialNetworks(GAN)引入了有效的训练算法,以减轻模式崩溃和梯度消失。在我们的系统中,我们通过自动编码器(AE)约束发生器。我们提出一种方法,将来自AE的重建样本视为鉴别器的“真实”样本。这将AE的收敛与判别器的收敛耦合,有效地减慢了鉴别器的收敛和减少梯度消失。重要的是,我们提出了两种新的距离约束来改进发电机。首先,我们提出潜在数据距离约束,以强制潜在样本距离和相应的数据样本距离之间的兼容性。我们使用此约束来明确地防止模式崩溃的生成器。其次,我们提出了adiscriminator-score距离约束,以通过鉴别器核将生成样本的分布与实际样本的分布对齐。我们使用这个约束来指导生成器合成与真实样本重合的样本。我们提出的使用这些距离约束的GAN,即Dist-GAN,可以比基准数据集中的最先进方法获得更好的结果:合成,MNIST,MNIST-1K,CelebA,CIFAR-10和STL-10数据集。我们的代码发布在这里(https://github.com/tntrung/gan)用于研究。
translated by 谷歌翻译
在本文中,我们讨论了一类基于一维切片方法的基于AutoEncoder的生成模型。该想法是基于将样本之间的区分减少到一维情况。我们的实验表明,这些方法可以分为两组。首先包括对标准正态性测试进行修改的方法,而第二种方法基于样本之间的经典距离。事实证明,这两个组都是正确的生成模型,但第二个组的Fr \'{e} chet起始距离(FID)的下降速度略快。
translated by 谷歌翻译
估计高维特征空间中的真密度是机器学习中众所周知的问题。我们提出了一种基于自编码器的新隐式生成模型,其训练保证收敛到目标函数的全局最小值。这是通过在正则化器中使用适当的核函数族来实现的。此外,在有限数量的样本的情况下,分析所提出的模型的行为,并提供由该全局最小值实现的泛化误差的上界。该理论通过对生成对抗网络和基于自动编码器的模型家族的几种方法的合成和现实数据集的广泛实验比较得到证实。
translated by 谷歌翻译
在很少或没有监督的情况下学习有用的表示是人工智能的关键挑战。我们提供了对表示学习中近期进展的深入回顾,重点是基于自动编码器的模型。为了组织这些结果,我们利用了对下游任务有用的元先验,例如解开和特征的层次组织。特别是,我们发现了强制执行此类属性的三种主要机制,即(i)规范(近似或汇总)后向分布,(ii)分解编码和解码分布,或(iii)引入结构化先验分布。虽然有一些有希望的结果,但隐性或显性监督仍然是关键推动因素,所有当前方法都使用强诱导偏差和建模假设。最后,我们通过速率 - 失真理论的分析提供了基于自动编码器的表示学习的分析,并确定了关于下游任务的现有知识量之间的明确权衡,以及该任务对于该任务的有用性。
translated by 谷歌翻译
我们证明了变分自动编码器始终无法在潜在和可见空间中学习边缘分布。我们问这是否是匹配条件分布的结果,或者是显式模型和后验分布的限制。我们通过在变分推理中使用GenerativeAdversarial Networks来探索由边际分布匹配和隐式分布提供的替代方案。我们对几种VAE-GAN杂种进行了大规模的评估,并探索了类概率估计对学习分布的影响。我们得出结论,目前VAE-GAN杂交种的适用性有限:与VAE相比,它们难以扩展,评估和用于推理;并且他们没有改善GAN的发电质量。
translated by 谷歌翻译
变分自动编码器(VAE)作为形成复杂(通常是高维)数据的压缩潜在表示的方法已经非常成功。在本文中,我们从VAE中常见的一个变量下界得出,其目的是最小化聚合信息丢失。使用下限作为自动编码器的目标函数使我们能够在批量统计上放置先验,对应于所有潜在代码的后面的聚合,而不是像原始AEE中的单个代码后验。这种先前约束的替代形式允许个别后代更灵活地保存必要信息以获得良好的重建质量。我们进一步推导出我们的下界的解析近似,导致我们提出的模型 - WiSE-VAE。通过各种示例,我们证明WiSE-VAE可以达到与其他最先进的VAE模型相比的出色重建质量,同时仍然保留了学习平滑,紧凑的表示的能力。
translated by 谷歌翻译
最近,无条件图像生成由生成对偶网络(GAN)主导。 GAN方法训练发生器,该发生器从随机噪声矢量中回归图像,以及在生成的图像和实际图像的训练集之间尝试分辨的鉴别器.GAN在生成逼真的图像时已经显示出惊人的结果。 Despitetheir的成功,GAN遭受了严重的弊端,包括:不稳定的训练和模式下降。 GAN的弱点推动了对替代方案的研究,包括:变分自动编码器(VAE),潜在嵌入学习方法(例如GLO)和基于最近邻的隐式最大似然估计(IMLE)。不幸的是,目前,GAN仍然明显优于图像生成的替代方法。在这项工作中,我们提出了一种新方法 - 生成潜在最近邻(GLANN) - 用于训练没有对抗训练的生成模型。 GLANN结合了IMLE和GLO的优势,克服了每种方法的主要缺点。因此,GLANN生成的图像远远优于GLO和IMLE。我们的方法不会遭受模式崩溃,这种模式崩溃困扰着GAN训练并且更加稳定。定性结果表明,GLANN在常用数据集上优于由800 GAN和VAE组成的abaseline。我们的模型也被证明可以有效地训练真正的非对抗性无监督图像翻译。
translated by 谷歌翻译