We propose the Wasserstein Auto-Encoder (WAE)-a new algorithm for building a gen-erative model of the data distribution. WAE minimizes a penalized form of the Wasserstein distance between the model distribution and the target distribution, which leads to a different regularizer than the one used by the Variational Auto-Encoder (VAE) [1]. This regularizer encourages the encoded training distribution to match the prior. We compare our algorithm with several other techniques and show that it is a generalization of adversarial auto-encoders (AAE) [2]. Our experiments show that WAE shares many of the properties of VAEs (sta-ble training, encoder-decoder architecture, nice latent manifold structure) while generating samples of better quality, as measured by the FID score.
translated by 谷歌翻译
变分自动编码器将其学习的中间潜在间隔分布强制实施为简单分布,例如各向同性高斯分布。然而,这会导致后塌陷问题并且失去对于诸如面部图像之类的数据集很重要的流形结构。 GAN可以将简单分布转换为潜在空间数据分布,从而保留了流形结构,但优化GAN涉及解决最小优化问题,这是一个困难且难以理解的问题。因此,我们提出了一种类似GAN的方法,通过仅求解最小化问题,将简单分布转换为潜在空间中的数据分布。这种最小化问题来自于在简单分布和潜在空间数据分布之间训练鉴别器。然后,我们明确地制定最优传输(OT)问题,该问题计算两个分布之间的期望映射。这意味着我们可以在不解决困难的Min-Max优化问题的情况下进行转换分布。在八高斯数据集上的实验结果表明,所提出的OT可以处理多簇分布。 MNIST和CelebAdatasets的结果验证了所提方法的有效性。
translated by 谷歌翻译
Optimal Transport提供了学习生成自动编码模型的最大可能性的替代方案。我们展示了这个原理如何决定编码器聚合后部和先前之间的Wasserstein距离的最小化以及重建误差。我们证明了在参数限制中,如果两个分布完全匹配,则自动编码器生成数据分布,并且最佳值可以通过确定性自动编码器获得。然后我们介绍SinkhornAutoEncoder(SAE),它将问题转化为潜在空间的最佳传输。通过Sinkhorn算法的反向传播使得到的Wasserstein距离最小化。 SAE将聚合后验模型设计为隐式分布,因此不需要重新参数化技术来进行梯度估计。而且,它几乎不需要适应不同的先前分布。我们通过考虑具有超球面和Dirichlet先验的模型以及概率编程的简单情况来展示其灵活性。 SAE在视觉质量和FID分数方面匹配或优于其他自动编码模型。
translated by 谷歌翻译
近年来,对图像生成方法的研究一直在迅速发展。 2013年提出了自动编码变分贝叶斯方法(VAE),它使用变分推理从图像数据库中学习潜在空间,然后使用解码器生成图像。生成对抗网络(GANs)作为一种有前途的框架出现,它使用对抗训练来提高生成器的生成能力。然而,GAN生成的图像通常是模糊的。然后提出深度卷积生成对抗网络(DCGAN)来容忍生成图像的质量。由于输入噪声矢量是从高斯分布中随机采样的,因此发生器必须从正常分布映射到图像。这使得DCGAN无法反映训练数据的固有结构。在本文中,我们提出了一种新的深度模型,称为具有解码器 - 编码器输出噪声(DE-GAN)的生成对抗网络,它利用对抗训练和变换贝叶斯推理来提高图像生成的性能.DE-GAN使用经过预先训练的解码器 - 编码器架构,将随机高斯噪声向量映射到信息量较高的向量,并将它们传递给对抗网络的生成器。由于解码器 - 编码器架构由与发生器相同的图像训练,因此输出矢量可以携带原始图像的内在分布信息。此外,DE-GAN的损失功能不同于GAN和DCGAN。隐藏空间损失函数增加了对抗性损失函数,增强了模型的鲁棒性。大量的实证结果表明,DE-GAN可以加速对抗训练过程的收敛,提高生成的图像质量。
translated by 谷歌翻译
具有离散和连续潜变量的生成模型受到许多现实世界数据集的结构的高度推动。然而,他们提出了训练中的微妙之处,这些微妙之处通常体现在不连续的潜在弱势中。在本文中,我们表明,当使用WassersteinAutoencoders的最优传输框架时,这些模型更易于进行。我们发现我们的离散潜变量在训练时由模型完全利用,而不需要对目标函数进行任何修改或显着的微调。我们的模型使用相对简单的神经网络生成与其他样本相当的样本,因为离散变量带有很多描述性负担。此外,离散潜能提供了对生成的显着控制。
translated by 谷歌翻译
我们提出了一种新的生成模型Cramer-Wold Autoencoder(CWAE)。在WAE之后,我们直接鼓励潜在空间的正常性。我们的论文使用了最近的切片WAE(SWAE)模型的想法,该模型使用一维投影作为验证两个分布的接近度的方法。关键的新成分是在密度空间中引入新的(Cramer-Wold)度量,它取代了SWAE中使用的Wasserstein度量。我们证明高斯混合物之间的Cramer-Wold度量是由简单的解析公式给出的,其结果在取消采样时需要估算WAE和SWAE模型中的成本函数。因此,在大大简化优化程序的同时,CWAE生成与其他SOTA模型匹配的感知质量的样本。
translated by 谷歌翻译
生成对抗网络模型和变分自动编码器都被广泛用于近似数据集的概率分布。虽然他们都使用参数化分布来近似基础数据分布,其精确推理是难以处理的,但它们的行为却非常不同。在本报告中,我们总结了我们的实验结果,在保真度和模式崩溃方面比较了这两类模型。我们提供了一个假设来解释他们的不同行为,并提出一个基于这个假设的新模型。我们在MNISTdataset和CelebA数据集上进一步测试了我们提出的模型。
translated by 谷歌翻译
我们提出了一个通用框架来通过概率空间上的\ textbf {V} ariational \ textbf {Gr} adient Fl \ textbf {ow}(VGrow)学习深层生成模型。渐近收敛到目标分布的演化分布由向量场控制,向量场是它们之间的$ f $ - 发散的第一个变化的负梯度。我们通过残差映射的无限时间组合证明了演化分布与前向分布一致,残差映射是沿矢量场的特征映射的扰动。矢量场取决于前推分布的密度比和目标分布,这可以从二元分类问题中一致地学习。我们提出的VGrow方法与其他流行方法(如VAE,GAN和基于流的方法)的连接已在此框架中建立,获得了深层生成学习的新见解。我们还评估了几个常用的差异,包括Kullback-Leibler,Jensen-Shannon,Jeffrey分歧以及我们新发现的`logD'分歧,它作为logD-trick GAN的目标函数。基准数据集的实验结果表明,VGrow可以稳定,有效的方式生成高保真图像,通过最先进的GAN实现竞争性能。
translated by 谷歌翻译
我们证明了变分自动编码器始终无法在潜在和可见空间中学习边缘分布。我们问这是否是匹配条件分布的结果,或者是显式模型和后验分布的限制。我们通过在变分推理中使用GenerativeAdversarial Networks来探索由边际分布匹配和隐式分布提供的替代方案。我们对几种VAE-GAN杂种进行了大规模的评估,并探索了类概率估计对学习分布的影响。我们得出结论,目前VAE-GAN杂交种的适用性有限:与VAE相比,它们难以扩展,评估和用于推理;并且他们没有改善GAN的发电质量。
translated by 谷歌翻译
The ability to compare two degenerate probability distributions, that is two distributions supported on low-dimensional manifolds in much higher-dimensional spaces, is a crucial factor in the estimation of generative models .It is therefore no surprise that optimal transport (OT) metrics and their ability to handle measures with non-overlapping supports have emerged as a promising tool. Yet, training generative machines using OT raises formidable computational and statistical challenges , because of (i) the computational burden of evaluating OT losses, (ii) their instability and lack of smoothness, (iii) the difficulty to estimate them, as well as their gradients, in high dimension. This paper presents the first tractable method to train large scale gen-erative models using an OT-based loss called Sinkhorn loss which tackles these three issues by relying on two key ideas: (a) entropic smoothing, which turns the original OT loss into a differentiable and more robust quantity that can be computed using Sinkhorn fixed point iterations; (b) algorithmic (automatic) differentiation of these iterations with seamless GPU execution. Additionally, Entropic smoothing generates a family of losses interpolating between Wasserstein (OT) and Energy distance/Maximum Mean Discrepancy (MMD) losses, thus allowing to find a sweet spot leveraging the geometry of OT on the one hand, and the favorable high-dimensional sample complexity of MMD, which comes with un-biased gradient estimates. The resulting computational architecture complements nicely standard deep network generative models by Preliminary work. Under review by AISTATS 2018. Do not distribute. a stack of extra layers implementing the loss function.
translated by 谷歌翻译
In generative modeling, the Wasserstein distance (WD) has emerged as a useful metric to measure the discrepancy between generated and real data distributions. Unfortunately , it is challenging to approximate the WD of high-dimensional distributions. In contrast, the sliced Wasserstein distance (SWD) factorizes high-dimensional distributions into their multiple one-dimensional marginal distributions and is thus easier to approximate. In this paper, we introduce novel approximations of the primal and dual SWD. Instead of using a large number of random projections, as it is done by conventional SWD approximation methods, we propose to approximate SWDs with a small number of parameterized orthogonal projections in an end-to-end deep learning fashion. As concrete applications of our SWD approximations, we design two types of differentiable SWD blocks to equip modern generative frameworks-Auto-Encoders (AE) and Generative Adversar-ial Networks (GAN). In the experiments, we not only show the superiority of the proposed generative models on standard image synthesis benchmarks, but also demonstrate the state-of-the-art performance on challenging high resolution image and video generation in an unsupervised manner 1 .
translated by 谷歌翻译
A new form of variational autoencoder (VAE) is developed, in which the jointdistribution of data and codes is considered in two (symmetric) forms: ($i$)from observed data fed through the encoder to yield codes, and ($ii$) fromlatent codes drawn from a simple prior and propagated through the decoder tomanifest data. Lower bounds are learned for marginal log-likelihood fitsobserved data and latent codes. When learning with the variational bound, oneseeks to minimize the symmetric Kullback-Leibler divergence of joint densityfunctions from ($i$) and ($ii$), while simultaneously seeking to maximize thetwo marginal log-likelihoods. To facilitate learning, a new form of adversarialtraining is developed. An extensive set of experiments is performed, in whichwe demonstrate state-of-the-art data reconstruction and generation on severalimage benchmark datasets.
translated by 谷歌翻译
变分自动编码器(VAE)作为形成复杂(通常是高维)数据的压缩潜在表示的方法已经非常成功。在本文中,我们从VAE中常见的一个变量下界得出,其目的是最小化聚合信息丢失。使用下限作为自动编码器的目标函数使我们能够在批量统计上放置先验,对应于所有潜在代码的后面的聚合,而不是像原始AEE中的单个代码后验。这种先前约束的替代形式允许个别后代更灵活地保存必要信息以获得良好的重建质量。我们进一步推导出我们的下界的解析近似,导致我们提出的模型 - WiSE-VAE。通过各种示例,我们证明WiSE-VAE可以达到与其他最先进的VAE模型相比的出色重建质量,同时仍然保留了学习平滑,紧凑的表示的能力。
translated by 谷歌翻译
Although Generative Adversarial Networks achieve state-of-the-art results ona variety of generative tasks, they are regarded as highly unstable and proneto miss modes. We argue that these bad behaviors of GANs are due to the veryparticular functional shape of the trained discriminators in high dimensionalspaces, which can easily make training stuck or push probability mass in thewrong direction, towards that of higher concentration than that of the datagenerating distribution. We introduce several ways of regularizing theobjective, which can dramatically stabilize the training of GAN models. We alsoshow that our regularizers can help the fair distribution of probability massacross the modes of the data generating distribution, during the early phasesof training and thus providing a unified solution to the missing modes problem.
translated by 谷歌翻译
在本文中,我们使用自动编码器研究生成建模,同时使用最优传输(OT)问题和瓦瑟斯坦距离的优雅几何属性。我们引入了Sliced-Wasserstein自动编码器(SWAE),它们是生成模型,使人们可以将thelatent空间的分布形成任何可抽取的概率分布,而无需强制对抗网络或为分布定义封闭形式。简而言之,我们用编码的训练样本的分布和预定的可抽象分布之间的切片 - Wassersteindistance来规范自动编码器损失。我们证明了所提出的公式具有有效的数值解,其提供与WassersteinAutoencoders(WAE)和变分自动编码器(VAE)类似的功能,同时受益于简单的实现。
translated by 谷歌翻译
我们为Generative AdversarialNetworks(GAN)引入了有效的训练算法,以减轻模式崩溃和梯度消失。在我们的系统中,我们通过自动编码器(AE)约束发生器。我们提出一种方法,将来自AE的重建样本视为鉴别器的“真实”样本。这将AE的收敛与判别器的收敛耦合,有效地减慢了鉴别器的收敛和减少梯度消失。重要的是,我们提出了两种新的距离约束来改进发电机。首先,我们提出潜在数据距离约束,以强制潜在样本距离和相应的数据样本距离之间的兼容性。我们使用此约束来明确地防止模式崩溃的生成器。其次,我们提出了adiscriminator-score距离约束,以通过鉴别器核将生成样本的分布与实际样本的分布对齐。我们使用这个约束来指导生成器合成与真实样本重合的样本。我们提出的使用这些距离约束的GAN,即Dist-GAN,可以比基准数据集中的最先进方法获得更好的结果:合成,MNIST,MNIST-1K,CelebA,CIFAR-10和STL-10数据集。我们的代码发布在这里(https://github.com/tntrung/gan)用于研究。
translated by 谷歌翻译
在深度学习成功的基础上,学习观测数据的概率模型的两种现代方法是生成性对抗网络(GAN)和变分自动编码器(VAE)。 VAE考虑数据的显式概率模型,并通过最大化对数似然函数的变分下界来计算生成分布。然而,GAN通过最小化观察到的和生成的概率分布之间的距离来计算生成模型,而不考虑观察数据的显式模型。 GAN中没有明确的概率模型,在其框架中计算样本可能性,并限制其在统计推断问题中的使用。在这项工作中,我们表明,具有熵正则化的最优运输GAN可以被视为最大化平均样本可能性的下限的年龄模型,这是VAE基于的方法。特别是,我们的证明为GAN构建了一个明确的概率模型,可用于计算GAN框架内的似然统计。我们在几个数据集上的数值结果证明了与所提出的理论一致的趋势。
translated by 谷歌翻译
VAE要求标准高斯分布作为潜在空间中的先验。由于所有代码往往遵循相同的先验,它经常遭受所谓的“后塌陷”。为避免这种情况,本文介绍了潜在代码的类特定分布。但与CVAE不同,我们提出了一种方法,用于将潜在空间解开为标签相关和相关维度,$ \ bm {\ mathrm {z}} _ s $和$ \ bm {\ mathrm {z}} _ u $,用于单个输入。我们应用两个独立的编码器将输入分别映射到$ \ bm {\ mathrm {z}} _ s $和$ \ bm {\ mathrm {z}} _ u $,然后将连接的代码提供给解码器以重建输入。标签无关代码$ \ bm {\ mathrm {z}} _ u $表示所有输入的共同特征,因此它们受标准高斯约束,并且它们的编码器以摊销的变分推理方式(如VAE)进行训练。虽然假设$ \ bm {\ mathrm {z}} _ s $遵循高斯混合分布,其中每个分量对应于特定类。 $ \ bm {\ mathrm {z}} _ s $ encoder中的高斯分量参数由labelsupervision以全局随机方式进行优化。理论上,我们表明我们的方法实际上相当于在$ \ bm {\ mathrm {z}} _ s $和类标签$ c $的联合分布上添加KL分歧项,它可以直接增加$之间的相关信息。 \ bm {\ mathrm {z}} _ s $和标签$ c $。我们的模型还可以通过在像素域中添加鉴别器来扩展到GAN,从而生成高质量和多样化的图像。
translated by 谷歌翻译
最近,无条件图像生成由生成对偶网络(GAN)主导。 GAN方法训练发生器,该发生器从随机噪声矢量中回归图像,以及在生成的图像和实际图像的训练集之间尝试分辨的鉴别器.GAN在生成逼真的图像时已经显示出惊人的结果。 Despitetheir的成功,GAN遭受了严重的弊端,包括:不稳定的训练和模式下降。 GAN的弱点推动了对替代方案的研究,包括:变分自动编码器(VAE),潜在嵌入学习方法(例如GLO)和基于最近邻的隐式最大似然估计(IMLE)。不幸的是,目前,GAN仍然明显优于图像生成的替代方法。在这项工作中,我们提出了一种新方法 - 生成潜在最近邻(GLANN) - 用于训练没有对抗训练的生成模型。 GLANN结合了IMLE和GLO的优势,克服了每种方法的主要缺点。因此,GLANN生成的图像远远优于GLO和IMLE。我们的方法不会遭受模式崩溃,这种模式崩溃困扰着GAN训练并且更加稳定。定性结果表明,GLANN在常用数据集上优于由800 GAN和VAE组成的abaseline。我们的模型也被证明可以有效地训练真正的非对抗性无监督图像翻译。
translated by 谷歌翻译
最佳传输(OT)自然地出现在许多机器学习应用中,但是繁重的计算负担限制了其广泛使用。为了解决可扩展性问题,我们提出了一种隐含的基于生成学习的框架,称为SPOT(OptimalTransport的可扩展推进)。具体而言,我们通过参考分布的推进来近似最优运输计划,并将最优运输问题转化为极小极大问题。然后,我们可以使用主要的随机梯度型算法有效地解决OT问题。我们还表明,我们可以使用神经普通微分方程来恢复最优运输计划的密度。合成数据集和真实数据集的数值实验表明,SPOT具有鲁棒性,具有良好的收敛性。 SPOT还允许从最佳传输计划中有效地进行采样,这有利于域适应等下游应用。
translated by 谷歌翻译