本文通过采取完全几何学的角度引入了对变异自动编码器框架的新解释。我们认为,香草vae自然而然地揭示了其潜在空间中的riemannian结构,并且考虑到这些几何方面可以导致更好的插值和改进的生成程序。这种新提出的采样方法包括从统一分布中的采样组成,该分布本质地从学到的利曼式潜在空间中得出,我们表明,使用此方案可以使香草VAE竞争性且比几个基准数据集中更先进的版本更好。由于已知生成模型对训练样品的数量很敏感,因此我们还强调了该方法在低数据状态下的鲁棒性。
translated by 谷歌翻译
在本文中,我们提出了一种新方法,以可靠的方式使用基于几何的变异自动编码器以可靠的方式执行数据增强。我们的方法结合了VAE被视为Riemannian歧管的适当潜在空间建模和新一代方案,该方案产生了更有意义的样本,尤其是在小型数据集的背景下。该方法通过广泛的实验研究进行了测试,在该研究中,其对数据集,分类器和训练样品的稳健性受到了强调。还可以在充满挑战的ADNI数据库上进行医学成像分类任务进行验证,其中使用拟议的VAE框架考虑了少量的3D脑MRIS并增强。在每种情况下,所提出的方法都可以在分类指标中获得显着可靠的增益。例如,在最先进的CNN分类器中,经过50次认知正常(CN)和50例阿尔茨海默氏病(AD)患者的最先进的CNN分类器,平衡准确度从66.3%跃升至74.3%,从77.7%到86.3%。具有243 CN和210 AD,同时提高了极大的敏感性和特异性指标。
translated by 谷歌翻译
近年来,由于其对复杂分布进行建模的能力,深层生成模型引起了越来越多的兴趣。在这些模型中,变异自动编码器已被证明是计算有效的,并且在多个领域中产生了令人印象深刻的结果。在这一突破之后,为了改善原始出版物而进行了广泛的研究,从而导致各种不同的VAE模型响应不同的任务。在本文中,我们介绍了Pythae,这是一个多功能的开源Python库,既可以提供统一的实现和专用框架,允许直接,可重现且可靠地使用生成自动编码器模型。然后,我们建议使用此库来执行案例研究基准测试标准,在其中我们介绍并比较了19个生成自动编码器模型,代表了下游任务的一些主要改进,例如图像重建,生成,分类,聚类,聚类和插值。可以在https://github.com/clementchadebec/benchmark_vae上找到开源库。
translated by 谷歌翻译
在这项工作中,我们为生成自动编码器的变异培训提供了确切的可能性替代方法。我们表明,可以使用可逆层来构建VAE风格的自动编码器,该层提供了可拖动的精确可能性,而无需任何正则化项。这是在选择编码器,解码器和先前体系结构的全部自由的同时实现的,这使我们的方法成为培训现有VAE和VAE风格模型的替换。我们将结果模型称为流中的自动编码器(AEF),因为编码器,解码器和先验被定义为整体可逆体系结构的单个层。我们表明,在对数可能,样本质量和降低性能的方面,该方法的性能比结构上等效的VAE高得多。从广义上讲,这项工作的主要野心是在共同的可逆性和确切的最大可能性的共同框架下缩小正常化流量和自动编码器文献之间的差距。
translated by 谷歌翻译
深度生成模型提供了一种系统的方式来学习非线性数据分布,通过一组潜在变量和非线性“生成器”函数映射到输入空间中的潜在点。发电机的非线性意味着潜伏空间给出了输入空间的扭曲视图。在温和的条件下,我们表明这种失真可以通过随机的黎曼公制表征,并证明在该度量下显着改善距离和嵌段。这反过来又改善了潜在空间中的概率分布,采样算法和聚类。我们的几何分析进一步揭示了当前发生器提供了差的方差估计,并提出了一种新的发电机架构,具有巨大改进的方差估计。结果在卷积和完全连接的变分性自动化器上进行了说明,但形式主义容易推广到其他深度生成模型。
translated by 谷歌翻译
使用显式密度建模的生成模型(例如,变形式自动码码器,基于流动的生成模型)涉及从已知分布的映射,例如,从已知分布中找到映射。高斯,到未知的输入分布。这通常需要搜索一类非线性函数(例如,由深神经网络表示)。在实践中有效,相关的运行时/内存成本可以迅速增加,通常是应用程序中所需性能的函数。我们提出了一个更便宜的(更简单)的策略来估算基于内核传输运算符中的已知结果的此映射。我们表明我们的配方能够实现高效的分布近似和采样,并提供令人惊讶的良好的经验性能,与强大的基线有利,但有很大的运行时储蓄。我们表明该算法在小样本大小设置(脑成像)中也表现良好。
translated by 谷歌翻译
基于似然或显式的深层生成模型使用神经网络来构建灵活的高维密度。该公式直接与歧管假设相矛盾,该假设指出,观察到的数据位于嵌入高维环境空间中的低维歧管上。在本文中,我们研究了在这种维度不匹配的情况下,最大可能的训练的病理。我们正式证明,在学习歧管本身而不是分布的情况下,可以实现堕落的优点,而我们称之为多种歧视的现象过于拟合。我们提出了一类两步程序,该过程包括降低降低步骤,然后进行最大样子密度估计,并证明它们在非参数方面恢复了数据生成分布,从而避免了多种歧视。我们还表明,这些过程能够对隐式模型(例如生成对抗网络)学到的流形进行密度估计,从而解决了这些模型的主要缺点。最近提出的几种方法是我们两步程序的实例。因此,我们统一,扩展和理论上证明了一大批模型。
translated by 谷歌翻译
变形AutoEncoders(VAES)是具有许多域中应用的强大的基于似然的生成模型之一。然而,他们努力产生高质量的图像,尤其是当样品从之前没有任何回火时获得。 VAES生成质量的一个解释是先前孔问题:前提分配不能匹配近似后部的总体近似。由于这种不匹配,在不对应于任何编码图像的之前,存在具有高密度的潜在空间中的区域。来自这些区域的样本被解码为损坏的图像。为了解决这个问题,我们提出了基于能源的基础产品,由基础产品的乘积和重新免除因子,旨在使基座更接近骨料后部。我们通过噪声对比估计训练重重的因素,我们将其概括为具有许多潜在变量组的分层VAE。我们的实验证实,所提出的噪声对比前沿通过MNIST,CIFAR-10,CELEBA 64和Celeba HQ 256数据集的大边缘改善了最先进的VAE的生成性能。我们的方法很简单,可以应用于各种VAE,以提高其先前分配的表现。
translated by 谷歌翻译
神经网络在许多科学学科中发挥着越来越大的作用,包括物理学。变形AutoEncoders(VAE)是能够表示在低维潜空间中的高维数据的基本信息,该神经网络具有概率解释。特别是所谓的编码器网络,VAE的第一部分,其将其输入到潜伏空间中的位置,另外在该位置的方差方面提供不确定性信息。在这项工作中,介绍了对AutoEncoder架构的扩展,渔民。在该架构中,借助于Fisher信息度量,不使用编码器中的附加信息信道生成潜在空间不确定性,而是从解码器导出。这种架构具有来自理论观点的优点,因为它提供了从模型的直接不确定性量化,并且还考虑不确定的交叉相关。我们可以通过实验表明,渔民生产比可比较的VAE更准确的数据重建,并且其学习性能也明显较好地缩放了潜伏空间尺寸的数量。
translated by 谷歌翻译
Disentangement是代表学习的有用财产,其提高了种子自动编码器(VAE),生成对抗模型等变形式自动编码器(VAE),生成的对抗模型及其许多变体的可解释性。通常在这种模型中,脱离性能的增加是具有发电质量的交易。在潜空间模型的背景下,这项工作提出了一种表示学习框架,通过鼓励正交的变化方向明确地促进解剖。所提出的目标是自动编码器错误项的总和以及特征空间中的主成分分析重建错误。这具有对具有在Stiefel歧管上的特征向量矩阵的限制内核机器的解释。我们的分析表明,这种结构通过将潜在空间中的主路线与数据空间的正交变化的方向匹配来促进解剖。在交替的最小化方案中,我们使用Cayley ADAM算法 - Stiefel歧管的随机优化方法以及ADAM优化器。我们的理论讨论和各种实验表明,拟议的模型在代质量和解除戒备的代表学习方面提高了许多VAE变体。
translated by 谷歌翻译
在没有监督信号的情况下学习简洁的数据表示是机器学习的基本挑战。实现此目标的一种突出方法是基于可能性的模型,例如变异自动编码器(VAE),以基于元元素来学习潜在表示,这是对下游任务有益的一般前提(例如,disentanglement)。但是,这种方法通常偏离原始的可能性体系结构,以应用引入的元优势,从而导致他们的培训不良变化。在本文中,我们提出了一种新颖的表示学习方法,Gromov-Wasserstein自动编码器(GWAE),该方法与潜在和数据分布直接匹配。 GWAE模型不是基于可能性的目标,而是通过最小化Gromov-Wasserstein(GW)度量的训练优化。 GW度量测量了在无与伦比的空间上支持的分布之间的面向结构的差异,例如具有不同的维度。通过限制可训练的先验的家庭,我们可以介绍元主题来控制下游任务的潜在表示。与现有基于VAE的方法的经验比较表明,GWAE模型可以通过更改先前的家族而无需进一步修改GW目标来基于元家庭学习表示。
translated by 谷歌翻译
变异推理(VI)的核心原理是将计算复杂后概率密度计算的统计推断问题转换为可拖动的优化问题。该属性使VI比几种基于采样的技术更快。但是,传统的VI算法无法扩展到大型数据集,并且无法轻易推断出越野数据点,而无需重新运行优化过程。该领域的最新发展,例如随机,黑框和摊销VI,已帮助解决了这些问题。如今,生成的建模任务广泛利用摊销VI来实现其效率和可扩展性,因为它利用参数化函数来学习近似的后验密度参数。在本文中,我们回顾了各种VI技术的数学基础,以构成理解摊销VI的基础。此外,我们还概述了最近解决摊销VI问题的趋势,例如摊销差距,泛化问题,不一致的表示学习和后验崩溃。最后,我们分析了改善VI优化的替代差异度量。
translated by 谷歌翻译
主体组件分析(PCA)在给定固定组件维度的一类线性模型的情况下,将重建误差最小化。概率PCA通过学习PCA潜在空间权重的概率分布,从而创建生成模型,从而添加了概率结构。自动编码器(AE)最小化固定潜在空间维度的一类非线性模型中的重建误差,在固定维度处胜过PCA。在这里,我们介绍了概率自动编码器(PAE),该自动编码器(PAE)使用归一化流量(NF)了解了AE潜在空间权重的概率分布。 PAE快速且易于训练,并在下游任务中遇到小的重建错误,样本质量高以及良好的性能。我们将PAE与差异AE(VAE)进行比较,表明PAE训练更快,达到较低的重建误差,并产生良好的样品质量,而无需特殊的调整参数或培训程序。我们进一步证明,PAE是在贝叶斯推理的背景下,用于涂抹和降解应用程序的贝叶斯推断,可以执行概率图像重建的下游任务的强大模型。最后,我们将NF的潜在空间密度确定为有希望的离群检测度量。
translated by 谷歌翻译
在本文中,我们介绍了拆分变量自动编码器(SVAE)的概念,其输出$ \ hat {x} $作为加权sum $ \ sigma \ odot \ hat {x_1} +(1- \ sigma)两个生成图像的hat {x_2} $ $ \ hat {x_1},\ hat {x_2} $和$ \ sigma $是{\ em lecarne}的构图图。组合图像$ \ hat {x_1},\ hat {x_2} $以及$ \ sigma $ -map由模型自动合成。该网络经常进行训练,通常是变异自动编码器,训练和重建图像之间具有负loglikelihood的损失。 $ \ hat {x_1},\ hat {x_2} $或$ \ sigma $,都不需要额外的损失。分解是非确定性的,但遵循两个主要方案,我们可以将大致分为\ say {stantactic}或\ say {smantic}。在第一种情况下,地图倾向于利用相邻像素之间的强相关性,将图像分为两个互补的高频子图像。在第二种情况下,地图通常集中在对象的轮廓上,以其内容的有趣变体分开图像,并具有更明显和独特的特征。在这种情况下,根据经验观察,$ \ hat {x_1} $和$ \ hat {x_2} $通常比$ \ hat {x {x更好)的fr \'echet Inception Inception Inception距离(fid){x_1} $和$ \ hat {x_2} $通常更低} $,显然是前者的平均值。从某种意义上说,SVAE迫使变异自动编码器做出选择,与替代方案之间的固有趋势相反,其目的是最大程度地减少针对特定样本的重建损失。根据FID指标,我们的技术在MNIST,CIFAR10和CELEBA等典型数据集上进行了测试,使我们能够胜过所有以前所有以前的纯粹构造(不依赖归一化流)。
translated by 谷歌翻译
Riemannian geometry provides powerful tools to explore the latent space of generative models while preserving the inherent structure of the data manifold. Lengths, energies and volume measures can be derived from a pullback metric, defined through the immersion that maps the latent space to the data space. With this in mind, most generative models are stochastic, and so is the pullback metric. Manipulating stochastic objects is strenuous in practice. In order to perform operations such as interpolations, or measuring the distance between data points, we need a deterministic approximation of the pullback metric. In this work, we are defining a new metric as the expected length derived from the stochastic pullback metric. We show this metric is Finslerian, and we compare it with the expected pullback metric. In high dimensions, we show that the metrics converge to each other at a rate of $\mathcal{O}\left(\frac{1}{D}\right)$.
translated by 谷歌翻译
本文研究了发电机模型潜在空间中基于学习能量模型(EBM)的基本问题。学习这种先前的模型通常需要运行昂贵的马尔可夫链蒙特卡洛(MCMC)。取而代之的是,我们建议使用噪声对比度估计(NCE)通过潜在的先验密度和潜在后部密度之间的密度比估计来区分EBM。但是,如果两个密度之间的差距很大,则NCE通常无法准确估计这种密度比。为了有效解决此问题并学习更具表现力的先验模型,我们开发了自适应多阶段密度比估计,该估计将估计分为多个阶段,并依次和适应性地学习密度比的不同阶段。可以使用前阶段估计的比率逐渐学习潜在的先验模型,以便最终的潜在空间EBM先验可以通过不同阶段的比率产物自然形成。所提出的方法比现有基线可以提供信息,并且可以有效地培训。我们的实验表明在图像产生和重建以及异常检测中表现出色。
translated by 谷歌翻译
基于分数的生成模型(SGMS)最近在样品质量和分配覆盖范围内表现出令人印象深刻的结果。但是,它们通常直接应用于数据空间,并且通常需要数千个网络评估来采样。在这里,我们提出了基于潜在的分数的生成模型(LSGM),这是一种在潜在空间中培训SGM的新方法,依赖于变分性AutoEncoder框架。从数据移动到潜伏空间允许我们培训更具表现力的生成模型,将SGMS应用于非连续数据,并在较小的空间中学习更顺畅的SGM,导致更少的网络评估和更快的采样。要以可扩展且稳定的方式启用培训LSGMS端到端,我们(i)我们(i)引入了适合于LSGM设置的新分数匹配目标,(ii)提出了一个新颖的分数函数参数化,允许SGM专注于关于简单正常的目标分布的不匹配,(III)分析了多种技术,用于减少训练目标的方差。 LSGM在CIFAR-10上获得最先进的FID分数为2.10,优先表现出此数据集的所有现有生成结果。在Celeba-HQ-256上,LSGM在样品质量上与先前的SGMS相同,同时以两个数量级的采样时间表现出来。在模拟二进制图像中,LSGM在二值化omniglot数据集上实现了最先进的可能性。我们的项目页面和代码可以在https://nvlabs.github.io/lsgm找到。
translated by 谷歌翻译
矢量量化变量自动编码器(VQ-VAE)是基于数据的离散潜在表示的生成模型,其中输入映射到有限的学习嵌入式集合。要生成新样品,必须对离散状态进行自动介绍的先验分布。分别地。这一先验通常非常复杂,并导致生成缓慢。在这项工作中,我们提出了一个新模型,以同时训练先验和编码器/解码器网络。我们在连续编码的向量和非信息性先验分布之间建立扩散桥。然后将潜在离散状态作为这些连续向量的随机函数。我们表明,我们的模型与迷你imagenet和Cifar数据集的自动回归先验具有竞争力,并且在优化和采样方面都有效。我们的框架还扩展了标准VQ-VAE,并可以启用端到端培训。
translated by 谷歌翻译
变异自动编码器(VAE)经常遭受后塌陷,这是一种现象,其中学习过的潜在空间变得无知。这通常与类似于数据差异的高参数有关。此外,如果数据方差不均匀或条件性,则确定这种适当的选择将变得不可行。因此,我们提出了具有数据方差的广义参数化的VAE扩展,并将最大似然估计纳入目标函数中,以适应解码器平滑度。由提议的VAE扩展产生的图像显示,MNIST和Celeba数据集上的Fr \'Echet Inception距离(FID)得到了改善。
translated by 谷歌翻译
标准化流是生成模型,其通过从简单的基本分布到复杂的目标分布的可逆性转换提供易于变换的工艺模型。然而,该技术不能直接模拟支持未知的低维歧管的数据,在诸如图像数据之类的现实世界域中的公共发生。最近的补救措施的尝试引入了击败归一化流量的中央好处的几何并发症:精确密度估计。我们通过保形嵌入流量来恢复这种福利,这是一种设计流动与贸易密度的流动的流动的框架。我们争辩说,使用培训保育嵌入的标准流量是模型支持数据的最自然的方式。为此,我们提出了一系列保形构建块,并在具有合成和实际数据的实验中应用它们,以证明流动可以在不牺牲贸易可能性的情况下模拟歧管支持的分布。
translated by 谷歌翻译