Disentangement是代表学习的有用财产,其提高了种子自动编码器(VAE),生成对抗模型等变形式自动编码器(VAE),生成的对抗模型及其许多变体的可解释性。通常在这种模型中,脱离性能的增加是具有发电质量的交易。在潜空间模型的背景下,这项工作提出了一种表示学习框架,通过鼓励正交的变化方向明确地促进解剖。所提出的目标是自动编码器错误项的总和以及特征空间中的主成分分析重建错误。这具有对具有在Stiefel歧管上的特征向量矩阵的限制内核机器的解释。我们的分析表明,这种结构通过将潜在空间中的主路线与数据空间的正交变化的方向匹配来促进解剖。在交替的最小化方案中,我们使用Cayley ADAM算法 - Stiefel歧管的随机优化方法以及ADAM优化器。我们的理论讨论和各种实验表明,拟议的模型在代质量和解除戒备的代表学习方面提高了许多VAE变体。
translated by 谷歌翻译
变化自动编码器(VAE)最近已用于对复杂密度分布的无监督分离学习。存在许多变体,以鼓励潜在空间中的分解,同时改善重建。但是,在达到极低的重建误差和高度分离得分之间,没有人同时管理权衡。我们提出了一个普遍的框架,可以在有限的优化下应对这一挑战,并证明它在平衡重建时,它优于现有模型的最先进模型。我们介绍了三个可控的拉格朗日超级参数,以控制重建损失,KL差异损失和相关度量。我们证明,重建网络中的信息最大化等于在合理假设和约束放松下摊销过程中的信息最大化。
translated by 谷歌翻译
神经网络在许多科学学科中发挥着越来越大的作用,包括物理学。变形AutoEncoders(VAE)是能够表示在低维潜空间中的高维数据的基本信息,该神经网络具有概率解释。特别是所谓的编码器网络,VAE的第一部分,其将其输入到潜伏空间中的位置,另外在该位置的方差方面提供不确定性信息。在这项工作中,介绍了对AutoEncoder架构的扩展,渔民。在该架构中,借助于Fisher信息度量,不使用编码器中的附加信息信道生成潜在空间不确定性,而是从解码器导出。这种架构具有来自理论观点的优点,因为它提供了从模型的直接不确定性量化,并且还考虑不确定的交叉相关。我们可以通过实验表明,渔民生产比可比较的VAE更准确的数据重建,并且其学习性能也明显较好地缩放了潜伏空间尺寸的数量。
translated by 谷歌翻译
本文通过采取完全几何学的角度引入了对变异自动编码器框架的新解释。我们认为,香草vae自然而然地揭示了其潜在空间中的riemannian结构,并且考虑到这些几何方面可以导致更好的插值和改进的生成程序。这种新提出的采样方法包括从统一分布中的采样组成,该分布本质地从学到的利曼式潜在空间中得出,我们表明,使用此方案可以使香草VAE竞争性且比几个基准数据集中更先进的版本更好。由于已知生成模型对训练样品的数量很敏感,因此我们还强调了该方法在低数据状态下的鲁棒性。
translated by 谷歌翻译
近年来,由于其对复杂分布进行建模的能力,深层生成模型引起了越来越多的兴趣。在这些模型中,变异自动编码器已被证明是计算有效的,并且在多个领域中产生了令人印象深刻的结果。在这一突破之后,为了改善原始出版物而进行了广泛的研究,从而导致各种不同的VAE模型响应不同的任务。在本文中,我们介绍了Pythae,这是一个多功能的开源Python库,既可以提供统一的实现和专用框架,允许直接,可重现且可靠地使用生成自动编码器模型。然后,我们建议使用此库来执行案例研究基准测试标准,在其中我们介绍并比较了19个生成自动编码器模型,代表了下游任务的一些主要改进,例如图像重建,生成,分类,聚类,聚类和插值。可以在https://github.com/clementchadebec/benchmark_vae上找到开源库。
translated by 谷歌翻译
提出了一种新的双峰生成模型,用于生成条件样品和关节样品,并采用学习简洁的瓶颈表示的训练方法。所提出的模型被称为变异Wyner模型,是基于网络信息理论中的两个经典问题(分布式仿真和信道综合)设计的,其中Wyner的共同信息是对公共表示简洁性的基本限制。该模型是通过最大程度地减少对称的kullback的训练 - 差异 - 变异分布和模型分布之间具有正则化项,用于常见信息,重建一致性和潜在空间匹配项,该术语是通过对逆密度比率估计技术进行的。通过与合成和现实世界数据集的联合和有条件生成的实验以及具有挑战性的零照片图像检索任务,证明了所提出的方法的实用性。
translated by 谷歌翻译
这项工作提出了一种新的计算框架,用于学习用于真实数据集的明确生成模型。特别地,我们建议在包含多个独立的多维线性子空间组成的特征空间中的多类多维数据分发和{线性判别表示(LDR)}之间学习{\ EM闭环转录}。特别地,我们认为寻求的最佳编码和解码映射可以被配制为编码器和解码器之间的{\ em二手最小游戏的均衡点}。该游戏的自然实用功能是所谓的{\ em速率减少},这是一个简单的信息定理措施,用于特征空间中子空间类似的高斯的混合物之间的距离。我们的配方利用来自控制系统的闭环误差反馈的灵感,避免昂贵的评估和最小化数据空间或特征空间的任意分布之间的近似距离。在很大程度上,这种新的制定统一了自动编码和GaN的概念和益处,并自然将它们扩展到学习多级和多维实际数据的判别和生成}表示的设置。我们对许多基准图像数据集的广泛实验表明了这种新的闭环配方的巨大潜力:在公平的比较下,学习的解码器的视觉质量和编码器的分类性能是竞争力的,并且通常比基于GaN,VAE或基于GaN,VAE或基于GaN,VAE的方法更好的方法两者的组合。我们注意到所以,不同类别的特征在特征空间中明确地映射到大约{em独立的主管子空间};每个类中的不同视觉属性由每个子空间中的{\ em独立主体组件}建模。
translated by 谷歌翻译
主体组件分析(PCA)在给定固定组件维度的一类线性模型的情况下,将重建误差最小化。概率PCA通过学习PCA潜在空间权重的概率分布,从而创建生成模型,从而添加了概率结构。自动编码器(AE)最小化固定潜在空间维度的一类非线性模型中的重建误差,在固定维度处胜过PCA。在这里,我们介绍了概率自动编码器(PAE),该自动编码器(PAE)使用归一化流量(NF)了解了AE潜在空间权重的概率分布。 PAE快速且易于训练,并在下游任务中遇到小的重建错误,样本质量高以及良好的性能。我们将PAE与差异AE(VAE)进行比较,表明PAE训练更快,达到较低的重建误差,并产生良好的样品质量,而无需特殊的调整参数或培训程序。我们进一步证明,PAE是在贝叶斯推理的背景下,用于涂抹和降解应用程序的贝叶斯推断,可以执行概率图像重建的下游任务的强大模型。最后,我们将NF的潜在空间密度确定为有希望的离群检测度量。
translated by 谷歌翻译
在没有监督信号的情况下学习简洁的数据表示是机器学习的基本挑战。实现此目标的一种突出方法是基于可能性的模型,例如变异自动编码器(VAE),以基于元元素来学习潜在表示,这是对下游任务有益的一般前提(例如,disentanglement)。但是,这种方法通常偏离原始的可能性体系结构,以应用引入的元优势,从而导致他们的培训不良变化。在本文中,我们提出了一种新颖的表示学习方法,Gromov-Wasserstein自动编码器(GWAE),该方法与潜在和数据分布直接匹配。 GWAE模型不是基于可能性的目标,而是通过最小化Gromov-Wasserstein(GW)度量的训练优化。 GW度量测量了在无与伦比的空间上支持的分布之间的面向结构的差异,例如具有不同的维度。通过限制可训练的先验的家庭,我们可以介绍元主题来控制下游任务的潜在表示。与现有基于VAE的方法的经验比较表明,GWAE模型可以通过更改先前的家族而无需进一步修改GW目标来基于元家庭学习表示。
translated by 谷歌翻译
高维数据的歧管假设假设数据是通过改变从低维潜在空间获得的一组参数而生成的。深层生成模型(DGM)被广泛用于以无监督的方式学习数据表示。 DGM使用瓶颈体系结构(例如变异自动编码器(VAE))参数化数据空间中的基础低维歧管。 VAE的瓶颈尺寸被视为取决于数据集的超参数,并在广泛调整后在设计时间固定。由于大多数实际数据集的内在维度尚不清楚,因此固有维度与选择为超参数的潜在维度之间存在不匹配。这种不匹配可能会对表示形式学习和样本生成任务的模型性能产生负面影响。本文提出了相关性编码网络(RENS):一种新型的基于VAE的概率VAE框架,该框架在潜在空间中使用自动相关性确定(ARD)来学习数据特定的瓶颈维度。每个潜在维度的相关性是直接从数据以及使用随机梯度下降的其他模型参数以及适合非高斯先验的重新聚集技巧的其他模型参数中学到的。我们利用深处的概念来捕获数据和潜在空间中的置换统计属性,以确定相关性。所提出的框架是一般且灵活的,可用于最先进的VAE模型,该模型利用正规化器在潜在空间中施加特定特征(例如,脱离)。通过对合成和公共图像数据集进行了广泛的实验,我们表明,所提出的模型了解了相关的潜在瓶颈维度,而不会损害样品的表示和发电质量。
translated by 谷歌翻译
给定包含具有不同特征的不同对象的图像数据集,例如形状,大小,旋转和X-y位置;以及变异自动编码器(VAE);在VAE的隐藏空间向量中创建这些功能的分解编码是本文感兴趣的任务。DSPRITE数据集为本研究中所需的实验提供了所需的功能。在训练VAE与生成对抗网络(GAN)结合后,隐藏矢量的每个维度都被破坏,以探索每个维度中的分离。请注意,GAN用于提高输出图像重建的质量。
translated by 谷歌翻译
We define and address the problem of unsupervised learning of disentangled representations on data generated from independent factors of variation. We propose FactorVAE, a method that disentangles by encouraging the distribution of representations to be factorial and hence independent across the dimensions. We show that it improves upon β-VAE by providing a better trade-off between disentanglement and reconstruction quality. Moreover, we highlight the problems of a commonly used disentanglement metric and introduce a new metric that does not suffer from them.
translated by 谷歌翻译
Variational autoencoders (VAEs) are powerful tools for learning latent representations of data used in a wide range of applications. In practice, VAEs usually require multiple training rounds to choose the amount of information the latent variable should retain. This trade-off between the reconstruction error (distortion) and the KL divergence (rate) is typically parameterized by a hyperparameter $\beta$. In this paper, we introduce Multi-Rate VAE (MR-VAE), a computationally efficient framework for learning optimal parameters corresponding to various $\beta$ in a single training run. The key idea is to explicitly formulate a response function that maps $\beta$ to the optimal parameters using hypernetworks. MR-VAEs construct a compact response hypernetwork where the pre-activations are conditionally gated based on $\beta$. We justify the proposed architecture by analyzing linear VAEs and showing that it can represent response functions exactly for linear VAEs. With the learned hypernetwork, MR-VAEs can construct the rate-distortion curve without additional training and can be deployed with significantly less hyperparameter tuning. Empirically, our approach is competitive and often exceeds the performance of multiple $\beta$-VAEs training with minimal computation and memory overheads.
translated by 谷歌翻译
The key idea behind the unsupervised learning of disentangled representations is that real-world data is generated by a few explanatory factors of variation which can be recovered by unsupervised learning algorithms. In this paper, we provide a sober look at recent progress in the field and challenge some common assumptions. We first theoretically show that the unsupervised learning of disentangled representations is fundamentally impossible without inductive biases on both the models and the data. Then, we train more than 12 000 models covering most prominent methods and evaluation metrics in a reproducible large-scale experimental study on seven different data sets. We observe that while the different methods successfully enforce properties "encouraged" by the corresponding losses, well-disentangled models seemingly cannot be identified without supervision. Furthermore, increased disentanglement does not seem to lead to a decreased sample complexity of learning for downstream tasks. Our results suggest that future work on disentanglement learning should be explicit about the role of inductive biases and (implicit) supervision, investigate concrete benefits of enforcing disentanglement of the learned representations, and consider a reproducible experimental setup covering several data sets.
translated by 谷歌翻译
现代工业系统中成像和配置传感器的广泛可访问性创造了大量的高维传感变量。这导致对高维过程监测的研究日益兴趣。然而,文献中的大多数方法都假设控制内人群以给定基础(即样条,小波,核等)或未知基础(即主成分分析及其变体)的线性歧管(即样条,小波,内核等)。 ,不能用来有效地用非线性流形对概况进行建模,这在许多现实生活中很常见。我们将深层概率自动编码器作为一种可行的无监督学习方法来建模这种歧管。为此,我们从经典方法中制定了监测统计数据的非线性和概率扩展,作为预期重建误差(ERE)和基于KL-Divergence(KLD)的监视统计量。通过广泛的仿真研究,我们提供了有关为什么基于潜在空间的统计数据不可靠的见解,以及为什么基于残留空间的统计数据通常在基于深度学习的方法方面表现更好。最后,我们通过模拟研究和现实生活中的案例研究展示了深层概率模型的优势,涉及热钢滚动过程中缺陷的图像。
translated by 谷歌翻译
在这项工作中,我们为生成自动编码器的变异培训提供了确切的可能性替代方法。我们表明,可以使用可逆层来构建VAE风格的自动编码器,该层提供了可拖动的精确可能性,而无需任何正则化项。这是在选择编码器,解码器和先前体系结构的全部自由的同时实现的,这使我们的方法成为培训现有VAE和VAE风格模型的替换。我们将结果模型称为流中的自动编码器(AEF),因为编码器,解码器和先验被定义为整体可逆体系结构的单个层。我们表明,在对数可能,样本质量和降低性能的方面,该方法的性能比结构上等效的VAE高得多。从广义上讲,这项工作的主要野心是在共同的可逆性和确切的最大可能性的共同框架下缩小正常化流量和自动编码器文献之间的差距。
translated by 谷歌翻译
基于似然或显式的深层生成模型使用神经网络来构建灵活的高维密度。该公式直接与歧管假设相矛盾,该假设指出,观察到的数据位于嵌入高维环境空间中的低维歧管上。在本文中,我们研究了在这种维度不匹配的情况下,最大可能的训练的病理。我们正式证明,在学习歧管本身而不是分布的情况下,可以实现堕落的优点,而我们称之为多种歧视的现象过于拟合。我们提出了一类两步程序,该过程包括降低降低步骤,然后进行最大样子密度估计,并证明它们在非参数方面恢复了数据生成分布,从而避免了多种歧视。我们还表明,这些过程能够对隐式模型(例如生成对抗网络)学到的流形进行密度估计,从而解决了这些模型的主要缺点。最近提出的几种方法是我们两步程序的实例。因此,我们统一,扩展和理论上证明了一大批模型。
translated by 谷歌翻译
$ \ beta $ -vae是对变形的自身额外转换器的后续技术,提出了在VAE损失中的KL分歧项的特殊加权,以获得解除戒备的表示。即使在玩具数据集和有意义的情况下,甚至在玩具数据集上也是脆弱的学习,难以找到的难以找到的。在这里,我们调查原来的$ \β$ -VAE纸,并向先前获得的结果添加证据表明其缺乏可重复性。我们还进一步扩展了模型的实验,并在分析中包括进一步更复杂的数据集。我们还为$ \β$ -VAE模型实施了FID评分度量,并得出了对所获得的结果的定性分析。我们结束了关于可能进行的未来调查的简要讨论,以增加对索赔的更具稳健性。
translated by 谷歌翻译
近似复杂的概率密度是现代统计中的核心问题。在本文中,我们介绍了变分推理(VI)的概念,这是一种机器学习中的流行方法,该方法使用优化技术来估计复杂的概率密度。此属性允许VI汇聚速度比经典方法更快,例如Markov Chain Monte Carlo采样。概念上,VI通过选择一个概率密度函数,然后找到最接近实际概率密度的家庭 - 通常使用Kullback-Leibler(KL)发散作为优化度量。我们介绍了缩窄的证据,以促进近似的概率密度,我们审查了平均场变分推理背后的想法。最后,我们讨论VI对变分式自动编码器(VAE)和VAE-生成的对抗网络(VAE-GAN)的应用。用本文,我们的目标是解释VI的概念,并通过这种方法协助协助。
translated by 谷歌翻译
变异自动编码器(VAE)经常遭受后塌陷,这是一种现象,其中学习过的潜在空间变得无知。这通常与类似于数据差异的高参数有关。此外,如果数据方差不均匀或条件性,则确定这种适当的选择将变得不可行。因此,我们提出了具有数据方差的广义参数化的VAE扩展,并将最大似然估计纳入目标函数中,以适应解码器平滑度。由提议的VAE扩展产生的图像显示,MNIST和Celeba数据集上的Fr \'Echet Inception距离(FID)得到了改善。
translated by 谷歌翻译