稀疏性是理想的属性。与密集模型相比,它可以导致更有效,更有效的表示。同时,由于其复杂性,学习稀疏的潜在表示是计算机视觉和机器学习领域的一个挑战性问题。在本文中,我们提出了一种新的无监督学习方法,以在发电机模型的潜在空间上稀疏,并逐渐稀疏的尖峰和平板分布作为我们的先验。我们的模型仅由一个自上而下的发电机网络组成,该网络将潜在变量映射到观察到的数据。可以使用基于非阶梯的方法来推断发电机后方向的潜在变量。推理步骤中的尖峰和平板正则化可以将非信息潜在维度推向零以诱导稀疏性。广泛的实验表明,该模型可以保留具有稀疏表示的原始图像中的大多数信息,同时与其他现有方法相比证明了结果的改善。我们观察到,我们的模型可以学习分离的语义,并提高潜在代码的解释性,同时提高分类和转化任务的鲁棒性。
translated by 谷歌翻译
本文研究了发电机模型潜在空间中基于学习能量模型(EBM)的基本问题。学习这种先前的模型通常需要运行昂贵的马尔可夫链蒙特卡洛(MCMC)。取而代之的是,我们建议使用噪声对比度估计(NCE)通过潜在的先验密度和潜在后部密度之间的密度比估计来区分EBM。但是,如果两个密度之间的差距很大,则NCE通常无法准确估计这种密度比。为了有效解决此问题并学习更具表现力的先验模型,我们开发了自适应多阶段密度比估计,该估计将估计分为多个阶段,并依次和适应性地学习密度比的不同阶段。可以使用前阶段估计的比率逐渐学习潜在的先验模型,以便最终的潜在空间EBM先验可以通过不同阶段的比率产物自然形成。所提出的方法比现有基线可以提供信息,并且可以有效地培训。我们的实验表明在图像产生和重建以及异常检测中表现出色。
translated by 谷歌翻译
马尔可夫链蒙特卡洛(MCMC),例如langevin Dynamics,有效地近似顽固的分布。但是,由于昂贵的数据采样迭代和缓慢的收敛性,它的用法在深层可变模型的背景下受到限制。本文提出了摊销的langevin Dynamics(ALD),其中数据划分的MCMC迭代完全被编码器的更新替换为将观测值映射到潜在变量中。这种摊销可实现有效的后验采样,而无需数据迭代。尽管具有效率,但我们证明ALD是MCMC算法有效的,其马尔可夫链在轻度假设下将目标后部作为固定分布。基于ALD,我们还提出了一个名为Langevin AutoCodeer(LAE)的新的深层变量模型。有趣的是,可以通过稍微修改传统自动编码器来实现LAE。使用多个合成数据集,我们首先验证ALD可以从目标后代正确获取样品。我们还在图像生成任务上评估了LAE,并证明我们的LAE可以根据变异推断(例如变异自动编码器)和其他基于MCMC的方法在测试可能性方面胜过现有的方法。
translated by 谷歌翻译
稀疏的编码策略因其在利用低维结构的数据的简约表示而受到称赞。但是,这些代码的推论通常依赖于优化程序,而在高维问题中计算缩放率差。例如,在深神经网络(DNNS)的高维中间层中学到的表示形式的稀疏推断需要在每个训练步骤中进行迭代最小化。因此,已经提出了最近的,变异推断的快速方法来通过学习DNN上的代码上的分布来推断稀疏代码。在这项工作中,我们提出了一种新的方法来稀疏编码,使我们能够通过阈值样本学习稀疏分布,避免使用有问题的放松。我们首先通过训练线性生成器来评估和分析我们的方法,表明与其他稀疏分布相比,它具有较高的性能,统计效率和梯度估计。然后,我们使用时尚MNIST和Celeba数据集上使用DNN发电机进行比较
translated by 谷歌翻译
稀疏编码与$ l_1 $罚化和学习的线性词典需要正规化字典以防止$ l_1 $ norms的代码中的崩溃。通常,此正则化需要绑定字典元素的欧几里德规范。在这项工作中,我们提出了一种新颖的稀疏编码协议,其防止代码中的崩溃,而无需正常化解码器。我们的方法直接正规化代码,使每个潜在代码组件具有大于固定阈值的差异,而不是给定一组输入集的一组稀疏表示。此外,我们探讨有效地利用多层解码器培训稀疏编码系统的方法,因为它们可以模拟比线性词典更复杂的关系。在我们的MNIST和自然形象补丁的实验中,我们表明,通过我们的方法学习的解码器具有在线性和多层外壳中的可解释特征。此外,我们显示使用我们的方差正则化方法训练的多层解码器具有多层解码器的稀疏自动置分机,与具有线性词典的自动码器相比,使用稀疏表示具有稀疏表示的更高质量的重建。此外,通过我们的差异正规化方法获得的稀疏表示可用于低数据制度的去噪和分类的下游任务。
translated by 谷歌翻译
现实世界数据库很复杂,它们通常会呈现冗余,并在同一数据的异质和多个表示之间共享相关性。因此,在视图之间利用和解开共享信息至关重要。为此,最近的研究经常将所有观点融合到共享的非线性复杂潜在空间中,但它们失去了解释性。为了克服这一局限性,我们在这里提出了一种新的方法,将多个变异自动编码器(VAE)结构与因子分析潜在空间(FA-VAE)相结合。具体而言,我们使用VAE在连续的潜在空间中学习每个异质观点的私人表示。然后,我们通过使用线性投影矩阵将每个私有变量投影到低维的潜在空间来对共享潜在空间进行建模。因此,我们在私人信息和共享信息之间创建了可解释的层次依赖性。这样,新型模型可以同时:(i)从多种异质观点中学习,(ii)获得可解释的层次共享空间,以及(iii)在生成模型之间执行传输学习。
translated by 谷歌翻译
在概率深层生成模型中构建潜在空间,例如变异自动编码器(VAE),对于产生更具表现力的模型和可解释的表示并避免过度拟合非常重要。实现这一目标的一种方法是对潜在变量(例如,通过Laplace先验)施加稀疏性约束。但是,这种方法通常会使训练阶段变得复杂,并且它们牺牲了重建质量以促进稀疏性。在本文中,我们提出了一种简单而有效的方法,可以通过启动稀疏字典模型来构建潜在空间,该模型假设每个潜在代码可以写成词典的列的稀疏线性组合。特别是,我们利用了一种计算高效且无调的方法,该方法依赖于具有可学习方差的零均值高斯潜在方法。我们得出了训练模型的变异推理方案。语音生成建模的实验证明了所提出的方法比竞争技术的优势,因为它会促进稀疏性,同时又不恶化输出语音质量。
translated by 谷歌翻译
The success of machine learning algorithms generally depends on data representation, and we hypothesize that this is because different representations can entangle and hide more or less the different explanatory factors of variation behind the data. Although specific domain knowledge can be used to help design representations, learning with generic priors can also be used, and the quest for AI is motivating the design of more powerful representation-learning algorithms implementing such priors. This paper reviews recent work in the area of unsupervised feature learning and deep learning, covering advances in probabilistic models, auto-encoders, manifold learning, and deep networks. This motivates longer-term unanswered questions about the appropriate objectives for learning good representations, for computing representations (i.e., inference), and the geometrical connections between representation learning, density estimation and manifold learning.
translated by 谷歌翻译
This paper describes InfoGAN, an information-theoretic extension to the Generative Adversarial Network that is able to learn disentangled representations in a completely unsupervised manner. InfoGAN is a generative adversarial network that also maximizes the mutual information between a small subset of the latent variables and the observation. We derive a lower bound of the mutual information objective that can be optimized efficiently. Specifically, InfoGAN successfully disentangles writing styles from digit shapes on the MNIST dataset, pose from lighting of 3D rendered images, and background digits from the central digit on the SVHN dataset. It also discovers visual concepts that include hair styles, presence/absence of eyeglasses, and emotions on the CelebA face dataset. Experiments show that InfoGAN learns interpretable representations that are competitive with representations learned by existing supervised methods.
translated by 谷歌翻译
该报告解释,实施和扩展了“更紧密的变化界限不一定更好”所介绍的作品(T Rainforth等,2018)。我们提供了理论和经验证据,这些证据增加了重要性的重要性数量$ k $在重要性加权自动编码器(IWAE)中(Burda等,2016)降低了推理中梯度估计量的信噪比(SNR)网络,从而影响完整的学习过程。换句话说,即使增加$ k $减少了梯度的标准偏差,但它也会更快地降低真实梯度的幅度,从而增加梯度更新的相对差异。进行广泛的实验以了解$ k $的重要性。这些实验表明,更紧密的变化界限对生成网络有益,而宽松的边界对推理网络来说是可取的。通过这些见解,可以实施和研究三种方法:部分重要性加权自动编码器(PIWAE),倍增重要性加权自动编码器(MIWAE)和组合重要性加权自动编码器(CIWAE)。这三种方法中的每一种都需要IWAE作为一种特殊情况,但采用不同的重量权重,以确保较高的梯度估计器的SNR。在我们的研究和分析中,这些算法的疗效在多个数据集(如MNIST和Omniglot)上进行了测试。最后,我们证明了三种呈现的IWAE变化能够产生近似后验分布,这些分布与IWAE更接近真正的后验分布,同时匹配IWAE生成网络的性能,或者在PIWAE的情况下可能超过其表现。
translated by 谷歌翻译
近似复杂的概率密度是现代统计中的核心问题。在本文中,我们介绍了变分推理(VI)的概念,这是一种机器学习中的流行方法,该方法使用优化技术来估计复杂的概率密度。此属性允许VI汇聚速度比经典方法更快,例如Markov Chain Monte Carlo采样。概念上,VI通过选择一个概率密度函数,然后找到最接近实际概率密度的家庭 - 通常使用Kullback-Leibler(KL)发散作为优化度量。我们介绍了缩窄的证据,以促进近似的概率密度,我们审查了平均场变分推理背后的想法。最后,我们讨论VI对变分式自动编码器(VAE)和VAE-生成的对抗网络(VAE-GAN)的应用。用本文,我们的目标是解释VI的概念,并通过这种方法协助协助。
translated by 谷歌翻译
变异自动编码器(VAE)是最常用的无监督机器学习模型之一。但是,尽管对先前和后验的高斯分布的默认选择通常代表了数学方便的分布通常会导致竞争结果,但我们表明该参数化无法用潜在的超球体结构对数据进行建模。为了解决这个问题,我们建议使用von Mises-fisher(VMF)分布,从而导致超级潜在空间。通过一系列实验,我们展示了这种超球vae或$ \ mathcal {s} $ - vae如何更适合于用超球形结构捕获数据,同时胜过正常的,$ \ mathcal {n} $ - vae-,在其他数据类型的低维度中。http://github.com/nicola-decao/s-vae-tf和https://github.com/nicola-decao/nicola-decao/s-vae-pytorch
translated by 谷歌翻译
扩散概率模型(DPMS)在竞争对手GANS的图像生成中取得了显着的质量。但与GAN不同,DPMS使用一组缺乏语义含义的一组潜在变量,并且不能作为其他任务的有用表示。本文探讨了使用DPMS进行表示学习的可能性,并寻求通过自动编码提取输入图像的有意义和可解码的表示。我们的主要思想是使用可学习的编码器来发现高级语义,以及DPM作为用于建模剩余随机变化的解码器。我们的方法可以将任何图像编码为两部分潜在的代码,其中第一部分是语义有意义和线性的,第二部分捕获随机细节,允许接近精确的重建。这种功能使当前箔基于GaN的方法的挑战性应用,例如实际图像上的属性操作。我们还表明,这两级编码可提高去噪效率,自然地涉及各种下游任务,包括几次射击条件采样。
translated by 谷歌翻译
在实践中,很难收集配对的培训数据,但是不合格的样本广泛存在。当前的方法旨在通过探索损坏的数据和清洁数据之间的关系来从未配对样本中生成合成的培训数据。这项工作提出了Lud-Vae,这是一种从边际分布中采样的数据中学习关节概率密度函数的深层生成方法。我们的方法基于一个经过精心设计的概率图形模型,在该模型中,干净和损坏的数据域在条件上是独立的。使用变异推断,我们最大化证据下限(ELBO)以估计关节概率密度函数。此外,我们表明在推理不变假设下没有配对样品的情况下,ELBO是可以计算的。该属性在未配对的环境中提供了我们方法的数学原理。最后,我们将我们的方法应用于现实世界图像denoising,超分辨率和低光图像增强任务,并使用Lud-vae生成的合成数据训练模型。实验结果验证了我们方法比其他方法的优势。
translated by 谷歌翻译
Diffusion Probabilistic Models (DPMs) have shown a powerful capacity of generating high-quality image samples. Recently, diffusion autoencoders (Diff-AE) have been proposed to explore DPMs for representation learning via autoencoding. Their key idea is to jointly train an encoder for discovering meaningful representations from images and a conditional DPM as the decoder for reconstructing images. Considering that training DPMs from scratch will take a long time and there have existed numerous pre-trained DPMs, we propose \textbf{P}re-trained \textbf{D}PM \textbf{A}uto\textbf{E}ncoding (\textbf{PDAE}), a general method to adapt existing pre-trained DPMs to the decoders for image reconstruction, with better training efficiency and performance than Diff-AE. Specifically, we find that the reason that pre-trained DPMs fail to reconstruct an image from its latent variables is due to the information loss of forward process, which causes a gap between their predicted posterior mean and the true one. From this perspective, the classifier-guided sampling method can be explained as computing an extra mean shift to fill the gap, reconstructing the lost class information in samples. These imply that the gap corresponds to the lost information of the image, and we can reconstruct the image by filling the gap. Drawing inspiration from this, we employ a trainable model to predict a mean shift according to encoded representation and train it to fill as much gap as possible, in this way, the encoder is forced to learn as much information as possible from images to help the filling. By reusing a part of network of pre-trained DPMs and redesigning the weighting scheme of diffusion loss, PDAE can learn meaningful representations from images efficiently. Extensive experiments demonstrate the effectiveness, efficiency and flexibility of PDAE.
translated by 谷歌翻译
嵌套辍学是辍学操作的变体,能够根据训练期间的预定义重要性订购网络参数或功能。它已被探索:I。构造嵌套网络:嵌套网是神经网络,可以在测试时间(例如基于计算约束)中立即调整架构的架构。嵌套的辍学者隐含地对网络参数进行排名,生成一组子网络,从而使任何较小的子网络构成较大的子网络的基础。 ii。学习排序表示:应用于生成模型的潜在表示(例如自动编码器)对特征进行排名,从而在尺寸上执行密集表示的明确顺序。但是,在整个训练过程中,辍学率是固定为高参数的。对于嵌套网,当删除网络参数时,性能衰减在人类指定的轨迹中而不是从数据中学到的轨迹中。对于生成模型,特征的重要性被指定为恒定向量,从而限制了表示学习的灵活性。为了解决该问题,我们专注于嵌套辍学的概率对应物。我们提出了一个嵌套掉落(VND)操作,该操作以低成本绘制多维有序掩码的样品,为嵌套掉落的参数提供了有用的梯度。基于这种方法,我们设计了一个贝叶斯嵌套的神经网络,以了解参数分布的顺序知识。我们在不同的生成模型下进一步利用VND来学习有序的潜在分布。在实验中,我们表明所提出的方法在分类任务中的准确性,校准和室外检测方面优于嵌套网络。它还在数据生成任务上胜过相关的生成模型。
translated by 谷歌翻译
We define and address the problem of unsupervised learning of disentangled representations on data generated from independent factors of variation. We propose FactorVAE, a method that disentangles by encouraging the distribution of representations to be factorial and hence independent across the dimensions. We show that it improves upon β-VAE by providing a better trade-off between disentanglement and reconstruction quality. Moreover, we highlight the problems of a commonly used disentanglement metric and introduce a new metric that does not suffer from them.
translated by 谷歌翻译
近年来,拥抱集群研究中的表演学习的深度学习技术引起了广泛的关注,产生了一个新开发的聚类范式,QZ。深度聚类(DC)。通常,DC型号大写AutoEncoders,以了解促进聚类过程的内在特征。如今,一个名为变变AualEncoder(VAE)的生成模型在DC研究中得到了广泛的认可。然而,平原VAE不足以察觉到综合潜在特征,导致细分性能恶化。本文提出了一种新的DC方法来解决这个问题。具体地,生成的逆势网络和VAE被聚结成了一种名为Fusion AutoEncoder(FAE)的新的AutoEncoder,以辨别出更多的辨别性表示,从而使下游聚类任务受益。此外,FAE通过深度剩余网络架构实施,进一步提高了表示学习能力。最后,将FAE的潜在空间转变为由深密神经网络的嵌入空间,用于彼此从彼此拉出不同的簇,并将数据点折叠在单个簇内。在几个图像数据集上进行的实验证明了所提出的DC模型对基线方法的有效性。
translated by 谷歌翻译
视觉变压器网络在许多计算机视觉任务中显示出优越性。在本文中,我们通过在基于信息的基于能量检测之前提出具有潜在变量的新型生成视觉变压器进一步逐步。视觉变压器网络和基于能量的先前模型都是通过Markov链蒙特卡罗的最大似然估计共同训练,其中来自居民后的静缘和先前分布的采样由Langevin Dynamics进行。此外,对于生成视觉变压器,我们可以容易地从图像中获得像素明智的不确定性图,该图像指示对从图像预测显着性的模型置信度。与现有的生成模型不同,该模型定义了潜在变量的先前分配作为简单的各向同性高斯分布,我们的模型使用基于能量的信息性,以捕获数据的潜在空间更具表现力。我们将建议的框架应用于RGB和RGB-D突出对象检测任务。广泛的实验结果表明,我们的框架不仅可以达到准确的显着性预测,而且可以实现与人类感知一致的有意义的不确定性地图。
translated by 谷歌翻译
近年来,由于其对复杂分布进行建模的能力,深层生成模型引起了越来越多的兴趣。在这些模型中,变异自动编码器已被证明是计算有效的,并且在多个领域中产生了令人印象深刻的结果。在这一突破之后,为了改善原始出版物而进行了广泛的研究,从而导致各种不同的VAE模型响应不同的任务。在本文中,我们介绍了Pythae,这是一个多功能的开源Python库,既可以提供统一的实现和专用框架,允许直接,可重现且可靠地使用生成自动编码器模型。然后,我们建议使用此库来执行案例研究基准测试标准,在其中我们介绍并比较了19个生成自动编码器模型,代表了下游任务的一些主要改进,例如图像重建,生成,分类,聚类,聚类和插值。可以在https://github.com/clementchadebec/benchmark_vae上找到开源库。
translated by 谷歌翻译