现实世界数据库很复杂,它们通常会呈现冗余,并在同一数据的异质和多个表示之间共享相关性。因此,在视图之间利用和解开共享信息至关重要。为此,最近的研究经常将所有观点融合到共享的非线性复杂潜在空间中,但它们失去了解释性。为了克服这一局限性,我们在这里提出了一种新的方法,将多个变异自动编码器(VAE)结构与因子分析潜在空间(FA-VAE)相结合。具体而言,我们使用VAE在连续的潜在空间中学习每个异质观点的私人表示。然后,我们通过使用线性投影矩阵将每个私有变量投影到低维的潜在空间来对共享潜在空间进行建模。因此,我们在私人信息和共享信息之间创建了可解释的层次依赖性。这样,新型模型可以同时:(i)从多种异质观点中学习,(ii)获得可解释的层次共享空间,以及(iii)在生成模型之间执行传输学习。
translated by 谷歌翻译
变异自动编码器(VAE)最近在归类和获取异质缺失数据方面非常成功。但是,在此特定应用程序域中,仅使用一层潜在变量和严格的高斯后近似值来限制现有的VAE方法。为了解决这些局限性,我们提出了HH-VAEM,这是一种用于混合型不完整数据的层次VAE模型,该模型使用Hamiltonian Monte Carlo和自动超参数调谐,以改善近似推断。我们的实验表明,HH-VAEM在缺少数据插补和有缺少功能的监督学习的任务中优于现有基线。最后,我们还提出了一种基于抽样的方法,用于在使用HH-VAEM获取缺失功能时有效地计算信息增益。我们的实验表明,基于抽样的方法优于基于高斯近似值的替代方法。
translated by 谷歌翻译
多模式学习是建立模型的框架,这些模型可以根据不同类型的方式进行预测。多模式学习中的重要挑战是通过这些表示从任意模式和跨模式产生的共同表示形式推断;但是,实现这一目标需要考虑多模式数据的异质性质。近年来,深层生成模型,即通过深层神经网络参数化的生成模型引起了很多关注,尤其是变异自动编码器,这些自动编码器适合于实现上述挑战,因为它们可以考虑异质性并推断出数据的良好表示。。因此,近年来已经提出了基于变异自动编码器的各种多模式生成模型,称为多模式深生成模型。在本文中,我们提供了对多模式深生成模型研究的分类调查。
translated by 谷歌翻译
We present a principled approach to incorporating labels in VAEs that captures the rich characteristic information associated with those labels. While prior work has typically conflated these by learning latent variables that directly correspond to label values, we argue this is contrary to the intended effect of supervision in VAEs-capturing rich label characteristics with the latents. For example, we may want to capture the characteristics of a face that make it look young, rather than just the age of the person. To this end, we develop the CCVAE, a novel VAE model and concomitant variational objective which captures label characteristics explicitly in the latent space, eschewing direct correspondences between label values and latents. Through judicious structuring of mappings between such characteristic latents and labels, we show that the CCVAE can effectively learn meaningful representations of the characteristics of interest across a variety of supervision schemes. In particular, we show that the CCVAE allows for more effective and more general interventions to be performed, such as smooth traversals within the characteristics for a given label, diverse conditional generation, and transferring characteristics across datapoints.
translated by 谷歌翻译
高维数据的歧管假设假设数据是通过改变从低维潜在空间获得的一组参数而生成的。深层生成模型(DGM)被广泛用于以无监督的方式学习数据表示。 DGM使用瓶颈体系结构(例如变异自动编码器(VAE))参数化数据空间中的基础低维歧管。 VAE的瓶颈尺寸被视为取决于数据集的超参数,并在广泛调整后在设计时间固定。由于大多数实际数据集的内在维度尚不清楚,因此固有维度与选择为超参数的潜在维度之间存在不匹配。这种不匹配可能会对表示形式学习和样本生成任务的模型性能产生负面影响。本文提出了相关性编码网络(RENS):一种新型的基于VAE的概率VAE框架,该框架在潜在空间中使用自动相关性确定(ARD)来学习数据特定的瓶颈维度。每个潜在维度的相关性是直接从数据以及使用随机梯度下降的其他模型参数以及适合非高斯先验的重新聚集技巧的其他模型参数中学到的。我们利用深处的概念来捕获数据和潜在空间中的置换统计属性,以确定相关性。所提出的框架是一般且灵活的,可用于最先进的VAE模型,该模型利用正规化器在潜在空间中施加特定特征(例如,脱离)。通过对合成和公共图像数据集进行了广泛的实验,我们表明,所提出的模型了解了相关的潜在瓶颈维度,而不会损害样品的表示和发电质量。
translated by 谷歌翻译
最近的研究表明,先进的前锋在深度生成模型中发挥着重要作用。作为基于示例的基于示例的VAE的变体,示例性VAE已经实现了令人印象深刻的结果。然而,由于模型设计的性质,基于示例的模型通常需要大量的数据来参与训练,这导致巨大的计算复杂性。为了解决这个问题,我们提出了贝叶斯伪移动的样份vae(bype-vae),一种基于Bayesian伪动脉的先前vae的新变种。该提出的先后在小规模的伪电阻上而不是整个数据集进行调节,以降低计算成本并避免过度拟合。同时,在VAE训练期间,通过随机优化算法获得最佳伪验证,旨在最大限度地基于伪移动的基于伪组件的Kullback-Leibler发散,并且基于整个数据集。实验结果表明,Bype-VAE可以在密度估计,代表学习和生成数据增强的任务中实现最先进的VAES对最先进的VAES的竞争改进。特别是,在基本的VAE架构上,Bype-VAE比示例性VAE快3倍,同时几乎保持性能。代码可用于\ url {https:/github.com/aiqz/bype-vae}。
translated by 谷歌翻译
Learning useful representations without supervision remains a key challenge in machine learning. In this paper, we propose a simple yet powerful generative model that learns such discrete representations. Our model, the Vector Quantised-Variational AutoEncoder (VQ-VAE), differs from VAEs in two key ways: the encoder network outputs discrete, rather than continuous, codes; and the prior is learnt rather than static. In order to learn a discrete latent representation, we incorporate ideas from vector quantisation (VQ). Using the VQ method allows the model to circumvent issues of "posterior collapse" --where the latents are ignored when they are paired with a powerful autoregressive decoder --typically observed in the VAE framework. Pairing these representations with an autoregressive prior, the model can generate high quality images, videos, and speech as well as doing high quality speaker conversion and unsupervised learning of phonemes, providing further evidence of the utility of the learnt representations.
translated by 谷歌翻译
仅观察一组有限的示例,应该能够从新分布中生成数据。在几次学习中,该模型经过了来自分布的许多集合的数据培训,这些分布共享了一些基本属性,例如来自不同字母的字符集或来自不同类别的对象。我们将当前的潜在变量模型扩展到具有基于注意力级聚合的基于注意力的点的完全层次结构方法,并将我们的方法scha-vae称为set-context层次层次结构 - 构造变异自动编码器。我们探索基于似然的模型比较,迭代数据采样和无适应性分布概括。我们的结果表明,分层公式可以更好地捕获小型数据制度中集合中的内在变异性。这项工作将深层可变方法推广到几乎没有学习的方法,迈出了一步,朝着大规模的几杆生成迈出了一步。
translated by 谷歌翻译
近似复杂的概率密度是现代统计中的核心问题。在本文中,我们介绍了变分推理(VI)的概念,这是一种机器学习中的流行方法,该方法使用优化技术来估计复杂的概率密度。此属性允许VI汇聚速度比经典方法更快,例如Markov Chain Monte Carlo采样。概念上,VI通过选择一个概率密度函数,然后找到最接近实际概率密度的家庭 - 通常使用Kullback-Leibler(KL)发散作为优化度量。我们介绍了缩窄的证据,以促进近似的概率密度,我们审查了平均场变分推理背后的想法。最后,我们讨论VI对变分式自动编码器(VAE)和VAE-生成的对抗网络(VAE-GAN)的应用。用本文,我们的目标是解释VI的概念,并通过这种方法协助协助。
translated by 谷歌翻译
最近的工作表明,变异自动编码器(VAE)与速率失真理论之间有着密切的理论联系。由此激发,我们从生成建模的角度考虑了有损图像压缩的问题。从最初是为数据(图像)分布建模设计的Resnet VAE开始,我们使用量化意识的后验和先验重新设计其潜在变量模型,从而实现易于量化和熵编码的图像压缩。除了改进的神经网络块外,我们还提出了一类强大而有效的有损图像编码器类别,超过了自然图像(有损)压缩的先前方法。我们的模型以粗略的方式压缩图像,并支持并行编码和解码,从而在GPU上快速执行。
translated by 谷歌翻译
Making sense of multiple modalities can yield a more comprehensive description of real-world phenomena. However, learning the co-representation of diverse modalities is still a long-standing endeavor in emerging machine learning applications and research. Previous generative approaches for multimodal input approximate a joint-modality posterior by uni-modality posteriors as product-of-experts (PoE) or mixture-of-experts (MoE). We argue that these approximations lead to a defective bound for the optimization process and loss of semantic connection among modalities. This paper presents a novel variational method on sets called the Set Multimodal VAE (SMVAE) for learning a multimodal latent space while handling the missing modality problem. By modeling the joint-modality posterior distribution directly, the proposed SMVAE learns to exchange information between multiple modalities and compensate for the drawbacks caused by factorization. In public datasets of various domains, the experimental results demonstrate that the proposed method is applicable to order-agnostic cross-modal generation while achieving outstanding performance compared to the state-of-the-art multimodal methods. The source code for our method is available online https://anonymous.4open.science/r/SMVAE-9B3C/.
translated by 谷歌翻译
变异自动编码器(VAE)是最常用的无监督机器学习模型之一。但是,尽管对先前和后验的高斯分布的默认选择通常代表了数学方便的分布通常会导致竞争结果,但我们表明该参数化无法用潜在的超球体结构对数据进行建模。为了解决这个问题,我们建议使用von Mises-fisher(VMF)分布,从而导致超级潜在空间。通过一系列实验,我们展示了这种超球vae或$ \ mathcal {s} $ - vae如何更适合于用超球形结构捕获数据,同时胜过正常的,$ \ mathcal {n} $ - vae-,在其他数据类型的低维度中。http://github.com/nicola-decao/s-vae-tf和https://github.com/nicola-decao/nicola-decao/s-vae-pytorch
translated by 谷歌翻译
稀疏性是理想的属性。与密集模型相比,它可以导致更有效,更有效的表示。同时,由于其复杂性,学习稀疏的潜在表示是计算机视觉和机器学习领域的一个挑战性问题。在本文中,我们提出了一种新的无监督学习方法,以在发电机模型的潜在空间上稀疏,并逐渐稀疏的尖峰和平板分布作为我们的先验。我们的模型仅由一个自上而下的发电机网络组成,该网络将潜在变量映射到观察到的数据。可以使用基于非阶梯的方法来推断发电机后方向的潜在变量。推理步骤中的尖峰和平板正则化可以将非信息潜在维度推向零以诱导稀疏性。广泛的实验表明,该模型可以保留具有稀疏表示的原始图像中的大多数信息,同时与其他现有方法相比证明了结果的改善。我们观察到,我们的模型可以学习分离的语义,并提高潜在代码的解释性,同时提高分类和转化任务的鲁棒性。
translated by 谷歌翻译
扩散概率模型已被证明在几个竞争性图像综合基准上产生最先进的结果,但缺乏低维,可解释的潜在空间,并且在一代中慢慢。另一方面,变形AutoEncoders(VAES)通常可以访问低维潜空间,但表现出差的样品质量。尽管最近的进步,VAE通常需要潜在代码的高维层次结构来产生高质量样本。我们呈现DiffUsevae,一种新的生成框架,它在扩散模型框架内集成了VAE,并利用这一点以设计用于扩散模型的新型条件参数化。我们表明所得模型可以在采样效率方面提高无条件扩散模型,同时还配备了具有低维VAE的扩散模型推断潜码。此外,我们表明所提出的模型可以产生高分辨率样本,并展示与标准基准上的最先进模型相当的合成质量。最后,我们表明所提出的方法可用于可控制的图像合成,并且还展示了图像超分辨率和去噪等下游任务的开箱即用功能。为了重现性,我们的源代码将公开可用于\ url {https://github.com/kpandey008/diffusevae}。
translated by 谷歌翻译
基于连续的潜在空间(例如变异自动编码器)的概率模型可以理解为无数混合模型,其中组件连续取决于潜在代码。它们具有用于生成和概率建模的表达性工具,但与可牵引的概率推断不符,即计算代表概率分布的边际和条件。同时,可以将概率模型(例如概率电路(PC))理解为层次离散混合模型,从而使它们可以执行精确的推断,但是与连续的潜在空间模型相比,它们通常显示出低于标准的性能。在本文中,我们研究了一种混合方法,即具有较小潜在尺寸的可拖动模型的连续混合物。尽管这些模型在分析上是棘手的,但基于一组有限的集成点,它们非常适合数值集成方案。有足够数量的集成点,近似值变得精确。此外,使用一组有限的集成点,可以将近似方法编译成PC中,以“在近似模型中的精确推断”执行。在实验中,我们表明这种简单的方案被证明非常有效,因为PC在许多标准密度估计基准上以这种方式为可拖动模型设定了新的最新模型。
translated by 谷歌翻译
传感器融合可以显着提高许多计算机视觉任务的性能。但是,传统的融合方法要么不是数据驱动的,也不能利用先验知识,也不能在给定数据集中找到规律性,或者它们仅限于单个应用程序。我们通过呈现一种新型深层分层变异自动编码器来克服这一缺点,称为FusionVae,可以作为许多融合任务的基础。我们的方法能够生成以多个嘈杂,遮挡或仅部分可见的输入图像来调节的各种图像样本。我们得出并优化了融合的条件对数似然的变化下限。为了彻底评估模型的融合功能,我们根据流行的计算机视觉数据集创建了三个新颖的图像融合数据集。在我们的实验中,我们表明FusionVae学习了与融合任务相关的汇总信息的表示。结果表明,我们的方法表现明显优于传统方法。此外,我们介绍了不同设计选择的优势和缺点。
translated by 谷歌翻译
潜在矢量生成模型的潜在空间中数据点的不同编码可能会导致数据背后的不同解释因素的效率或多或少有效且分开的特征。最近,许多作品都致力于探索特定模型的潜在空间,主要集中在研究特征如何分离以及如何在可见空间中产生所需数据变化的轨迹变化。在这项工作中,我们解决了比较不同模型的潜在空间的更一般问题,寻找它们之间的转换。我们将调查局限于人脸数据歧管的熟悉且在很大程度上研究的生成模型案例。本文报道的令人惊讶的初步结果是(前提是(前提是模型尚未被教导或明确地想象以不同的方式采取行动)简单的线性映射足以从潜在空间传递到另一个信息,同时保留大多数信息。
translated by 谷歌翻译
矢量量化变量自动编码器(VQ-VAE)是基于数据的离散潜在表示的生成模型,其中输入映射到有限的学习嵌入式集合。要生成新样品,必须对离散状态进行自动介绍的先验分布。分别地。这一先验通常非常复杂,并导致生成缓慢。在这项工作中,我们提出了一个新模型,以同时训练先验和编码器/解码器网络。我们在连续编码的向量和非信息性先验分布之间建立扩散桥。然后将潜在离散状态作为这些连续向量的随机函数。我们表明,我们的模型与迷你imagenet和Cifar数据集的自动回归先验具有竞争力,并且在优化和采样方面都有效。我们的框架还扩展了标准VQ-VAE,并可以启用端到端培训。
translated by 谷歌翻译
神经网络在许多科学学科中发挥着越来越大的作用,包括物理学。变形AutoEncoders(VAE)是能够表示在低维潜空间中的高维数据的基本信息,该神经网络具有概率解释。特别是所谓的编码器网络,VAE的第一部分,其将其输入到潜伏空间中的位置,另外在该位置的方差方面提供不确定性信息。在这项工作中,介绍了对AutoEncoder架构的扩展,渔民。在该架构中,借助于Fisher信息度量,不使用编码器中的附加信息信道生成潜在空间不确定性,而是从解码器导出。这种架构具有来自理论观点的优点,因为它提供了从模型的直接不确定性量化,并且还考虑不确定的交叉相关。我们可以通过实验表明,渔民生产比可比较的VAE更准确的数据重建,并且其学习性能也明显较好地缩放了潜伏空间尺寸的数量。
translated by 谷歌翻译
变形AutoEncoders(VAES)是具有许多域中应用的强大的基于似然的生成模型之一。然而,他们努力产生高质量的图像,尤其是当样品从之前没有任何回火时获得。 VAES生成质量的一个解释是先前孔问题:前提分配不能匹配近似后部的总体近似。由于这种不匹配,在不对应于任何编码图像的之前,存在具有高密度的潜在空间中的区域。来自这些区域的样本被解码为损坏的图像。为了解决这个问题,我们提出了基于能源的基础产品,由基础产品的乘积和重新免除因子,旨在使基座更接近骨料后部。我们通过噪声对比估计训练重重的因素,我们将其概括为具有许多潜在变量组的分层VAE。我们的实验证实,所提出的噪声对比前沿通过MNIST,CIFAR-10,CELEBA 64和Celeba HQ 256数据集的大边缘改善了最先进的VAE的生成性能。我们的方法很简单,可以应用于各种VAE,以提高其先前分配的表现。
translated by 谷歌翻译