我们提出了一个通过信息瓶颈约束来学习CAPSNET的学习框架的框架,该框架将信息提炼成紧凑的形式,并激励学习可解释的分解化胶囊。在我们的$ \ beta $ -capsnet框架中,使用超参数$ \ beta $用于权衡解开和其他任务,使用变异推理将信息瓶颈术语转换为kl divergence,以近似为约束胶囊。为了进行监督学习,使用类独立掩码矢量来理解合成的变化类型,无论图像类别类别,我们通过调整参数$ \ beta $来进行大量的定量和定性实验,以找出分离,重建和细节之间的关系表现。此外,提出了无监督的$ \ beta $ -capsnet和相应的动态路由算法,以学习范围的方式,以一种无监督的方式学习解散胶囊,广泛的经验评估表明我们的$ \ beta $ -CAPPAPSNET可实现的是先进的分离性截止性性能比较在监督和无监督场景中的几个复杂数据集上的CAPSNET和各种基线。
translated by 谷歌翻译
We define and address the problem of unsupervised learning of disentangled representations on data generated from independent factors of variation. We propose FactorVAE, a method that disentangles by encouraging the distribution of representations to be factorial and hence independent across the dimensions. We show that it improves upon β-VAE by providing a better trade-off between disentanglement and reconstruction quality. Moreover, we highlight the problems of a commonly used disentanglement metric and introduce a new metric that does not suffer from them.
translated by 谷歌翻译
A capsule is a group of neurons whose activity vector represents the instantiation parameters of a specific type of entity such as an object or an object part. We use the length of the activity vector to represent the probability that the entity exists and its orientation to represent the instantiation parameters. Active capsules at one level make predictions, via transformation matrices, for the instantiation parameters of higher-level capsules. When multiple predictions agree, a higher level capsule becomes active. We show that a discrimininatively trained, multi-layer capsule system achieves state-of-the-art performance on MNIST and is considerably better than a convolutional net at recognizing highly overlapping digits. To achieve these results we use an iterative routing-by-agreement mechanism: A lower-level capsule prefers to send its output to higher level capsules whose activity vectors have a big scalar product with the prediction coming from the lower-level capsule.
translated by 谷歌翻译
变化自动编码器(VAE)最近已用于对复杂密度分布的无监督分离学习。存在许多变体,以鼓励潜在空间中的分解,同时改善重建。但是,在达到极低的重建误差和高度分离得分之间,没有人同时管理权衡。我们提出了一个普遍的框架,可以在有限的优化下应对这一挑战,并证明它在平衡重建时,它优于现有模型的最先进模型。我们介绍了三个可控的拉格朗日超级参数,以控制重建损失,KL差异损失和相关度量。我们证明,重建网络中的信息最大化等于在合理假设和约束放松下摊销过程中的信息最大化。
translated by 谷歌翻译
在没有监督信号的情况下学习简洁的数据表示是机器学习的基本挑战。实现此目标的一种突出方法是基于可能性的模型,例如变异自动编码器(VAE),以基于元元素来学习潜在表示,这是对下游任务有益的一般前提(例如,disentanglement)。但是,这种方法通常偏离原始的可能性体系结构,以应用引入的元优势,从而导致他们的培训不良变化。在本文中,我们提出了一种新颖的表示学习方法,Gromov-Wasserstein自动编码器(GWAE),该方法与潜在和数据分布直接匹配。 GWAE模型不是基于可能性的目标,而是通过最小化Gromov-Wasserstein(GW)度量的训练优化。 GW度量测量了在无与伦比的空间上支持的分布之间的面向结构的差异,例如具有不同的维度。通过限制可训练的先验的家庭,我们可以介绍元主题来控制下游任务的潜在表示。与现有基于VAE的方法的经验比较表明,GWAE模型可以通过更改先前的家族而无需进一步修改GW目标来基于元家庭学习表示。
translated by 谷歌翻译
学习分离旨在寻找低维表示,该表示由观察数据的多个解释性和生成因素组成。变异自动编码器(VAE)的框架通常用于将独立因素从观察中解散。但是,在实际情况下,具有语义的因素不一定是独立的。取而代之的是,可能存在基本的因果结构,从而使这些因素取决于这些因素。因此,我们提出了一个名为Causalvae的新的基于VAE的框架,该框架包括一个因果层,将独立的外源性因子转化为因果内源性因素,这些因子与数据中的因果关系相关概念相对应。我们进一步分析了模型,表明从观测值中学到的拟议模型可以在一定程度上恢复真实的模型。实验是在各种数据集上进行的,包括合成和真实的基准Celeba。结果表明,因果关系学到的因果表示是可以解释的,并且其因果关系作为定向无环形图(DAG)的因果关系良好地鉴定出来。此外,我们证明了所提出的Causalvae模型能够通过因果因素的“操作”来生成反事实数据。
translated by 谷歌翻译
表示解开是表示有利于各种下游任务的代表性学习的重要目标。为了实现这一目标,已经开发了许多无监督的学习表示方法。但是,事实证明,没有使用任何监督信号的培训过程就不足以进行分解表示。因此,我们提出了一种新型的弱监督训练方法,称为SW-VAE,该方法通过使用数据集的生成因子,将成对的输入观测值作为监督信号。此外,我们引入了策略,以逐渐增加训练过程中的学习难度,以使训练过程平滑。如多个数据集所示,我们的模型对表示解散任务的最新方法(SOTA)方法显示出显着改善。
translated by 谷歌翻译
This paper describes InfoGAN, an information-theoretic extension to the Generative Adversarial Network that is able to learn disentangled representations in a completely unsupervised manner. InfoGAN is a generative adversarial network that also maximizes the mutual information between a small subset of the latent variables and the observation. We derive a lower bound of the mutual information objective that can be optimized efficiently. Specifically, InfoGAN successfully disentangles writing styles from digit shapes on the MNIST dataset, pose from lighting of 3D rendered images, and background digits from the central digit on the SVHN dataset. It also discovers visual concepts that include hair styles, presence/absence of eyeglasses, and emotions on the CelebA face dataset. Experiments show that InfoGAN learns interpretable representations that are competitive with representations learned by existing supervised methods.
translated by 谷歌翻译
近年来,由于其对复杂分布进行建模的能力,深层生成模型引起了越来越多的兴趣。在这些模型中,变异自动编码器已被证明是计算有效的,并且在多个领域中产生了令人印象深刻的结果。在这一突破之后,为了改善原始出版物而进行了广泛的研究,从而导致各种不同的VAE模型响应不同的任务。在本文中,我们介绍了Pythae,这是一个多功能的开源Python库,既可以提供统一的实现和专用框架,允许直接,可重现且可靠地使用生成自动编码器模型。然后,我们建议使用此库来执行案例研究基准测试标准,在其中我们介绍并比较了19个生成自动编码器模型,代表了下游任务的一些主要改进,例如图像重建,生成,分类,聚类,聚类和插值。可以在https://github.com/clementchadebec/benchmark_vae上找到开源库。
translated by 谷歌翻译
We present a variational approximation to the information bottleneck of Tishby et al. (1999). This variational approach allows us to parameterize the information bottleneck model using a neural network and leverage the reparameterization trick for efficient training. We call this method "Deep Variational Information Bottleneck", or Deep VIB. We show that models trained with the VIB objective outperform those that are trained with other forms of regularization, in terms of generalization performance and robustness to adversarial attack.
translated by 谷歌翻译
神经活动的意义和简化表示可以产生深入了解如何以及什么信息被神经回路内处理。然而,如果没有标签,也揭示了大脑和行为之间的联系的发现表示可以挑战。在这里,我们介绍了所谓的交换,VAE学习神经活动的解开表示一种新型的无监督的办法。我们的方法结合了特定实例的排列损失,试图最大限度地输入(大脑状态)的转变观点之间的代表性相似性的生成模型框架。这些转化(或增强)视图是通过掉出神经元和抖动样品中的时间,这直观地应导致网络维护既时间一致性和不变性用于表示神经状态的特定的神经元的表示创建的。通过对从数百个不同的灵长类动物大脑的神经元的模拟数据和神经录音的评价,我们表明,它是不可能建立的表示沿有关潜在维度解开神经的数据集与行为相联系。
translated by 谷歌翻译
以无监督的方式从高维领域提取生成参数的能力是计算物理学中的非常理想尚未实现的目标。这项工作探讨了用于非线性尺寸降低的变形Autiachoders(VAES),其特定目的是{\ EM解散}的特定目标,以识别生成数据的独立物理参数。解除戒开的分解是可解释的,并且可以转移到包括生成建模,设计优化和概率减少阶级型建模的各种任务。这项工作的重大重点是使用VAE来表征解剖学,同时最小地修改经典的VAE损失功能(即证据下限)以保持高重建精度。损耗景观的特点是过度正常的局部最小值,其环绕所需的解决方案。我们通过在模型多孔流量问题中并列在模拟潜在分布和真正的生成因子中,说明了分解和纠缠符号之间的比较。展示了等级前瞻,促进了解除不诚实的表现的学习。在用旋转不变的前沿训练时,正则化损失不受潜在的旋转影响,从而学习非旋转不变的前锋有助于捕获生成因子的性质,改善解剖学。最后,表明通过标记少量样本($ O(1 \%)$)来实现半监督学习 - 导致可以一致地学习的准确脱屑潜在的潜在表示。
translated by 谷歌翻译
近年来,拥抱集群研究中的表演学习的深度学习技术引起了广泛的关注,产生了一个新开发的聚类范式,QZ。深度聚类(DC)。通常,DC型号大写AutoEncoders,以了解促进聚类过程的内在特征。如今,一个名为变变AualEncoder(VAE)的生成模型在DC研究中得到了广泛的认可。然而,平原VAE不足以察觉到综合潜在特征,导致细分性能恶化。本文提出了一种新的DC方法来解决这个问题。具体地,生成的逆势网络和VAE被聚结成了一种名为Fusion AutoEncoder(FAE)的新的AutoEncoder,以辨别出更多的辨别性表示,从而使下游聚类任务受益。此外,FAE通过深度剩余网络架构实施,进一步提高了表示学习能力。最后,将FAE的潜在空间转变为由深密神经网络的嵌入空间,用于彼此从彼此拉出不同的簇,并将数据点折叠在单个簇内。在几个图像数据集上进行的实验证明了所提出的DC模型对基线方法的有效性。
translated by 谷歌翻译
瓶颈问题是一系列重要的优化问题,最近在机器学习和信息理论领域引起了人们的关注。它们被广泛用于生成模型,公平的机器学习算法,对隐私保护机制的设计,并在各种多用户通信问题中作为信息理论性能界限出现。在这项工作中,我们提出了一个普通的优化问题家族,称为复杂性 - 裸露的瓶颈(俱乐部)模型,该模型(i)提供了一个统一的理论框架,该框架将大多数最先进的文献推广到信息理论隐私模型(ii)建立了对流行的生成和判别模型的新解释,(iii)构建了生成压缩模型的新见解,并且(iv)可以在公平的生成模型中使用。我们首先将俱乐部模型作为复杂性约束的隐私性优化问题。然后,我们将其与密切相关的瓶颈问题(即信息瓶颈(IB),隐私渠道(PF),确定性IB(DIB),条件熵瓶颈(CEB)和有条件的PF(CPF)连接。我们表明,俱乐部模型概括了所有这些问题以及大多数其他信息理论隐私模型。然后,我们通过使用神经网络来参数化相关信息数量的变异近似来构建深层俱乐部(DVCLUB)模型。在这些信息数量的基础上,我们提出了监督和无监督的DVClub模型的统一目标。然后,我们在无监督的设置中利用DVClub模型,然后将其与最先进的生成模型(例如变异自动编码器(VAE),生成对抗网络(GAN)以及Wasserstein Gan(WGAN)连接起来,Wasserstein自动编码器(WAE)和对抗性自动编码器(AAE)通过最佳运输(OT)问题模型。然后,我们证明DVCLUB模型也可以用于公平表示学习问题,其目标是在机器学习模型的训练阶段减轻不希望的偏差。我们对彩色命名和Celeba数据集进行了广泛的定量实验,并提供了公共实施,以评估和分析俱乐部模型。
translated by 谷歌翻译
The key idea behind the unsupervised learning of disentangled representations is that real-world data is generated by a few explanatory factors of variation which can be recovered by unsupervised learning algorithms. In this paper, we provide a sober look at recent progress in the field and challenge some common assumptions. We first theoretically show that the unsupervised learning of disentangled representations is fundamentally impossible without inductive biases on both the models and the data. Then, we train more than 12 000 models covering most prominent methods and evaluation metrics in a reproducible large-scale experimental study on seven different data sets. We observe that while the different methods successfully enforce properties "encouraged" by the corresponding losses, well-disentangled models seemingly cannot be identified without supervision. Furthermore, increased disentanglement does not seem to lead to a decreased sample complexity of learning for downstream tasks. Our results suggest that future work on disentanglement learning should be explicit about the role of inductive biases and (implicit) supervision, investigate concrete benefits of enforcing disentanglement of the learned representations, and consider a reproducible experimental setup covering several data sets.
translated by 谷歌翻译
这是一门专门针对STEM学生开发的介绍性机器学习课程。我们的目标是为有兴趣的读者提供基础知识,以在自己的项目中使用机器学习,并将自己熟悉术语作为进一步阅读相关文献的基础。在这些讲义中,我们讨论受监督,无监督和强化学习。注释从没有神经网络的机器学习方法的说明开始,例如原理分析,T-SNE,聚类以及线性回归和线性分类器。我们继续介绍基本和先进的神经网络结构,例如密集的进料和常规神经网络,经常性的神经网络,受限的玻尔兹曼机器,(变性)自动编码器,生成的对抗性网络。讨论了潜在空间表示的解释性问题,并使用梦和对抗性攻击的例子。最后一部分致力于加强学习,我们在其中介绍了价值功能和政策学习的基本概念。
translated by 谷歌翻译
在印刷电路板(PCB)的组装过程中,大多数误差是由表面安装装置(SMD)中的焊点引起的。在文献中,传统的特征提取基于方法需要设计手工制作的特征,并依赖于分层的RGB照明来检测焊接接头误差,而基于监督的卷积神经网络(CNN)的方法需要大量标记的异常样本(有缺陷的焊点)实现高精度。为了解决无限制环境中的光学检查问题,没有特殊的照明,没有无差错的参考板,我们提出了一种用于异常检测的新的Beta变化AutoEncoders(Beta-VAE)架构,可以在IC上工作和非IC组件。我们表明,拟议的模型学会了Disondled的数据表示,导致更独立的功能和改进的潜在空间表示。我们比较用于表征异常的激活和基于梯度的表示;并观察不同Beta参数对精度的影响,并在β-VAE中的特征表示中的影响。最后,我们表明,可以通过在没有指定的硬件或特征工程的直接正常样品上培训的模型来检测焊点上的异常。
translated by 谷歌翻译
We decompose the evidence lower bound to show the existence of a term measuring the total correlation between latent variables. We use this to motivate the β-TCVAE (Total Correlation Variational Autoencoder) algorithm, a refinement and plug-in replacement of the β-VAE for learning disentangled representations, requiring no additional hyperparameters during training. We further propose a principled classifier-free measure of disentanglement called the mutual information gap (MIG). We perform extensive quantitative and qualitative experiments, in both restricted and non-restricted settings, and show a strong relation between total correlation and disentanglement, when the model is trained using our framework.
translated by 谷歌翻译
This work investigates unsupervised learning of representations by maximizing mutual information between an input and the output of a deep neural network encoder. Importantly, we show that structure matters: incorporating knowledge about locality in the input into the objective can significantly improve a representation's suitability for downstream tasks. We further control characteristics of the representation by matching to a prior distribution adversarially. Our method, which we call Deep InfoMax (DIM), outperforms a number of popular unsupervised learning methods and compares favorably with fully-supervised learning on several classification tasks in with some standard architectures. DIM opens new avenues for unsupervised learning of representations and is an important step towards flexible formulations of representation learning objectives for specific end-goals.
translated by 谷歌翻译
We present a principled approach to incorporating labels in VAEs that captures the rich characteristic information associated with those labels. While prior work has typically conflated these by learning latent variables that directly correspond to label values, we argue this is contrary to the intended effect of supervision in VAEs-capturing rich label characteristics with the latents. For example, we may want to capture the characteristics of a face that make it look young, rather than just the age of the person. To this end, we develop the CCVAE, a novel VAE model and concomitant variational objective which captures label characteristics explicitly in the latent space, eschewing direct correspondences between label values and latents. Through judicious structuring of mappings between such characteristic latents and labels, we show that the CCVAE can effectively learn meaningful representations of the characteristics of interest across a variety of supervision schemes. In particular, we show that the CCVAE allows for more effective and more general interventions to be performed, such as smooth traversals within the characteristics for a given label, diverse conditional generation, and transferring characteristics across datapoints.
translated by 谷歌翻译