This paper describes InfoGAN, an information-theoretic extension to the Generative Adversarial Network that is able to learn disentangled representations in a completely unsupervised manner. InfoGAN is a generative adversarial network that also maximizes the mutual information between a small subset of the latent variables and the observation. We derive a lower bound of the mutual information objective that can be optimized efficiently. Specifically, InfoGAN successfully disentangles writing styles from digit shapes on the MNIST dataset, pose from lighting of 3D rendered images, and background digits from the central digit on the SVHN dataset. It also discovers visual concepts that include hair styles, presence/absence of eyeglasses, and emotions on the CelebA face dataset. Experiments show that InfoGAN learns interpretable representations that are competitive with representations learned by existing supervised methods.
translated by 谷歌翻译
We define and address the problem of unsupervised learning of disentangled representations on data generated from independent factors of variation. We propose FactorVAE, a method that disentangles by encouraging the distribution of representations to be factorial and hence independent across the dimensions. We show that it improves upon β-VAE by providing a better trade-off between disentanglement and reconstruction quality. Moreover, we highlight the problems of a commonly used disentanglement metric and introduce a new metric that does not suffer from them.
translated by 谷歌翻译
近年来,拥抱集群研究中的表演学习的深度学习技术引起了广泛的关注,产生了一个新开发的聚类范式,QZ。深度聚类(DC)。通常,DC型号大写AutoEncoders,以了解促进聚类过程的内在特征。如今,一个名为变变AualEncoder(VAE)的生成模型在DC研究中得到了广泛的认可。然而,平原VAE不足以察觉到综合潜在特征,导致细分性能恶化。本文提出了一种新的DC方法来解决这个问题。具体地,生成的逆势网络和VAE被聚结成了一种名为Fusion AutoEncoder(FAE)的新的AutoEncoder,以辨别出更多的辨别性表示,从而使下游聚类任务受益。此外,FAE通过深度剩余网络架构实施,进一步提高了表示学习能力。最后,将FAE的潜在空间转变为由深密神经网络的嵌入空间,用于彼此从彼此拉出不同的簇,并将数据点折叠在单个簇内。在几个图像数据集上进行的实验证明了所提出的DC模型对基线方法的有效性。
translated by 谷歌翻译
We decompose the evidence lower bound to show the existence of a term measuring the total correlation between latent variables. We use this to motivate the β-TCVAE (Total Correlation Variational Autoencoder) algorithm, a refinement and plug-in replacement of the β-VAE for learning disentangled representations, requiring no additional hyperparameters during training. We further propose a principled classifier-free measure of disentanglement called the mutual information gap (MIG). We perform extensive quantitative and qualitative experiments, in both restricted and non-restricted settings, and show a strong relation between total correlation and disentanglement, when the model is trained using our framework.
translated by 谷歌翻译
提出了一种新的双峰生成模型,用于生成条件样品和关节样品,并采用学习简洁的瓶颈表示的训练方法。所提出的模型被称为变异Wyner模型,是基于网络信息理论中的两个经典问题(分布式仿真和信道综合)设计的,其中Wyner的共同信息是对公共表示简洁性的基本限制。该模型是通过最大程度地减少对称的kullback的训练 - 差异 - 变异分布和模型分布之间具有正则化项,用于常见信息,重建一致性和潜在空间匹配项,该术语是通过对逆密度比率估计技术进行的。通过与合成和现实世界数据集的联合和有条件生成的实验以及具有挑战性的零照片图像检索任务,证明了所提出的方法的实用性。
translated by 谷歌翻译
我们提出了一个通过信息瓶颈约束来学习CAPSNET的学习框架的框架,该框架将信息提炼成紧凑的形式,并激励学习可解释的分解化胶囊。在我们的$ \ beta $ -capsnet框架中,使用超参数$ \ beta $用于权衡解开和其他任务,使用变异推理将信息瓶颈术语转换为kl divergence,以近似为约束胶囊。为了进行监督学习,使用类独立掩码矢量来理解合成的变化类型,无论图像类别类别,我们通过调整参数$ \ beta $来进行大量的定量和定性实验,以找出分离,重建和细节之间的关系表现。此外,提出了无监督的$ \ beta $ -capsnet和相应的动态路由算法,以学习范围的方式,以一种无监督的方式学习解散胶囊,广泛的经验评估表明我们的$ \ beta $ -CAPPAPSNET可实现的是先进的分离性截止性性能比较在监督和无监督场景中的几个复杂数据集上的CAPSNET和各种基线。
translated by 谷歌翻译
学习分解的表示形式需要监督或引入特定模型设计和学习限制作为偏见。Infogan是一个流行的分离框架,通过最大化潜在表示及其相应生成的图像之间的相互信息来学习无监督的分解表示形式。通过引入辅助网络和潜在回归损失的培训来实现共同信息的最大化。在这篇简短的探索性论文中,我们研究了希尔伯特 - 史密特独立标准(HSIC)的使用,以近似潜在表示和图像之间的相互信息,称为HSIC-INFOGAN。直接优化HSIC损失可以避免需要额外的辅助网络。我们定性地比较了每个模型中的分离水平,提出了一种调整HSIC-INFOGAN超参数的策略,并讨论了HSIC-INFOGAN在医疗应用中的潜力。
translated by 谷歌翻译
We present a principled approach to incorporating labels in VAEs that captures the rich characteristic information associated with those labels. While prior work has typically conflated these by learning latent variables that directly correspond to label values, we argue this is contrary to the intended effect of supervision in VAEs-capturing rich label characteristics with the latents. For example, we may want to capture the characteristics of a face that make it look young, rather than just the age of the person. To this end, we develop the CCVAE, a novel VAE model and concomitant variational objective which captures label characteristics explicitly in the latent space, eschewing direct correspondences between label values and latents. Through judicious structuring of mappings between such characteristic latents and labels, we show that the CCVAE can effectively learn meaningful representations of the characteristics of interest across a variety of supervision schemes. In particular, we show that the CCVAE allows for more effective and more general interventions to be performed, such as smooth traversals within the characteristics for a given label, diverse conditional generation, and transferring characteristics across datapoints.
translated by 谷歌翻译
瓶颈问题是一系列重要的优化问题,最近在机器学习和信息理论领域引起了人们的关注。它们被广泛用于生成模型,公平的机器学习算法,对隐私保护机制的设计,并在各种多用户通信问题中作为信息理论性能界限出现。在这项工作中,我们提出了一个普通的优化问题家族,称为复杂性 - 裸露的瓶颈(俱乐部)模型,该模型(i)提供了一个统一的理论框架,该框架将大多数最先进的文献推广到信息理论隐私模型(ii)建立了对流行的生成和判别模型的新解释,(iii)构建了生成压缩模型的新见解,并且(iv)可以在公平的生成模型中使用。我们首先将俱乐部模型作为复杂性约束的隐私性优化问题。然后,我们将其与密切相关的瓶颈问题(即信息瓶颈(IB),隐私渠道(PF),确定性IB(DIB),条件熵瓶颈(CEB)和有条件的PF(CPF)连接。我们表明,俱乐部模型概括了所有这些问题以及大多数其他信息理论隐私模型。然后,我们通过使用神经网络来参数化相关信息数量的变异近似来构建深层俱乐部(DVCLUB)模型。在这些信息数量的基础上,我们提出了监督和无监督的DVClub模型的统一目标。然后,我们在无监督的设置中利用DVClub模型,然后将其与最先进的生成模型(例如变异自动编码器(VAE),生成对抗网络(GAN)以及Wasserstein Gan(WGAN)连接起来,Wasserstein自动编码器(WAE)和对抗性自动编码器(AAE)通过最佳运输(OT)问题模型。然后,我们证明DVCLUB模型也可以用于公平表示学习问题,其目标是在机器学习模型的训练阶段减轻不希望的偏差。我们对彩色命名和Celeba数据集进行了广泛的定量实验,并提供了公共实施,以评估和分析俱乐部模型。
translated by 谷歌翻译
We present an autoencoder that leverages learned representations to better measure similarities in data space. By combining a variational autoencoder with a generative adversarial network we can use learned feature representations in the GAN discriminator as basis for the VAE reconstruction objective. Thereby, we replace element-wise errors with feature-wise errors to better capture the data distribution while offering invariance towards e.g. translation. We apply our method to images of faces and show that it outperforms VAEs with element-wise similarity measures in terms of visual fidelity. Moreover, we show that the method learns an embedding in which high-level abstract visual features (e.g. wearing glasses) can be modified using simple arithmetic.
translated by 谷歌翻译
Generative adversarial networks (GANs) provide a way to learn deep representations without extensively annotated training data. They achieve this through deriving backpropagation signals through a competitive process involving a pair of networks. The representations that can be learned by GANs may be used in a variety of applications, including image synthesis, semantic image editing, style transfer, image super-resolution and classification. The aim of this review paper is to provide an overview of GANs for the signal processing community, drawing on familiar analogies and concepts where possible. In addition to identifying different methods for training and constructing GANs, we also point to remaining challenges in their theory and application.
translated by 谷歌翻译
在没有监督信号的情况下学习简洁的数据表示是机器学习的基本挑战。实现此目标的一种突出方法是基于可能性的模型,例如变异自动编码器(VAE),以基于元元素来学习潜在表示,这是对下游任务有益的一般前提(例如,disentanglement)。但是,这种方法通常偏离原始的可能性体系结构,以应用引入的元优势,从而导致他们的培训不良变化。在本文中,我们提出了一种新颖的表示学习方法,Gromov-Wasserstein自动编码器(GWAE),该方法与潜在和数据分布直接匹配。 GWAE模型不是基于可能性的目标,而是通过最小化Gromov-Wasserstein(GW)度量的训练优化。 GW度量测量了在无与伦比的空间上支持的分布之间的面向结构的差异,例如具有不同的维度。通过限制可训练的先验的家庭,我们可以介绍元主题来控制下游任务的潜在表示。与现有基于VAE的方法的经验比较表明,GWAE模型可以通过更改先前的家族而无需进一步修改GW目标来基于元家庭学习表示。
translated by 谷歌翻译
This work investigates unsupervised learning of representations by maximizing mutual information between an input and the output of a deep neural network encoder. Importantly, we show that structure matters: incorporating knowledge about locality in the input into the objective can significantly improve a representation's suitability for downstream tasks. We further control characteristics of the representation by matching to a prior distribution adversarially. Our method, which we call Deep InfoMax (DIM), outperforms a number of popular unsupervised learning methods and compares favorably with fully-supervised learning on several classification tasks in with some standard architectures. DIM opens new avenues for unsupervised learning of representations and is an important step towards flexible formulations of representation learning objectives for specific end-goals.
translated by 谷歌翻译
Collecting well-annotated image datasets to train modern machine learning algorithms is prohibitively expensive for many tasks. An appealing alternative is to render synthetic data where ground-truth annotations are generated automatically. Unfortunately, models trained purely on rendered images often fail to generalize to real images. To address this shortcoming, prior work introduced unsupervised domain adaptation algorithms that attempt to map representations between the two domains or learn to extract features that are domain-invariant. In this work, we present a new approach that learns, in an unsupervised manner, a transformation in the pixel space from one domain to the other. Our generative adversarial network (GAN)-based model adapts source-domain images to appear as if drawn from the target domain. Our approach not only produces plausible samples, but also outperforms the state-of-the-art on a number of unsupervised domain adaptation scenarios by large margins. Finally, we demonstrate that the adaptation process generalizes to object classes unseen during training.
translated by 谷歌翻译
这是关于生成对抗性网络(GaN),对抗性自身额外的教程和调查纸张及其变体。我们开始解释对抗性学习和香草甘。然后,我们解释了条件GaN和DCGAN。介绍了模式崩溃问题,介绍了各种方法,包括小纤维GaN,展开GaN,Bourgan,混合GaN,D2Gan和Wasserstein GaN,用于解决这个问题。然后,GaN中的最大似然估计与F-GaN,对抗性变分贝叶斯和贝叶斯甘甘相同。然后,我们涵盖了GaN,Infogan,Gran,Lsgan,Enfogan,Gran,Lsgan,Catgan,MMD Gan,Lapgan,Progressive Gan,Triple Gan,Lag,Gman,Adagan,Cogan,逆甘,Bigan,Ali,Sagan,Sagan,Sagan,Sagan,甘肃,甘肃,甘河的插值和评估。然后,我们介绍了GaN的一些应用,例如图像到图像转换(包括Pacchgan,Cyclegan,Deepfacedrawing,模拟GaN,Interactive GaN),文本到图像转换(包括Stackgan)和混合图像特征(包括罚球和mixnmatch)。最后,我们解释了基于对冲学习的AutoEncoders,包括对手AutoEncoder,Pixelgan和隐式AutoEncoder。
translated by 谷歌翻译
具有集群潜在空间的生成对抗网络(GANS)可以以完全无监督的方式执行条件生成。在现实世界中,未标记数据的突出属性可能是不平衡的。但是,现有的大多数无监督的条件GAN不能正确地将这些数据的群集属于它们的潜在空间,因为它们假设属性的均匀分布。为了解决这个问题,我们理论上派生的斯坦潜在优化,提供了在连续潜在空间中之前的高斯混合物的潜在分布参数的重新传播参数的梯度估计。在结构上,我们引入了编码器网络和新颖的无监督条件对比丢失,以确保从单个混合组件生成的数据表示单个属性。我们确认,即使在没有属性信息的情况下。此外,我们证明可以使用少量探测数据来操纵所学习的属性。
translated by 谷歌翻译
与CNN的分类,分割或对象检测相比,生成网络的目标和方法根本不同。最初,它们不是作为图像分析工具,而是生成自然看起来的图像。已经提出了对抗性训练范式来稳定生成方法,并已被证明是非常成功的 - 尽管绝不是第一次尝试。本章对生成对抗网络(GAN)的动机进行了基本介绍,并通​​过抽象基本任务和工作机制并得出了早期实用方法的困难来追溯其成功的道路。将显示进行更稳定的训练方法,也将显示出不良收敛及其原因的典型迹象。尽管本章侧重于用于图像生成和图像分析的gan,但对抗性训练范式本身并非特定于图像,并且在图像分析中也概括了任务。在将GAN与最近进入场景的进一步生成建模方法进行对比之前,将闻名图像语义分割和异常检测的架构示例。这将允许对限制的上下文化观点,但也可以对gans有好处。
translated by 谷歌翻译
这项工作提出了一种新的计算框架,用于学习用于真实数据集的明确生成模型。特别地,我们建议在包含多个独立的多维线性子空间组成的特征空间中的多类多维数据分发和{线性判别表示(LDR)}之间学习{\ EM闭环转录}。特别地,我们认为寻求的最佳编码和解码映射可以被配制为编码器和解码器之间的{\ em二手最小游戏的均衡点}。该游戏的自然实用功能是所谓的{\ em速率减少},这是一个简单的信息定理措施,用于特征空间中子空间类似的高斯的混合物之间的距离。我们的配方利用来自控制系统的闭环误差反馈的灵感,避免昂贵的评估和最小化数据空间或特征空间的任意分布之间的近似距离。在很大程度上,这种新的制定统一了自动编码和GaN的概念和益处,并自然将它们扩展到学习多级和多维实际数据的判别和生成}表示的设置。我们对许多基准图像数据集的广泛实验表明了这种新的闭环配方的巨大潜力:在公平的比较下,学习的解码器的视觉质量和编码器的分类性能是竞争力的,并且通常比基于GaN,VAE或基于GaN,VAE或基于GaN,VAE的方法更好的方法两者的组合。我们注意到所以,不同类别的特征在特征空间中明确地映射到大约{em独立的主管子空间};每个类中的不同视觉属性由每个子空间中的{\ em独立主体组件}建模。
translated by 谷歌翻译
变异因素之间的相关性在现实数据中普遍存在。机器学习算法可能会受益于利用这种相关性,因为它们可以提高噪声数据的预测性能。然而,通常这种相关性不稳定(例如,它们可能在域,数据集或应用程序之间发生变化),我们希望避免利用它们。解剖学方法旨在学习捕获潜伏子空间变化不同因素的表示。常用方法涉及最小化潜伏子空间之间的相互信息,使得每个潜在的底层属性。但是,当属性相关时,这会失败。我们通过强制执行可用属性上的子空间之间的独立性来解决此问题,这允许我们仅删除不导致的依赖性,这些依赖性是由于训练数据中存在的相关结构。我们通过普发的方法实现这一目标,以最小化关于分类变量的子空间之间的条件互信息(CMI)。我们首先在理论上展示了CMI最小化是对高斯数据线性问题的稳健性解剖的良好目标。然后,我们基于MNIST和Celeba在现实世界数据集上应用我们的方法,并表明它会在相关偏移下产生脱屑和强大的模型,包括弱监督设置。
translated by 谷歌翻译
稀疏性是理想的属性。与密集模型相比,它可以导致更有效,更有效的表示。同时,由于其复杂性,学习稀疏的潜在表示是计算机视觉和机器学习领域的一个挑战性问题。在本文中,我们提出了一种新的无监督学习方法,以在发电机模型的潜在空间上稀疏,并逐渐稀疏的尖峰和平板分布作为我们的先验。我们的模型仅由一个自上而下的发电机网络组成,该网络将潜在变量映射到观察到的数据。可以使用基于非阶梯的方法来推断发电机后方向的潜在变量。推理步骤中的尖峰和平板正则化可以将非信息潜在维度推向零以诱导稀疏性。广泛的实验表明,该模型可以保留具有稀疏表示的原始图像中的大多数信息,同时与其他现有方法相比证明了结果的改善。我们观察到,我们的模型可以学习分离的语义,并提高潜在代码的解释性,同时提高分类和转化任务的鲁棒性。
translated by 谷歌翻译