Estimating and optimizing Mutual Information (MI) is core to many problems in machine learning; however, bounding MI in high dimensions is challenging. To establish tractable and scalable objectives, recent work has turned to variational bounds parameterized by neural networks, but the relationships and tradeoffs between these bounds remains unclear. In this work, we unify these recent developments in a single framework. We find that the existing variational lower bounds degrade when the MI is large, exhibiting either high bias or high variance. To address this problem, we introduce a continuum of lower bounds that encompasses previous bounds and flexibly trades off bias and variance. On high-dimensional, controlled problems, we empirically characterize the bias and variance of the bounds and their gradients and demonstrate the effectiveness of our new bounds for estimation and representation learning.
translated by 谷歌翻译
我们引入隐深自适应设计(iDAD),在实时与隐性模型进行适应性实验的新方法。iDAD通过学习设计政策网络的前期,然后可以在实验时快速部署摊销贝叶斯优化实验设计(BOED)的成本。该iDAD网络可以在其模拟微样品,不同于需要一个封闭的形式可能性和条件独立实验以前的设计政策工作的任何模型进行训练。在部署时,iDAD允许以毫秒为单位进行设计决策,而相比之下,需要实验本身期间繁重的计算传统BOED方法。我们说明了多项实验iDAD的适用性,并表明它提供了与隐式模型进行适应性设计一个快速和有效的机制。
translated by 谷歌翻译
速率 - 失真(R-D)函数,信息理论中的关键数量,其特征在于,通过任何压缩算法,通过任何压缩算法将数据源可以压缩到保真标准的基本限制。随着研究人员推动了不断提高的压缩性能,建立给定数据源的R-D功能不仅具有科学的兴趣,而且还在可能的空间上揭示了改善压缩算法的可能性。以前的解决此问题依赖于数据源上的分布假设(Gibson,2017)或仅应用于离散数据。相比之下,本文使得第一次尝试播放常规(不一定是离散的)源仅需要i.i.d的算法的算法。数据样本。我们估计高斯和高尺寸香蕉形源的R-D三明治界,以及GaN生成的图像。我们在自然图像上的R-D上限表示在各种比特率的PSNR中提高最先进的图像压缩方法的性能的空间。
translated by 谷歌翻译
变异推理(VI)的核心原理是将计算复杂后概率密度计算的统计推断问题转换为可拖动的优化问题。该属性使VI比几种基于采样的技术更快。但是,传统的VI算法无法扩展到大型数据集,并且无法轻易推断出越野数据点,而无需重新运行优化过程。该领域的最新发展,例如随机,黑框和摊销VI,已帮助解决了这些问题。如今,生成的建模任务广泛利用摊销VI来实现其效率和可扩展性,因为它利用参数化函数来学习近似的后验密度参数。在本文中,我们回顾了各种VI技术的数学基础,以构成理解摊销VI的基础。此外,我们还概述了最近解决摊销VI问题的趋势,例如摊销差距,泛化问题,不一致的表示学习和后验崩溃。最后,我们分析了改善VI优化的替代差异度量。
translated by 谷歌翻译
We argue that the estimation of mutual information between high dimensional continuous random variables can be achieved by gradient descent over neural networks. We present a Mutual Information Neural Estimator (MINE) that is linearly scalable in dimensionality as well as in sample size, trainable through back-prop, and strongly consistent. We present a handful of applications on which MINE can be used to minimize or maximize mutual information. We apply MINE to improve adversarially trained generative models. We also use MINE to implement the Information Bottleneck, applying it to supervised classification; our results demonstrate substantial improvement in flexibility and performance in these settings.
translated by 谷歌翻译
We decompose the evidence lower bound to show the existence of a term measuring the total correlation between latent variables. We use this to motivate the β-TCVAE (Total Correlation Variational Autoencoder) algorithm, a refinement and plug-in replacement of the β-VAE for learning disentangled representations, requiring no additional hyperparameters during training. We further propose a principled classifier-free measure of disentanglement called the mutual information gap (MIG). We perform extensive quantitative and qualitative experiments, in both restricted and non-restricted settings, and show a strong relation between total correlation and disentanglement, when the model is trained using our framework.
translated by 谷歌翻译
How can we perform efficient inference and learning in directed probabilistic models, in the presence of continuous latent variables with intractable posterior distributions, and large datasets? We introduce a stochastic variational inference and learning algorithm that scales to large datasets and, under some mild differentiability conditions, even works in the intractable case. Our contributions is two-fold. First, we show that a reparameterization of the variational lower bound yields a lower bound estimator that can be straightforwardly optimized using standard stochastic gradient methods. Second, we show that for i.i.d. datasets with continuous latent variables per datapoint, posterior inference can be made especially efficient by fitting an approximate inference model (also called a recognition model) to the intractable posterior using the proposed lower bound estimator. Theoretical advantages are reflected in experimental results.
translated by 谷歌翻译
估计信息理论数量(例如熵和相互信息)对于统计和机器学习中的许多问题至关重要,但在高维度上具有挑战性。本文通过推理(EEVI)介绍了熵的估计器,该推理在概率生成模型中为任意变量提供了许多信息数量的上限和下限。这些估计器将重要性抽样用于提议分布家族,其中包括摊销变异推理和顺序的蒙特卡洛,可以针对目标模型量身定制,并用于以高精度挤压真实的信息值。我们介绍了EEVI的几种理论特性,并在医疗领域的两个问题上证明了可伸缩性和功效:(i)在诊断肝脏疾病的专家系统中,我们根据它们对潜伏性疾病的信息进行排名观察到的症状和患者属性; (ii)在碳水化合物代谢的微分方程模型中,我们找到了最佳时间进行血糖测量,鉴于他们的饮食和药物计划,可以最大程度地提高有关糖尿病患者胰岛素敏感性的信息。
translated by 谷歌翻译
变异自动编码器(VAE)遭受后塌陷的苦难,其中用于建模和推理的强大神经网络在没有有意义使用潜在表示的情况下优化了目标。我们引入了推理评论家,通过需要潜在变量和观测值之间的对应关系来检测和激励后塌陷。通过将批评家的目标与自我监督的对比表示学习中的文献联系起来,我们从理论和经验上展示了优化推论批评家在观察和潜伏期之间增加相互信息,从而减轻后验崩溃。这种方法可以直接实施,并且需要比以前的方法要少得多的培训时间,但在三个已建立的数据集中获得了竞争结果。总体而言,该方法奠定了基础,以弥合先前与各种自动编码器的对比度学习和概率建模的框架,从而强调了两个社区在其交叉点上可能会发现的好处。
translated by 谷歌翻译
Jensen Inequality是众多领域的广泛使用的工具,例如信息理论和机器学习。它还可以用于得出其他标准不等式,例如算术和几何手段的不等式或H \“较旧的不等式。在概率设置中,Jensen不等式描述了凸起函数和预期值之间的关系。在这项工作中,我们希望从不平等的反向方向看概率设置。我们表明在最小的限制和适当的缩放下,Jensen不等式可以逆转。我们相信由此产生的工具对许多应用有所帮助与当前估算器相比,相互信息的变分估计,反向不等式导致具有卓越训练行为的新估计。
translated by 谷歌翻译
共同信息(MI)已被广泛用作训练神经网络的损失正规化程序。当学习高维数据的分解或压缩表示时,这特别有效。但是,差异熵(DE)是信息的另一种基本衡量标准,在神经网络培训中尚未发现广泛使用。尽管DE提供了比MI的可能更广泛的应用程序,但现成的DE估计器要么是非可区分的,在计算上是棘手的,要么无法适应基础分布的变化。这些缺点使它们无法在神经网络培训中用作正规化器。为了解决DE先前提出的估计器中的缺点,我们在这里介绍了刀具,这是一个完全参数化的,基于DE的基于核的估计器。我们方法的灵活性还使我们能够为条件(离散变量或连续变量)以及MI构建基于刀的估计器。我们从经验上验证了高维合成数据的方法,并进一步应用它来指导神经网络的现实任务培训。我们对各种任务的实验,包括视觉域的适应性,文本公平分类和文本微调,证明了基于刀的估计的有效性。代码可以在https://github.com/g-pichler/knife上找到。
translated by 谷歌翻译
最近,已经提出了几种方法,用于使用深神经网络估计来自样本数据的互信息,并且没有知道数据的特写形式分布。这类估算器被称为神经互动信息估计。虽然非常有希望,但是这种技术尚未严格地标记,以便建立它们的功效,易于实现和能力估计的稳定性,这是关节最大化帧工作。在本文中,我们比较文献中提出的不同技术,以估算能力,并提供从业者的效力。特别是,我们研究了相互信息神经估算器(MINE),平滑的互信息下限估计器(微笑)的性能,以及指导信息神经估算器(DINE),并提供对INCONCE的见解。我们在他们学习作为AWGN通道的容量接近的容量接近的输入分布的能力方面评估了这些算法,光学强度信道和峰值功率受限AWGN通道。对于这两种情况,我们对培训过程的各个方面提供了富有洞察力的评论,例如稳定性,初始化的敏感性。
translated by 谷歌翻译
基于神经网络驱动的相互信息(MI)界限,在许多机器学习领域取得了显着进展。但是,由于其实际和数学局限性,利用常规MI的损失通常是具有挑战性的。在这项工作中,我们首先确定其不稳定性背后的症状:(1)即使损失似乎收敛后,神经网络也不会融合,并且(2)饱和神经网络输出导致损失分歧。我们通过在现有损失中添加一个新颖的正规化术语来减轻这两个问题。我们从理论上和实验上证明了添加正规化稳定训练。最后,我们提出了一种新颖的基准测试,该基准评估了MI估计功率及其在下游任务上的能力上的基于MI的损失,紧密遵循先前存在的监督和对比度学习环境。我们在多个基准上评估了六个不同的基于MI的损失及其正规化的损失,以表明我们的方法简单而有效。
translated by 谷歌翻译
对比度学习是无监督表示学习的最新有前途的方法,其中通过从未标记的数据中求解伪分类问题来学习数据的特征表示。但是,了解哪些表示对比度学习产量并不直接。此外,对比度学习通常基于最大似然估计,这往往容易受到异常值污染的影响。为了促进对比度学习的理解,本文理论上首先显示了与共同信息(MI)最大化的联系。我们的结果表明,在某些条件下,密度比估计是必需的,足以使MI最大化。因此,在流行目标功能中完成的与密度比估计相关的对比学习可以解释为最大化MI。接下来,随着密度比,我们在非线性独立组件分析(ICA)中为潜在源组件建立了新的恢复条件。与现有工作相反,既定条件包括对数据维度的新见解,该洞察力显然得到了数值实验的支持。此外,受非线性ICA的启发,我们提出了一个新型框架,以估算低维度潜在源组件的非线性子空间,并以密度比建立了一些基本空间估计的理论条件。然后,我们通过异常抗体密度比估计提出了一种实用方法,可以看作是对MI,非线性ICA或非线性子空间估计的最大化。此外,还提出了样品有效的非线性ICA方法。我们从理论上研究了所提出的方法的异常体性。最后,在非线性ICA中并通过应用线性分类,在数值上证明了所提出方法的有用性。
translated by 谷歌翻译
近似复杂的概率密度是现代统计中的核心问题。在本文中,我们介绍了变分推理(VI)的概念,这是一种机器学习中的流行方法,该方法使用优化技术来估计复杂的概率密度。此属性允许VI汇聚速度比经典方法更快,例如Markov Chain Monte Carlo采样。概念上,VI通过选择一个概率密度函数,然后找到最接近实际概率密度的家庭 - 通常使用Kullback-Leibler(KL)发散作为优化度量。我们介绍了缩窄的证据,以促进近似的概率密度,我们审查了平均场变分推理背后的想法。最后,我们讨论VI对变分式自动编码器(VAE)和VAE-生成的对抗网络(VAE-GAN)的应用。用本文,我们的目标是解释VI的概念,并通过这种方法协助协助。
translated by 谷歌翻译
对比表示学习旨在通过估计数据的多个视图之间的共享信息来获得有用的表示形式。在这里,数据增强的选择对学会表示的质量很敏感:随着更难的应用,数据增加了,视图共享更多与任务相关的信息,但也可以妨碍表示代表的概括能力。在此激励的基础上,我们提出了一种新的强大的对比度学习计划,即r \'enyicl,可以通过利用r \'enyi差异来有效地管理更艰难的增强。我们的方法建立在r \'enyi差异的变异下限基础上,但是由于差异很大,对变异方法的使用是不切实际的。要应对这一挑战,我们提出了一个新颖的对比目标,该目标是进行变异估计的新型对比目标偏斜r \'enyi的分歧,并提供理论保证,以确保偏差差异如何导致稳定训练。我们表明,r \'enyi对比度学习目标执行先天的硬性负面样本和易于选择的阳性抽样学习有用的功能并忽略滋扰功能。通过在Imagenet上进行实验,我们表明,r \'enyi对比度学习具有更强的增强性能优于其他自我监督的方法,而无需额外的正则化或计算上的开销。图形和表格,显示了与其他对比方法相比的经验增益。
translated by 谷歌翻译
This work investigates unsupervised learning of representations by maximizing mutual information between an input and the output of a deep neural network encoder. Importantly, we show that structure matters: incorporating knowledge about locality in the input into the objective can significantly improve a representation's suitability for downstream tasks. We further control characteristics of the representation by matching to a prior distribution adversarially. Our method, which we call Deep InfoMax (DIM), outperforms a number of popular unsupervised learning methods and compares favorably with fully-supervised learning on several classification tasks in with some standard architectures. DIM opens new avenues for unsupervised learning of representations and is an important step towards flexible formulations of representation learning objectives for specific end-goals.
translated by 谷歌翻译
贝叶斯神经网络具有潜在变量(BNN + LVS)通过明确建模模型不确定性(通过网络权重)和环境暂停(通过潜在输入噪声变量)来捕获预测的不确定性。在这项工作中,我们首先表明BNN + LV具有严重形式的非可识别性:可以在模型参数和潜在变量之间传输解释性,同时拟合数据。我们证明,在无限数据的极限中,网络权重和潜变量的后部模式从地面真理渐近地偏离。由于这种渐近偏差,传统的推理方法可以在实践中,产量参数概括不确定和不确定的不确定性。接下来,我们开发一种新推断过程,明确地减轻了训练期间不可识别性的影响,并产生高质量的预测以及不确定性估计。我们展示我们的推理方法在一系列合成和实际数据集中改善了基准方法。
translated by 谷歌翻译
Self-supervised learning is a popular and powerful method for utilizing large amounts of unlabeled data, for which a wide variety of training objectives have been proposed in the literature. In this study, we perform a Bayesian analysis of state-of-the-art self-supervised learning objectives and propose a unified formulation based on likelihood learning. Our analysis suggests a simple method for integrating self-supervised learning with generative models, allowing for the joint training of these two seemingly distinct approaches. We refer to this combined framework as GEDI, which stands for GEnerative and DIscriminative training. Additionally, we demonstrate an instantiation of the GEDI framework by integrating an energy-based model with a cluster-based self-supervised learning model. Through experiments on synthetic and real-world data, including SVHN, CIFAR10, and CIFAR100, we show that GEDI outperforms existing self-supervised learning strategies in terms of clustering performance by a wide margin. We also demonstrate that GEDI can be integrated into a neural-symbolic framework to address tasks in the small data regime, where it can use logical constraints to further improve clustering and classification performance.
translated by 谷歌翻译
We investigate a local reparameterizaton technique for greatly reducing the variance of stochastic gradients for variational Bayesian inference (SGVB) of a posterior over model parameters, while retaining parallelizability. This local reparameterization translates uncertainty about global parameters into local noise that is independent across datapoints in the minibatch. Such parameterizations can be trivially parallelized and have variance that is inversely proportional to the minibatch size, generally leading to much faster convergence. Additionally, we explore a connection with dropout: Gaussian dropout objectives correspond to SGVB with local reparameterization, a scale-invariant prior and proportionally fixed posterior variance. Our method allows inference of more flexibly parameterized posteriors; specifically, we propose variational dropout, a generalization of Gaussian dropout where the dropout rates are learned, often leading to better models. The method is demonstrated through several experiments.
translated by 谷歌翻译