基于神经网络驱动的相互信息(MI)界限,在许多机器学习领域取得了显着进展。但是,由于其实际和数学局限性,利用常规MI的损失通常是具有挑战性的。在这项工作中,我们首先确定其不稳定性背后的症状:(1)即使损失似乎收敛后,神经网络也不会融合,并且(2)饱和神经网络输出导致损失分歧。我们通过在现有损失中添加一个新颖的正规化术语来减轻这两个问题。我们从理论上和实验上证明了添加正规化稳定训练。最后,我们提出了一种新颖的基准测试,该基准评估了MI估计功率及其在下游任务上的能力上的基于MI的损失,紧密遵循先前存在的监督和对比度学习环境。我们在多个基准上评估了六个不同的基于MI的损失及其正规化的损失,以表明我们的方法简单而有效。
translated by 谷歌翻译
对比表示学习旨在通过估计数据的多个视图之间的共享信息来获得有用的表示形式。在这里,数据增强的选择对学会表示的质量很敏感:随着更难的应用,数据增加了,视图共享更多与任务相关的信息,但也可以妨碍表示代表的概括能力。在此激励的基础上,我们提出了一种新的强大的对比度学习计划,即r \'enyicl,可以通过利用r \'enyi差异来有效地管理更艰难的增强。我们的方法建立在r \'enyi差异的变异下限基础上,但是由于差异很大,对变异方法的使用是不切实际的。要应对这一挑战,我们提出了一个新颖的对比目标,该目标是进行变异估计的新型对比目标偏斜r \'enyi的分歧,并提供理论保证,以确保偏差差异如何导致稳定训练。我们表明,r \'enyi对比度学习目标执行先天的硬性负面样本和易于选择的阳性抽样学习有用的功能并忽略滋扰功能。通过在Imagenet上进行实验,我们表明,r \'enyi对比度学习具有更强的增强性能优于其他自我监督的方法,而无需额外的正则化或计算上的开销。图形和表格,显示了与其他对比方法相比的经验增益。
translated by 谷歌翻译
Jensen Inequality是众多领域的广泛使用的工具,例如信息理论和机器学习。它还可以用于得出其他标准不等式,例如算术和几何手段的不等式或H \“较旧的不等式。在概率设置中,Jensen不等式描述了凸起函数和预期值之间的关系。在这项工作中,我们希望从不平等的反向方向看概率设置。我们表明在最小的限制和适当的缩放下,Jensen不等式可以逆转。我们相信由此产生的工具对许多应用有所帮助与当前估算器相比,相互信息的变分估计,反向不等式导致具有卓越训练行为的新估计。
translated by 谷歌翻译
Estimating and optimizing Mutual Information (MI) is core to many problems in machine learning; however, bounding MI in high dimensions is challenging. To establish tractable and scalable objectives, recent work has turned to variational bounds parameterized by neural networks, but the relationships and tradeoffs between these bounds remains unclear. In this work, we unify these recent developments in a single framework. We find that the existing variational lower bounds degrade when the MI is large, exhibiting either high bias or high variance. To address this problem, we introduce a continuum of lower bounds that encompasses previous bounds and flexibly trades off bias and variance. On high-dimensional, controlled problems, we empirically characterize the bias and variance of the bounds and their gradients and demonstrate the effectiveness of our new bounds for estimation and representation learning.
translated by 谷歌翻译
过度装备数据是与生成模型的众所周知的现象,其模拟太紧密(或准确)的特定数据实例,因此可能无法可靠地预测未来的观察。在实践中,这种行为是由各种 - 有时启发式的 - 正则化技术控制,这是通过将上限发展到泛化误差的激励。在这项工作中,我们研究依赖于在跨熵损失的随机编码上依赖于随机编码的泛化误差,这通常用于深度学习进行分类问题。我们导出界定误差,示出存在根据编码分布随机生成的输入特征和潜在空间中的相应表示之间的相互信息界定的制度。我们的界限提供了对所谓的各种变分类分类中的概括的信息理解,其由Kullback-Leibler(KL)发散项进行规则化。这些结果为变分推理方法提供了高度流行的KL术语的理论理由,这些方法已经认识到作为正则化罚款有效行动。我们进一步观察了具有良好研究概念的连接,例如变形自动化器,信息丢失,信息瓶颈和Boltzmann机器。最后,我们对Mnist和CiFar数据集进行了数值实验,并表明相互信息确实高度代表了泛化误差的行为。
translated by 谷歌翻译
We argue that the estimation of mutual information between high dimensional continuous random variables can be achieved by gradient descent over neural networks. We present a Mutual Information Neural Estimator (MINE) that is linearly scalable in dimensionality as well as in sample size, trainable through back-prop, and strongly consistent. We present a handful of applications on which MINE can be used to minimize or maximize mutual information. We apply MINE to improve adversarially trained generative models. We also use MINE to implement the Information Bottleneck, applying it to supervised classification; our results demonstrate substantial improvement in flexibility and performance in these settings.
translated by 谷歌翻译
最佳运输(OT)及其熵正则后代最近在机器学习和AI域中获得了很多关注。特别地,最优传输已被用于在概率分布之间开发概率度量。我们在本文中介绍了基于熵正常的最佳运输的独立性标准。我们的标准可用于测试两个样本之间的独立性。我们为测试统计制定非渐近界,研究其在零和替代假设下的统计行为。我们的理论结果涉及来自U-Process理论和最佳运输理论的工具。我们在现有的基准上提出了实验结果,说明了所提出的标准的兴趣。
translated by 谷歌翻译
We study distributionally robust optimization (DRO) with Sinkhorn distance -- a variant of Wasserstein distance based on entropic regularization. We provide convex programming dual reformulation for a general nominal distribution. Compared with Wasserstein DRO, it is computationally tractable for a larger class of loss functions, and its worst-case distribution is more reasonable. We propose an efficient first-order algorithm with bisection search to solve the dual reformulation. We demonstrate that our proposed algorithm finds $\delta$-optimal solution of the new DRO formulation with computation cost $\tilde{O}(\delta^{-3})$ and memory cost $\tilde{O}(\delta^{-2})$, and the computation cost further improves to $\tilde{O}(\delta^{-2})$ when the loss function is smooth. Finally, we provide various numerical examples using both synthetic and real data to demonstrate its competitive performance and light computational speed.
translated by 谷歌翻译
速率 - 失真(R-D)函数,信息理论中的关键数量,其特征在于,通过任何压缩算法,通过任何压缩算法将数据源可以压缩到保真标准的基本限制。随着研究人员推动了不断提高的压缩性能,建立给定数据源的R-D功能不仅具有科学的兴趣,而且还在可能的空间上揭示了改善压缩算法的可能性。以前的解决此问题依赖于数据源上的分布假设(Gibson,2017)或仅应用于离散数据。相比之下,本文使得第一次尝试播放常规(不一定是离散的)源仅需要i.i.d的算法的算法。数据样本。我们估计高斯和高尺寸香蕉形源的R-D三明治界,以及GaN生成的图像。我们在自然图像上的R-D上限表示在各种比特率的PSNR中提高最先进的图像压缩方法的性能的空间。
translated by 谷歌翻译
我们提出了一种基于信息的足够表示学习(MSRL)方法,该方法使用了相互信息的变异表述,并利用了深神经网络的近似能力。 MSRL以最大的互明信息和用户选择的分布来学习足够的表示形式。它可以轻松处理多维连续或分类响应变量。在给定预测变量给定预测变量给定的响应变量的条件概率密度函数的情况下,响应变量的条件概率密度函数的意义上,MSRL被证明是一致的。在适当的条件下,也建立了MSRL的非反应误差界。为了建立误差范围,我们得出了普遍的达德利对订单的不平等,这是由深度神经网络索引的u-process索引,这可能具有独立的关注。我们讨论如何确定基础数据分布的内在维度。此外,我们通过广泛的数值实验和实际数据分析评估了MSRL的性能,并证明MSRL优于某些现有的非线性降低方法。
translated by 谷歌翻译
深度生成模型的壮观成功要求定量工具来衡量其统计性能。由于能够测量深度生成建模固有的质量分集权衡的能力,最近已经提出了发散型号作为生成模型的评估框架。我们在分歧前沿的样本复杂性建立非渐近界。我们还介绍了前沿积分,提供了分歧边界的汇总统计信息。我们展示了良好的估计数如良好的估计或Krichevsky-Trofimov可以克服缺失的质量问题,并导致更快的收敛速度。我们用来自自然语言处理和计算机视觉的数值例子说明了理论结果。
translated by 谷歌翻译
对比度学习是无监督表示学习的最新有前途的方法,其中通过从未标记的数据中求解伪分类问题来学习数据的特征表示。但是,了解哪些表示对比度学习产量并不直接。此外,对比度学习通常基于最大似然估计,这往往容易受到异常值污染的影响。为了促进对比度学习的理解,本文理论上首先显示了与共同信息(MI)最大化的联系。我们的结果表明,在某些条件下,密度比估计是必需的,足以使MI最大化。因此,在流行目标功能中完成的与密度比估计相关的对比学习可以解释为最大化MI。接下来,随着密度比,我们在非线性独立组件分析(ICA)中为潜在源组件建立了新的恢复条件。与现有工作相反,既定条件包括对数据维度的新见解,该洞察力显然得到了数值实验的支持。此外,受非线性ICA的启发,我们提出了一个新型框架,以估算低维度潜在源组件的非线性子空间,并以密度比建立了一些基本空间估计的理论条件。然后,我们通过异常抗体密度比估计提出了一种实用方法,可以看作是对MI,非线性ICA或非线性子空间估计的最大化。此外,还提出了样品有效的非线性ICA方法。我们从理论上研究了所提出的方法的异常体性。最后,在非线性ICA中并通过应用线性分类,在数值上证明了所提出方法的有用性。
translated by 谷歌翻译
自我监督学习中的最新作品通过依靠对比度学习范式来推动最先进的工作,该范式通过推动正面对或从同一班级中的类似示例来学习表示形式,同时将负面对截然不同。尽管取得了经验的成功,但理论基础是有限的 - 先前的分析假设鉴于同一类标签的正对有条件独立性,但是最近的经验应用使用了密切相关的正对(即同一图像的数据增强)。我们的工作分析了对比度学习,而无需在数据上使用增强图的新概念假设正对的有条件独立性。此图中的边缘连接相同数据的增强,而地面实际类别自然形成了连接的子图。我们提出了在人口增强图上执行光谱分解的损失,并且可以简洁地作为对神经净表示的对比学习目标。最小化此目标会导致在线性探针评估下具有可证明准确性的功能。通过标准的概括范围,在最大程度地减少训练对比度损失时,这些准确性也可以保证。从经验上讲,我们目标所学的功能可以匹配或胜过基准视觉数据集上的几个强基线。总的来说,这项工作为对比度学习提供了首次可证明的分析,在该学习中,线性探针评估的保证可以适用于现实的经验环境。
translated by 谷歌翻译
We investigate the training and performance of generative adversarial networks using the Maximum Mean Discrepancy (MMD) as critic, termed MMD GANs. As our main theoretical contribution, we clarify the situation with bias in GAN loss functions raised by recent work: we show that gradient estimators used in the optimization process for both MMD GANs and Wasserstein GANs are unbiased, but learning a discriminator based on samples leads to biased gradients for the generator parameters. We also discuss the issue of kernel choice for the MMD critic, and characterize the kernel corresponding to the energy distance used for the Cramér GAN critic. Being an integral probability metric, the MMD benefits from training strategies recently developed for Wasserstein GANs. In experiments, the MMD GAN is able to employ a smaller critic network than the Wasserstein GAN, resulting in a simpler and faster-training algorithm with matching performance. We also propose an improved measure of GAN convergence, the Kernel Inception Distance, and show how to use it to dynamically adapt learning rates during GAN training.
translated by 谷歌翻译
自我监督的表示学习解决辅助预测任务(称为借口任务),而不需要标记数据以学习有用的语义表示。这些借口任务仅使用输入特征,例如预测缺失的图像修补程序,从上下文中恢复图像的颜色通道,或者预测文本中的缺失单词;然而,预测该\ Texit {已知}信息有助于学习对下游预测任务的学习陈述。我们提供利用某些{\ EM重建}借口任务之间的统计连接的机制,以保证学习良好代表性。正式地,我们量化了借口任务的组件之间的近似独立性(标签和潜在变量的条件)允许我们学习可以通过训练在学习表示的顶部的线性层来解决下游任务的表示。我们证明了线性层即使对于复杂的地面真理函数类,也会产生小的近似误差,并且将急剧减少标记的样本复杂性。接下来,我们展示了我们方法的简单修改,导致非线性CCA,类似于流行的Simsiam算法,并显示了非线性CCA的类似保证。
translated by 谷歌翻译
适应数据分布的结构(例如对称性和转型Imarerces)是机器学习中的重要挑战。通过架构设计或通过增强数据集,可以内在学习过程中内置Inhormces。两者都需要先验的了解对称性的确切性质。缺乏这种知识,从业者求助于昂贵且耗时的调整。为了解决这个问题,我们提出了一种新的方法来学习增强变换的分布,以新的\ emph {转换风险最小化}(trm)框架。除了预测模型之外,我们还优化了从假说空间中选择的转换。作为算法框架,我们的TRM方法是(1)有效(共同学习增强和模型,以\ emph {单训练环}),(2)模块化(使用\ emph {任何训练算法),以及(3)一般(处理\ \ ich {离散和连续}增强)。理论上与标准风险最小化的TRM比较,并在其泛化误差上给出PAC-Bayes上限。我们建议通过块组成的新参数化优化富裕的增强空间,导致新的\ EMPH {随机成分增强学习}(SCALE)算法。我们在CIFAR10 / 100,SVHN上使用先前的方法(快速自身自动化和武术器)进行实际比较规模。此外,我们表明规模可以在数据分布中正确地学习某些对称性(恢复旋转Mnist上的旋转),并且还可以改善学习模型的校准。
translated by 谷歌翻译
We develop and analyze M -estimation methods for divergence functionals and the likelihood ratios of two probability distributions. Our method is based on a non-asymptotic variational characterization of f -divergences, which allows the problem of estimating divergences to be tackled via convex empirical risk optimization. The resulting estimators are simple to implement, requiring only the solution of standard convex programs. We present an analysis of consistency and convergence for these estimators. Given conditions only on the ratios of densities, we show that our estimators can achieve optimal minimax rates for the likelihood ratio and the divergence functionals in certain regimes. We derive an efficient optimization algorithm for computing our estimates, and illustrate their convergence behavior and practical viability by simulations. 1
translated by 谷歌翻译
对比学习在各种自我监督的学习任务中取得了最先进的表现,甚至优于其监督的对应物。尽管其经验成功,但对为什么对比学习作品的理论认识仍然有限。在本文中,(i)我们证明,对比学习胜过AutoEncoder,一种经典无监督的学习方法,适用于特征恢复和下游任务;(ii)我们还说明标记数据在监督对比度学习中的作用。这为最近的发现提供了理论支持,即对标签对比学习的结果提高了域名下游任务中学识表的表现,但它可能会损害转移学习的性能。我们通过数值实验验证了我们的理论。
translated by 谷歌翻译
尽管现代的大规模数据集通常由异质亚群(例如,多个人口统计组或多个文本语料库)组成 - 最小化平均损失的标准实践并不能保证所有亚人群中均匀的低损失。我们提出了一个凸面程序,该过程控制给定尺寸的所有亚群中最差的表现。我们的程序包括有限样本(非参数)收敛的保证,可以保证最坏的亚群。从经验上讲,我们观察到词汇相似性,葡萄酒质量和累犯预测任务,我们最糟糕的程序学习了对不看到看不见的亚人群的模型。
translated by 谷歌翻译
在概率密度范围内相对于Wassersein度量的空间的梯度流程通常具有很好的特性,并且已在几种机器学习应用中使用。计算Wasserstein梯度流量的标准方法是有限差异,使网格上的基础空间离散,并且不可扩展。在这项工作中,我们提出了一种可扩展的近端梯度型算法,用于Wassersein梯度流。我们的方法的关键是目标函数的变分形式,这使得可以通过引流 - 双重优化实现JKO近端地图。可以通过替代地更新内部和外环中的参数来有效地解决该原始问题。我们的框架涵盖了包括热方程和多孔介质方程的所有经典Wasserstein梯度流。我们展示了若干数值示例的算法的性能和可扩展性。
translated by 谷歌翻译