对比度学习是无监督表示学习的最新有前途的方法,其中通过从未标记的数据中求解伪分类问题来学习数据的特征表示。但是,了解哪些表示对比度学习产量并不直接。此外,对比度学习通常基于最大似然估计,这往往容易受到异常值污染的影响。为了促进对比度学习的理解,本文理论上首先显示了与共同信息(MI)最大化的联系。我们的结果表明,在某些条件下,密度比估计是必需的,足以使MI最大化。因此,在流行目标功能中完成的与密度比估计相关的对比学习可以解释为最大化MI。接下来,随着密度比,我们在非线性独立组件分析(ICA)中为潜在源组件建立了新的恢复条件。与现有工作相反,既定条件包括对数据维度的新见解,该洞察力显然得到了数值实验的支持。此外,受非线性ICA的启发,我们提出了一个新型框架,以估算低维度潜在源组件的非线性子空间,并以密度比建立了一些基本空间估计的理论条件。然后,我们通过异常抗体密度比估计提出了一种实用方法,可以看作是对MI,非线性ICA或非线性子空间估计的最大化。此外,还提出了样品有效的非线性ICA方法。我们从理论上研究了所提出的方法的异常体性。最后,在非线性ICA中并通过应用线性分类,在数值上证明了所提出方法的有用性。
translated by 谷歌翻译
The framework of variational autoencoders allows us to efficiently learn deep latent-variable models, such that the model's marginal distribution over observed variables fits the data. Often, we're interested in going a step further, and want to approximate the true joint distribution over observed and latent variables, including the true prior and posterior distributions over latent variables. This is known to be generally impossible due to unidentifiability of the model. We address this issue by showing that for a broad family of deep latentvariable models, identification of the true joint distribution over observed and latent variables is actually possible up to very simple transformations, thus achieving a principled and powerful form of disentanglement. Our result requires a factorized prior distribution over the latent variables that is conditioned on an additionally observed variable, such as a class label or almost any other observation. We build on recent developments in nonlinear ICA, which we extend to the case with noisy or undercomplete observations, integrated in a maximum likelihood framework. The result also trivially contains identifiable flow-based generative models as a special case.
translated by 谷歌翻译
非线性独立组件分析(NICA)旨在恢复未知非线性函数混合的统计独立的潜在组件。 NICA的核心是潜在组件的可识别性,直到最近才难以捉摸。具体而言,Hyv \“ Arinen等人都表明,在广义对比度学习(GCL)配方中,非线性混合的潜在组件是可识别的(通常是无关紧要的歧义性),因为潜在组件是独立于某个辅助变量的独立条件。 NICA的基于GCL的可识别性非常优雅,并在表示形式学习,因果学习和因素分解范围内建立了有趣的联系与流行的无监督/自我监督的学习范例以及理想的通用功能学习者的使用 - 在理论和实践之间造成了不可忽略的差距。缩小差距是一个非平凡的挑战,因为缺乏既定的``教科书''常规,以进行这种无监督的样本分析问题。这项工作提出了基于GCL的NICA的有限样本可识别性分析。我们的分析方法iCal框架明智地结合了GCL损失函数,统计概括分析和数值分化的特性。我们的框架还考虑了学习函数的近似错误,并揭示了就业功能学习者的复杂性和表现力之间的直观权衡。数值实验用于验证定理。
translated by 谷歌翻译
我们提出了一种基于信息的足够表示学习(MSRL)方法,该方法使用了相互信息的变异表述,并利用了深神经网络的近似能力。 MSRL以最大的互明信息和用户选择的分布来学习足够的表示形式。它可以轻松处理多维连续或分类响应变量。在给定预测变量给定预测变量给定的响应变量的条件概率密度函数的情况下,响应变量的条件概率密度函数的意义上,MSRL被证明是一致的。在适当的条件下,也建立了MSRL的非反应误差界。为了建立误差范围,我们得出了普遍的达德利对订单的不平等,这是由深度神经网络索引的u-process索引,这可能具有独立的关注。我们讨论如何确定基础数据分布的内在维度。此外,我们通过广泛的数值实验和实际数据分析评估了MSRL的性能,并证明MSRL优于某些现有的非线性降低方法。
translated by 谷歌翻译
速率 - 失真(R-D)函数,信息理论中的关键数量,其特征在于,通过任何压缩算法,通过任何压缩算法将数据源可以压缩到保真标准的基本限制。随着研究人员推动了不断提高的压缩性能,建立给定数据源的R-D功能不仅具有科学的兴趣,而且还在可能的空间上揭示了改善压缩算法的可能性。以前的解决此问题依赖于数据源上的分布假设(Gibson,2017)或仅应用于离散数据。相比之下,本文使得第一次尝试播放常规(不一定是离散的)源仅需要i.i.d的算法的算法。数据样本。我们估计高斯和高尺寸香蕉形源的R-D三明治界,以及GaN生成的图像。我们在自然图像上的R-D上限表示在各种比特率的PSNR中提高最先进的图像压缩方法的性能的空间。
translated by 谷歌翻译
度量的运输提供了一种用于建模复杂概率分布的多功能方法,并具有密度估计,贝叶斯推理,生成建模及其他方法的应用。单调三角传输地图$ \ unicode {x2014} $近似值$ \ unicode {x2013} $ rosenblatt(kr)重新安排$ \ unicode {x2014} $是这些任务的规范选择。然而,此类地图的表示和参数化对它们的一般性和表现力以及对从数据学习地图学习(例如,通过最大似然估计)出现的优化问题的属性产生了重大影响。我们提出了一个通用框架,用于通过平滑函数的可逆变换来表示单调三角图。我们建立了有关转化的条件,以使相关的无限维度最小化问题没有伪造的局部最小值,即所有局部最小值都是全球最小值。我们展示了满足某些尾巴条件的目标分布,唯一的全局最小化器与KR地图相对应。鉴于来自目标的样品,我们提出了一种自适应算法,该算法估计了基础KR映射的稀疏半参数近似。我们证明了如何将该框架应用于关节和条件密度估计,无可能的推断以及有向图形模型的结构学习,并在一系列样本量之间具有稳定的概括性能。
translated by 谷歌翻译
生成对抗网络(GAN)在数据生成方面取得了巨大成功。但是,其统计特性尚未完全理解。在本文中,我们考虑了GAN的一般$ f $ divergence公式的统计行为,其中包括Kullback- Leibler Divergence与最大似然原理密切相关。我们表明,对于正确指定的参数生成模型,在适当的规律性条件下,所有具有相同歧视类别类别的$ f $ divergence gans均在渐近上等效。 Moreover, with an appropriately chosen local discriminator, they become equivalent to the maximum likelihood estimate asymptotically.对于被误解的生成模型,具有不同$ f $ -Divergences {收敛到不同估计器}的gan,因此无法直接比较。但是,结果表明,对于某些常用的$ f $ -Diverences,原始的$ f $ gan并不是最佳的,因为当更换原始$ f $ gan配方中的判别器培训时,可以实现较小的渐近方差通过逻辑回归。结果估计方法称为对抗梯度估计(年龄)。提供了实证研究来支持该理论,并证明了年龄的优势,而不是模型错误的原始$ f $ gans。
translated by 谷歌翻译
三角形流量,也称为kn \“{o}的Rosenblatt测量耦合,包括用于生成建模和密度估计的归一化流模型的重要构建块,包括诸如实值的非体积保存变换模型的流行自回归流模型(真实的NVP)。我们提出了三角形流量统计模型的统计保证和样本复杂性界限。特别是,我们建立了KN的统计一致性和kullback-leibler估算器的rospblatt的kullback-leibler估计的有限样本会聚率使用实证过程理论的工具测量耦合。我们的结果突出了三角形流动下播放功能类的各向异性几何形状,优化坐标排序,并导致雅各比比流动的统计保证。我们对合成数据进行数值实验,以说明我们理论发现的实际意义。
translated by 谷歌翻译
This paper proposes a novel multivariate definition of statistical dependence using a functional methodology inspired by Alfred R\'enyi. We define a new symmetric and self-adjoint cross density kernel through a recursive bidirectional statistical mapping between conditional densities of continuous random processes, which estimates their statistical dependence. Therefore, the kernel eigenspectrum is proposed as a new multivariate statistical dependence measure, and the formulation requires fewer assumptions about the data generation model than current methods. The measure can also be estimated from realizations. The proposed functional maximum correlation algorithm (FMCA) is applied to a learning architecture with two multivariate neural networks. The FMCA optimal solution is an equilibrium point that estimates the eigenspectrum of the cross density kernel. Preliminary results with synthetic data and medium size image datasets corroborate the theory. Four different strategies of applying the cross density kernel are thoroughly discussed and implemented to show the versatility and stability of the methodology, and it transcends supervised learning. When two random processes are high-dimensional real-world images and white uniform noise, respectively, the algorithm learns a factorial code i.e., the occurrence of a code guarantees that a certain input in the training set was present, which is quite important for feature learning.
translated by 谷歌翻译
Estimating and optimizing Mutual Information (MI) is core to many problems in machine learning; however, bounding MI in high dimensions is challenging. To establish tractable and scalable objectives, recent work has turned to variational bounds parameterized by neural networks, but the relationships and tradeoffs between these bounds remains unclear. In this work, we unify these recent developments in a single framework. We find that the existing variational lower bounds degrade when the MI is large, exhibiting either high bias or high variance. To address this problem, we introduce a continuum of lower bounds that encompasses previous bounds and flexibly trades off bias and variance. On high-dimensional, controlled problems, we empirically characterize the bias and variance of the bounds and their gradients and demonstrate the effectiveness of our new bounds for estimation and representation learning.
translated by 谷歌翻译
我们研究了非参数混合模型中的一致性以及回归的密切相关的混合物(也称为混合回归)模型,其中允许回归函数是非参数的,并且假定误差分布是高斯密度的卷积。我们在一般条件下构建统一的一致估计器,同时突出显示了将现有的点一致性结果扩展到均匀结果的几个疼痛点。最终的分析事实并非如此,并且在此过程中开发了几种新颖的技术工具。在混合回归的情况下,我们证明了回归函数的$ l^1 $收敛性,同时允许组件回归函数任意地相交,这带来了其他技术挑战。我们还考虑对一般(即非跨方向)非参数混合物的概括。
translated by 谷歌翻译
我们考虑对二进制数据的独立分量分析。虽然实践中的基本情况,但这种情况比ICA持续不断开发,以便连续数据。我们首先假设连续值潜在空间中的线性混合模型,然后是二进制观察模型。重要的是,我们认为这些来源是非静止的;这是必要的,因为任何非高斯基本上都是由二值化摧毁的。有趣的是,该模型通过采用多元高斯分布的累积分布函数来允许闭合形式的似然。在与持续值为案例的鲜明对比中,我们证明了少数观察变量的模型的非可识别性;当观察变量的数量较高时,我们的经验结果意味着可识别性。我们为二进制ICA展示了仅使用成对边缘的二进制ICA的实用方法,这些方法比完全多变量可能性更快地计算。
translated by 谷歌翻译
这项正在进行的工作旨在为统计学习提供统一的介绍,从诸如GMM和HMM等经典模型到现代神经网络(如VAE和扩散模型)缓慢地构建。如今,有许多互联网资源可以孤立地解释这一点或新的机器学习算法,但是它们并没有(也不能在如此简短的空间中)将这些算法彼此连接起来,或者与统计模型的经典文献相连现代算法出现了。同样明显缺乏的是一个单一的符号系统,尽管对那些已经熟悉材料的人(如这些帖子的作者)不满意,但对新手的入境造成了重大障碍。同样,我的目的是将各种模型(尽可能)吸收到一个用于推理和学习的框架上,表明(以及为什么)如何以最小的变化将一个模型更改为另一个模型(其中一些是新颖的,另一些是文献中的)。某些背景当然是必要的。我以为读者熟悉基本的多变量计算,概率和统计以及线性代数。这本书的目标当然不是​​完整性,而是从基本知识到过去十年中极强大的新模型的直线路径或多或少。然后,目标是补充而不是替换,诸如Bishop的\ emph {模式识别和机器学习}之类的综合文本,该文本现在已经15岁了。
translated by 谷歌翻译
监督表示学习的目标是为预测构建有效的数据表示。在高维复杂数据的理想非参数表示的所有特征中,充分性,低维度和脱离是最重要的。我们提出了一种深层缩小方法,以使用这些特征来学习表示表示。提出的方法是对足够降低方法的非参数概括。我们制定理想的表示学习任务是找到非参数表示,该任务最小化了表征条件独立性并促进人口层面的分离的目标函数。然后,我们使用深层神经网络在非参数上估计样品级别的目标表示。我们表明,估计的深度非参数表示是一致的,因为它的过剩风险会收敛到零。我们使用模拟和真实基准数据的广泛数值实验表明,在分类和回归的背景下,所提出的方法比现有的几种降低方法和标准深度学习模型具有更好的性能。
translated by 谷歌翻译
本文提出了在适当的监督信息下进行分解的生成因果代表(亲爱的)学习方法。与实施潜在变量独立性的现有分解方法不同,我们考虑了一种基本利益因素可以因果关系相关的一般情况。我们表明,即使在监督下,先前具有独立先验的方法也无法解散因果关系。在这一发现的激励下,我们提出了一种称为DEAR的新的解开学习方法,该方法可以使因果可控的产生和因果代表学习。这种新公式的关键要素是使用结构性因果模型(SCM)作为双向生成模型的先验分布。然后,使用合适的GAN算法与发电机和编码器共同训练了先验,并与有关地面真相因子及其基本因果结构的监督信息合并。我们提供了有关该方法的可识别性和渐近收敛性的理论理由。我们对合成和真实数据集进行了广泛的实验,以证明DEAR在因果可控生成中的有效性,以及在样本效率和分布鲁棒性方面,学到的表示表示对下游任务的好处。
translated by 谷歌翻译
For distributions $\mathbb{P}$ and $\mathbb{Q}$ with different supports or undefined densities, the divergence $\textrm{D}(\mathbb{P}||\mathbb{Q})$ may not exist. We define a Spread Divergence $\tilde{\textrm{D}}(\mathbb{P}||\mathbb{Q})$ on modified $\mathbb{P}$ and $\mathbb{Q}$ and describe sufficient conditions for the existence of such a divergence. We demonstrate how to maximize the discriminatory power of a given divergence by parameterizing and learning the spread. We also give examples of using a Spread Divergence to train implicit generative models, including linear models (Independent Components Analysis) and non-linear models (Deep Generative Networks).
translated by 谷歌翻译
Normalizing flows provide a general mechanism for defining expressive probability distributions, only requiring the specification of a (usually simple) base distribution and a series of bijective transformations. There has been much recent work on normalizing flows, ranging from improving their expressive power to expanding their application. We believe the field has now matured and is in need of a unified perspective. In this review, we attempt to provide such a perspective by describing flows through the lens of probabilistic modeling and inference. We place special emphasis on the fundamental principles of flow design, and discuss foundational topics such as expressive power and computational trade-offs. We also broaden the conceptual framing of flows by relating them to more general probability transformations. Lastly, we summarize the use of flows for tasks such as generative modeling, approximate inference, and supervised learning.
translated by 谷歌翻译
当我们配对输入$ x $和输出$ y $的培训数据时,普通监督学习很有用。但是,这种配对数据在实践中可能很难收集。在本文中,我们考虑了当我们没有配对数据时预测$ y $的任务,但是我们有两个单独的独立数据集,分别为$ x $,每个$ $ $ y $ y $ y $ y $ y $ y $ u $ u $ u $ $,也就是说,我们有两个数据集$ s_x = \ {(x_i,u_i)\} $和$ s_y = \ {(u'_j,y'_jj)\} $。一种天真的方法是使用$ s_x $从$ x $中预测$ u $,然后使用$ s_y $从$ u $ $ y $预测$ y $,但我们表明这在统计上不一致。此外,预测$ u $比预测$ y $在实践中更困难,例如$ u $具有更高的维度。为了避免难度,我们提出了一种避免预测$ u $的新方法,但直接通过培训$ f(x)$ $ s_ {x} $来预测$ y = f(x)$,以预测$ h(u)$经过$ s_ {y} $的培训,以近似$ y $。我们证明了我们方法的统计一致性和误差范围,并通过实验确认其实际实用性。
translated by 谷歌翻译
对复杂模型执行精确的贝叶斯推理是计算的难治性的。马尔可夫链蒙特卡罗(MCMC)算法可以提供后部分布的可靠近似,但对于大型数据集和高维模型昂贵。减轻这种复杂性的标准方法包括使用子采样技术或在群集中分发数据。然而,这些方法通常在高维方案中不可靠。我们在此处专注于最近的替代类别的MCMC方案,利用类似于乘客(ADMM)优化算法的庆祝交替方向使用的分裂策略。这些方法似乎提供了凭经验最先进的性能,但其高维层的理论行为目前未知。在本文中,我们提出了一个详细的理论研究,该算法之一称为分裂Gibbs采样器。在规律条件下,我们使用RICCI曲率和耦合思路为此方案建立了明确的收敛速率。我们以数字插图支持我们的理论。
translated by 谷歌翻译
使用信息理论原理,我们考虑迭代半监督学习(SSL)算法的概括误差(Gen-Error),这些算法迭代地生成了大量未标记数据的伪标记,以逐步完善模型参数。与{\ em绑定} Gen-Error的大多数以前的作品相反,我们为Gen-Error提供了{\ em Exact}的表达,并将其专门为二进制高斯混合模型。我们的理论结果表明,当阶级条件差异不大时,Gen-Error随着迭代次数的数量而减少,但很快就会饱和。另一方面,如果类的条件差异(因此,类别之间的重叠量)很大,则Gen-Error随迭代次数的增加而增加。为了减轻这种不良效果,我们表明正则化可以减少Gen-Error。通过对MNIST和CIFAR数据集进行的广泛实验来证实理论结果,我们注意到,对于易于分类的类别,经过几次伪标记的迭代,Gen-Error会改善,但此后饱和,并且更难难以实现。区分类别,正则化改善了概括性能。
translated by 谷歌翻译