独立分量分析(ICA)旨在从它们的线性混合物中恢复相互独立的来源,并且F Astica是最成功的ICA算法之一。虽然通过向进入的未预期估计提高更多非线性函数来提高F Astica的性能似乎是合理的,但在这种情况下,F Astica退化的原始定点法(近似牛顿方法)。为了缓解这个问题,我们提出了一种基于最小歧视信息(MDI)的二阶近似的新方法。我们方法中的关节最大化包括通过定点方法最小化单个加权最小二乘和寻找解密矩阵。与其他流行的ICA算法相比,实验结果验证了其效率。
translated by 谷歌翻译
独立的分量分析旨在从它们的线性混合物中尽可能独立地恢复未知组件。这种技术已广泛应用于许多领域,例如数据分析,信号处理和机器学习。在本文中,我们提出了一种新的基于促进基于促进的独立分量分析算法。我们的算法通过引入最大似然估计来填充非参数独立分量分析中的间隙。各种实验与许多目前已知的算法相比验证其性能。
translated by 谷歌翻译
A fundamental problem in neural network research, as well as in many other disciplines, is finding a suitable representation of multivariate data, i.e. random vectors. For reasons of computational and conceptual simplicity, the representation is often sought as a linear transformation of the original data. In other words, each component of the representation is a linear combination of the original variables. Well-known linear transformation methods include principal component analysis, factor analysis, and projection pursuit. Independent component analysis (ICA) is a recently developed method in which the goal is to find a linear representation of nongaussian data so that the components are statistically independent, or as independent as possible. Such a representation seems to capture the essential structure of the data in many applications, including feature extraction and signal separation. In this paper, we present the basic theory and applications of ICA, and our recent work on the subject.
translated by 谷歌翻译
诸如归一化流的生成网络可以在增强逆问题之前作为基于学习以实现高质量结果。然而,当在反转期间遍历潜伏空间时,潜伏空间载体可能不会留在所需的高维标准高斯分布中的典型样本。结果,达到高保真解决方案可能具有挑战性,特别是在存在噪声和基于物理的模型的情况下。为了解决这个问题,我们建议使用新颖的可微分数据相关层重新参数化和高斯潜伏的载体,其中通过解决优化问题来定义自定义运算符。这些所提出的层强制实施反转以在高斯典型的潜在空间集中找到可行的解决方案。我们测试并验证了我们在图像去剔除任务和eikonal断层扫描的技术 - 一种PDE受限的逆问题,实现了高保真效果。
translated by 谷歌翻译
这项正在进行的工作旨在为统计学习提供统一的介绍,从诸如GMM和HMM等经典模型到现代神经网络(如VAE和扩散模型)缓慢地构建。如今,有许多互联网资源可以孤立地解释这一点或新的机器学习算法,但是它们并没有(也不能在如此简短的空间中)将这些算法彼此连接起来,或者与统计模型的经典文献相连现代算法出现了。同样明显缺乏的是一个单一的符号系统,尽管对那些已经熟悉材料的人(如这些帖子的作者)不满意,但对新手的入境造成了重大障碍。同样,我的目的是将各种模型(尽可能)吸收到一个用于推理和学习的框架上,表明(以及为什么)如何以最小的变化将一个模型更改为另一个模型(其中一些是新颖的,另一些是文献中的)。某些背景当然是必要的。我以为读者熟悉基本的多变量计算,概率和统计以及线性代数。这本书的目标当然不是​​完整性,而是从基本知识到过去十年中极强大的新模型的直线路径或多或少。然后,目标是补充而不是替换,诸如Bishop的\ emph {模式识别和机器学习}之类的综合文本,该文本现在已经15岁了。
translated by 谷歌翻译
继承是一种确定性算法,用于生成可以被视为满足输入时刻条件的随机样本的数据点。该算法基于高维动力系统的复杂行为,并由统计推断的最大熵原理的启发。在本文中,我们提出了埃尔特联算法的延伸,称为熵放牧,它产生一系列分布而不是点。熵放映是从最大熵原理获得的目标函数的优化。使用所提出的熵放牧算法作为框架,我们讨论了勃起与最大熵原理之间的更近的联系。具体而言,我们将原始的掠过算法解释为熵牧群的易缩放版,其理想的输出分布在数学上表示。我们进一步讨论了掠过算法的复杂行为如何有助于优化。我们认为,所提出的熵扩建算法扩展了爬行到概率建模的应用。与原来的放牧相比,熵放牧可以产生平滑的分布,使得两个有效的概率密度计算和样本产生都变得可能。为了证明这些研究中这些论点的可行性,进行了数值实验,包括合成和实际数据的与其他常规方法的比较。
translated by 谷歌翻译
在这项工作中,我们已经提出了一种称为VAE-Krnet的生成模型,用于密度估计或近似,其将规范变形Autiachoder(VAE)与我们最近开发的基于流的生成模型相结合,称为Krnet。 VAE用作尺寸减少技术以捕获潜伏空间,并且Krnet用于模拟潜在变量的分布。在数据和潜在变量之间使用线性模型,我们表明VAE-Krnet可以比规范VAE更有效且鲁棒。 VAE-KRNET可以用作密度模型,以近似数据分布或任意概率密度函数(PDF)已知到常数。 VAE-KRNET在维度方面灵活。当尺寸的数量相对较小时,Krnet可以有效地近似于原始随机变量的分布。对于高维病例,我们可以使用VAE-Krnet合并尺寸减少。 VAE-Krnet的一个重要应用是用于后部分布的近似的变分贝叶。变分贝叶斯方法通常基于模型和后部之间的Kullback-Leibler(KL)发散的最小化。对于高尺寸分布,由于维度的诅咒构建精确的密度模型是非常具有挑战性的,其中通常引入额外的假设以效率。例如,经典平均场方法假设尺寸之间的相互独立性,这通常会导致由于过度简化而产生低估的方差。为了减轻这个问题,我们包括丢失潜在随机变量和原始随机变量之间的相互信息的最大化,这有助于从低密度的区域保持更多信息,使得方差估计得到改善。
translated by 谷歌翻译
我们制定自然梯度变推理(VI),期望传播(EP),和后线性化(PL)作为牛顿法用于优化贝叶斯后验分布的参数扩展。这种观点明确地把数值优化框架下的推理算法。我们表明,通用近似牛顿法从优化文献,即高斯 - 牛顿和准牛顿方法(例如,该BFGS算法),仍然是这种“贝叶斯牛顿”框架下有效。这导致了一套这些都保证以产生半正定协方差矩阵,不像标准VI和EP新颖算法。我们统一的观点提供了新的见解各种推理方案之间的连接。所有提出的方法适用于具有高斯事先和非共轭的可能性,这是我们与(疏)高斯过程和状态空间模型展示任何模型。
translated by 谷歌翻译
本文考虑了非线性状态空间模型的参数估计,这是一个重要但具有挑战性的问题。我们通过采用差异推理(VI)方法来应对这一挑战,该方法是一种与最大似然估计有着深厚的联系的原则方法。这种VI方法最终提供了对模型的估计,作为对优化问题的解决方案,该解决方案是确定性的,可进行的,可以使用标准优化工具来解决。还详细介绍了具有加性高斯噪声的系统的这种方法的专业化。在数值上对所提出的方法进行了数值检查,该方法涉及一系列的模拟和真实示例,重点是参数初始化的鲁棒性。此外,还与最先进的替代方案进行了有利的比较。
translated by 谷歌翻译
对比度学习是无监督表示学习的最新有前途的方法,其中通过从未标记的数据中求解伪分类问题来学习数据的特征表示。但是,了解哪些表示对比度学习产量并不直接。此外,对比度学习通常基于最大似然估计,这往往容易受到异常值污染的影响。为了促进对比度学习的理解,本文理论上首先显示了与共同信息(MI)最大化的联系。我们的结果表明,在某些条件下,密度比估计是必需的,足以使MI最大化。因此,在流行目标功能中完成的与密度比估计相关的对比学习可以解释为最大化MI。接下来,随着密度比,我们在非线性独立组件分析(ICA)中为潜在源组件建立了新的恢复条件。与现有工作相反,既定条件包括对数据维度的新见解,该洞察力显然得到了数值实验的支持。此外,受非线性ICA的启发,我们提出了一个新型框架,以估算低维度潜在源组件的非线性子空间,并以密度比建立了一些基本空间估计的理论条件。然后,我们通过异常抗体密度比估计提出了一种实用方法,可以看作是对MI,非线性ICA或非线性子空间估计的最大化。此外,还提出了样品有效的非线性ICA方法。我们从理论上研究了所提出的方法的异常体性。最后,在非线性ICA中并通过应用线性分类,在数值上证明了所提出方法的有用性。
translated by 谷歌翻译
One often wants to estimate statistical models where the probability density function is known only up to a multiplicative normalization constant. Typically, one then has to resort to Markov Chain Monte Carlo methods, or approximations of the normalization constant. Here, we propose that such models can be estimated by minimizing the expected squared distance between the gradient of the log-density given by the model and the gradient of the log-density of the observed data. While the estimation of the gradient of log-density function is, in principle, a very difficult non-parametric problem, we prove a surprising result that gives a simple formula for this objective function. The density function of the observed data does not appear in this formula, which simplifies to a sample average of a sum of some derivatives of the log-density given by the model. The validity of the method is demonstrated on multivariate Gaussian and independent component analysis models, and by estimating an overcomplete filter set for natural image data.
translated by 谷歌翻译
Riemannian Gaussian distributions were initially introduced as basic building blocks for learning models which aim to capture the intrinsic structure of statistical populations of positive-definite matrices (here called covariance matrices). While the potential applications of such models have attracted significant attention, a major obstacle still stands in the way of these applications: there seems to exist no practical method of computing the normalising factors associated with Riemannian Gaussian distributions on spaces of high-dimensional covariance matrices. The present paper shows that this missing method comes from an unexpected new connection with random matrix theory. Its main contribution is to prove that Riemannian Gaussian distributions of real, complex, or quaternion covariance matrices are equivalent to orthogonal, unitary, or symplectic log-normal matrix ensembles. This equivalence yields a highly efficient approximation of the normalising factors, in terms of a rather simple analytic expression. The error due to this approximation decreases like the inverse square of dimension. Numerical experiments are conducted which demonstrate how this new approximation can unlock the difficulties which have impeded applications to real-world datasets of high-dimensional covariance matrices. The paper then turns to Riemannian Gaussian distributions of block-Toeplitz covariance matrices. These are equivalent to yet another kind of random matrix ensembles, here called "acosh-normal" ensembles. Orthogonal and unitary "acosh-normal" ensembles correspond to the cases of block-Toeplitz with Toeplitz blocks, and block-Toeplitz (with general blocks) covariance matrices, respectively.
translated by 谷歌翻译
JSTOR is a not-for-profit service that helps scholars, researchers, and students discover, use, and build upon a wide range of content in a trusted digital archive. We use information technology and tools to increase productivity and facilitate new forms of scholarship. For more information about JSTOR, please contact
translated by 谷歌翻译
The saddle point (SP) calculation is a grand challenge for computationally intensive energy function in computational chemistry area, where the saddle point may represent the transition state (TS). The traditional methods need to evaluate the gradients of the energy function at a very large number of locations. To reduce the number of expensive computations of the true gradients, we propose an active learning framework consisting of a statistical surrogate model, Gaussian process regression (GPR) for the energy function, and a single-walker dynamics method, gentle accent dynamics (GAD), for the saddle-type transition states. SP is detected by the GAD applied to the GPR surrogate for the gradient vector and the Hessian matrix. Our key ingredient for efficiency improvements is an active learning method which sequentially designs the most informative locations and takes evaluations of the original model at these locations to train GPR. We formulate this active learning task as the optimal experimental design problem and propose a very efficient sample-based sub-optimal criterion to construct the optimal locations. We show that the new method significantly decreases the required number of energy or force evaluations of the original model.
translated by 谷歌翻译
我们开发了一种多尺度方法,以从实验或模拟中观察到的物理字段或配置的数据集估算高维概率分布。通过这种方式,我们可以估计能量功能(或哈密顿量),并有效地在从统计物理学到宇宙学的各个领域中生成多体系统的新样本。我们的方法 - 小波条件重新归一化组(WC-RG) - 按比例进行估算,以估算由粗粒磁场来调节的“快速自由度”的条件概率的模型。这些概率分布是由与比例相互作用相关的能量函数建模的,并以正交小波为基础表示。 WC-RG将微观能量函数分解为各个尺度上的相互作用能量之和,并可以通过从粗尺度到细度来有效地生成新样品。近相变,它避免了直接估计和采样算法的“临界减速”。理论上通过结合RG和小波理论的结果来解释这一点,并为高斯和$ \ varphi^4 $字段理论进行数值验证。我们表明,多尺度WC-RG基于能量的模型比局部电位模型更通用,并且可以在所有长度尺度上捕获复杂的多体相互作用系统的物理。这是针对反映宇宙学中暗物质分布的弱透镜镜头的,其中包括与长尾概率分布的长距离相互作用。 WC-RG在非平衡系统中具有大量的潜在应用,其中未知基础分布{\ it先验}。最后,我们讨论了WC-RG和深层网络体系结构之间的联系。
translated by 谷歌翻译
度量的运输提供了一种用于建模复杂概率分布的多功能方法,并具有密度估计,贝叶斯推理,生成建模及其他方法的应用。单调三角传输地图$ \ unicode {x2014} $近似值$ \ unicode {x2013} $ rosenblatt(kr)重新安排$ \ unicode {x2014} $是这些任务的规范选择。然而,此类地图的表示和参数化对它们的一般性和表现力以及对从数据学习地图学习(例如,通过最大似然估计)出现的优化问题的属性产生了重大影响。我们提出了一个通用框架,用于通过平滑函数的可逆变换来表示单调三角图。我们建立了有关转化的条件,以使相关的无限维度最小化问题没有伪造的局部最小值,即所有局部最小值都是全球最小值。我们展示了满足某些尾巴条件的目标分布,唯一的全局最小化器与KR地图相对应。鉴于来自目标的样品,我们提出了一种自适应算法,该算法估计了基础KR映射的稀疏半参数近似。我们证明了如何将该框架应用于关节和条件密度估计,无可能的推断以及有向图形模型的结构学习,并在一系列样本量之间具有稳定的概括性能。
translated by 谷歌翻译
The framework of variational autoencoders allows us to efficiently learn deep latent-variable models, such that the model's marginal distribution over observed variables fits the data. Often, we're interested in going a step further, and want to approximate the true joint distribution over observed and latent variables, including the true prior and posterior distributions over latent variables. This is known to be generally impossible due to unidentifiability of the model. We address this issue by showing that for a broad family of deep latentvariable models, identification of the true joint distribution over observed and latent variables is actually possible up to very simple transformations, thus achieving a principled and powerful form of disentanglement. Our result requires a factorized prior distribution over the latent variables that is conditioned on an additionally observed variable, such as a class label or almost any other observation. We build on recent developments in nonlinear ICA, which we extend to the case with noisy or undercomplete observations, integrated in a maximum likelihood framework. The result also trivially contains identifiable flow-based generative models as a special case.
translated by 谷歌翻译
我们开发了一个计算程序,以估计具有附加噪声的半摩托车高斯过程回归模型的协方差超参数。也就是说,提出的方法可用于有效估计相关误差的方差,以及基于最大化边际似然函数的噪声方差。我们的方法涉及适当地降低超参数空间的维度,以简化单变量的根发现问题的估计过程。此外,我们得出了边际似然函数及其衍生物的边界和渐近线,这对于缩小高参数搜索的初始范围很有用。使用数值示例,我们证明了与传统参数优化相比,提出方法的计算优势和鲁棒性。
translated by 谷歌翻译
这项调查旨在提供线性模型及其背后的理论的介绍。我们的目标是对读者进行严格的介绍,并事先接触普通最小二乘。在机器学习中,输出通常是输入的非线性函数。深度学习甚至旨在找到需要大量计算的许多层的非线性依赖性。但是,这些算法中的大多数都基于简单的线性模型。然后,我们从不同视图中描述线性模型,并找到模型背后的属性和理论。线性模型是回归问题中的主要技术,其主要工具是最小平方近似,可最大程度地减少平方误差之和。当我们有兴趣找到回归函数时,这是一个自然的选择,该回归函数可以最大程度地减少相应的预期平方误差。这项调查主要是目的的摘要,即线性模型背后的重要理论的重要性,例如分布理论,最小方差估计器。我们首先从三种不同的角度描述了普通的最小二乘,我们会以随机噪声和高斯噪声干扰模型。通过高斯噪声,该模型产生了可能性,因此我们引入了最大似然估计器。它还通过这种高斯干扰发展了一些分布理论。最小二乘的分布理论将帮助我们回答各种问题并引入相关应用。然后,我们证明最小二乘是均值误差的最佳无偏线性模型,最重要的是,它实际上接近了理论上的极限。我们最终以贝叶斯方法及以后的线性模型结束。
translated by 谷歌翻译
估计给定样品的吉布斯密度函数是计算统计和统计学习中的重要问题。尽管普遍使用了良好的最大似然法,但它需要计算分区函数(即密度的归一化)。可以轻松地针对简单的低维问题计算此功能,但是对于一般密度和高维问题,其计算很困难甚至是棘手的。在本文中,我们提出了一种基于最大a-posteriori(MAP)估计器的替代方法,我们命名了最大恢复地图(MR-MAP),以得出不需要计算分区功能的估计器,并将问题重新制定为优化问题。我们进一步提出了一种最小动作类型的潜力,使我们能够快速解决优化问题作为馈送屈曲神经网络。我们证明了我们的方法对某些标准数据集的有效性。
translated by 谷歌翻译