当采样贝叶斯推断时,一种流行的方法是使用汉密尔顿蒙特卡洛(HMC),特别是No-U-Turn采样器(NUTS),该采样器(NUTS)自动决定汉密尔顿轨迹的结束时间。但是,HMC和螺母可能需要众多目标密度的数值梯度,并且在实践中可能会缓慢。我们建议使用HMC和坚果解决贝叶斯推理问题的汉密尔顿神经网络(HNNS)。一旦训练,HNN不需要在采样过程中的目标密度的数值梯度。此外,它们满足了重要的特性,例如完美的时间可逆性和哈密顿保护性,使其非常适合在HMC和坚果中使用,因为可以显示平稳性。我们还提出了一个称为潜在HNN(L-HNN)的HNN扩展,该扩展能够预测潜在的可变输出。与HNN相比,L-HNN提供了提高表达性和减少的集成误差。最后,我们在具有在线错误监测方案的螺母中使用L-HNN,以防止低概率密度区域的样本退化。我们证明了在螺母中的L-HNN,并在线错误监视了一些涉及复杂,重尾和高本地狂热概率密度的示例。总体而言,具有在线错误监控的坚果中的L-HNN令人满意地推断了这些概率密度。与传统的螺母相比,在线错误监控的螺母中,L-HNN需要1--2个目标密度的数值梯度,并通过数量级提高了每个梯度的有效样本量(ESS)。
translated by 谷歌翻译
尽管No-U-Turn采样器(螺母)是执行贝叶斯推断的广泛采用方法,但它需要许多后梯度,在实践中计算可能很昂贵。最近,人们对基于物理的动力学(或哈密顿)系统和哈密顿神经网络(HNNS)的机器学习引起了重大兴趣。但是,这些类型的体系结构尚未应用于有效地解决贝叶斯推论问题。我们建议使用HNN有效地进行贝叶斯推断,而无需大量的后梯度。我们向HNNS(L-HNN)引入潜在变量输出,以提高表达性和减少的集成误差。我们将L-HNN集成在坚果中,并进一步提出一种在线错误监控方案,以防止L-HNNS可能几乎没有培训数据的区域中采样堕落。考虑到几种复杂的高维后密度,并将其性能与螺母进行比较,我们证明了在线错误监测中的L-HNN。
translated by 谷歌翻译
Hamiltonian Monte Carlo (HMC) is a Markov chain Monte Carlo (MCMC) algorithm that avoids the random walk behavior and sensitivity to correlated parameters that plague many MCMC methods by taking a series of steps informed by first-order gradient information. These features allow it to converge to high-dimensional target distributions much more quickly than simpler methods such as random walk Metropolis or Gibbs sampling. However, HMC's performance is highly sensitive to two user-specified parameters: a step size and a desired number of steps L. In particular, if L is too small then the algorithm exhibits undesirable random walk behavior, while if L is too large the algorithm wastes computation. We introduce the No-U-Turn Sampler (NUTS), an extension to HMC that eliminates the need to set a number of steps L. NUTS uses a recursive algorithm to build a set of likely candidate points that spans a wide swath of the target distribution, stopping automatically when it starts to double back and retrace its steps. Empirically, NUTS perform at least as efficiently as and sometimes more efficiently than a well tuned standard HMC method, without requiring user intervention or costly tuning runs. We also derive a method for adapting the step size parameter on the fly based on primal-dual averaging. NUTS can thus be used with no hand-tuning at all. NUTS is also suitable for applications such as BUGS-style automatic inference engines that require efficient "turnkey" sampling algorithms.
translated by 谷歌翻译
潜在位置网络模型是网络科学的多功能工具;应用程序包括集群实体,控制因果混淆,并在未观察的图形上定义前提。估计每个节点的潜在位置通常是贝叶斯推理问题的群体,吉布斯内的大都市是最流行的近似后分布的工具。然而,众所周知,GIBBS内的大都市对于大型网络而言是低效;接受比计算成本昂贵,并且所得到的后绘高度相关。在本文中,我们提出了一个替代的马尔可夫链蒙特卡罗战略 - 使用分裂哈密顿蒙特卡罗和萤火虫蒙特卡罗的组合定义 - 利用后部分布的功能形式进行更有效的后退计算。我们展示了这些战略在吉布斯和综合网络上的其他算法中优于大都市,以及学区的教师和工作人员的真正信息共享网络。
translated by 谷歌翻译
汉密尔顿蒙特卡罗(HMC)方法广泛用于利用高效率和良好的空间尺寸的效率和良好可扩展性,将样品从非正式化的目标密度绘制。然而,当目标分布是多式化的时,HMC奋斗,因为沿着模拟路径的势能函数(即负面日志密度函数)的最大增加是由初始动能的界限,这遵循$ \ Chi_d的一半^ 2 $分布,其中d是空间尺寸。在本文中,我们开发了一个汉密尔顿蒙特卡罗方法,其中构造的路径可以穿过高潜在的能量屏障。该方法不需要预先知道目标分布的模式。我们的方法通过连续改变模拟粒子的质量而在构造哈密顿路径时,我们的方法能够频繁跳跃。因此,该方法可以被认为是HMC和钢化转变方法的组合。与其他回火方法相比,我们的方法在GIBBS采样器设置中具有独特的优势,其中目标分布在每个步骤中发生变化。我们为我们的方法制定了实用的调整策略,并证明它可以使用法线和传感器网络定位问题的混合物来构建靶向高维的Markov链的全局混合马尔可夫链。
translated by 谷歌翻译
在本文中,我们描述了使用汉密尔顿蒙特卡洛方法从基于经验可能性的后验进行采样的{\ tt r}软件包。基于经验可能性的方法论已在最近的许多感兴趣问题的贝叶斯建模中使用。该半摩擦过程可以轻松地将非参数分布估计器的灵活性与参数模型的可解释性结合在一起。该模型是通过估计基于方程的约束来指定的。从贝叶斯的经验可能性(贝耶斯)后部提取推断是具有挑战性的。可能性是数值计算的,因此不存在后部的闭合表达。此外,对于任何有限尺寸的样本,可能性的支持是非凸,这阻碍了许多马尔可夫链蒙特卡洛(MCMC)程序的快速混合。最近已经表明,使用对数经验可能性梯度的性质,可以设计有效的汉密尔顿蒙特卡洛(HMC)算法来从贝内斯尔后部采样。该软件包要求用户仅指定估计方程,先验及其各自的梯度。从参数后部绘制的MCMC样本,并获得了用户所需的各种细节。
translated by 谷歌翻译
它已被广泛记录说粒子过滤器中的采样和重采样步骤不能差异化。介绍{\ itshape Reparameterisisisisisation技巧}以允许采样步骤重新重整为可微分功能。我们扩展{\ itshape Reparameterisisisation Trick}以包括重采样的随机输入,因此在此步骤之后限制了梯度计算中的不连续性。了解先前和可能性的梯度允许我们运行粒子马尔可夫链蒙特卡罗(P-MCMC)并在估算参数时使用No-U转样采样器(螺母)作为提案。我们将大都市调整后的Langevin算法(MALA)进行比较,汉密尔顿蒙特卡罗与不同数量的步骤和坚果。我们考虑两个状态空间模型,并表明坚果改善了马尔可夫链的混合,可以在较少的计算时间内产生更准确的结果。
translated by 谷歌翻译
从非正规化概率分布的抽样是机器学习中的基本问题,包括贝叶斯建模,潜在因子推断和基于能源的模型训练。在几十年的研究之后,尽管收敛缓慢,但MCMC的变化仍然是抽样的默认方法。辅助神经模型可以学习加速MCMC,但训练额外模型的开销可能是禁止的。我们通过具有非牛顿势头的新的汉密尔顿动态提出了对这个问题的根本不同的方法。与MCMC蒙特卡洛等MCMC接近相比,不需要随机步骤。相反,在扩展状态空间中提出的确定性动态精确地对能量函数指定的目标分布,在ergodicity的假设下。或者,可以将动态解释为在没有训练的情况下对指定的能量模型进行采样的标准化流程。所提出的能量采样哈密尔顿(ESH)动态有一个简单的形式,可以用现有的颂歌解决,但我们推出了一个专业的求解器,它表现出更好的性能。 ESH Dynamics会收敛于其MCMC竞争对手的速度更快,更稳定地培训神经网络能量模型。
translated by 谷歌翻译
Hamiltonian Monte Carlo (HMC) sampling methods provide a mechanism for defining distant proposals with high acceptance probabilities in a Metropolis-Hastings framework, enabling more efficient exploration of the state space than standard random-walk proposals. The popularity of such methods has grown significantly in recent years. However, a limitation of HMC methods is the required gradient computation for simulation of the Hamiltonian dynamical system-such computation is infeasible in problems involving a large sample size or streaming data. Instead, we must rely on a noisy gradient estimate computed from a subset of the data. In this paper, we explore the properties of such a stochastic gradient HMC approach. Surprisingly, the natural implementation of the stochastic approximation can be arbitrarily bad. To address this problem we introduce a variant that uses second-order Langevin dynamics with a friction term that counteracts the effects of the noisy gradient, maintaining the desired target distribution as the invariant distribution. Results on simulated data validate our theory. We also provide an application of our methods to a classification task using neural networks and to online Bayesian matrix factorization.
translated by 谷歌翻译
We present the GPry algorithm for fast Bayesian inference of general (non-Gaussian) posteriors with a moderate number of parameters. GPry does not need any pre-training, special hardware such as GPUs, and is intended as a drop-in replacement for traditional Monte Carlo methods for Bayesian inference. Our algorithm is based on generating a Gaussian Process surrogate model of the log-posterior, aided by a Support Vector Machine classifier that excludes extreme or non-finite values. An active learning scheme allows us to reduce the number of required posterior evaluations by two orders of magnitude compared to traditional Monte Carlo inference. Our algorithm allows for parallel evaluations of the posterior at optimal locations, further reducing wall-clock times. We significantly improve performance using properties of the posterior in our active learning scheme and for the definition of the GP prior. In particular we account for the expected dynamical range of the posterior in different dimensionalities. We test our model against a number of synthetic and cosmological examples. GPry outperforms traditional Monte Carlo methods when the evaluation time of the likelihood (or the calculation of theoretical observables) is of the order of seconds; for evaluation times of over a minute it can perform inference in days that would take months using traditional methods. GPry is distributed as an open source Python package (pip install gpry) and can also be found at https://github.com/jonaselgammal/GPry.
translated by 谷歌翻译
采样约束连续分布的问题经常出现在许多机器/统计学习模型中。许多Monte Carlo Markov链(MCMC)采样方法已适应以处理随机变量的不同类型的约束。在这些方法中,与其他对应物相比,汉密尔顿蒙特卡洛(HMC)和相关方法在计算效率方面具有显着优势。在本文中,我们首先回顾了HMC和一些扩展的抽样方法,然后具体解释了三种受约束的基于HMC的采样方法,反射,重新制定和球形HMC。为了说明,我们应用这些方法来解决三个众所周知的约束采样问题,截断的多元正常分布,贝叶斯正则回归和非参数密度估计。在这篇综述中,我们还将约束的采样与受约束设计空间的实验的统计设计中的另一个类似问题联系起来。
translated by 谷歌翻译
利用启发式来评估收敛性和压缩马尔可夫链蒙特卡罗的输出可以在生产的经验逼近时是次优。通常,许多初始状态归因于“燃烧”并移除,而链条的其余部分是“变薄”,如果还需要压缩。在本文中,我们考虑回顾性地从样本路径中选择固定基数的状态的问题,使得由其经验分布提供的近似接近最佳。提出了一种基于核心稳定性差异的贪婪最小化的新方法,这适用于需要重压力的问题。理论结果保障方法的一致性及其有效性在常微分方程的参数推理的具体背景下证明了该效果。软件可在Python,R和Matlab中的Stein细化包中提供。
translated by 谷歌翻译
现代深度学习方法构成了令人难以置信的强大工具,以解决无数的挑战问题。然而,由于深度学习方法作为黑匣子运作,因此与其预测相关的不确定性往往是挑战量化。贝叶斯统计数据提供了一种形式主义来理解和量化与深度神经网络预测相关的不确定性。本教程概述了相关文献和完整的工具集,用于设计,实施,列车,使用和评估贝叶斯神经网络,即使用贝叶斯方法培训的随机人工神经网络。
translated by 谷歌翻译
逆问题本质上是普遍存在的,几乎在科学和工程的几乎所有领域都出现,从地球物理学和气候科学到天体物理学和生物力学。解决反问题的核心挑战之一是解决他们的不良天性。贝叶斯推论提供了一种原则性的方法来克服这一方法,通过将逆问题提出为统计框架。但是,当推断具有大幅度的离散表示的字段(所谓的“维度的诅咒”)和/或仅以先前获取的解决方案的形式可用时。在这项工作中,我们提出了一种新的方法,可以使用深层生成模型进行有效,准确的贝叶斯反转。具体而言,我们证明了如何使用生成对抗网络(GAN)在贝叶斯更新中学到的近似分布,并在GAN的低维度潜在空间中重新解决所得的推断问题,从而有效地解决了大规模的解决方案。贝叶斯逆问题。我们的统计框架保留了潜在的物理学,并且被证明可以通过可靠的不确定性估计得出准确的结果,即使没有有关基础噪声模型的信息,这对于许多现有方法来说都是一个重大挑战。我们证明了提出方法对各种反问题的有效性,包括合成和实验观察到的数据。
translated by 谷歌翻译
动态系统参见在物理,生物学,化学等自然科学中广泛使用,以及电路分析,计算流体动力学和控制等工程学科。对于简单的系统,可以通过应用基本物理法来导出管理动态的微分方程。然而,对于更复杂的系统,这种方法变得非常困难。数据驱动建模是一种替代范式,可以使用真实系统的观察来了解系统的动态的近似值。近年来,对数据驱动的建模技术的兴趣增加,特别是神经网络已被证明提供了解决广泛任务的有效框架。本文提供了使用神经网络构建动态系统模型的不同方式的调查。除了基础概述外,我们还审查了相关的文献,概述了这些建模范式必须克服的数值模拟中最重要的挑战。根据审查的文献和确定的挑战,我们提供了关于有前途的研究领域的讨论。
translated by 谷歌翻译
本文提出了一种用于系统识别(ID)的概率贝叶斯公式,并使用随机动态模型对不可分割的哈密顿系统进行了估计。非分离的哈密顿系统是来自不同科学和工程应用的模型,例如天体物理学,机器人技术,涡流动力学,带电的粒子动力学和量子力学。数值实验表明,与最先进的方法相比,所提出的方法以更高的精度和预测性不确定性降低了动态系统。结果进一步表明,在可能存在稀疏和嘈杂的测量的情况下,准确的预测远远超出了训练时间间隔,这为提出的方法提供了鲁棒性和概括性。定量益处是预测准确性,相对误差少于10%的相对误差超过12倍,比基于基准问题的基于最小二乘的方法长12倍。
translated by 谷歌翻译
贝叶斯推理允许在贝叶斯神经网络的上下文中获取有关模型参数的有用信息,或者在贝叶斯神经网络的背景下。通常的Monte Carlo方法的计算成本,用于在贝叶斯推理中对贝叶斯推理的后验法律进行线性点的数量与数据点的数量进行线性。将其降低到这一成本的一小部分的一种选择是使用Langevin动态的未经调整的离散化来诉诸Mini-Batching,在这种情况下,只使用数据的随机分数来估计梯度。然而,这导致动态中的额外噪声,因此在马尔可夫链采样的不变度量上的偏差。我们倡导使用所谓的自适应Langevin动态,这是一种改进标准惯性Langevin动态,其动态摩擦力,可自动校正迷你批次引起的增加的噪声。我们调查假设适应性Langevin的假设(恒定协方差估计梯度的恒定协方差),这在贝叶斯推理的典型模型中不满足,并在这种情况下量化小型匹配诱导的偏差。我们还展示了如何扩展ADL,以便通过考虑根据参数的当前值来系统地减少后部分布的偏置。
translated by 谷歌翻译
从观察到的调查数据中,宇宙学的正向建模方法使在宇宙开头重建初始条件成为可能。但是,参数空间的高维度仍然构成挑战,探索完整的后部,传统算法(例如汉密尔顿蒙特卡洛(HMC))由于产生相关样本而在计算上效率低下发散(损失)功能。在这里,我们开发了一种称为变异自动采样(VBS)的混合方案,以通过学习用于蒙特卡洛采样的建议分布的变异近似来减轻这两种算法的缺点,并将其与HMC结合。变异分布被参数化为正常化的流量,并通过即时生成的样品学习,而从中提取的建议则减少了MCMC链中的自动相关长度。我们的归一化流程使用傅立叶空间卷积和元素的操作来扩展到高维度。我们表明,经过短暂的初始热身和训练阶段,VBS比简单的VI方法产生了更好的样品质量,并将采样阶段的相关长度缩短了10-50倍,仅使用HMC探索初始的后验64 $^3 $和128 $^3 $维度问题的条件,高信噪比数据观察的收益较大。
translated by 谷歌翻译
从卫星图像中提取的大气运动向量(AMV)是唯一具有良好全球覆盖范围的风观测。它们是进食数值天气预测(NWP)模型的重要特征。已经提出了几种贝叶斯模型来估计AMV。尽管对于正确同化NWP模型至关重要,但很少有方法可以彻底表征估计误差。估计误差的困难源于后验分布的特异性,这既是很高的维度,又是由于奇异的可能性而导致高度不良的条件,这在缺少数据(未观察到的像素)的情况下特别重要。这项工作研究了使用基于梯度的Markov链Monte Carlo(MCMC)算法评估AMV的预期误差。我们的主要贡献是提出一种回火策略,这相当于在点估计值附近的AMV和图像变量的联合后验分布的局部近似。此外,我们提供了与先前家庭本身有关的协方差(分数布朗运动),并具有不同的超参数。从理论的角度来看,我们表明,在规律性假设下,随着温度降低到{optimal}高斯近似值,在最大a后验(MAP)对数密度给出的点估计下,温度降低到{optimal}高斯近似值。从经验的角度来看,我们根据一些定量的贝叶斯评估标准评估了提出的方法。我们对合成和真实气象数据进行的数值模拟揭示了AMV点估计的准确性及其相关的预期误差估计值的显着提高,但在MCMC算法的收敛速度方面也有很大的加速度。
translated by 谷歌翻译
最近介绍基于梯度的MCMC用于离散空间具有巨大的希望,并带来了新离散的可能性的诱人可能性,即MALA和HMC等著名的连续方法。为了实现这一目标,我们介绍了几个在概念上受到MALA启发的分离大都会杂货样本,并在贝叶斯推理和基于能量的建模中表现出了一系列具有挑战性的采样问题。从方法上讲,我们确定了为什么对预处理的MALA的离散类似物通常是棘手的,激发了我们基于辅助变量和“高斯整体技巧”引入一种新型的预处理。
translated by 谷歌翻译