采样约束连续分布的问题经常出现在许多机器/统计学习模型中。许多Monte Carlo Markov链(MCMC)采样方法已适应以处理随机变量的不同类型的约束。在这些方法中,与其他对应物相比,汉密尔顿蒙特卡洛(HMC)和相关方法在计算效率方面具有显着优势。在本文中,我们首先回顾了HMC和一些扩展的抽样方法,然后具体解释了三种受约束的基于HMC的采样方法,反射,重新制定和球形HMC。为了说明,我们应用这些方法来解决三个众所周知的约束采样问题,截断的多元正常分布,贝叶斯正则回归和非参数密度估计。在这篇综述中,我们还将约束的采样与受约束设计空间的实验的统计设计中的另一个类似问题联系起来。
translated by 谷歌翻译
汉密尔顿蒙特卡罗(HMC)方法广泛用于利用高效率和良好的空间尺寸的效率和良好可扩展性,将样品从非正式化的目标密度绘制。然而,当目标分布是多式化的时,HMC奋斗,因为沿着模拟路径的势能函数(即负面日志密度函数)的最大增加是由初始动能的界限,这遵循$ \ Chi_d的一半^ 2 $分布,其中d是空间尺寸。在本文中,我们开发了一个汉密尔顿蒙特卡罗方法,其中构造的路径可以穿过高潜在的能量屏障。该方法不需要预先知道目标分布的模式。我们的方法通过连续改变模拟粒子的质量而在构造哈密顿路径时,我们的方法能够频繁跳跃。因此,该方法可以被认为是HMC和钢化转变方法的组合。与其他回火方法相比,我们的方法在GIBBS采样器设置中具有独特的优势,其中目标分布在每个步骤中发生变化。我们为我们的方法制定了实用的调整策略,并证明它可以使用法线和传感器网络定位问题的混合物来构建靶向高维的Markov链的全局混合马尔可夫链。
translated by 谷歌翻译
Hamiltonian Monte Carlo (HMC) is a Markov chain Monte Carlo (MCMC) algorithm that avoids the random walk behavior and sensitivity to correlated parameters that plague many MCMC methods by taking a series of steps informed by first-order gradient information. These features allow it to converge to high-dimensional target distributions much more quickly than simpler methods such as random walk Metropolis or Gibbs sampling. However, HMC's performance is highly sensitive to two user-specified parameters: a step size and a desired number of steps L. In particular, if L is too small then the algorithm exhibits undesirable random walk behavior, while if L is too large the algorithm wastes computation. We introduce the No-U-Turn Sampler (NUTS), an extension to HMC that eliminates the need to set a number of steps L. NUTS uses a recursive algorithm to build a set of likely candidate points that spans a wide swath of the target distribution, stopping automatically when it starts to double back and retrace its steps. Empirically, NUTS perform at least as efficiently as and sometimes more efficiently than a well tuned standard HMC method, without requiring user intervention or costly tuning runs. We also derive a method for adapting the step size parameter on the fly based on primal-dual averaging. NUTS can thus be used with no hand-tuning at all. NUTS is also suitable for applications such as BUGS-style automatic inference engines that require efficient "turnkey" sampling algorithms.
translated by 谷歌翻译
在本文中,我们描述了使用汉密尔顿蒙特卡洛方法从基于经验可能性的后验进行采样的{\ tt r}软件包。基于经验可能性的方法论已在最近的许多感兴趣问题的贝叶斯建模中使用。该半摩擦过程可以轻松地将非参数分布估计器的灵活性与参数模型的可解释性结合在一起。该模型是通过估计基于方程的约束来指定的。从贝叶斯的经验可能性(贝耶斯)后部提取推断是具有挑战性的。可能性是数值计算的,因此不存在后部的闭合表达。此外,对于任何有限尺寸的样本,可能性的支持是非凸,这阻碍了许多马尔可夫链蒙特卡洛(MCMC)程序的快速混合。最近已经表明,使用对数经验可能性梯度的性质,可以设计有效的汉密尔顿蒙特卡洛(HMC)算法来从贝内斯尔后部采样。该软件包要求用户仅指定估计方程,先验及其各自的梯度。从参数后部绘制的MCMC样本,并获得了用户所需的各种细节。
translated by 谷歌翻译
最近,经验可能性已在贝叶斯框架下广泛应用。马尔可夫链蒙特卡洛(MCMC)方法经常用于从感兴趣参数的后验分布中采样。然而,可能性支持的复杂性,尤其是非凸性的性质,在选择适当的MCMC算法时建立了巨大的障碍。这种困难限制了在许多应用中基于贝叶斯的经验可能性(贝叶赛)方法的使用。在本文中,我们提出了一个两步的大都会黑斯廷斯算法,以从贝耶斯后期进行采样。我们的建议是在层次上指定的,其中确定经验可能性的估计方程用于根据其余参数的建议值提出一组参数的值。此外,我们使用经验可能性讨论贝叶斯模型的选择,并将我们的两步大都会黑斯廷斯算法扩展到可逆的跳跃马尔可夫链蒙特卡洛手术程序,以便从最终的后验中采样。最后,提出了我们提出的方法的几种应用。
translated by 谷歌翻译
当采样贝叶斯推断时,一种流行的方法是使用汉密尔顿蒙特卡洛(HMC),特别是No-U-Turn采样器(NUTS),该采样器(NUTS)自动决定汉密尔顿轨迹的结束时间。但是,HMC和螺母可能需要众多目标密度的数值梯度,并且在实践中可能会缓慢。我们建议使用HMC和坚果解决贝叶斯推理问题的汉密尔顿神经网络(HNNS)。一旦训练,HNN不需要在采样过程中的目标密度的数值梯度。此外,它们满足了重要的特性,例如完美的时间可逆性和哈密顿保护性,使其非常适合在HMC和坚果中使用,因为可以显示平稳性。我们还提出了一个称为潜在HNN(L-HNN)的HNN扩展,该扩展能够预测潜在的可变输出。与HNN相比,L-HNN提供了提高表达性和减少的集成误差。最后,我们在具有在线错误监测方案的螺母中使用L-HNN,以防止低概率密度区域的样本退化。我们证明了在螺母中的L-HNN,并在线错误监视了一些涉及复杂,重尾和高本地狂热概率密度的示例。总体而言,具有在线错误监控的坚果中的L-HNN令人满意地推断了这些概率密度。与传统的螺母相比,在线错误监控的螺母中,L-HNN需要1--2个目标密度的数值梯度,并通过数量级提高了每个梯度的有效样本量(ESS)。
translated by 谷歌翻译
潜在位置网络模型是网络科学的多功能工具;应用程序包括集群实体,控制因果混淆,并在未观察的图形上定义前提。估计每个节点的潜在位置通常是贝叶斯推理问题的群体,吉布斯内的大都市是最流行的近似后分布的工具。然而,众所周知,GIBBS内的大都市对于大型网络而言是低效;接受比计算成本昂贵,并且所得到的后绘高度相关。在本文中,我们提出了一个替代的马尔可夫链蒙特卡罗战略 - 使用分裂哈密顿蒙特卡罗和萤火虫蒙特卡罗的组合定义 - 利用后部分布的功能形式进行更有效的后退计算。我们展示了这些战略在吉布斯和综合网络上的其他算法中优于大都市,以及学区的教师和工作人员的真正信息共享网络。
translated by 谷歌翻译
Normalizing flows provide a general mechanism for defining expressive probability distributions, only requiring the specification of a (usually simple) base distribution and a series of bijective transformations. There has been much recent work on normalizing flows, ranging from improving their expressive power to expanding their application. We believe the field has now matured and is in need of a unified perspective. In this review, we attempt to provide such a perspective by describing flows through the lens of probabilistic modeling and inference. We place special emphasis on the fundamental principles of flow design, and discuss foundational topics such as expressive power and computational trade-offs. We also broaden the conceptual framing of flows by relating them to more general probability transformations. Lastly, we summarize the use of flows for tasks such as generative modeling, approximate inference, and supervised learning.
translated by 谷歌翻译
在本章中,我们确定了基本的几何结构,这些几何结构是采样,优化,推理和自适应决策问题的基础。基于此识别,我们得出了利用这些几何结构来有效解决这些问题的算法。我们表明,在这些领域中自然出现了广泛的几何理论,范围从测量过程,信息差异,泊松几何和几何整合。具体而言,我们解释了(i)如何利用汉密尔顿系统的符合性几何形状,使我们能够构建(加速)采样和优化方法,(ii)希尔伯特亚空间和Stein操作员的理论提供了一种通用方法来获得可靠的估计器,(iii)(iii)(iii)保留决策的信息几何形状会产生执行主动推理的自适应剂。在整个过程中,我们强调了这些领域之间的丰富联系。例如,推论借鉴了抽样和优化,并且自适应决策通过推断其反事实后果来评估决策。我们的博览会提供了基本思想的概念概述,而不是技术讨论,可以在本文中的参考文献中找到。
translated by 谷歌翻译
We consider the constrained sampling problem where the goal is to sample from a distribution $\pi(x)\propto e^{-f(x)}$ and $x$ is constrained on a convex body $\mathcal{C}\subset \mathbb{R}^d$. Motivated by penalty methods from optimization, we propose penalized Langevin Dynamics (PLD) and penalized Hamiltonian Monte Carlo (PHMC) that convert the constrained sampling problem into an unconstrained one by introducing a penalty function for constraint violations. When $f$ is smooth and the gradient is available, we show $\tilde{\mathcal{O}}(d/\varepsilon^{10})$ iteration complexity for PLD to sample the target up to an $\varepsilon$-error where the error is measured in terms of the total variation distance and $\tilde{\mathcal{O}}(\cdot)$ hides some logarithmic factors. For PHMC, we improve this result to $\tilde{\mathcal{O}}(\sqrt{d}/\varepsilon^{7})$ when the Hessian of $f$ is Lipschitz and the boundary of $\mathcal{C}$ is sufficiently smooth. To our knowledge, these are the first convergence rate results for Hamiltonian Monte Carlo methods in the constrained sampling setting that can handle non-convex $f$ and can provide guarantees with the best dimension dependency among existing methods with deterministic gradients. We then consider the setting where unbiased stochastic gradients are available. We propose PSGLD and PSGHMC that can handle stochastic gradients without Metropolis-Hasting correction steps. When $f$ is strongly convex and smooth, we obtain an iteration complexity of $\tilde{\mathcal{O}}(d/\varepsilon^{18})$ and $\tilde{\mathcal{O}}(d\sqrt{d}/\varepsilon^{39})$ respectively in the 2-Wasserstein distance. For the more general case, when $f$ is smooth and non-convex, we also provide finite-time performance bounds and iteration complexity results. Finally, we test our algorithms on Bayesian LASSO regression and Bayesian constrained deep learning problems.
translated by 谷歌翻译
从非正规化概率分布的抽样是机器学习中的基本问题,包括贝叶斯建模,潜在因子推断和基于能源的模型训练。在几十年的研究之后,尽管收敛缓慢,但MCMC的变化仍然是抽样的默认方法。辅助神经模型可以学习加速MCMC,但训练额外模型的开销可能是禁止的。我们通过具有非牛顿势头的新的汉密尔顿动态提出了对这个问题的根本不同的方法。与MCMC蒙特卡洛等MCMC接近相比,不需要随机步骤。相反,在扩展状态空间中提出的确定性动态精确地对能量函数指定的目标分布,在ergodicity的假设下。或者,可以将动态解释为在没有训练的情况下对指定的能量模型进行采样的标准化流程。所提出的能量采样哈密尔顿(ESH)动态有一个简单的形式,可以用现有的颂歌解决,但我们推出了一个专业的求解器,它表现出更好的性能。 ESH Dynamics会收敛于其MCMC竞争对手的速度更快,更稳定地培训神经网络能量模型。
translated by 谷歌翻译
颗粒滤波方法广泛应用于非线性非高斯状态空间模型内的顺序状态估计。然而,传统的颗粒过滤方法在高维状态空间模型中遭受重量退化。目前,有许多方法可以提高高维状态空间模型中粒子滤波的性能。其中,更先进的方法是通过实施复合Metropolis-Hasting(MH)内核来构建顺序Makov Chian Monte Carlo(SMCMC)框架。在本文中,我们提出了离散的示出ZAG采样器,并在SMCMC框架内的复合MH内核的细化阶段应用Zig-Zag采样器,其在联合拉伸阶段中的可逆颗粒流动实现。通过挑战复杂的高维过滤实施例的数值实验,我们评估所提出的方法的性能。无限的实验表明,在高维状态估计例中,所提出的方法提高了估计精度并增加了与最先进的过滤方法相比的接收比率。
translated by 谷歌翻译
We present the GPry algorithm for fast Bayesian inference of general (non-Gaussian) posteriors with a moderate number of parameters. GPry does not need any pre-training, special hardware such as GPUs, and is intended as a drop-in replacement for traditional Monte Carlo methods for Bayesian inference. Our algorithm is based on generating a Gaussian Process surrogate model of the log-posterior, aided by a Support Vector Machine classifier that excludes extreme or non-finite values. An active learning scheme allows us to reduce the number of required posterior evaluations by two orders of magnitude compared to traditional Monte Carlo inference. Our algorithm allows for parallel evaluations of the posterior at optimal locations, further reducing wall-clock times. We significantly improve performance using properties of the posterior in our active learning scheme and for the definition of the GP prior. In particular we account for the expected dynamical range of the posterior in different dimensionalities. We test our model against a number of synthetic and cosmological examples. GPry outperforms traditional Monte Carlo methods when the evaluation time of the likelihood (or the calculation of theoretical observables) is of the order of seconds; for evaluation times of over a minute it can perform inference in days that would take months using traditional methods. GPry is distributed as an open source Python package (pip install gpry) and can also be found at https://github.com/jonaselgammal/GPry.
translated by 谷歌翻译
Hamiltonian Monte Carlo (HMC) sampling methods provide a mechanism for defining distant proposals with high acceptance probabilities in a Metropolis-Hastings framework, enabling more efficient exploration of the state space than standard random-walk proposals. The popularity of such methods has grown significantly in recent years. However, a limitation of HMC methods is the required gradient computation for simulation of the Hamiltonian dynamical system-such computation is infeasible in problems involving a large sample size or streaming data. Instead, we must rely on a noisy gradient estimate computed from a subset of the data. In this paper, we explore the properties of such a stochastic gradient HMC approach. Surprisingly, the natural implementation of the stochastic approximation can be arbitrarily bad. To address this problem we introduce a variant that uses second-order Langevin dynamics with a friction term that counteracts the effects of the noisy gradient, maintaining the desired target distribution as the invariant distribution. Results on simulated data validate our theory. We also provide an application of our methods to a classification task using neural networks and to online Bayesian matrix factorization.
translated by 谷歌翻译
在$ \ mathbb {r}^n $中观察到的自然数据通常被限制为$ m $ dimensional歧管$ \ mathcal {m} $,其中$ m <n $。当前的生成模型通过通过神经网络$ f_ \ theta映射$ m $二维潜在变量来表示此流形:\ mathbb {r}^m \ to \ mathbb {r}^n $。我们称之为Pushforward模型的此类过程产生了一个直接的限制:通常不能以单个参数化表示歧管,这意味着尝试这样做的方法将导致计算不稳定性或无法在歧管内学习概率密度。为了解决这个问题,我们建议将$ \ mathcal {m} $建模为神经隐式歧管:神经网络的零零。为了了解$ \ Mathcal {M} $中的数据分布,我们引入了受限的基于能量的模型,该模型使用Langevin Dynamics的约束变体来训练和示例在学习的歧管中。可以用歧管的算术来操纵所得模型,该模型使从业者可以采用工会和模型歧管的交叉点。在有关合成和自然数据的实验中,我们表明,受约束的EBM可以比推送模型更准确地学习具有复杂拓扑的歧管支配分布。
translated by 谷歌翻译
它已被广泛记录说粒子过滤器中的采样和重采样步骤不能差异化。介绍{\ itshape Reparameterisisisisisation技巧}以允许采样步骤重新重整为可微分功能。我们扩展{\ itshape Reparameterisisisation Trick}以包括重采样的随机输入,因此在此步骤之后限制了梯度计算中的不连续性。了解先前和可能性的梯度允许我们运行粒子马尔可夫链蒙特卡罗(P-MCMC)并在估算参数时使用No-U转样采样器(螺母)作为提案。我们将大都市调整后的Langevin算法(MALA)进行比较,汉密尔顿蒙特卡罗与不同数量的步骤和坚果。我们考虑两个状态空间模型,并表明坚果改善了马尔可夫链的混合,可以在较少的计算时间内产生更准确的结果。
translated by 谷歌翻译
当观察结果被截断时,我们仅限于数据集的不完整图片。最近的方法通过转向得分匹配来处理截短的密度估计问题,而不需要访问棘手的归一化常数。我们为Riemannian歧管提供了一个新颖的扩展,以截断得分匹配。在$ \ r^3 $中的二维领域上向von Mises-Fisher和Kent发行版提供了申请,以及美国极端风暴观察的现实应用。在模拟数据实验中,我们的分数匹配估计器能够以较低的估计误差近似于真实的参数值,并显示出比最大似然估计器的改进。
translated by 谷歌翻译
本文介绍了一个新的神经网络,在$ \ mathbb r ^ d $的真实值函数之前,通过施工更容易和便宜地缩放到域维数$ d $与通常的karhunen-lo \`eve相比功能空间之前。新的先前是高斯神经网络,其中每个重量和偏差都有一个独立的高斯的先前,但是差异的关键差异是,差异在网络的宽度下减小,使得所得到的函数几乎肯定地定义了很多无限宽度网络的极限。我们表明,在推断未知功能的贝叶斯治疗中,使用希尔伯特Space Markov链蒙特卡罗(MCMC)方法,诱导的后续功能均可用于蒙特卡罗采样。这种类型的MCMC很受欢迎,例如,在贝叶斯逆问题文献中,因为它在网眼细化下稳定,即接受概率不会缩小到0美元,因为函数之前的更多参数甚至是AD Infinitum。在数值例子中,我们展示了其他功能空间前沿的这些竞争优势。我们还在贝叶斯加固学习中实施示例以自动化数据的任务,并首次演示MCMC的稳定性以对这些类型的问题进行网格细化。
translated by 谷歌翻译
从卫星图像中提取的大气运动向量(AMV)是唯一具有良好全球覆盖范围的风观测。它们是进食数值天气预测(NWP)模型的重要特征。已经提出了几种贝叶斯模型来估计AMV。尽管对于正确同化NWP模型至关重要,但很少有方法可以彻底表征估计误差。估计误差的困难源于后验分布的特异性,这既是很高的维度,又是由于奇异的可能性而导致高度不良的条件,这在缺少数据(未观察到的像素)的情况下特别重要。这项工作研究了使用基于梯度的Markov链Monte Carlo(MCMC)算法评估AMV的预期误差。我们的主要贡献是提出一种回火策略,这相当于在点估计值附近的AMV和图像变量的联合后验分布的局部近似。此外,我们提供了与先前家庭本身有关的协方差(分数布朗运动),并具有不同的超参数。从理论的角度来看,我们表明,在规律性假设下,随着温度降低到{optimal}高斯近似值,在最大a后验(MAP)对数密度给出的点估计下,温度降低到{optimal}高斯近似值。从经验的角度来看,我们根据一些定量的贝叶斯评估标准评估了提出的方法。我们对合成和真实气象数据进行的数值模拟揭示了AMV点估计的准确性及其相关的预期误差估计值的显着提高,但在MCMC算法的收敛速度方面也有很大的加速度。
translated by 谷歌翻译
量子哈密顿学习和量子吉布斯采样的双重任务与物理和化学中的许多重要问题有关。在低温方案中,这些任务的算法通常会遭受施状能力,例如因样本或时间复杂性差而遭受。为了解决此类韧性,我们将量子自然梯度下降的概括引入了参数化的混合状态,并提供了稳健的一阶近似算法,即量子 - 固定镜下降。我们使用信息几何学和量子计量学的工具证明了双重任务的数据样本效率,因此首次将经典Fisher效率的开创性结果推广到变异量子算法。我们的方法扩展了以前样品有效的技术,以允许模型选择的灵活性,包括基于量子汉密尔顿的量子模型,包括基于量子的模型,这些模型可能会规避棘手的时间复杂性。我们的一阶算法是使用经典镜下降二元性的新型量子概括得出的。两种结果都需要特殊的度量选择,即Bogoliubov-Kubo-Mori度量。为了从数值上测试我们提出的算法,我们将它们的性能与现有基准进行了关于横向场ISING模型的量子Gibbs采样任务的现有基准。最后,我们提出了一种初始化策略,利用几何局部性来建模状态的序列(例如量子 - 故事过程)的序列。我们从经验上证明了它在实际和想象的时间演化的经验上,同时定义了更广泛的潜在应用。
translated by 谷歌翻译