从观察到的调查数据中,宇宙学的正向建模方法使在宇宙开头重建初始条件成为可能。但是,参数空间的高维度仍然构成挑战,探索完整的后部,传统算法(例如汉密尔顿蒙特卡洛(HMC))由于产生相关样本而在计算上效率低下发散(损失)功能。在这里,我们开发了一种称为变异自动采样(VBS)的混合方案,以通过学习用于蒙特卡洛采样的建议分布的变异近似来减轻这两种算法的缺点,并将其与HMC结合。变异分布被参数化为正常化的流量,并通过即时生成的样品学习,而从中提取的建议则减少了MCMC链中的自动相关长度。我们的归一化流程使用傅立叶空间卷积和元素的操作来扩展到高维度。我们表明,经过短暂的初始热身和训练阶段,VBS比简单的VI方法产生了更好的样品质量,并将采样阶段的相关长度缩短了10-50倍,仅使用HMC探索初始的后验64 $^3 $和128 $^3 $维度问题的条件,高信噪比数据观察的收益较大。
translated by 谷歌翻译
We present the GPry algorithm for fast Bayesian inference of general (non-Gaussian) posteriors with a moderate number of parameters. GPry does not need any pre-training, special hardware such as GPUs, and is intended as a drop-in replacement for traditional Monte Carlo methods for Bayesian inference. Our algorithm is based on generating a Gaussian Process surrogate model of the log-posterior, aided by a Support Vector Machine classifier that excludes extreme or non-finite values. An active learning scheme allows us to reduce the number of required posterior evaluations by two orders of magnitude compared to traditional Monte Carlo inference. Our algorithm allows for parallel evaluations of the posterior at optimal locations, further reducing wall-clock times. We significantly improve performance using properties of the posterior in our active learning scheme and for the definition of the GP prior. In particular we account for the expected dynamical range of the posterior in different dimensionalities. We test our model against a number of synthetic and cosmological examples. GPry outperforms traditional Monte Carlo methods when the evaluation time of the likelihood (or the calculation of theoretical observables) is of the order of seconds; for evaluation times of over a minute it can perform inference in days that would take months using traditional methods. GPry is distributed as an open source Python package (pip install gpry) and can also be found at https://github.com/jonaselgammal/GPry.
translated by 谷歌翻译
Hamiltonian Monte Carlo (HMC) is a Markov chain Monte Carlo (MCMC) algorithm that avoids the random walk behavior and sensitivity to correlated parameters that plague many MCMC methods by taking a series of steps informed by first-order gradient information. These features allow it to converge to high-dimensional target distributions much more quickly than simpler methods such as random walk Metropolis or Gibbs sampling. However, HMC's performance is highly sensitive to two user-specified parameters: a step size and a desired number of steps L. In particular, if L is too small then the algorithm exhibits undesirable random walk behavior, while if L is too large the algorithm wastes computation. We introduce the No-U-Turn Sampler (NUTS), an extension to HMC that eliminates the need to set a number of steps L. NUTS uses a recursive algorithm to build a set of likely candidate points that spans a wide swath of the target distribution, stopping automatically when it starts to double back and retrace its steps. Empirically, NUTS perform at least as efficiently as and sometimes more efficiently than a well tuned standard HMC method, without requiring user intervention or costly tuning runs. We also derive a method for adapting the step size parameter on the fly based on primal-dual averaging. NUTS can thus be used with no hand-tuning at all. NUTS is also suitable for applications such as BUGS-style automatic inference engines that require efficient "turnkey" sampling algorithms.
translated by 谷歌翻译
基于采样的推理技术是现代宇宙学数据分析的核心;然而,这些方法与维度不良,通常需要近似或顽固的可能性。在本文中,我们描述了截短的边际神经比率估计(TMNRE)(即所谓的基于模拟的推断的新方法)自然避免了这些问题,提高了$(i)$效率,$(ii)$可扩展性和$ (iii)推断后的后续后续的可信度。使用宇宙微波背景(CMB)的测量,我们表明TMNRE可以使用比传统马尔可夫链蒙特卡罗(MCMC)方法更少模拟器呼叫的数量级来实现融合的后海后。值得注意的是,所需数量的样本有效地独立于滋扰参数的数量。此外,称为\ MEMPH {本地摊销}的属性允许对基于采样的方法无法访问的严格统计一致性检查的性能。 TMNRE承诺成为宇宙学数据分析的强大工具,特别是在扩展宇宙学的背景下,其中传统的基于采样的推理方法所需的时间级数融合可以大大超过$ \ Lambda $ CDM等简单宇宙学模型的时间。为了执行这些计算,我们使用开源代码\ texttt {swyft}来使用TMNRE的实现。
translated by 谷歌翻译
我们提出了连续重复的退火流传输蒙特卡洛(CRAFT),该方法结合了顺序的蒙特卡洛(SMC)采样器(本身是退火重要性采样的概括)与使用归一化流量的变异推断。直接训练了归一化的流量,可用于使用KL差异进行每个过渡,以在退火温度之间运输。使用归一化流/SMC近似值估算了此优化目标。我们从概念上展示并使用多个经验示例,这些示例可以改善退火流运输蒙特卡洛(Arbel等,2021),并在其上建造,也可以在基于马尔可夫链蒙特卡洛(MCMC)基于基于的随机归一化流(Wu等人。2020)。通过将工艺纳入粒子MCMC中,我们表明,这种学识渊博的采样器可以在具有挑战性的晶格场理论示例中获得令人印象深刻的准确结果。
translated by 谷歌翻译
变异推理通常从近似分布q到后p中最小化“反向” kullbeck-leibeler(kl)kl(q || p)。最近的工作研究“正向” KL KL(P || Q),它与反向KL不同并不能导致低估不确定性的变异近似值。本文介绍了运输评分攀登(TSC),该方法通过使用汉密尔顿蒙特卡洛(HMC)和新型的自适应传输图来优化KL(P || Q)。传输图通过充当潜在变量空间和扭曲空间之间变量的变化来改善HMC的轨迹。TSC使用HMC样品在优化KL时动态训练传输图(P || Q)。TSC利用协同作用,在该协同作用下,更好的运输地图会导致更好的HMC采样,从而导致更好的传输地图。我们在合成和真实数据上演示了TSC。我们发现,在训练大规模数据的变异自动编码器时,TSC可以实现竞争性能。
translated by 谷歌翻译
The choice of approximate posterior distribution is one of the core problems in variational inference. Most applications of variational inference employ simple families of posterior approximations in order to allow for efficient inference, focusing on mean-field or other simple structured approximations. This restriction has a significant impact on the quality of inferences made using variational methods. We introduce a new approach for specifying flexible, arbitrarily complex and scalable approximate posterior distributions. Our approximations are distributions constructed through a normalizing flow, whereby a simple initial density is transformed into a more complex one by applying a sequence of invertible transformations until a desired level of complexity is attained. We use this view of normalizing flows to develop categories of finite and infinitesimal flows and provide a unified view of approaches for constructing rich posterior approximations. We demonstrate that the theoretical advantages of having posteriors that better match the true posterior, combined with the scalability of amortized variational approaches, provides a clear improvement in performance and applicability of variational inference.
translated by 谷歌翻译
统计模型是机器学习的核心,具有广泛适用性,跨各种下游任务。模型通常由通过最大似然估计从数据估计的自由参数控制。但是,当面对现实世界数据集时,许多模型运行到一个关键问题:它们是在完全观察到的数据方面配制的,而在实践中,数据集会困扰缺失数据。来自不完整数据的统计模型估计理论在概念上类似于潜在变量模型的估计,其中存在强大的工具,例如变分推理(VI)。然而,与标准潜在变量模型相比,具有不完整数据的参数估计通常需要估计缺失变量的指数 - 许多条件分布,因此使标准的VI方法是棘手的。通过引入变分Gibbs推理(VGI),是一种新的通用方法来解决这个差距,以估计来自不完整数据的统计模型参数。我们在一组合成和实际估算任务上验证VGI,从不完整的数据中估算重要的机器学习模型,VAE和标准化流程。拟议的方法,同时通用,实现比现有的特定模型特定估计方法竞争或更好的性能。
translated by 谷歌翻译
Normalizing flows provide a general mechanism for defining expressive probability distributions, only requiring the specification of a (usually simple) base distribution and a series of bijective transformations. There has been much recent work on normalizing flows, ranging from improving their expressive power to expanding their application. We believe the field has now matured and is in need of a unified perspective. In this review, we attempt to provide such a perspective by describing flows through the lens of probabilistic modeling and inference. We place special emphasis on the fundamental principles of flow design, and discuss foundational topics such as expressive power and computational trade-offs. We also broaden the conceptual framing of flows by relating them to more general probability transformations. Lastly, we summarize the use of flows for tasks such as generative modeling, approximate inference, and supervised learning.
translated by 谷歌翻译
我们考虑了使用显微镜或X射线散射技术产生的图像数据自组装的模型的贝叶斯校准。为了说明BCP平衡结构中的随机远程疾病,我们引入了辅助变量以表示这种不确定性。然而,这些变量导致了高维图像数据的综合可能性,通常可以评估。我们使用基于测量运输的可能性方法以及图像数据的摘要统计数据来解决这一具有挑战性的贝叶斯推理问题。我们还表明,可以计算出有关模型参数的数据中的预期信息收益(EIG),而无需额外的成本。最后,我们介绍了基于二嵌段共聚物薄膜自组装和自上而下显微镜表征的ohta-kawasaki模型的数值案例研究。为了进行校准,我们介绍了一些基于域的能量和傅立叶的摘要统计数据,并使用EIG量化了它们的信息性。我们证明了拟议方法研究数据损坏和实验设计对校准结果的影响的力量。
translated by 谷歌翻译
我们提出了一种算法,以估计反向和前向kullback-leibler差异的路径梯度,以明显可逆地归一流。与标准的总梯度估计器相比,所得的路径梯度估计器可直接实施,具有较低的差异,不仅可以提高训练的速度更快,而且导致总体近似结果更好。我们还证明,路径梯度训练不太容易受到模式折叠的影响。鉴于我们的结果,我们期望路径梯度估计器将成为训练归一化流量的新标准方法。
translated by 谷歌翻译
基于标准化流的算法是由于有希望的机器学习方法,以便以可以使渐近精确的方式采样复杂的概率分布。在格子场理论的背景下,原则上的研究已经证明了这种方法对标量理论,衡量理论和统计系统的有效性。这项工作开发了能够使用动力学蜕皮的基于流动的理论采样的方法,这对于应用于粒子物理标准模型和许多冷凝物系的晶格场理论研究是必要的。作为一种实践演示,这些方法应用于通过Yukawa相互作用耦合到标量场的无大量交错的费米子的二维理论的现场配置的采样。
translated by 谷歌翻译
汉密尔顿蒙特卡罗(HMC)方法广泛用于利用高效率和良好的空间尺寸的效率和良好可扩展性,将样品从非正式化的目标密度绘制。然而,当目标分布是多式化的时,HMC奋斗,因为沿着模拟路径的势能函数(即负面日志密度函数)的最大增加是由初始动能的界限,这遵循$ \ Chi_d的一半^ 2 $分布,其中d是空间尺寸。在本文中,我们开发了一个汉密尔顿蒙特卡罗方法,其中构造的路径可以穿过高潜在的能量屏障。该方法不需要预先知道目标分布的模式。我们的方法通过连续改变模拟粒子的质量而在构造哈密顿路径时,我们的方法能够频繁跳跃。因此,该方法可以被认为是HMC和钢化转变方法的组合。与其他回火方法相比,我们的方法在GIBBS采样器设置中具有独特的优势,其中目标分布在每个步骤中发生变化。我们为我们的方法制定了实用的调整策略,并证明它可以使用法线和传感器网络定位问题的混合物来构建靶向高维的Markov链的全局混合马尔可夫链。
translated by 谷歌翻译
退火重要性采样(AIS)是一种流行的算法,用于估计深层生成模型的棘手边际可能性。尽管AIS可以保证为任何一组超参数提供无偏估计,但共同的实现依赖于简单的启发式方法,例如初始和目标分布之间的几何平均桥接分布,这些分布在计算预算有限时会影响估计性性能。由于使用Markov过渡中的大都市磨碎(MH)校正步骤,因此对完全参数AI的优化仍然具有挑战性。我们提出一个具有灵活中间分布的参数AIS过程,并优化桥接分布以使用较少数量的采样步骤。一种重新聚集方法,它允许我们优化分布序列和Markov转换的参数,该参数适用于具有MH校正的大型Markov内核。我们评估了优化AIS的性能,以进行深层生成模型的边际可能性估计,并将其与其他估计器进行比较。
translated by 谷歌翻译
从非正规化概率分布的抽样是机器学习中的基本问题,包括贝叶斯建模,潜在因子推断和基于能源的模型训练。在几十年的研究之后,尽管收敛缓慢,但MCMC的变化仍然是抽样的默认方法。辅助神经模型可以学习加速MCMC,但训练额外模型的开销可能是禁止的。我们通过具有非牛顿势头的新的汉密尔顿动态提出了对这个问题的根本不同的方法。与MCMC蒙特卡洛等MCMC接近相比,不需要随机步骤。相反,在扩展状态空间中提出的确定性动态精确地对能量函数指定的目标分布,在ergodicity的假设下。或者,可以将动态解释为在没有训练的情况下对指定的能量模型进行采样的标准化流程。所提出的能量采样哈密尔顿(ESH)动态有一个简单的形式,可以用现有的颂歌解决,但我们推出了一个专业的求解器,它表现出更好的性能。 ESH Dynamics会收敛于其MCMC竞争对手的速度更快,更稳定地培训神经网络能量模型。
translated by 谷歌翻译
当采样贝叶斯推断时,一种流行的方法是使用汉密尔顿蒙特卡洛(HMC),特别是No-U-Turn采样器(NUTS),该采样器(NUTS)自动决定汉密尔顿轨迹的结束时间。但是,HMC和螺母可能需要众多目标密度的数值梯度,并且在实践中可能会缓慢。我们建议使用HMC和坚果解决贝叶斯推理问题的汉密尔顿神经网络(HNNS)。一旦训练,HNN不需要在采样过程中的目标密度的数值梯度。此外,它们满足了重要的特性,例如完美的时间可逆性和哈密顿保护性,使其非常适合在HMC和坚果中使用,因为可以显示平稳性。我们还提出了一个称为潜在HNN(L-HNN)的HNN扩展,该扩展能够预测潜在的可变输出。与HNN相比,L-HNN提供了提高表达性和减少的集成误差。最后,我们在具有在线错误监测方案的螺母中使用L-HNN,以防止低概率密度区域的样本退化。我们证明了在螺母中的L-HNN,并在线错误监视了一些涉及复杂,重尾和高本地狂热概率密度的示例。总体而言,具有在线错误监控的坚果中的L-HNN令人满意地推断了这些概率密度。与传统的螺母相比,在线错误监控的螺母中,L-HNN需要1--2个目标密度的数值梯度,并通过数量级提高了每个梯度的有效样本量(ESS)。
translated by 谷歌翻译
Leveraging well-established MCMC strategies, we propose MCMC-interactive variational inference (MIVI) to not only estimate the posterior in a time constrained manner, but also facilitate the design of MCMC transitions. Constructing a variational distribution followed by a short Markov chain that has parameters to learn, MIVI takes advantage of the complementary properties of variational inference and MCMC to encourage mutual improvement. On one hand, with the variational distribution locating high posterior density regions, the Markov chain is optimized within the variational inference framework to efficiently target the posterior despite a small number of transitions. On the other hand, the optimized Markov chain with considerable flexibility guides the variational distribution towards the posterior and alleviates its underestimation of uncertainty. Furthermore, we prove the optimized Markov chain in MIVI admits extrapolation, which means its marginal distribution gets closer to the true posterior as the chain grows. Therefore, the Markov chain can be used separately as an efficient MCMC scheme. Experiments show that MIVI not only accurately and efficiently approximates the posteriors but also facilitates designs of stochastic gradient MCMC and Gibbs sampling transitions.
translated by 谷歌翻译
标准化流是可易处理的密度模型,可以近似复杂的目标分布,例如物理系统的玻尔兹曼分布。但是,当前的训练流量要么具有寻求模式的行为,要么使用昂贵的MCMC模拟事先生成的目标样本,要么使用具有很高差异的随机损失。为了避免这些问题,我们以退火重要性采样(AIS)增强流量,并最大程度地减少覆盖$ \ alpha $ -divergence的质量,并使用$ \ alpha = 2 $,从而最大程度地减少了重要性的重量差异。我们的方法是流动性Bootstrap(Fab),使用AIS在流动较差的目标区域中生成样品,从而促进了新模式的发现。我们以AIS的最小差异分布来定位,以通过重要性抽样来估计$ \ alpha $ -Divergence。我们还使用优先的缓冲区来存储和重复使用AIS样本。这两个功能显着提高了Fab的性能。我们将FAB应用于复杂的多模式目标,并表明我们可以在以前的方法失败的情况下非常准确地近似它们。据我们所知,我们是第一个仅使用非均衡目标密度学习丙氨酸二肽分子的玻璃体分布,而无需通过分子动力学(MD)模拟生成的样品:FAB与通过最大可能性训练更好的效果,而不是通过最大可能性产生的结果。在MD样品上使用100倍的目标评估。在重新获得重要权重的样品后,我们获得了与地面真相几乎相同的二面角的无偏直方图。
translated by 谷歌翻译
随机梯度马尔可夫链蒙特卡洛(SGMCMC)被认为是大型模型(例如贝叶斯神经网络)中贝叶斯推断的金标准。由于从业人员在这些模型中面临速度与准确性权衡,因此变异推理(VI)通常是可取的选择。不幸的是,VI对后部的分解和功能形式做出了有力的假设。在这项工作中,我们提出了一个新的非参数变分近似,该近似没有对后验功能形式进行假设,并允许从业者指定算法应尊重或断裂的确切依赖性。该方法依赖于在修改的能量函数上运行的新的langevin型算法,其中潜在变量的一部分是在马尔可夫链的早期迭代中平均的。这样,统计依赖性可以以受控的方式破裂,从而使链条混合更快。可以以“辍学”方式进一步修改该方案,从而导致更大的可扩展性。我们在CIFAR-10,SVHN和FMNIST上测试RESNET-20的计划。在所有情况下,与SG-MCMC和VI相比,我们都会发现收敛速度和/或最终精度的提高。
translated by 谷歌翻译
从卫星图像中提取的大气运动向量(AMV)是唯一具有良好全球覆盖范围的风观测。它们是进食数值天气预测(NWP)模型的重要特征。已经提出了几种贝叶斯模型来估计AMV。尽管对于正确同化NWP模型至关重要,但很少有方法可以彻底表征估计误差。估计误差的困难源于后验分布的特异性,这既是很高的维度,又是由于奇异的可能性而导致高度不良的条件,这在缺少数据(未观察到的像素)的情况下特别重要。这项工作研究了使用基于梯度的Markov链Monte Carlo(MCMC)算法评估AMV的预期误差。我们的主要贡献是提出一种回火策略,这相当于在点估计值附近的AMV和图像变量的联合后验分布的局部近似。此外,我们提供了与先前家庭本身有关的协方差(分数布朗运动),并具有不同的超参数。从理论的角度来看,我们表明,在规律性假设下,随着温度降低到{optimal}高斯近似值,在最大a后验(MAP)对数密度给出的点估计下,温度降低到{optimal}高斯近似值。从经验的角度来看,我们根据一些定量的贝叶斯评估标准评估了提出的方法。我们对合成和真实气象数据进行的数值模拟揭示了AMV点估计的准确性及其相关的预期误差估计值的显着提高,但在MCMC算法的收敛速度方面也有很大的加速度。
translated by 谷歌翻译