我们分析了优化的自适应重视采样器(OAI),以便与一般提案进行Monte Carlo集成。我们利用了一个经典的结果,该结果表明,具有$ \ chi ^ 2 $的重要性采样量表的偏差和平均平方误差(MSE) - 在目标和提案之间以及开发一个执行全球优化$的方案\ chi ^ 2 $ - 程度。虽然众所周知,这一数量是指数家庭建议的凸,但一般提案的情况一直是一个公开问题。我们利用随机梯度Langevin动态(SGLD)及其已被推迟的对应于$ \ Chi ^ 2 $的全球优化的损失对手,通过利用非凸优化文献的最近结果来实现MSE的,并为MSE获得巨大的界限。由此产生的AIS方案在迭代次数中具有明确的理论保证。
translated by 谷歌翻译
我们介绍和分析并分析并行蒙特蒙特卡罗方法,了解优化问题的数值解决方案,涉及最小化成本函数,该功能包括许多单独组件的总和。该方案是一种随机零顺序优化算法,只需要评估成本函数的小组集的能力。它可以描绘为一组采样器,可以产生几个概率措施序列的粒子近似。这些措施是以一种方式构建的,使得它们具有相关的概率密度函数,其全球最大值与原始成本函数的全局最小值相一致。该算法选择最佳的执行采样器,并使用它来近似于成本函数的全局最小值。我们在分析上证明了所得估计器几乎肯定地将成本函数的全局最小值收敛并提供了产生的蒙特卡罗样本的数量和搜索空间的维度的显性收敛速率。我们通过数值示例显示该算法可以用多个最小值或具有宽的“平坦”区域来解决成本函数,这很难使用基于梯度的技术最小化。
translated by 谷歌翻译
We consider the constrained sampling problem where the goal is to sample from a distribution $\pi(x)\propto e^{-f(x)}$ and $x$ is constrained on a convex body $\mathcal{C}\subset \mathbb{R}^d$. Motivated by penalty methods from optimization, we propose penalized Langevin Dynamics (PLD) and penalized Hamiltonian Monte Carlo (PHMC) that convert the constrained sampling problem into an unconstrained one by introducing a penalty function for constraint violations. When $f$ is smooth and the gradient is available, we show $\tilde{\mathcal{O}}(d/\varepsilon^{10})$ iteration complexity for PLD to sample the target up to an $\varepsilon$-error where the error is measured in terms of the total variation distance and $\tilde{\mathcal{O}}(\cdot)$ hides some logarithmic factors. For PHMC, we improve this result to $\tilde{\mathcal{O}}(\sqrt{d}/\varepsilon^{7})$ when the Hessian of $f$ is Lipschitz and the boundary of $\mathcal{C}$ is sufficiently smooth. To our knowledge, these are the first convergence rate results for Hamiltonian Monte Carlo methods in the constrained sampling setting that can handle non-convex $f$ and can provide guarantees with the best dimension dependency among existing methods with deterministic gradients. We then consider the setting where unbiased stochastic gradients are available. We propose PSGLD and PSGHMC that can handle stochastic gradients without Metropolis-Hasting correction steps. When $f$ is strongly convex and smooth, we obtain an iteration complexity of $\tilde{\mathcal{O}}(d/\varepsilon^{18})$ and $\tilde{\mathcal{O}}(d\sqrt{d}/\varepsilon^{39})$ respectively in the 2-Wasserstein distance. For the more general case, when $f$ is smooth and non-convex, we also provide finite-time performance bounds and iteration complexity results. Finally, we test our algorithms on Bayesian LASSO regression and Bayesian constrained deep learning problems.
translated by 谷歌翻译
重要性采样(IS)是一种强大的蒙特卡洛(MC)方法,用于近似积分,例如在贝叶斯推论的背景下。在IS中,从所谓的提案分布中模拟样品,并且该提案的选择是实现高性能的关键。在自适应IS(AIS)方法中,一组建议是迭代改进的。 AIS是一种相关和及时的方法论,尽管仍有许多局限性尚待克服,例如,高维和多模式问题的维度诅咒。此外,汉密尔顿蒙特卡洛(HMC)算法在机器学习和统计数据中变得越来越流行。 HMC具有几个吸引人的特征,例如其探索性行为,尤其是在其他方法遭受的情况下,尤其是在高维目标中。在本文中,我们介绍了新型的汉密尔顿自适应重要性采样(HAIS)方法。 Hais使用平行的HMC链实现了两步自适应过程,每次迭代都合作。拟议的HAI有效地适应了一系列建议,从而提取了HMC的优势。 HAI可以理解为具有额外重采样步骤的通用分层AIS家族的特定实例。 HAIS在高维问题W.R.T.方面取得了重大的绩效提高。最先进的算法。我们讨论了HAI的统计特性,并在两个具有挑战性的例子中显示了其高性能。
translated by 谷歌翻译
最近的统计有限元方法(STATFEM)提供了一种相干统计框架,用于用观察到的数据合成有限元模型。通过嵌入控制方程内的不确定性,更新有限元解决方案以提供后部分布,该分布量化与模型相关的所有不确定性源。然而,为了纳入所有不确定性来源,必须整合与模型参数相关的不确定性,该不确定量的已知前向问题。在本文中,我们利用Langevin动力学来解决统计信息前进问题,研究了不调整的Langevin算法(ULA)的效用,是一种无马达罗夫的马尔可夫链蒙特卡罗采样器,以构建基于样品的特征,否则难以置化措施。由于STATFEM问题的结构,这些方法能够解决不明确的全PDE解决的前向问题,只需要稀疏的矩阵矢量产品。 ULA也是基于梯度的,因此提供了可扩展的方法,达到了高度自由度。利用基于Langevin的采样器背后的理论,我们提供了对采样器性能的理论保证,展示了在克洛拉 - 莱布勒分歧的先前和后后的收敛性,以及在Wassersein-2中,进一步得到了预处理的影响。对于先前和后部,还提供了数值实验,以证明采样器的功效,并且还包括Python封装。
translated by 谷歌翻译
我们研究Livingstone&Zanella(2021)中引入的一阶级本地平衡的大都市 - 黑斯廷斯算法(2021)。要在类中选择特定算法,用户必须选择平衡函数$ g:\ mathbb {r} \ to \ mathbb {r} $满足$ g(t)= tg(1 / t)$,以及噪声分布提案增量。课程中的流行选择是Metropolis调整的Langevin算法,最近推出的Barker提案。我们首先建立一个普遍限制的最佳验收率为57%,并为N $ N $的缩放,因为维度在$ G $的温和平滑假设下的所有成员之间的无限程度倾向于无限算法的目标分布是产品形式。特别地,我们通过预期的平方跳跃距离来获得类中任意算法的渐近效率的显式表达式。然后,我们考虑如何在各种约束下优化此表达式。我们为Barker提案提供了最佳的噪声分布选择,在高斯噪声分布​​下的平衡功能的最佳选择,以及整个类中的一阶本地平衡算法的最佳选择,结果取决于特定的目标分布。数值模拟确认了我们的理论发现,特别表明,Barker提案中的双模噪声分布选择产生了比原始高斯版本始终如一的效率的实用算法。
translated by 谷歌翻译
对复杂模型执行精确的贝叶斯推理是计算的难治性的。马尔可夫链蒙特卡罗(MCMC)算法可以提供后部分布的可靠近似,但对于大型数据集和高维模型昂贵。减轻这种复杂性的标准方法包括使用子采样技术或在群集中分发数据。然而,这些方法通常在高维方案中不可靠。我们在此处专注于最近的替代类别的MCMC方案,利用类似于乘客(ADMM)优化算法的庆祝交替方向使用的分裂策略。这些方法似乎提供了凭经验最先进的性能,但其高维层的理论行为目前未知。在本文中,我们提出了一个详细的理论研究,该算法之一称为分裂Gibbs采样器。在规律条件下,我们使用RICCI曲率和耦合思路为此方案建立了明确的收敛速率。我们以数字插图支持我们的理论。
translated by 谷歌翻译
在本文中,我们在使用离散的Langevin扩散的三个方案中从目标密度采样的误差提供非渐近上限。第一个方案是Langevin Monte Carlo(LMC)算法,歌曲的欧拉分散化的歌曲扩散。第二个和第三种方案分别是用于可微分电位和动力学Langevin Monte Carlo的动力学Langevin Monte Carlo(KLMC),用于两次可分视电位(KLMC2)。主要焦点是在$ \ mathbb r ^ p $的目标密度上,但不一定强烈地抖动。在两种类型的平滑假设下获得计算复杂度的界限:电位具有嘴唇连续梯度,并且电位具有嘴角连续的Hessian基质。采样误差由Wassersein-$ Q $距离测量。我们倡导在计算复杂性定义中使用新的维度适应缩放,当考虑Wasserstein-$ Q $距离时。所获得的结果表明,实现小于规定值的缩放误差的迭代次数仅取决于多项尺寸。
translated by 谷歌翻译
我们提出了连续重复的退火流传输蒙特卡洛(CRAFT),该方法结合了顺序的蒙特卡洛(SMC)采样器(本身是退火重要性采样的概括)与使用归一化流量的变异推断。直接训练了归一化的流量,可用于使用KL差异进行每个过渡,以在退火温度之间运输。使用归一化流/SMC近似值估算了此优化目标。我们从概念上展示并使用多个经验示例,这些示例可以改善退火流运输蒙特卡洛(Arbel等,2021),并在其上建造,也可以在基于马尔可夫链蒙特卡洛(MCMC)基于基于的随机归一化流(Wu等人。2020)。通过将工艺纳入粒子MCMC中,我们表明,这种学识渊博的采样器可以在具有挑战性的晶格场理论示例中获得令人印象深刻的准确结果。
translated by 谷歌翻译
变性推理(VI)为基于传统的采样方法提供了一种吸引人的替代方法,用于实施贝叶斯推断,因为其概念性的简单性,统计准确性和计算可扩展性。然而,常见的变分近似方案(例如平均场(MF)近似)需要某些共轭结构以促进有效的计算,这可能会增加不必要的限制对可行的先验分布家族,并对变异近似族对差异进行进一步的限制。在这项工作中,我们开发了一个通用计算框架,用于实施MF-VI VIA WASSERSTEIN梯度流(WGF),这是概率度量空间上的梯度流。当专门针对贝叶斯潜在变量模型时,我们将分析基于时间消化的WGF交替最小化方案的算法收敛,用于实现MF近似。特别是,所提出的算法类似于EM算法的分布版本,包括更新潜在变量变异分布的E step以及在参数的变异分布上进行最陡峭下降的m step。我们的理论分析依赖于概率度量空间中的最佳运输理论和细分微积分。我们证明了时间限制的WGF的指数收敛性,以最大程度地减少普通大地测量学严格的凸度的通用物镜功能。我们还提供了通过使用时间限制的WGF的固定点方程从MF近似获得的变异分布的指数收缩的新证明。我们将方法和理论应用于两个经典的贝叶斯潜在变量模型,即高斯混合模型和回归模型的混合物。还进行了数值实验,以补充这两个模型下的理论发现。
translated by 谷歌翻译
最近,随机梯度下降(SGD)及其变体已成为机器学习(ML)问题大规模优化的主要方法。已经提出了各种策略来调整步骤尺寸,从自适应步骤大小到启发式方法,以更改每次迭代中的步骤大小。此外,动力已被广泛用于ML任务以加速训练过程。然而,我们对它们的理论理解存在差距。在这项工作中,我们开始通过为一些启发式优化方法提供正式保证并提出改进的算法来缩小这一差距。首先,我们分析了凸面和非凸口设置的Adagrad(延迟Adagrad)步骤大小的广义版本,这表明这些步骤尺寸允许算法自动适应随机梯度的噪声水平。我们首次显示延迟Adagrad的足够条件,以确保梯度几乎融合到零。此外,我们对延迟的Adagrad及其在非凸面设置中的动量变体进行了高概率分析。其次,我们用指数级和余弦的步骤分析了SGD,在经验上取得了成功,但缺乏理论支持。我们在平滑和非凸的设置中为它们提供了最初的收敛保证,有或没有polyak-{\ l} ojasiewicz(pl)条件。我们还显示了它们在PL条件下适应噪声的良好特性。第三,我们研究动量方法的最后迭代。我们证明了SGD的最后一个迭代的凸设置中的第一个下限,并以恒定的动量。此外,我们研究了一类跟随基于领先的领导者的动量算法,并随着动量和收缩的更新而增加。我们表明,他们的最后一个迭代具有最佳的收敛性,用于无约束的凸随机优化问题。
translated by 谷歌翻译
我们提出了有效的Langevin Monte Carlo算法,用于采样分布,具有非平滑凸复合电位,这是连续可区分的函数和可能非滑动函数的总和。我们设计了这种算法利用涉及Bregman Diverences的凸入分析和优化方法的最新进展,即Bregman-Moreau Indervices和Bregman接近运营商,以及Langevin Monte Carlo Carlo Algorithms Relycents Realists Remincecent Rely Mirror降落。所提出的算法将现有的Langevin Monte Carlo算法分为两个方面 - 能够用镜下下降的算法进行非平滑分布进行采样,并使用更一般的Bregman- Moreau Invelope代替Moreau Invelope,以代替光滑的信封潜力的非平滑部分。提出的方案的一个特殊情况是让人想起布雷格曼近端梯度算法。通过各种抽样任务说明了所提出的方法的效率,在这些任务中,现有的Langevin Monte Carlo方法的性能较差。
translated by 谷歌翻译
在本文中,我们提出了一种高效的差异减少了马尔可夫链的附加功能,依赖于新颖的离散时间鞅表示。我们的方法是完全非渐近性的,不需要了解静止分布(甚至任何类型的遍义)或潜在密度的特定结构。通过严格分析所提出的算法的收敛性,我们表明其成本方差产品确实小于一个天真算法之一。Langevin型马尔可夫链蒙特卡罗(MCMC)方法说明了新方法的数值性能。
translated by 谷歌翻译
这是模型选择和假设检测的边缘似然计算的最新介绍和概述。计算概率模型(或常量比率)的常规规定常数是许多统计数据,应用数学,信号处理和机器学习中的许多应用中的基本问题。本文提供了对主题的全面研究。我们突出了不同技术之间的局限性,优势,连接和差异。还描述了使用不正确的前沿的问题和可能的解决方案。通过理论比较和数值实验比较一些最相关的方法。
translated by 谷歌翻译
我们开发了一个探索漏洞利用马尔可夫链Monte Carlo算法($ \ OperatorName {ex ^ 2mcmc} $),它结合了多个全局提议和本地移动。所提出的方法是巨大的平行化和极其计算的高效。我们证明$ \ operatorname {ex ^ 2mcmc} $下的$ v $ v $ -unique几何ergodicity在现实条件下,并计算混合速率的显式界限,显示多个全局移动带来的改进。我们展示$ \ operatorname {ex ^ 2mcmc} $允许通过提出依赖全局移动的新方法进行微调剥削(本地移动)和探索(全球移动)。最后,我们开发了一个自适应方案,$ \ OperatorName {Flex ^ 2mcmc} $,它学习使用归一化流的全局动作的分布。我们说明了许多经典采样基准测试的$ \ OperatorName {ex ^ 2mccmc} $及其自适应版本的效率。我们还表明,这些算法提高了对基于能量的模型的抽样GAN的质量。
translated by 谷歌翻译
在这项工作中,我们考虑了对具有非负LEBESGUE密度的概率度量的预期估计,并且是最新的正常化常数。我们专注于通过失业不足的Langevin Dynamics开发一种无偏见的方法,由于统计和机器学习的应用,事实证明,该动态已被证明很受欢迎。特别是连续时间,可以构建动力学以承认感兴趣的概率作为固定度量。我们基于双随机估计而开发了一种新颖的方案,该方案仅需要访问动力学的时间限制版本,并且是实用算法中使用的动力学版本。我们证明,根据标准假设,我们的估计器具有有限的差异,并且具有有限的预期成本,或者具有有限的成本具有很高的可能性。为了说明我们的理论发现,我们提供了验证我们理论的数值实验,其中包括贝叶斯统计和统计物理学的挑战示例。
translated by 谷歌翻译
This paper introduces a novel algorithm, the Perturbed Proximal Preconditioned SPIDER algorithm (3P-SPIDER), designed to solve finite sum non-convex composite optimization. It is a stochastic Variable Metric Forward-Backward algorithm, which allows approximate preconditioned forward operator and uses a variable metric proximity operator as the backward operator; it also proposes a mini-batch strategy with variance reduction to address the finite sum setting. We show that 3P-SPIDER extends some Stochastic preconditioned Gradient Descent-based algorithms and some Incremental Expectation Maximization algorithms to composite optimization and to the case the forward operator can not be computed in closed form. We also provide an explicit control of convergence in expectation of 3P-SPIDER, and study its complexity in order to satisfy the epsilon-approximate stationary condition. Our results are the first to combine the composite non-convex optimization setting, a variance reduction technique to tackle the finite sum setting by using a minibatch strategy and, to allow deterministic or random approximations of the preconditioned forward operator. Finally, through an application to inference in a logistic regression model with random effects, we numerically compare 3P-SPIDER to other stochastic forward-backward algorithms and discuss the role of some design parameters of 3P-SPIDER.
translated by 谷歌翻译
我们提出了使用多级蒙特卡罗(MLMC)方法的变分推理的差异减少框架。我们的框架是基于Reparameterized梯度估计的梯度估计,并在优化中从过去更新历史记录获得的“回收”参数。此外,我们的框架还提供了一种基于随机梯度下降(SGD)的新优化算法,其自适应地估计根据梯度方差的比率用于梯度估计的样本大小。理论上,通过我们的方法,梯度估计器的方差随着优化进行而降低,并且学习率调度器函数有助于提高收敛。我们还表明,就\ Texit {信噪比}比率而言,我们的方法可以通过提高初始样本大小来提高学习速率调度器功能的梯度估计的质量。最后,我们确认我们的方法通过使用多个基准数据集的基线方法的实验比较来实现更快的收敛性并降低梯度估计器的方差,并降低了与其他方法相比的其他方法。
translated by 谷歌翻译
基于实用的缺点风险(UBSR)是一种风险指标,越来越受到金融应用中的流行,由于它享有的某些理想的属性。我们考虑在递归设置中估算UBSR的问题,其中来自潜在损耗分布的样本是一次性的。我们将UBSR估计问题作为根发现问题,并提出了基于随机近似的估计方案。我们在样本数量的估计误差中获得了非渐近界。我们还考虑在随机变量的参数化类中的UBSR优化问题。我们提出了一种用于UBSR优化的随机梯度下降算法,并导出其收敛性的非渐近界。
translated by 谷歌翻译
我们调查了一定类别的功能不等式,称为弱Poincar的不等式,以使Markov链的收敛性与均衡相结合。我们表明,这使得SubGoom测量收敛界的直接和透明的推导出用于独立的Metropolis - Hastings采样器和用于棘手似然性的伪边缘方法,后者在许多实际设置中是子表芯。这些结果依赖于马尔可夫链之间的新量化比较定理。相关证据比依赖于漂移/较小化条件的证据更简单,并且所开发的工具允许我们恢复并进一步延长特定情况的已知结果。我们能够为伪边缘算法的实际使用提供新的见解,分析平均近似贝叶斯计算(ABC)的效果以及独立平均值的产品,以及研究与之相关的逻辑重量的情况粒子边缘大都市 - 黑斯廷斯(PMMH)。
translated by 谷歌翻译