在连续空间中,已经对大都市杂货(M-H)算法进行了充分的研究,但在离散空间中缺乏类似的理解。最近,事实证明,一个本地平衡的建议(LBP)是渐进的最佳选择,但最佳缩放问题仍然开放。在本文中,我们首次确定离散空间中M-H的效率也可以以独立于目标分布的渐近可接受率来表征。此外,我们从理论和经验上验证了LBP和Randy Walk Metropolis(RWM)的最佳接受率分别为$ 0.574 $和0.234美元。这些结果还有助于确定LBP是渐近的$ o(n^\ frac {2} {3})$比RWM相对于模型尺寸$ n $更有效。了解最佳接受率的知识使人们可以在离散空间中自动调整提案分布的邻域大小,直接类似于连续空间中的尺寸控制。我们从经验上证明,这种适应性M-H采样可以在离散空间中的各种目标分布(包括训练深度能量模型)中的各种目标分布中进行稳健改进采样。
translated by 谷歌翻译
最近,一个本地平衡(LB)的样本家族在离散空间中的采样和学习能量模型(EBM)方面表现出色。但是,对这一成功的理论理解是有限的。在这项工作中,我们展示了LB功能如何引起与离散空间中Wasserstein梯度流相对应的LB动力学。从第一原则来看,先前的LB采样器就可以看作是LB动力学相对于锤距的离散化。基于此观察结果,我们提出了一种新算法,即局部平衡跳跃(LBJ),通过将LB动力学相对于仿真时间离散。结果,LBJ具有位置依赖性的“速度”,使其可以提出更大距离的建议。此外,LBJ将每个维度分解为独立的子过程,从而实现方便的并行实现。我们证明了LBJ在各种二进制和分类分布中的采样和学习方面的优势。
translated by 谷歌翻译
我们研究Livingstone&Zanella(2021)中引入的一阶级本地平衡的大都市 - 黑斯廷斯算法(2021)。要在类中选择特定算法,用户必须选择平衡函数$ g:\ mathbb {r} \ to \ mathbb {r} $满足$ g(t)= tg(1 / t)$,以及噪声分布提案增量。课程中的流行选择是Metropolis调整的Langevin算法,最近推出的Barker提案。我们首先建立一个普遍限制的最佳验收率为57%,并为N $ N $的缩放,因为维度在$ G $的温和平滑假设下的所有成员之间的无限程度倾向于无限算法的目标分布是产品形式。特别地,我们通过预期的平方跳跃距离来获得类中任意算法的渐近效率的显式表达式。然后,我们考虑如何在各种约束下优化此表达式。我们为Barker提案提供了最佳的噪声分布选择,在高斯噪声分布​​下的平衡功能的最佳选择,以及整个类中的一阶本地平衡算法的最佳选择,结果取决于特定的目标分布。数值模拟确认了我们的理论发现,特别表明,Barker提案中的双模噪声分布选择产生了比原始高斯版本始终如一的效率的实用算法。
translated by 谷歌翻译
我们提出了离散的Langevin提案(DLP),这是一种简单且可扩展的基于梯度的建议,用于对复杂的高维离散分布进行采样。与基于Gibbs采样的方法相反,DLP能够单个步骤并行更新所有坐标,并且更改的幅度由步骤尺寸控制。这允许在高维且密切相关的变量的空间中进行廉价,有效的探索。我们通过证明其固定分布的渐近偏置对于对数季度分布而言是零,并且对于接近对数季度的分布而言,我们证明了DLP的效率为零。使用DLP,我们开发了几种采样算法的变体,包括未经调整的,大都市调整后的,随机和预处理版本。DLP在各种任务上都优于许多受欢迎的替代方案,包括ISING模型,受限的Boltzmann机器,基于深层的基于能量的模型,二进制神经网络和语言生成。
translated by 谷歌翻译
我们介绍了本地自动平衡采样器(LSB),这是一种本地马尔可夫链蒙特卡洛(MCMC)方法,用于在纯离散域中采样,该方法能够自主适应目标分布并减少收敛所需的目标评估数量。LSB基于(i)局部平衡建议的参数化,(ii)基于相互信息的新提出的目标函数和(iii)自平衡学习过程,该过程最大程度地降低了提议的目标以更新提案参数。基于能量的模型和马尔可夫网络的实验表明,与最近的本地MCMC采样器相比,LSB使用较少数量的Oracle分布收敛。
translated by 谷歌翻译
对复杂模型执行精确的贝叶斯推理是计算的难治性的。马尔可夫链蒙特卡罗(MCMC)算法可以提供后部分布的可靠近似,但对于大型数据集和高维模型昂贵。减轻这种复杂性的标准方法包括使用子采样技术或在群集中分发数据。然而,这些方法通常在高维方案中不可靠。我们在此处专注于最近的替代类别的MCMC方案,利用类似于乘客(ADMM)优化算法的庆祝交替方向使用的分裂策略。这些方法似乎提供了凭经验最先进的性能,但其高维层的理论行为目前未知。在本文中,我们提出了一个详细的理论研究,该算法之一称为分裂Gibbs采样器。在规律条件下,我们使用RICCI曲率和耦合思路为此方案建立了明确的收敛速率。我们以数字插图支持我们的理论。
translated by 谷歌翻译
最近介绍基于梯度的MCMC用于离散空间具有巨大的希望,并带来了新离散的可能性的诱人可能性,即MALA和HMC等著名的连续方法。为了实现这一目标,我们介绍了几个在概念上受到MALA启发的分离大都会杂货样本,并在贝叶斯推理和基于能量的建模中表现出了一系列具有挑战性的采样问题。从方法上讲,我们确定了为什么对预处理的MALA的离散类似物通常是棘手的,激发了我们基于辅助变量和“高斯整体技巧”引入一种新型的预处理。
translated by 谷歌翻译
我们开发了一个探索漏洞利用马尔可夫链Monte Carlo算法($ \ OperatorName {ex ^ 2mcmc} $),它结合了多个全局提议和本地移动。所提出的方法是巨大的平行化和极其计算的高效。我们证明$ \ operatorname {ex ^ 2mcmc} $下的$ v $ v $ -unique几何ergodicity在现实条件下,并计算混合速率的显式界限,显示多个全局移动带来的改进。我们展示$ \ operatorname {ex ^ 2mcmc} $允许通过提出依赖全局移动的新方法进行微调剥削(本地移动)和探索(全球移动)。最后,我们开发了一个自适应方案,$ \ OperatorName {Flex ^ 2mcmc} $,它学习使用归一化流的全局动作的分布。我们说明了许多经典采样基准测试的$ \ OperatorName {ex ^ 2mccmc} $及其自适应版本的效率。我们还表明,这些算法提高了对基于能量的模型的抽样GAN的质量。
translated by 谷歌翻译
Hamiltonian Monte Carlo (HMC) is a Markov chain Monte Carlo (MCMC) algorithm that avoids the random walk behavior and sensitivity to correlated parameters that plague many MCMC methods by taking a series of steps informed by first-order gradient information. These features allow it to converge to high-dimensional target distributions much more quickly than simpler methods such as random walk Metropolis or Gibbs sampling. However, HMC's performance is highly sensitive to two user-specified parameters: a step size and a desired number of steps L. In particular, if L is too small then the algorithm exhibits undesirable random walk behavior, while if L is too large the algorithm wastes computation. We introduce the No-U-Turn Sampler (NUTS), an extension to HMC that eliminates the need to set a number of steps L. NUTS uses a recursive algorithm to build a set of likely candidate points that spans a wide swath of the target distribution, stopping automatically when it starts to double back and retrace its steps. Empirically, NUTS perform at least as efficiently as and sometimes more efficiently than a well tuned standard HMC method, without requiring user intervention or costly tuning runs. We also derive a method for adapting the step size parameter on the fly based on primal-dual averaging. NUTS can thus be used with no hand-tuning at all. NUTS is also suitable for applications such as BUGS-style automatic inference engines that require efficient "turnkey" sampling algorithms.
translated by 谷歌翻译
重要性采样(IS)是一种使用来自建议分布和相关重要性权重的独立样本在目标分布下近似期望的方法。在许多应用中,只有直到归一化常数才知道目标分布,在这种情况下,可以使用自称为(SNIS)。虽然自我正态化的使用可能会对估计量的分散产生积极影响,但它引入了偏见。在这项工作中,我们提出了一种新方法BR-SNIS,其复杂性与SNI的复杂性基本相同,并且显着降低了偏见而不增加差异。这种方法是一种包装器,从某种意义上说,它使用了与SNIS相同的建议样本和重要性权重,但巧妙地使用了迭代采样(ISIR)重新采样(ISIR)来形成估算器的偏置版本。我们为提出的算法提供了严格的理论结果,包括新的偏见,方差和高概率界限,这些算法由数值示例进行了说明。
translated by 谷歌翻译
我们调查了一定类别的功能不等式,称为弱Poincar的不等式,以使Markov链的收敛性与均衡相结合。我们表明,这使得SubGoom测量收敛界的直接和透明的推导出用于独立的Metropolis - Hastings采样器和用于棘手似然性的伪边缘方法,后者在许多实际设置中是子表芯。这些结果依赖于马尔可夫链之间的新量化比较定理。相关证据比依赖于漂移/较小化条件的证据更简单,并且所开发的工具允许我们恢复并进一步延长特定情况的已知结果。我们能够为伪边缘算法的实际使用提供新的见解,分析平均近似贝叶斯计算(ABC)的效果以及独立平均值的产品,以及研究与之相关的逻辑重量的情况粒子边缘大都市 - 黑斯廷斯(PMMH)。
translated by 谷歌翻译
离散状态空间代表了对统计推断的主要计算挑战,因为归一化常数的计算需要在大型或可能的无限集中进行求和,这可能是不切实际的。本文通过开发适合离散可怜的可能性的新型贝叶斯推理程序来解决这一计算挑战。受到连续数据的最新方法学进步的启发,主要思想是使用离散的Fisher Divergence更新有关模型参数的信念,以代替有问题的棘手的可能性。结果是可以使用标准计算工具(例如Markov Chain Monte Carlo)进行采样的广义后部,从而规避了棘手的归一化常数。分析了广义后验的统计特性,并具有足够的后验一致性和渐近正态性的条件。此外,提出了一种新颖的通用后代校准方法。应用程序在离散空间数据的晶格模型和计数数据的多元模型上介绍,在每种情况下,方法论都以低计算成本促进通用的贝叶斯推断。
translated by 谷歌翻译
Classical asymptotic theory for statistical inference usually involves calibrating a statistic by fixing the dimension $d$ while letting the sample size $n$ increase to infinity. Recently, much effort has been dedicated towards understanding how these methods behave in high-dimensional settings, where $d$ and $n$ both increase to infinity together. This often leads to different inference procedures, depending on the assumptions about the dimensionality, leaving the practitioner in a bind: given a dataset with 100 samples in 20 dimensions, should they calibrate by assuming $n \gg d$, or $d/n \approx 0.2$? This paper considers the goal of dimension-agnostic inference; developing methods whose validity does not depend on any assumption on $d$ versus $n$. We introduce an approach that uses variational representations of existing test statistics along with sample splitting and self-normalization to produce a new test statistic with a Gaussian limiting distribution, regardless of how $d$ scales with $n$. The resulting statistic can be viewed as a careful modification of degenerate U-statistics, dropping diagonal blocks and retaining off-diagonal blocks. We exemplify our technique for some classical problems including one-sample mean and covariance testing, and show that our tests have minimax rate-optimal power against appropriate local alternatives. In most settings, our cross U-statistic matches the high-dimensional power of the corresponding (degenerate) U-statistic up to a $\sqrt{2}$ factor.
translated by 谷歌翻译
随机梯度算法在大规模学习和推理问题中广泛用于优化和采样。但是,实际上,调整这些算法通常是使用启发式和反复试验而不是严格的,可概括的理论来完成的。为了解决理论和实践之间的这一差距,我们通过表征具有固定步长的非常通用的预处理随机梯度算法的迭代术的大样本行为来对调整参数的效果进行新的见解。在优化设置中,我们的结果表明,具有较大固定步长的迭代平均值可能会导致(局部)M-静态器的统计效率近似。在抽样环境中,我们的结果表明,通过适当的调整参数选择,限制固定协方差可以与Bernstein匹配 - 后验的von Mises限制,对模型错误指定后验的调整或MLE的渐近分布;而幼稚的调整极限与这些都不相对应。此外,我们认为可以在数据集对固定数量的通行证后获得基本独立的样本。我们使用模拟和真实数据通过多个实验来验证渐近样结果。总体而言,我们证明具有恒定步长的正确调整的随机梯度算法为获得点估计或后部样品提供了计算上有效且统计上健壮的方法。
translated by 谷歌翻译
重要的加权是调整蒙特卡洛集成以说明错误分布中抽取的一种一般方法,但是当重要性比的右尾巴较重时,最终的估计值可能是高度可变的。当目标分布的某些方面无法通过近似分布捕获,在这种情况下,可以通过修改极端重要性比率来获得更稳定的估计。我们提出了一种新的方法,该方法使用拟合模拟重要性比率的上尾的广义帕累托分布来稳定重要性权重。该方法在经验上的性能要比现有方法稳定重要性采样估计值更好,包括稳定的有效样本量估计,蒙特卡洛误差估计和收敛诊断。提出的帕累托$ \ hat {k} $有限样本收敛率诊断对任何蒙特卡洛估计器都有用。
translated by 谷歌翻译
我们证明了顺序蒙特卡洛(SMC)算法的有限样品复杂性,该算法仅需要相关的马尔可夫核的局部混合时间。当目标分布是多模式的,而马尔可夫内核的全局混合速度很慢时,我们的边界特别有用。在这种情况下,我们的方法确定了SMC比相应的Markov链蒙特卡洛(MCMC)估计量的好处。通过依次控制SMC重采样程序引入的偏差来解决全局混合。我们将这些结果应用于对数凸出分布的混合物下的近似期望获得复杂性界限,并表明SMC为某些困难的多模式问题提供了完全多项式时间随机近似方案,而相应的Markov链采样器的指数呈呈呈速度速度。最后,我们比较了通过我们在相同问题上使用钢结战的马尔可夫链的现有界限获得的界限。
translated by 谷歌翻译
Hamiltonian Monte Carlo (HMC) sampling methods provide a mechanism for defining distant proposals with high acceptance probabilities in a Metropolis-Hastings framework, enabling more efficient exploration of the state space than standard random-walk proposals. The popularity of such methods has grown significantly in recent years. However, a limitation of HMC methods is the required gradient computation for simulation of the Hamiltonian dynamical system-such computation is infeasible in problems involving a large sample size or streaming data. Instead, we must rely on a noisy gradient estimate computed from a subset of the data. In this paper, we explore the properties of such a stochastic gradient HMC approach. Surprisingly, the natural implementation of the stochastic approximation can be arbitrarily bad. To address this problem we introduce a variant that uses second-order Langevin dynamics with a friction term that counteracts the effects of the noisy gradient, maintaining the desired target distribution as the invariant distribution. Results on simulated data validate our theory. We also provide an application of our methods to a classification task using neural networks and to online Bayesian matrix factorization.
translated by 谷歌翻译
在本文中,我们考虑从一类具有薄尾部的分布式采样,支持$ \ mathbb {r} ^ d $,并制作两个主要贡献。首先,我们提出了一种具有优化步骤(MAO)的新的大都市算法,其非常适合这种目标。我们的算法能够从分布中采样,其中Metropolic调整的Langevin算法(MALA)不收敛或缺乏理论保证。其次,我们在毛泽东混合时间上获得上限。我们的结果是通过模拟多目标分布的支持。
translated by 谷歌翻译
我们在$ \ Gamma $ -diScounted MDP中使用Polyak-Ruppert平均(A.K.A.,平均Q-Leaning)进行同步Q学习。我们为平均迭代$ \ bar {\ boldsymbol {q}}建立渐近常态。此外,我们展示$ \ bar {\ boldsymbol {q}} _ t $实际上是一个常规的渐近线性(RAL)估计值,用于最佳q-value函数$ \ boldsymbol {q} ^ * $与最有效的影响功能。它意味着平均Q学习迭代在所有RAL估算器之间具有最小的渐近方差。此外,我们为$ \ ell _ {\ infty} $错误$ \ mathbb {e} \ | \ | \ bar {\ boldsymbol {q}} _ t- \ boldsymbol {q} ^ *} ^ *} _ {\ idty} $,显示它与实例相关的下限以及最佳最低限度复杂性下限。作为一个副产品,我们发现Bellman噪音具有var-gaussian坐标,具有方差$ \ mathcal {o}((1- \ gamma)^ {-1})$而不是现行$ \ mathcal {o}((1- \ Gamma)^ { - 2})$根据标准界限奖励假设。子高斯结果有可能提高许多R1算法的样本复杂性。简而言之,我们的理论分析显示平均Q倾斜在统计上有效。
translated by 谷歌翻译
我们引入了重新定性,这是一种数据依赖性的重新聚集化,将贝叶斯神经网络(BNN)转化为后部的分布,其KL对BNN对BNN的差异随着层宽度的增长而消失。重新定义图直接作用于参数,其分析简单性补充了宽BNN在功能空间中宽BNN的已知神经网络过程(NNGP)行为。利用重新定性,我们开发了马尔可夫链蒙特卡洛(MCMC)后采样算法,该算法将BNN更快地混合在一起。这与MCMC在高维度上的表现差异很差。对于完全连接和残留网络,我们观察到有效样本量高达50倍。在各个宽度上都取得了改进,并在层宽度的重新培训和标准BNN之间的边缘。
translated by 谷歌翻译