经典地,连续时间兰富文队扩散在唯一的假设下迅速迅速迅速迅速迅速,以至于$ \ PI $满足POINCAR的不平等。使用这一事实来为离散时间Langevin Monte Carlo(LMC)算法提供保证,因此由于需要与Chi Squared或R \'enyi分歧的需要,并且在很大程度上主要重点关注日志凹形目标。在这项工作中,我们为LMC提供了第一个收敛保证,假设$ \ PI $满足Lata {\ l} a - oleszkiewicz或修改的log-sobolev不等式,它在Poincar \ e和log-sobolev设置之间插值。与现有作品不同,我们的结果允许弱滑性,并且不需要凸起或耗散条件。
translated by 谷歌翻译
我们为基于分数的生成模型(SGM)(例如Denoising扩散概率模型(DDPM))提供理论收敛保证,该模型构成了大型现实世界中生成模型的骨干,例如DALL $ \ cdot $ E2。我们的主要结果是,假设有准确的分数估计值,此类SGM可以从本质上有效地从任何现实的数据分布中进行采样。与先前的作品相反,我们的结果(1)以$ l^2 $准确的分数估算(而不是$ l^\ infty $ -CACCRATE)保持; (2)不需要限制性的功能不平等条件,而这些条件排除了实质性的非con虫; (3)在所有相关问题参数中刻度缩放; (4)匹配兰格文扩散离散的最新复杂性保证,前提是得分误差足够小。我们认为这是SGM的经验成功的强有力理论理由。我们还基于严重阻尼的Langevin扩散(CLD)检查SGM。与传统的观点相反,我们提供了证据,表明CLD的使用不会降低SGM的复杂性。
translated by 谷歌翻译
我们为不依赖数据分布满足功能不平等的数据分布或强烈的平滑度假设提供了多项式收敛保证。假设有$ l^2 $准确的分数估计,我们可以为任何有限支撑或足够衰减的尾巴的分布获得Wasserstein距离保证,以及具有进一步平滑度假设的电视保证。
translated by 谷歌翻译
在本文中,我们在使用离散的Langevin扩散的三个方案中从目标密度采样的误差提供非渐近上限。第一个方案是Langevin Monte Carlo(LMC)算法,歌曲的欧拉分散化的歌曲扩散。第二个和第三种方案分别是用于可微分电位和动力学Langevin Monte Carlo的动力学Langevin Monte Carlo(KLMC),用于两次可分视电位(KLMC2)。主要焦点是在$ \ mathbb r ^ p $的目标密度上,但不一定强烈地抖动。在两种类型的平滑假设下获得计算复杂度的界限:电位具有嘴唇连续梯度,并且电位具有嘴角连续的Hessian基质。采样误差由Wassersein-$ Q $距离测量。我们倡导在计算复杂性定义中使用新的维度适应缩放,当考虑Wasserstein-$ Q $距离时。所获得的结果表明,实现小于规定值的缩放误差的迭代次数仅取决于多项尺寸。
translated by 谷歌翻译
连续时间扩散过程的离散化是一种广泛认可的采样方法。然而,当通常需要平滑(梯度Lipschitz)时,似乎是一个相当大的限制。本文研究了通过欧拉离散化进行采样的问题,其中潜在的功能被认为是弱平滑分布的混合物,满足弱耗散。我们在Kullback-Leibler(KL)发散中建立了迭代的趋势,以达到$ \ epsilon $ - 仅在维度上的多项式依赖性的目标分布。我们在放松\citet{}erdogdu2020convergence无穷条件退化凸和庞加莱下证明收敛担保\'{E}不平等或不强烈外凸球。此外,我们还提供了$ l _ {\ beta} $ - Wasserstein度量的融合,用于平滑潜力。
translated by 谷歌翻译
基于分数的生成建模(SGM)是一种从数据中学习概率分布并生成更多样本的非常成功的方法。我们证明了SGM背后的核心机械师的第一个多项式收敛保证:从概率密度$ p $中绘制样品估计(估计为$ \ nabla \ ln p $),该样本在$ l^2(p)中是准确的$。与以前的作品相比,我们不会产生误差,该错误会在时间上成倍增长或受到维度诅咒的影响。我们的保证对任何平滑分布都有效,并在多个一级取决于其对数sobolev常数。使用我们的保证,我们对基于分数的生成建模进行了理论分析,该模型将白色噪声输入转换为从不同噪声量表下得分估计的学习数据分布的样品。我们的分析将理论上的基础奠定了这样的观察,即在实践中需要进行退火,以生成好样品,因为我们的证明基本上取决于使用退火以在每个步骤中获得温暖的开始。此外,我们表明,与单独使用任何一部分相比,预测器 - 校正算法给出了更好的收敛性。
translated by 谷歌翻译
我们提出了一种基于langevin扩散的算法,以在球体的产物歧管上进行非凸优化和采样。在对数Sobolev不平等的情况下,我们根据Kullback-Leibler Divergence建立了有限的迭代迭代收敛到Gibbs分布的保证。我们表明,有了适当的温度选择,可以保证,次级最小值的次数差距很小,概率很高。作为一种应用,我们考虑了使用对角线约束解决半决赛程序(SDP)的burer- monteiro方法,并分析提出的langevin算法以优化非凸目标。特别是,我们为Burer建立了对数Sobolev的不平等现象 - 当没有虚假的局部最小值时,但在鞍点下,蒙蒂罗问题。结合结果,我们为SDP和最大切割问题提供了全局最佳保证。更确切地说,我们证明了Langevin算法在$ \ widetilde {\ omega}(\ epsilon^{ - 5})$ tererations $ tererations $ \ widetilde {\ omega}(\ omega}中,具有很高的概率。
translated by 谷歌翻译
我们证明了连续和离散时间添加功能的浓度不平等和相关的PAC界限,用于可能是多元,不可逆扩散过程的无界函数。我们的分析依赖于通过泊松方程的方法,使我们能够考虑一系列非常广泛的指数性千古过程。这些结果增加了现有的浓度不平等,用于扩散过程的加性功能,这些功能仅适用于有界函数或从明显较小的类别中的过程的无限函数。我们通过两个截然不同的区域的例子来证明这些指数不平等的力量。考虑到在稀疏性约束下可能具有高维参数非线性漂移模型,我们应用连续的时间浓度结果来验证套索估计的受限特征值条件,这对于甲骨文不平等的推导至关重要。离散添加功能的结果用于研究未经调整的Langevin MCMC算法,用于采样中等重尾密度$ \ pi $。特别是,我们为多项式增长功能$ f $的样品蒙特卡洛估计量$ \ pi(f)提供PAC边界,以量化足够的样本和阶梯尺寸,以在规定的边距内近似具有很高的可能性。
translated by 谷歌翻译
We consider the constrained sampling problem where the goal is to sample from a distribution $\pi(x)\propto e^{-f(x)}$ and $x$ is constrained on a convex body $\mathcal{C}\subset \mathbb{R}^d$. Motivated by penalty methods from optimization, we propose penalized Langevin Dynamics (PLD) and penalized Hamiltonian Monte Carlo (PHMC) that convert the constrained sampling problem into an unconstrained one by introducing a penalty function for constraint violations. When $f$ is smooth and the gradient is available, we show $\tilde{\mathcal{O}}(d/\varepsilon^{10})$ iteration complexity for PLD to sample the target up to an $\varepsilon$-error where the error is measured in terms of the total variation distance and $\tilde{\mathcal{O}}(\cdot)$ hides some logarithmic factors. For PHMC, we improve this result to $\tilde{\mathcal{O}}(\sqrt{d}/\varepsilon^{7})$ when the Hessian of $f$ is Lipschitz and the boundary of $\mathcal{C}$ is sufficiently smooth. To our knowledge, these are the first convergence rate results for Hamiltonian Monte Carlo methods in the constrained sampling setting that can handle non-convex $f$ and can provide guarantees with the best dimension dependency among existing methods with deterministic gradients. We then consider the setting where unbiased stochastic gradients are available. We propose PSGLD and PSGHMC that can handle stochastic gradients without Metropolis-Hasting correction steps. When $f$ is strongly convex and smooth, we obtain an iteration complexity of $\tilde{\mathcal{O}}(d/\varepsilon^{18})$ and $\tilde{\mathcal{O}}(d\sqrt{d}/\varepsilon^{39})$ respectively in the 2-Wasserstein distance. For the more general case, when $f$ is smooth and non-convex, we also provide finite-time performance bounds and iteration complexity results. Finally, we test our algorithms on Bayesian LASSO regression and Bayesian constrained deep learning problems.
translated by 谷歌翻译
我们为随机梯度Langevin Dynamics(SGLD)建立了一个急剧的均匀误差估计,该算法是一种流行的采样算法。在温和的假设下,我们获得了一个均匀的$ o(\ eta^2)$,限制了SGLD迭代与langevin扩散之间的KL差异,其中$ \ eta $是步骤尺寸(或学习率)。我们的分析也适用于不同的步骤尺寸。基于此,我们能够以wasserstein或总变异距离来获得SGLD迭代和Langevin扩散不变分布之间的距离的$ O(\ eta)$。
translated by 谷歌翻译
变性推理(VI)为基于传统的采样方法提供了一种吸引人的替代方法,用于实施贝叶斯推断,因为其概念性的简单性,统计准确性和计算可扩展性。然而,常见的变分近似方案(例如平均场(MF)近似)需要某些共轭结构以促进有效的计算,这可能会增加不必要的限制对可行的先验分布家族,并对变异近似族对差异进行进一步的限制。在这项工作中,我们开发了一个通用计算框架,用于实施MF-VI VIA WASSERSTEIN梯度流(WGF),这是概率度量空间上的梯度流。当专门针对贝叶斯潜在变量模型时,我们将分析基于时间消化的WGF交替最小化方案的算法收敛,用于实现MF近似。特别是,所提出的算法类似于EM算法的分布版本,包括更新潜在变量变异分布的E step以及在参数的变异分布上进行最陡峭下降的m step。我们的理论分析依赖于概率度量空间中的最佳运输理论和细分微积分。我们证明了时间限制的WGF的指数收敛性,以最大程度地减少普通大地测量学严格的凸度的通用物镜功能。我们还提供了通过使用时间限制的WGF的固定点方程从MF近似获得的变异分布的指数收缩的新证明。我们将方法和理论应用于两个经典的贝叶斯潜在变量模型,即高斯混合模型和回归模型的混合物。还进行了数值实验,以补充这两个模型下的理论发现。
translated by 谷歌翻译
在本文中,我们重新审视了私人经验风险最小化(DP-erm)和差异私有随机凸优化(DP-SCO)的问题。我们表明,来自统计物理学(Langevin Exfusion(LD))的经过良好研究的连续时间算法同时为DP-SCO和DP-SCO提供了最佳的隐私/实用性权衡,$ \ epsilon $ -DP和$ $ \ epsilon $ -DP和$ (\ epsilon,\ delta)$ - dp均用于凸和强烈凸损失函数。我们为LD提供新的时间和尺寸独立统一稳定性,并使用我们为$ \ epsilon $ -DP提供相应的最佳超额人口风险保证。 $ \ epsilon $ -DP的DP-SCO保证的一个重要属性是,它们将非私人最佳界限匹配为$ \ epsilon \与\ infty $。在此过程中,我们提供了各种技术工具,这些工具可能引起独立的关注:i)在两个相邻数据集上运行损失功能时,一个新的r \'enyi Divergence绑定了LD,ii)最后一个过多的经验风险范围迭代LD,类似于Shamir和Zhang的嘈杂随机梯度下降(SGD)和iii)的LD,对LD进行了两期多余的风险分析,其中第一阶段是当扩散在任何合理意义上都没有在任何合理意义上融合到固定分布时,在第二阶段扩散已收敛到吉布斯分布的变体。我们的普遍性结果至关重要地依赖于LD的动力学。当它融合到固定分布时,我们获得了$ \ epsilon $ -DP的最佳界限。当它仅在很短的时间内运行$ \ propto 1/p $时,我们在$(\ epsilon,\ delta)$ -DP下获得最佳界限。在这里,$ p $是模型空间的维度。
translated by 谷歌翻译
在因果推理和强盗文献中,基于观察数据的线性功能估算线性功能的问题是规范的。我们分析了首先估计治疗效果函数的广泛的两阶段程序,然后使用该数量来估计线性功能。我们证明了此类过程的均方误差上的非反应性上限:这些边界表明,为了获得非反应性最佳程序,应在特定加权$ l^2 $中最大程度地估算治疗效果的误差。 -规范。我们根据该加权规范的约束回归分析了两阶段的程序,并通过匹配非轴突局部局部最小值下限,在有限样品中建立了实例依赖性最优性。这些结果表明,除了取决于渐近效率方差之外,最佳的非质子风险除了取决于样本量支持的最富有函数类别的真实结果函数与其近似类别之间的加权规范距离。
translated by 谷歌翻译
我们为随机梯度Langevin动态(SGLD)建立了泛化误差界,在耗散度和平滑度的假设下,在采样/优化文献中得到了增加的环境。与非凸面设置中的SGLD的现有范围不同,由于样本大小的增加,我们的SGLD与SGL的界限不同,并且随着样本量的增加而衰减至零。利用均匀稳定性框架,我们通过利用Langevin扩散的Wasserstein收缩属性来建立无关的界限,这也允许我们规避需要使用LipsChitz的假设来绑定渐变的渐变。我们的分析还支持使用不同离散化方法的SGLD的变体,包括欧几里德投影,或使用非各向同性噪声。
translated by 谷歌翻译
我们研究了随机近似程序,以便基于观察来自ergodic Markov链的长度$ n $的轨迹来求近求解$ d -dimension的线性固定点方程。我们首先表现出$ t _ {\ mathrm {mix}} \ tfrac {n}} \ tfrac {n}} \ tfrac {d}} \ tfrac {d} {n} $的非渐近性界限。$ t _ {\ mathrm {mix $是混合时间。然后,我们证明了一种在适当平均迭代序列上的非渐近实例依赖性,具有匹配局部渐近最小的限制的领先术语,包括对参数$的敏锐依赖(d,t _ {\ mathrm {mix}}) $以高阶术语。我们将这些上限与非渐近Minimax的下限补充,该下限是建立平均SA估计器的实例 - 最优性。我们通过Markov噪声的政策评估导出了这些结果的推导 - 覆盖了所有$ \ lambda \中的TD($ \ lambda $)算法,以便[0,1)$ - 和线性自回归模型。我们的实例依赖性表征为HyperParameter调整的细粒度模型选择程序的设计开放了门(例如,在运行TD($ \ Lambda $)算法时选择$ \ lambda $的值)。
translated by 谷歌翻译
我们提出了一种统一的技术,用于顺序估计分布之间的凸面分歧,包括内核最大差异等积分概率度量,$ \ varphi $ - 像Kullback-Leibler发散,以及最佳运输成本,例如Wassersein距离的权力。这是通过观察到经验凸起分歧(部分有序)反向半角分离的实现来实现的,而可交换过滤耦合,其具有这些方法的最大不等式。这些技术似乎是对置信度序列和凸分流的现有文献的互补和强大的补充。我们构建一个离线到顺序设备,将各种现有的离线浓度不等式转换为可以连续监测的时间均匀置信序列,在任意停止时间提供有效的测试或置信区间。得到的顺序边界仅在相应的固定时间范围内支付迭代对数价格,保留对问题参数的相同依赖性(如适用的尺寸或字母大小)。这些结果也适用于更一般的凸起功能,如负差分熵,实证过程的高度和V型统计。
translated by 谷歌翻译
A canonical algorithm for log-concave sampling is the Langevin Algorithm, aka the Langevin Diffusion run with some discretization stepsize $\eta > 0$. This discretization leads the Langevin Algorithm to have a stationary distribution $\pi_{\eta}$ which differs from the stationary distribution $\pi$ of the Langevin Diffusion, and it is an important challenge to understand whether the well-known properties of $\pi$ extend to $\pi_{\eta}$. In particular, while concentration properties such as isoperimetry and rapidly decaying tails are classically known for $\pi$, the analogous properties for $\pi_{\eta}$ are open questions with direct algorithmic implications. This note provides a first step in this direction by establishing concentration results for $\pi_{\eta}$ that mirror classical results for $\pi$. Specifically, we show that for any nontrivial stepsize $\eta > 0$, $\pi_{\eta}$ is sub-exponential (respectively, sub-Gaussian) when the potential is convex (respectively, strongly convex). Moreover, the concentration bounds we show are essentially tight. Key to our analysis is the use of a rotation-invariant moment generating function (aka Bessel function) to study the stationary dynamics of the Langevin Algorithm. This technique may be of independent interest because it enables directly analyzing the discrete-time stationary distribution $\pi_{\eta}$ without going through the continuous-time stationary distribution $\pi$ as an intermediary.
translated by 谷歌翻译
对复杂模型执行精确的贝叶斯推理是计算的难治性的。马尔可夫链蒙特卡罗(MCMC)算法可以提供后部分布的可靠近似,但对于大型数据集和高维模型昂贵。减轻这种复杂性的标准方法包括使用子采样技术或在群集中分发数据。然而,这些方法通常在高维方案中不可靠。我们在此处专注于最近的替代类别的MCMC方案,利用类似于乘客(ADMM)优化算法的庆祝交替方向使用的分裂策略。这些方法似乎提供了凭经验最先进的性能,但其高维层的理论行为目前未知。在本文中,我们提出了一个详细的理论研究,该算法之一称为分裂Gibbs采样器。在规律条件下,我们使用RICCI曲率和耦合思路为此方案建立了明确的收敛速率。我们以数字插图支持我们的理论。
translated by 谷歌翻译
We consider the problem of estimating the optimal transport map between a (fixed) source distribution $P$ and an unknown target distribution $Q$, based on samples from $Q$. The estimation of such optimal transport maps has become increasingly relevant in modern statistical applications, such as generative modeling. At present, estimation rates are only known in a few settings (e.g. when $P$ and $Q$ have densities bounded above and below and when the transport map lies in a H\"older class), which are often not reflected in practice. We present a unified methodology for obtaining rates of estimation of optimal transport maps in general function spaces. Our assumptions are significantly weaker than those appearing in the literature: we require only that the source measure $P$ satisfies a Poincar\'e inequality and that the optimal map be the gradient of a smooth convex function that lies in a space whose metric entropy can be controlled. As a special case, we recover known estimation rates for bounded densities and H\"older transport maps, but also obtain nearly sharp results in many settings not covered by prior work. For example, we provide the first statistical rates of estimation when $P$ is the normal distribution and the transport map is given by an infinite-width shallow neural network.
translated by 谷歌翻译
我们调查了一定类别的功能不等式,称为弱Poincar的不等式,以使Markov链的收敛性与均衡相结合。我们表明,这使得SubGoom测量收敛界的直接和透明的推导出用于独立的Metropolis - Hastings采样器和用于棘手似然性的伪边缘方法,后者在许多实际设置中是子表芯。这些结果依赖于马尔可夫链之间的新量化比较定理。相关证据比依赖于漂移/较小化条件的证据更简单,并且所开发的工具允许我们恢复并进一步延长特定情况的已知结果。我们能够为伪边缘算法的实际使用提供新的见解,分析平均近似贝叶斯计算(ABC)的效果以及独立平均值的产品,以及研究与之相关的逻辑重量的情况粒子边缘大都市 - 黑斯廷斯(PMMH)。
translated by 谷歌翻译