我们为随机梯度Langevin动态(SGLD)建立了泛化误差界,在耗散度和平滑度的假设下,在采样/优化文献中得到了增加的环境。与非凸面设置中的SGLD的现有范围不同,由于样本大小的增加,我们的SGLD与SGL的界限不同,并且随着样本量的增加而衰减至零。利用均匀稳定性框架,我们通过利用Langevin扩散的Wasserstein收缩属性来建立无关的界限,这也允许我们规避需要使用LipsChitz的假设来绑定渐变的渐变。我们的分析还支持使用不同离散化方法的SGLD的变体,包括欧几里德投影,或使用非各向同性噪声。
translated by 谷歌翻译
在本文中,我们在使用离散的Langevin扩散的三个方案中从目标密度采样的误差提供非渐近上限。第一个方案是Langevin Monte Carlo(LMC)算法,歌曲的欧拉分散化的歌曲扩散。第二个和第三种方案分别是用于可微分电位和动力学Langevin Monte Carlo的动力学Langevin Monte Carlo(KLMC),用于两次可分视电位(KLMC2)。主要焦点是在$ \ mathbb r ^ p $的目标密度上,但不一定强烈地抖动。在两种类型的平滑假设下获得计算复杂度的界限:电位具有嘴唇连续梯度,并且电位具有嘴角连续的Hessian基质。采样误差由Wassersein-$ Q $距离测量。我们倡导在计算复杂性定义中使用新的维度适应缩放,当考虑Wasserstein-$ Q $距离时。所获得的结果表明,实现小于规定值的缩放误差的迭代次数仅取决于多项尺寸。
translated by 谷歌翻译
We consider the constrained sampling problem where the goal is to sample from a distribution $\pi(x)\propto e^{-f(x)}$ and $x$ is constrained on a convex body $\mathcal{C}\subset \mathbb{R}^d$. Motivated by penalty methods from optimization, we propose penalized Langevin Dynamics (PLD) and penalized Hamiltonian Monte Carlo (PHMC) that convert the constrained sampling problem into an unconstrained one by introducing a penalty function for constraint violations. When $f$ is smooth and the gradient is available, we show $\tilde{\mathcal{O}}(d/\varepsilon^{10})$ iteration complexity for PLD to sample the target up to an $\varepsilon$-error where the error is measured in terms of the total variation distance and $\tilde{\mathcal{O}}(\cdot)$ hides some logarithmic factors. For PHMC, we improve this result to $\tilde{\mathcal{O}}(\sqrt{d}/\varepsilon^{7})$ when the Hessian of $f$ is Lipschitz and the boundary of $\mathcal{C}$ is sufficiently smooth. To our knowledge, these are the first convergence rate results for Hamiltonian Monte Carlo methods in the constrained sampling setting that can handle non-convex $f$ and can provide guarantees with the best dimension dependency among existing methods with deterministic gradients. We then consider the setting where unbiased stochastic gradients are available. We propose PSGLD and PSGHMC that can handle stochastic gradients without Metropolis-Hasting correction steps. When $f$ is strongly convex and smooth, we obtain an iteration complexity of $\tilde{\mathcal{O}}(d/\varepsilon^{18})$ and $\tilde{\mathcal{O}}(d\sqrt{d}/\varepsilon^{39})$ respectively in the 2-Wasserstein distance. For the more general case, when $f$ is smooth and non-convex, we also provide finite-time performance bounds and iteration complexity results. Finally, we test our algorithms on Bayesian LASSO regression and Bayesian constrained deep learning problems.
translated by 谷歌翻译
人工神经网络(ANNS)通常是高度非线性系统,其通过优化其相关的非凸损函数精细调整。在许多情况下,任何这种损失函数的梯度具有超线性生长,利用广泛接受的(随机)梯度下降方法,其基于欧拉数值方案,有问题。我们提供了一种基于受欢迎的随机梯度Langevin Dynamics(SGLD)的适当构造的变体的新学习算法,该算法被称为不调整的随机的随机Langevin算法(Tusla)。我们还提供了对新算法在非凸起学习问题的环境中对新算法的融合性质进行了巨大分析。因此,我们为Tusla提供有限时间担保,以查找经验和人口风险的大致减少体。 TUSLA算法的根源基于\ CiteT {TARE-EULER,SABANISAOAP}和MCMC算法中开发的超连线系数的扩散过程的驯化技术。提出了数值实验,该实验证实了理论发现,并说明了与ANNS框架内的Vanilla SGLD相比使用新算法。
translated by 谷歌翻译
随机梯度下降(SGD)的梯度噪声被认为是在其性质中发挥关键作用(例如,逃离低潜在点和正则化)。过去的研究表明,通过迷你匹配完成的SGD错误的协方差在确定其正则化并逃离低潜在点时起着关键作用。然而,探索了误差的分布量影响了算法的行为。在该领域的一些新研究的动机,我们通过迷你匹配具有相同的SGD的平均值和协方差结构的噪声类别证明了普遍性的结果具有类似的性质。我们主要考虑由Wu等人引入的乘法随机梯度下降(M-SGD)算法。,它具有比通过小拟场完成的SGD算法更普通的噪声类。我们主要相对于通过小匹匹配对应于SGD的随机微分方程来建立非因素范围。我们还表明,M-SGD错误大约是M-SGD算法的任何固定点的缩放高斯分布。我们还建立了强凸的制度中M-SGD算法的收敛的界限。
translated by 谷歌翻译
在本文中,我们重新审视了私人经验风险最小化(DP-erm)和差异私有随机凸优化(DP-SCO)的问题。我们表明,来自统计物理学(Langevin Exfusion(LD))的经过良好研究的连续时间算法同时为DP-SCO和DP-SCO提供了最佳的隐私/实用性权衡,$ \ epsilon $ -DP和$ $ \ epsilon $ -DP和$ (\ epsilon,\ delta)$ - dp均用于凸和强烈凸损失函数。我们为LD提供新的时间和尺寸独立统一稳定性,并使用我们为$ \ epsilon $ -DP提供相应的最佳超额人口风险保证。 $ \ epsilon $ -DP的DP-SCO保证的一个重要属性是,它们将非私人最佳界限匹配为$ \ epsilon \与\ infty $。在此过程中,我们提供了各种技术工具,这些工具可能引起独立的关注:i)在两个相邻数据集上运行损失功能时,一个新的r \'enyi Divergence绑定了LD,ii)最后一个过多的经验风险范围迭代LD,类似于Shamir和Zhang的嘈杂随机梯度下降(SGD)和iii)的LD,对LD进行了两期多余的风险分析,其中第一阶段是当扩散在任何合理意义上都没有在任何合理意义上融合到固定分布时,在第二阶段扩散已收敛到吉布斯分布的变体。我们的普遍性结果至关重要地依赖于LD的动力学。当它融合到固定分布时,我们获得了$ \ epsilon $ -DP的最佳界限。当它仅在很短的时间内运行$ \ propto 1/p $时,我们在$(\ epsilon,\ delta)$ -DP下获得最佳界限。在这里,$ p $是模型空间的维度。
translated by 谷歌翻译
我们为随机梯度Langevin Dynamics(SGLD)建立了一个急剧的均匀误差估计,该算法是一种流行的采样算法。在温和的假设下,我们获得了一个均匀的$ o(\ eta^2)$,限制了SGLD迭代与langevin扩散之间的KL差异,其中$ \ eta $是步骤尺寸(或学习率)。我们的分析也适用于不同的步骤尺寸。基于此,我们能够以wasserstein或总变异距离来获得SGLD迭代和Langevin扩散不变分布之间的距离的$ O(\ eta)$。
translated by 谷歌翻译
We study the uniform-in-time propagation of chaos for mean field Langevin dynamics with convex mean field potenital. Convergences in both Wasserstein-$2$ distance and relative entropy are established. We do not require the mean field potenital functional to bear either small mean field interaction or displacement convexity, which are common constraints in the literature. In particular, it allows us to study the efficiency of the noisy gradient descent algorithm for training two-layer neural networks.
translated by 谷歌翻译
连续数据的优化问题出现在,例如强大的机器学习,功能数据分析和变分推理。这里,目标函数被给出为一个(连续)索引目标函数的系列 - 相对于概率测量集成的族聚集。这些问题通常可以通过随机优化方法解决:在随机切换指标执行关于索引目标函数的优化步骤。在这项工作中,我们研究了随机梯度下降算法的连续时间变量,以进行连续数据的优化问题。该所谓的随机梯度过程包括最小化耦合与确定索引的连续时间索引过程的索引目标函数的梯度流程。索引过程是例如,反射扩散,纯跳跃过程或紧凑空间上的其他L evy过程。因此,我们研究了用于连续数据空间的多种采样模式,并允许在算法的运行时进行模拟或流式流的数据。我们分析了随机梯度过程的近似性质,并在恒定下进行了长时间行为和遍历的学习率。我们以噪声功能数据的多项式回归问题以及物理知识的神经网络在多项式回归问题中结束了随机梯度过程的适用性。
translated by 谷歌翻译
显示了最佳的收敛速率,显示了对保守随机偏微分方程的平均场限制对解决方案解决方案解决方案解决方案的收敛。作为第二个主要结果,该SPDE的定量中心极限定理再次得出,并以最佳的收敛速率得出。该结果尤其适用于在过叠层化的,浅的神经网络中与SPDES溶液中随机梯度下降动力学的平均场缩放率的收敛性。结果表明,在限制SPDE中包含波动可以提高收敛速度,并保留有关随机梯度下降的波动的信息。
translated by 谷歌翻译
连续时间扩散过程的离散化是一种广泛认可的采样方法。然而,当通常需要平滑(梯度Lipschitz)时,似乎是一个相当大的限制。本文研究了通过欧拉离散化进行采样的问题,其中潜在的功能被认为是弱平滑分布的混合物,满足弱耗散。我们在Kullback-Leibler(KL)发散中建立了迭代的趋势,以达到$ \ epsilon $ - 仅在维度上的多项式依赖性的目标分布。我们在放松\citet{}erdogdu2020convergence无穷条件退化凸和庞加莱下证明收敛担保\'{E}不平等或不强烈外凸球。此外,我们还提供了$ l _ {\ beta} $ - Wasserstein度量的融合,用于平滑潜力。
translated by 谷歌翻译
Despite its popularity in the reinforcement learning community, a provably convergent policy gradient method for continuous space-time control problems with nonlinear state dynamics has been elusive. This paper proposes proximal gradient algorithms for feedback controls of finite-time horizon stochastic control problems. The state dynamics are nonlinear diffusions with control-affine drift, and the cost functions are nonconvex in the state and nonsmooth in the control. The system noise can degenerate, which allows for deterministic control problems as special cases. We prove under suitable conditions that the algorithm converges linearly to a stationary point of the control problem, and is stable with respect to policy updates by approximate gradient steps. The convergence result justifies the recent reinforcement learning heuristics that adding entropy regularization or a fictitious discount factor to the optimization objective accelerates the convergence of policy gradient methods. The proof exploits careful regularity estimates of backward stochastic differential equations.
translated by 谷歌翻译
经典地,连续时间兰富文队扩散在唯一的假设下迅速迅速迅速迅速迅速,以至于$ \ PI $满足POINCAR的不平等。使用这一事实来为离散时间Langevin Monte Carlo(LMC)算法提供保证,因此由于需要与Chi Squared或R \'enyi分歧的需要,并且在很大程度上主要重点关注日志凹形目标。在这项工作中,我们为LMC提供了第一个收敛保证,假设$ \ PI $满足Lata {\ l} a - oleszkiewicz或修改的log-sobolev不等式,它在Poincar \ e和log-sobolev设置之间插值。与现有作品不同,我们的结果允许弱滑性,并且不需要凸起或耗散条件。
translated by 谷歌翻译
古典统计学习理论表示,拟合太多参数导致过度舒服和性能差。尽管大量参数矛盾,但是现代深度神经网络概括了这一发现,并构成了解释深度学习成功的主要未解决的问题。随机梯度下降(SGD)引起的隐式正规被认为是重要的,但其特定原则仍然是未知的。在这项工作中,我们研究了当地最小值周围的能量景观的局部几何学如何影响SGD的统计特性,具有高斯梯度噪声。我们争辩说,在合理的假设下,局部几何形状力强制SGD保持接近低维子空间,这会引起隐式正则化并导致深神经网络的泛化误差界定更严格的界限。为了获得神经网络的泛化误差界限,我们首先引入局部最小值周围的停滞迹象,并施加人口风险的局部基本凸性财产。在这些条件下,推导出SGD的下界,以保留在这些停滞套件中。如果发生停滞,我们会导出涉及权重矩阵的光谱规范的深神经网络的泛化误差的界限,但不是网络参数的数量。从技术上讲,我们的证据基于控制SGD中的参数值的变化以及基于局部最小值周围的合适邻域的熵迭代的参数值和局部均匀收敛。我们的工作试图通过统一收敛更好地连接非凸优化和泛化分析。
translated by 谷歌翻译
我们为基于分数的生成模型(SGM)(例如Denoising扩散概率模型(DDPM))提供理论收敛保证,该模型构成了大型现实世界中生成模型的骨干,例如DALL $ \ cdot $ E2。我们的主要结果是,假设有准确的分数估计值,此类SGM可以从本质上有效地从任何现实的数据分布中进行采样。与先前的作品相反,我们的结果(1)以$ l^2 $准确的分数估算(而不是$ l^\ infty $ -CACCRATE)保持; (2)不需要限制性的功能不平等条件,而这些条件排除了实质性的非con虫; (3)在所有相关问题参数中刻度缩放; (4)匹配兰格文扩散离散的最新复杂性保证,前提是得分误差足够小。我们认为这是SGM的经验成功的强有力理论理由。我们还基于严重阻尼的Langevin扩散(CLD)检查SGM。与传统的观点相反,我们提供了证据,表明CLD的使用不会降低SGM的复杂性。
translated by 谷歌翻译
我们为不依赖数据分布满足功能不平等的数据分布或强烈的平滑度假设提供了多项式收敛保证。假设有$ l^2 $准确的分数估计,我们可以为任何有限支撑或足够衰减的尾巴的分布获得Wasserstein距离保证,以及具有进一步平滑度假设的电视保证。
translated by 谷歌翻译
变性推理(VI)为基于传统的采样方法提供了一种吸引人的替代方法,用于实施贝叶斯推断,因为其概念性的简单性,统计准确性和计算可扩展性。然而,常见的变分近似方案(例如平均场(MF)近似)需要某些共轭结构以促进有效的计算,这可能会增加不必要的限制对可行的先验分布家族,并对变异近似族对差异进行进一步的限制。在这项工作中,我们开发了一个通用计算框架,用于实施MF-VI VIA WASSERSTEIN梯度流(WGF),这是概率度量空间上的梯度流。当专门针对贝叶斯潜在变量模型时,我们将分析基于时间消化的WGF交替最小化方案的算法收敛,用于实现MF近似。特别是,所提出的算法类似于EM算法的分布版本,包括更新潜在变量变异分布的E step以及在参数的变异分布上进行最陡峭下降的m step。我们的理论分析依赖于概率度量空间中的最佳运输理论和细分微积分。我们证明了时间限制的WGF的指数收敛性,以最大程度地减少普通大地测量学严格的凸度的通用物镜功能。我们还提供了通过使用时间限制的WGF的固定点方程从MF近似获得的变异分布的指数收缩的新证明。我们将方法和理论应用于两个经典的贝叶斯潜在变量模型,即高斯混合模型和回归模型的混合物。还进行了数值实验,以补充这两个模型下的理论发现。
translated by 谷歌翻译
基于分数的生成建模(SGM)是一种从数据中学习概率分布并生成更多样本的非常成功的方法。我们证明了SGM背后的核心机械师的第一个多项式收敛保证:从概率密度$ p $中绘制样品估计(估计为$ \ nabla \ ln p $),该样本在$ l^2(p)中是准确的$。与以前的作品相比,我们不会产生误差,该错误会在时间上成倍增长或受到维度诅咒的影响。我们的保证对任何平滑分布都有效,并在多个一级取决于其对数sobolev常数。使用我们的保证,我们对基于分数的生成建模进行了理论分析,该模型将白色噪声输入转换为从不同噪声量表下得分估计的学习数据分布的样品。我们的分析将理论上的基础奠定了这样的观察,即在实践中需要进行退火,以生成好样品,因为我们的证明基本上取决于使用退火以在每个步骤中获得温暖的开始。此外,我们表明,与单独使用任何一部分相比,预测器 - 校正算法给出了更好的收敛性。
translated by 谷歌翻译
当使用有限的阶梯尺寸\ citep {shi20211undanding}时,Nesterov的加速梯度(NAG)进行优化的性能比其连续的时间限制(无噪声动力学Langevin)更好。这项工作探讨了该现象的采样对应物,并提出了一个扩散过程,其离散化可以产生基于梯度的MCMC方法。更确切地说,我们将NAG的优化器重新制定为强烈凸功能(NAG-SC)作为无Hessian的高分辨率ODE,将其高分辨率系数更改为超参数,注入适当的噪声,并将其离散化。新的超参数的加速效应是量化的,它不是由时间响应创造的人造效应。取而代之的是,在连续动力学级别和离散算法级别上,在$ w_2 $距离中以$ W_2 $距离的加速度均已定量确定。在对数符号和多模式案例中的经验实验也证明了这一加速度。
translated by 谷歌翻译
在本文中,我们提供了一种新颖的方法来分析标签开关的动力学模型,该模型用于可以在不同能量景观中随机切换的粒子系统。除了生物学和物理学方面的问题外,我们还证明了随机梯度下降是机器学习中最受欢迎的技术,在这种情况下,可以在考虑及时的变体时可以理解。我们的分析集中在外部电位集合中的进化情况下,我们为此提供了有关进化以及固定问题的分析和数值结果。
translated by 谷歌翻译