We study the uniform-in-time propagation of chaos for mean field Langevin dynamics with convex mean field potenital. Convergences in both Wasserstein-$2$ distance and relative entropy are established. We do not require the mean field potenital functional to bear either small mean field interaction or displacement convexity, which are common constraints in the literature. In particular, it allows us to study the efficiency of the noisy gradient descent algorithm for training two-layer neural networks.
translated by 谷歌翻译
显示了最佳的收敛速率,显示了对保守随机偏微分方程的平均场限制对解决方案解决方案解决方案解决方案的收敛。作为第二个主要结果,该SPDE的定量中心极限定理再次得出,并以最佳的收敛速率得出。该结果尤其适用于在过叠层化的,浅的神经网络中与SPDES溶液中随机梯度下降动力学的平均场缩放率的收敛性。结果表明,在限制SPDE中包含波动可以提高收敛速度,并保留有关随机梯度下降的波动的信息。
translated by 谷歌翻译
我们为随机梯度Langevin Dynamics(SGLD)建立了一个急剧的均匀误差估计,该算法是一种流行的采样算法。在温和的假设下,我们获得了一个均匀的$ o(\ eta^2)$,限制了SGLD迭代与langevin扩散之间的KL差异,其中$ \ eta $是步骤尺寸(或学习率)。我们的分析也适用于不同的步骤尺寸。基于此,我们能够以wasserstein或总变异距离来获得SGLD迭代和Langevin扩散不变分布之间的距离的$ O(\ eta)$。
translated by 谷歌翻译
在本文中,我们提供了一种新颖的方法来分析标签开关的动力学模型,该模型用于可以在不同能量景观中随机切换的粒子系统。除了生物学和物理学方面的问题外,我们还证明了随机梯度下降是机器学习中最受欢迎的技术,在这种情况下,可以在考虑及时的变体时可以理解。我们的分析集中在外部电位集合中的进化情况下,我们为此提供了有关进化以及固定问题的分析和数值结果。
translated by 谷歌翻译
我们为随机梯度Langevin动态(SGLD)建立了泛化误差界,在耗散度和平滑度的假设下,在采样/优化文献中得到了增加的环境。与非凸面设置中的SGLD的现有范围不同,由于样本大小的增加,我们的SGLD与SGL的界限不同,并且随着样本量的增加而衰减至零。利用均匀稳定性框架,我们通过利用Langevin扩散的Wasserstein收缩属性来建立无关的界限,这也允许我们规避需要使用LipsChitz的假设来绑定渐变的渐变。我们的分析还支持使用不同离散化方法的SGLD的变体,包括欧几里德投影,或使用非各向同性噪声。
translated by 谷歌翻译
在随机微分方程(SDE)的固定分布上进行优化在计算上具有挑战性。最近提出了一种新的远期传播算法,以在线优化SDE。该算法求解了使用正向分化得出的SDE,从而为梯度提供了随机估计。该算法连续更新SDE模型的参数和梯度估计值。本文研究了非线性耗散SDE的正向传播算法的收敛性。我们利用这类非线性SDE的怪异性来表征过渡半组及其衍生物的收敛速率。然后,我们证明了泊松部分微分方程(PDE)的求和,对于算法的随机波动的预期时间积分围绕最陡下降的方向而言。然后,我们使用PDE溶液重写算法,这使我们能够表征围绕最陡下降方向的参数演化。我们的主要结果是针对非线性耗散SDE的正向传播算法的收敛定理。
translated by 谷歌翻译
本文涉及高维度中经验措施的收敛。我们提出了一类新的指标,并表明在这样的指标下,融合不受维度的诅咒(COD)。这样的特征对于高维分析至关重要,并且与经典指标相反({\ it,例如,瓦斯泰尔距离)。所提出的指标源自最大平均差异,我们通过提出选择测试功能空间的特定标准来概括,以确保没有COD的属性。因此,我们将此类别称为广义最大平均差异(GMMD)。所选测试功能空间的示例包括复制的内核希尔伯特空间,巴伦空间和流动诱导的功能空间。提出了所提出的指标的三种应用:1。在随机变量的情况下,经验度量的收敛; 2. $ n $粒子系统的收敛到麦基·维拉索夫随机微分方程的解决方案; 3.构建$ \ varepsilon $ -NASH平衡,用于均质$ n $ - 玩家游戏的平均范围限制。作为副产品,我们证明,考虑到接近GMMD测量的目标分布和目标分布的一定表示,我们可以在Wasserstein距离和相对熵方面生成接近目标的分布。总体而言,我们表明,所提出的指标类是一种强大的工具,可以在没有COD的高维度中分析经验度量的收敛性。
translated by 谷歌翻译
Finding the mixed Nash equilibria (MNE) of a two-player zero sum continuous game is an important and challenging problem in machine learning. A canonical algorithm to finding the MNE is the noisy gradient descent ascent method which in the infinite particle limit gives rise to the {\em Mean-Field Gradient Descent Ascent} (GDA) dynamics on the space of probability measures. In this paper, we first study the convergence of a two-scale Mean-Field GDA dynamics for finding the MNE of the entropy-regularized objective. More precisely we show that for any fixed positive temperature (or regularization parameter), the two-scale Mean-Field GDA with a {\em finite} scale ratio converges to exponentially to the unique MNE without assuming the convexity or concavity of the interaction potential. The key ingredient of our proof lies in the construction of new Lyapunov functions that dissipate exponentially along the Mean-Field GDA. We further study the simulated annealing of the Mean-Field GDA dynamics. We show that with a temperature schedule that decays logarithmically in time the annealed Mean-Field GDA converges to the MNE of the original unregularized objective function.
translated by 谷歌翻译
变性推理(VI)为基于传统的采样方法提供了一种吸引人的替代方法,用于实施贝叶斯推断,因为其概念性的简单性,统计准确性和计算可扩展性。然而,常见的变分近似方案(例如平均场(MF)近似)需要某些共轭结构以促进有效的计算,这可能会增加不必要的限制对可行的先验分布家族,并对变异近似族对差异进行进一步的限制。在这项工作中,我们开发了一个通用计算框架,用于实施MF-VI VIA WASSERSTEIN梯度流(WGF),这是概率度量空间上的梯度流。当专门针对贝叶斯潜在变量模型时,我们将分析基于时间消化的WGF交替最小化方案的算法收敛,用于实现MF近似。特别是,所提出的算法类似于EM算法的分布版本,包括更新潜在变量变异分布的E step以及在参数的变异分布上进行最陡峭下降的m step。我们的理论分析依赖于概率度量空间中的最佳运输理论和细分微积分。我们证明了时间限制的WGF的指数收敛性,以最大程度地减少普通大地测量学严格的凸度的通用物镜功能。我们还提供了通过使用时间限制的WGF的固定点方程从MF近似获得的变异分布的指数收缩的新证明。我们将方法和理论应用于两个经典的贝叶斯潜在变量模型,即高斯混合模型和回归模型的混合物。还进行了数值实验,以补充这两个模型下的理论发现。
translated by 谷歌翻译
We consider stochastic gradient descents on the space of large symmetric matrices of suitable functions that are invariant under permuting the rows and columns using the same permutation. We establish deterministic limits of these random curves as the dimensions of the matrices go to infinity while the entries remain bounded. Under a "small noise" assumption the limit is shown to be the gradient flow of functions on graphons whose existence was established in arXiv:2111.09459. We also consider limits of stochastic gradient descents with added properly scaled reflected Brownian noise. The limiting curve of graphons is characterized by a family of stochastic differential equations with reflections and can be thought of as an extension of the classical McKean-Vlasov limit for interacting diffusions. The proofs introduce a family of infinite-dimensional exchangeable arrays of reflected diffusions and a novel notion of propagation of chaos for large matrices of interacting diffusions.
translated by 谷歌翻译
在一个拟合训练数据的深度神经网络(NN)中找到参数是一个非渗透优化问题,但基本的一阶优化方法(梯度下降)在许多实际情况下,具有完美拟合(零损失)的全局优化器。我们在限制性制度中检查残留神经网络(Reset)的剩余神经网络(Reset)的情况的这种现象,其中每个层(宽度)的层数(深度)和权重的数量均转到无穷大。首先,我们使用平均场限制参数来证明参数训练的梯度下降成为概率分布的梯度流,其特征在于大NN限制中的部分微分方程(PDE)。接下来,我们表明,在某些假设下,PDE的解决方案在训练时间内收敛到零损失解决方案。这些结果表明,如果Reset足够大,则reset的培训给出了近零损失。我们给出了减少给定阈值以下低于给定阈值的损失所需的深度和宽度的估计值。
translated by 谷歌翻译
找到Reset中的参数的最佳配置是一个非凸显最小化问题,但一阶方法尽管如此,找到了过度分辨率制度的全局最优。通过将Reset的训练过程转化为梯度流部分微分方程(PDE)和检查该限制过程的收敛性能,我们研究了这种现象。假设激活函数为2美元 - 最佳或部分$ 1 $-homerence;正则Relu满足后一种条件。我们表明,如果Reset足够大,则深度和宽度根据代数上的准确性和置信水平,一阶优化方法可以找到适合培训数据的全局最小化器。
translated by 谷歌翻译
Wassersein梯度流通概率措施在各种优化问题中发现了许多应用程序。它们通常由于由涉及梯度型电位的一些平均场相互作用而发展的可交换粒子系统的连续极限。然而,在许多问题中,例如在多层神经网络中,所谓的粒子是在节点可更换的大图上的边缘权重。已知这样的大图可以收敛到连续的限制,称为Graphons,因为它们的大小增长到无穷大。我们表明,边缘权重的合适功能的欧几里德梯度流量会聚到可以被适当地描述为梯度流的曲线上的曲线给出的新型连续轴限制,或者更重要的是最大斜率的曲线。我们的设置涵盖了诸如同性恋功能和标量熵的石墨源上的几种自然功能,并详细介绍了示例。
translated by 谷歌翻译
我们研究了无限 - 马,连续状态和行动空间的政策梯度的全球融合以及熵登记的马尔可夫决策过程(MDPS)。我们考虑了在平均场状态下具有(单隐层)神经网络近似(一层)神经网络近似的策略。添加了相关的平均场概率度量中的其他熵正则化,并在2-Wasserstein度量中研究了相应的梯度流。我们表明,目标函数正在沿梯度流量增加。此外,我们证明,如果按平均场测量的正则化足够,则梯度流将成倍收敛到唯一的固定溶液,这是正则化MDP物镜的独特最大化器。最后,我们研究了相对于正则参数和初始条件,沿梯度流的值函数的灵敏度。我们的结果依赖于对非线性Fokker-Planck-Kolmogorov方程的仔细分析,并扩展了Mei等人的开拓性工作。 2020和Agarwal等。 2020年,量化表格环境中熵调控MDP的策略梯度的全局收敛速率。
translated by 谷歌翻译
轨迹推断旨在从其时间边缘的快照中恢复人群的动态。为了解决这项任务,Lavenant等人引入了相对于路径空间中的Wiener度量的最小渗透估计量。 ARXIV:2102.09204,并显示出从无限尺寸凸优化问题的解决方案中始终如一地恢复大型漂移扩散过程的动力学。在本文中,我们引入了无网算法来计算该估计器。我们的方法包括通过Schr \“ Odinger Bridges耦合的点云家族(每张快照),该桥也随着嘈杂的梯度下降而演变。我们研究了动力学的平均场限制,并证明了其与所需估计量的全局收敛。这导致了一种具有端到端理论保证的推理方法,可以解决轨迹推理的可解释模型。我们还提出了如何调整方法处理质量变化的方法,在处理单个单元RNA序列数据时,这是一个有用的扩展细胞可以分支并死亡。
translated by 谷歌翻译
在本文中,我们将Wiener-Ito混乱分解扩展到扩散过程的类别,其漂移和扩散系数具有线性生长。通过省略混乱扩展中的正交性,我们能够证明,对于[1,\ infty)$中的$ p \ in [1,\ infty)$的每个$ p $积分功能都可以表示为基础过程的迭代积分的总和。使用此扩展的截断和(可能是随机的)神经网络的截断总和,在机器学习设置中学习了参数,我们证明,每个财务衍生物都可以在$ l^p $ sense中任意地近似。此外,可以以封闭形式计算近似财务导数的对冲策略。
translated by 谷歌翻译
深度神经网络和其他现代机器学习模型的培训通常包括解决高维且受大规模数据约束的非凸优化问题。在这里,基于动量的随机优化算法在近年来变得尤其流行。随机性来自数据亚采样,从而降低了计算成本。此外,动量和随机性都应该有助于算法克服当地的最小化器,并希望在全球范围内融合。从理论上讲,这种随机性和动量的结合被糟糕地理解。在这项工作中,我们建议并分析具有动量的随机梯度下降的连续时间模型。该模型是一个分段确定的马尔可夫过程,它通过阻尼不足的动态系统和通过动力学系统的随机切换来代表粒子运动。在我们的分析中,我们研究了长期限制,子采样到无填充采样极限以及动量到非摩托车的限制。我们对随着时间的推移降低动量的情况特别感兴趣:直觉上,动量有助于在算法的初始阶段克服局部最小值,但禁止后来快速收敛到全球最小化器。在凸度的假设下,当降低随时间的动量时,我们显示了动力学系统与全局最小化器的收敛性,并让子采样率转移到无穷大。然后,我们提出了一个稳定的,合成的离散方案,以从我们的连续时间动力学系统中构造算法。在数值实验中,我们研究了我们在凸面和非凸测试问题中的离散方案。此外,我们训练卷积神经网络解决CIFAR-10图像分类问题。在这里,与动量相比,我们的算法与随机梯度下降相比达到了竞争性结果。
translated by 谷歌翻译
We consider the constrained sampling problem where the goal is to sample from a distribution $\pi(x)\propto e^{-f(x)}$ and $x$ is constrained on a convex body $\mathcal{C}\subset \mathbb{R}^d$. Motivated by penalty methods from optimization, we propose penalized Langevin Dynamics (PLD) and penalized Hamiltonian Monte Carlo (PHMC) that convert the constrained sampling problem into an unconstrained one by introducing a penalty function for constraint violations. When $f$ is smooth and the gradient is available, we show $\tilde{\mathcal{O}}(d/\varepsilon^{10})$ iteration complexity for PLD to sample the target up to an $\varepsilon$-error where the error is measured in terms of the total variation distance and $\tilde{\mathcal{O}}(\cdot)$ hides some logarithmic factors. For PHMC, we improve this result to $\tilde{\mathcal{O}}(\sqrt{d}/\varepsilon^{7})$ when the Hessian of $f$ is Lipschitz and the boundary of $\mathcal{C}$ is sufficiently smooth. To our knowledge, these are the first convergence rate results for Hamiltonian Monte Carlo methods in the constrained sampling setting that can handle non-convex $f$ and can provide guarantees with the best dimension dependency among existing methods with deterministic gradients. We then consider the setting where unbiased stochastic gradients are available. We propose PSGLD and PSGHMC that can handle stochastic gradients without Metropolis-Hasting correction steps. When $f$ is strongly convex and smooth, we obtain an iteration complexity of $\tilde{\mathcal{O}}(d/\varepsilon^{18})$ and $\tilde{\mathcal{O}}(d\sqrt{d}/\varepsilon^{39})$ respectively in the 2-Wasserstein distance. For the more general case, when $f$ is smooth and non-convex, we also provide finite-time performance bounds and iteration complexity results. Finally, we test our algorithms on Bayesian LASSO regression and Bayesian constrained deep learning problems.
translated by 谷歌翻译
We introduce and study a novel model-selection strategy for Bayesian learning, based on optimal transport, along with its associated predictive posterior law: the Wasserstein population barycenter of the posterior law over models. We first show how this estimator, termed Bayesian Wasserstein barycenter (BWB), arises naturally in a general, parameter-free Bayesian model-selection framework, when the considered Bayesian risk is the Wasserstein distance. Examples are given, illustrating how the BWB extends some classic parametric and non-parametric selection strategies. Furthermore, we also provide explicit conditions granting the existence and statistical consistency of the BWB, and discuss some of its general and specific properties, providing insights into its advantages compared to usual choices, such as the model average estimator. Finally, we illustrate how this estimator can be computed using the stochastic gradient descent (SGD) algorithm in Wasserstein space introduced in a companion paper arXiv:2201.04232v2 [math.OC], and provide a numerical example for experimental validation of the proposed method.
translated by 谷歌翻译
我们调查了一定类别的功能不等式,称为弱Poincar的不等式,以使Markov链的收敛性与均衡相结合。我们表明,这使得SubGoom测量收敛界的直接和透明的推导出用于独立的Metropolis - Hastings采样器和用于棘手似然性的伪边缘方法,后者在许多实际设置中是子表芯。这些结果依赖于马尔可夫链之间的新量化比较定理。相关证据比依赖于漂移/较小化条件的证据更简单,并且所开发的工具允许我们恢复并进一步延长特定情况的已知结果。我们能够为伪边缘算法的实际使用提供新的见解,分析平均近似贝叶斯计算(ABC)的效果以及独立平均值的产品,以及研究与之相关的逻辑重量的情况粒子边缘大都市 - 黑斯廷斯(PMMH)。
translated by 谷歌翻译