Score-based generative models are shown to achieve remarkable empirical performances in various applications such as image generation and audio synthesis. However, a theoretical understanding of score-based diffusion models is still incomplete. Recently, Song et al. showed that the training objective of score-based generative models is equivalent to minimizing the Kullback-Leibler divergence of the generated distribution from the data distribution. In this work, we show that score-based models also minimize the Wasserstein distance between them under suitable assumptions on the model. Specifically, we prove that the Wasserstein distance is upper bounded by the square root of the objective function up to multiplicative constants and a fixed constant offset. Our proof is based on a novel application of the theory of optimal transport, which can be of independent interest to the society. Our numerical experiments support our findings. By analyzing our upper bounds, we provide a few techniques to obtain tighter upper bounds.
translated by 谷歌翻译
基于分数的生成建模(SGM)是一种从数据中学习概率分布并生成更多样本的非常成功的方法。我们证明了SGM背后的核心机械师的第一个多项式收敛保证:从概率密度$ p $中绘制样品估计(估计为$ \ nabla \ ln p $),该样本在$ l^2(p)中是准确的$。与以前的作品相比,我们不会产生误差,该错误会在时间上成倍增长或受到维度诅咒的影响。我们的保证对任何平滑分布都有效,并在多个一级取决于其对数sobolev常数。使用我们的保证,我们对基于分数的生成建模进行了理论分析,该模型将白色噪声输入转换为从不同噪声量表下得分估计的学习数据分布的样品。我们的分析将理论上的基础奠定了这样的观察,即在实践中需要进行退火,以生成好样品,因为我们的证明基本上取决于使用退火以在每个步骤中获得温暖的开始。此外,我们表明,与单独使用任何一部分相比,预测器 - 校正算法给出了更好的收敛性。
translated by 谷歌翻译
我们为不依赖数据分布满足功能不平等的数据分布或强烈的平滑度假设提供了多项式收敛保证。假设有$ l^2 $准确的分数估计,我们可以为任何有限支撑或足够衰减的尾巴的分布获得Wasserstein距离保证,以及具有进一步平滑度假设的电视保证。
translated by 谷歌翻译
Denoisis扩散模型是最近在图像和音频合成中表现出最新性能的生成模型。这样的模型近似从目标分布到参考密度(通常是高斯)的正向噪声过程的时间反转。尽管有很强的经验结果,但对此类模型的理论分析仍然有限。特别是,所有当前方法都至关重要地假设目标密度允许密度W.R.T.Lebesgue度量。这不涵盖在较低维歧管上支持目标分布或通过某些经验分布给出的设置。在本文中,我们通过在更通用的环境中为扩散模型提供第一个收敛结果来弥合这一差距。特别是,我们在目标数据分布与扩散模型的生成分布之间的订单距离距离距离范围距离上提供了定量界限。
translated by 谷歌翻译
变性推理(VI)为基于传统的采样方法提供了一种吸引人的替代方法,用于实施贝叶斯推断,因为其概念性的简单性,统计准确性和计算可扩展性。然而,常见的变分近似方案(例如平均场(MF)近似)需要某些共轭结构以促进有效的计算,这可能会增加不必要的限制对可行的先验分布家族,并对变异近似族对差异进行进一步的限制。在这项工作中,我们开发了一个通用计算框架,用于实施MF-VI VIA WASSERSTEIN梯度流(WGF),这是概率度量空间上的梯度流。当专门针对贝叶斯潜在变量模型时,我们将分析基于时间消化的WGF交替最小化方案的算法收敛,用于实现MF近似。特别是,所提出的算法类似于EM算法的分布版本,包括更新潜在变量变异分布的E step以及在参数的变异分布上进行最陡峭下降的m step。我们的理论分析依赖于概率度量空间中的最佳运输理论和细分微积分。我们证明了时间限制的WGF的指数收敛性,以最大程度地减少普通大地测量学严格的凸度的通用物镜功能。我们还提供了通过使用时间限制的WGF的固定点方程从MF近似获得的变异分布的指数收缩的新证明。我们将方法和理论应用于两个经典的贝叶斯潜在变量模型,即高斯混合模型和回归模型的混合物。还进行了数值实验,以补充这两个模型下的理论发现。
translated by 谷歌翻译
Score-based generative models learn a family of noise-conditional score functions corresponding to the data density perturbed with increasingly large amounts of noise. These perturbed data densities are tied together by the Fokker-Planck equation (FPE), a PDE governing the spatial-temporal evolution of a density undergoing a diffusion process. In this work, we derive a corresponding equation characterizing the noise-conditional scores of the perturbed data densities (i.e., their gradients), termed the score FPE. Surprisingly, despite impressive empirical performance, we observe that scores learned via denoising score matching (DSM) do not satisfy the underlying score FPE. We mathematically analyze three implications of satisfying the score FPE and a potential explanation for why the score FPE is not satisfied in practice. At last, we propose to regularize the DSM objective to enforce satisfaction of the score FPE, and show its effectiveness on synthetic data and MNIST.
translated by 谷歌翻译
我们为基于分数的生成模型(SGM)(例如Denoising扩散概率模型(DDPM))提供理论收敛保证,该模型构成了大型现实世界中生成模型的骨干,例如DALL $ \ cdot $ E2。我们的主要结果是,假设有准确的分数估计值,此类SGM可以从本质上有效地从任何现实的数据分布中进行采样。与先前的作品相反,我们的结果(1)以$ l^2 $准确的分数估算(而不是$ l^\ infty $ -CACCRATE)保持; (2)不需要限制性的功能不平等条件,而这些条件排除了实质性的非con虫; (3)在所有相关问题参数中刻度缩放; (4)匹配兰格文扩散离散的最新复杂性保证,前提是得分误差足够小。我们认为这是SGM的经验成功的强有力理论理由。我们还基于严重阻尼的Langevin扩散(CLD)检查SGM。与传统的观点相反,我们提供了证据,表明CLD的使用不会降低SGM的复杂性。
translated by 谷歌翻译
The modeling of probability distributions, specifically generative modeling and density estimation, has become an immensely popular subject in recent years by virtue of its outstanding performance on sophisticated data such as images and texts. Nevertheless, a theoretical understanding of its success is still incomplete. One mystery is the paradox between memorization and generalization: In theory, the model is trained to be exactly the same as the empirical distribution of the finite samples, whereas in practice, the trained model can generate new samples or estimate the likelihood of unseen samples. Likewise, the overwhelming diversity of distribution learning models calls for a unified perspective on this subject. This paper provides a mathematical framework such that all the well-known models can be derived based on simple principles. To demonstrate its efficacy, we present a survey of our results on the approximation error, training error and generalization error of these models, which can all be established based on this framework. In particular, the aforementioned paradox is resolved by proving that these models enjoy implicit regularization during training, so that the generalization error at early-stopping avoids the curse of dimensionality. Furthermore, we provide some new results on landscape analysis and the mode collapse phenomenon.
translated by 谷歌翻译
Deep generative models parametrized up to a normalizing constant (e.g. energy-based models) are difficult to train by maximizing the likelihood of the data because the likelihood and/or gradients thereof cannot be explicitly or efficiently written down. Score matching is a training method, whereby instead of fitting the likelihood $\log p(x)$ for the training data, we instead fit the score function $\nabla_x \log p(x)$ -- obviating the need to evaluate the partition function. Though this estimator is known to be consistent, its unclear whether (and when) its statistical efficiency is comparable to that of maximum likelihood -- which is known to be (asymptotically) optimal. We initiate this line of inquiry in this paper, and show a tight connection between statistical efficiency of score matching and the isoperimetric properties of the distribution being estimated -- i.e. the Poincar\'e, log-Sobolev and isoperimetric constant -- quantities which govern the mixing time of Markov processes like Langevin dynamics. Roughly, we show that the score matching estimator is statistically comparable to the maximum likelihood when the distribution has a small isoperimetric constant. Conversely, if the distribution has a large isoperimetric constant -- even for simple families of distributions like exponential families with rich enough sufficient statistics -- score matching will be substantially less efficient than maximum likelihood. We suitably formalize these results both in the finite sample regime, and in the asymptotic regime. Finally, we identify a direct parallel in the discrete setting, where we connect the statistical properties of pseudolikelihood estimation with approximate tensorization of entropy and the Glauber dynamics.
translated by 谷歌翻译
我们为随机梯度Langevin Dynamics(SGLD)建立了一个急剧的均匀误差估计,该算法是一种流行的采样算法。在温和的假设下,我们获得了一个均匀的$ o(\ eta^2)$,限制了SGLD迭代与langevin扩散之间的KL差异,其中$ \ eta $是步骤尺寸(或学习率)。我们的分析也适用于不同的步骤尺寸。基于此,我们能够以wasserstein或总变异距离来获得SGLD迭代和Langevin扩散不变分布之间的距离的$ O(\ eta)$。
translated by 谷歌翻译
连续时间扩散过程的离散化是一种广泛认可的采样方法。然而,当通常需要平滑(梯度Lipschitz)时,似乎是一个相当大的限制。本文研究了通过欧拉离散化进行采样的问题,其中潜在的功能被认为是弱平滑分布的混合物,满足弱耗散。我们在Kullback-Leibler(KL)发散中建立了迭代的趋势,以达到$ \ epsilon $ - 仅在维度上的多项式依赖性的目标分布。我们在放松\citet{}erdogdu2020convergence无穷条件退化凸和庞加莱下证明收敛担保\'{E}不平等或不强烈外凸球。此外,我们还提供了$ l _ {\ beta} $ - Wasserstein度量的融合,用于平滑潜力。
translated by 谷歌翻译
We study the uniform-in-time propagation of chaos for mean field Langevin dynamics with convex mean field potenital. Convergences in both Wasserstein-$2$ distance and relative entropy are established. We do not require the mean field potenital functional to bear either small mean field interaction or displacement convexity, which are common constraints in the literature. In particular, it allows us to study the efficiency of the noisy gradient descent algorithm for training two-layer neural networks.
translated by 谷歌翻译
逐步应用高斯噪声将复杂的数据分布转换为大约高斯。逆转此动态定义了一种生成模型。当前进通知过程由随机微分方程(SDE),Song等人提供。 (2021)证明可以使用分数匹配估计相关反向时间SDE的时间不均匀漂移。这种方法的限制是必须在最终分布到高斯的最终分布必须运行前进时间SDE。相反,解决Schr \“odinger桥问题(SB),即路径空间上的熵正常化的最佳运输问题,产生从有限时间内从数据分布产生样本的扩散。我们存在扩散SB(DSB),原始近似迭代比例拟合(IPF)程序来解决SB问题,并提供理论分析以及生成建模实验。第一个DSB迭代恢复Song等人提出的方法。(2021),使用较短时间的灵活性间隔,随后的DSB迭代减少了前进(RESP。后向)SDE的最终时间边际之间的差异,相对于先前(RESP。数据)分布。除了生成的建模之外,DSB提供了广泛适用的计算最优运输工具流行池算法的连续状态空间模拟(Cuturi,2013)。
translated by 谷歌翻译
We consider the constrained sampling problem where the goal is to sample from a distribution $\pi(x)\propto e^{-f(x)}$ and $x$ is constrained on a convex body $\mathcal{C}\subset \mathbb{R}^d$. Motivated by penalty methods from optimization, we propose penalized Langevin Dynamics (PLD) and penalized Hamiltonian Monte Carlo (PHMC) that convert the constrained sampling problem into an unconstrained one by introducing a penalty function for constraint violations. When $f$ is smooth and the gradient is available, we show $\tilde{\mathcal{O}}(d/\varepsilon^{10})$ iteration complexity for PLD to sample the target up to an $\varepsilon$-error where the error is measured in terms of the total variation distance and $\tilde{\mathcal{O}}(\cdot)$ hides some logarithmic factors. For PHMC, we improve this result to $\tilde{\mathcal{O}}(\sqrt{d}/\varepsilon^{7})$ when the Hessian of $f$ is Lipschitz and the boundary of $\mathcal{C}$ is sufficiently smooth. To our knowledge, these are the first convergence rate results for Hamiltonian Monte Carlo methods in the constrained sampling setting that can handle non-convex $f$ and can provide guarantees with the best dimension dependency among existing methods with deterministic gradients. We then consider the setting where unbiased stochastic gradients are available. We propose PSGLD and PSGHMC that can handle stochastic gradients without Metropolis-Hasting correction steps. When $f$ is strongly convex and smooth, we obtain an iteration complexity of $\tilde{\mathcal{O}}(d/\varepsilon^{18})$ and $\tilde{\mathcal{O}}(d\sqrt{d}/\varepsilon^{39})$ respectively in the 2-Wasserstein distance. For the more general case, when $f$ is smooth and non-convex, we also provide finite-time performance bounds and iteration complexity results. Finally, we test our algorithms on Bayesian LASSO regression and Bayesian constrained deep learning problems.
translated by 谷歌翻译
我们为随机梯度Langevin动态(SGLD)建立了泛化误差界,在耗散度和平滑度的假设下,在采样/优化文献中得到了增加的环境。与非凸面设置中的SGLD的现有范围不同,由于样本大小的增加,我们的SGLD与SGL的界限不同,并且随着样本量的增加而衰减至零。利用均匀稳定性框架,我们通过利用Langevin扩散的Wasserstein收缩属性来建立无关的界限,这也允许我们规避需要使用LipsChitz的假设来绑定渐变的渐变。我们的分析还支持使用不同离散化方法的SGLD的变体,包括欧几里德投影,或使用非各向同性噪声。
translated by 谷歌翻译
Fokker-Planck方程(FPE)是控制IT \^o过程密度演变的部分微分方程,并且对统计物理学和机器学习的文献非常重要。 FPE可以被视为连续性方程,其中密度的变化完全由时间变化的速度场决定。重要的是,此速度场也取决于当前密度函数。结果,可以证明地面真相速度字段是固定点方程的解决方案,即我们称之为自洽的属性。在本文中,我们利用这一概念来设计假设速度字段的潜在功能,并证明,如果在训练过程中这样的功能减少到零,则假设速度场产生的密度轨迹会收敛到解决方案转化为解决方案。 Wasserstein-2的FPE。所提出的潜在函数可与基于神经网络的参数化相提并论,因为可以有效地计算相对于参数的随机梯度。一旦训练了一个参数化模型,例如神经普通微分方程,我们就可以生成FPE的整个轨迹。
translated by 谷歌翻译
Wasserstein Gans具有梯度惩罚(WGAN-GP)是一种非常流行的方法,用于培训生成模型以产生高质量的合成数据。虽然最初开发了WGAN-GP来计算生成数据和真实数据之间的Wasserstein 1距离,但最近的工作(例如[23])提供了经验证据,表明这没有发生,并认为WGAN-GP表现不佳,尽管没有很好地表现这个问题,但由于此问题。在本文中,我们首次表明WGAN-GP计算了最小的最佳运输问题的最小值,即所谓的拥挤运输[7]。拥挤的运输决定了在惩罚拥塞的运输模型下将一个分配转移到另一种分配的成本。对于WGAN-GP,我们发现拥塞的罚款具有由[12]中使用的采样策略所确定的空间变化的组件,其作用像是局部速度限制,使某些地区的拥塞成本比其他地区少。拥挤的运输问题的这一方面是新的,因为事实证明,拥塞的罚款是无限的,并且取决于要运输的分配,因此我们为这种情况提供了必要的数学证明。我们发现的一个方面是一个公式,将解决方案的梯度连接到WGAN-GP中的优化问题与最佳质量流量的平均动量。这与Wasserstein 1距离Kantorovich电位的梯度相反,Wasserstein 1距离仅是流动的归一化方向。基于此和其他考虑因素,我们推测我们的结果如何解释了观察到的WGAN-GP的性能。除了对gan的应用外,我们的定理还指出,使用神经网络技术大致解决大规模拥堵的运输问题的可能性。
translated by 谷歌翻译
我们研究了有限空间中值的静止随机过程的最佳运输。为了反映潜在流程的实向性,我们限制了对固定联轴器的关注,也称为联系。由此产生的最佳连接问题捕获感兴趣过程的长期平均行为的差异。我们介绍了最优联接的估算和最佳的加入成本,我们建立了温和条件下估算器的一致性。此外,在更强的混合假设下,我们为估计的最佳连接成本建立有限样本误差速率,其延伸了IID案件中的最佳已知结果。最后,我们将一致性和速率分析扩展到最佳加入问题的熵惩罚版本。
translated by 谷歌翻译
在概率密度范围内相对于Wassersein度量的空间的梯度流程通常具有很好的特性,并且已在几种机器学习应用中使用。计算Wasserstein梯度流量的标准方法是有限差异,使网格上的基础空间离散,并且不可扩展。在这项工作中,我们提出了一种可扩展的近端梯度型算法,用于Wassersein梯度流。我们的方法的关键是目标函数的变分形式,这使得可以通过引流 - 双重优化实现JKO近端地图。可以通过替代地更新内部和外环中的参数来有效地解决该原始问题。我们的框架涵盖了包括热方程和多孔介质方程的所有经典Wasserstein梯度流。我们展示了若干数值示例的算法的性能和可扩展性。
translated by 谷歌翻译
基于分数的生成模型在发电质量和可能性方面具有出色的性能。他们通过将参数化的分数网络与一阶数据得分功能匹配来建模数据分布。分数网络可用于定义ODE(“基于得分的扩散ode”),以进行精确的似然评估。但是,颂歌的可能性与得分匹配目标之间的关系尚不清楚。在这项工作中,我们证明,匹配一阶得分不足以通过在最大可能性和分数匹配目标之间显示差距来最大化ode的可能性。为了填补这一空白,我们表明,可以通过控制第一,第二和三阶得分匹配错误来界定颂歌的负可能性;我们进一步提出了一种新型的高阶denoising评分匹配方法,以实现基于得分的扩散ODE的最大似然训练。我们的算法确保高阶匹配误差受训练错误和较低级错误的限制。我们从经验上观察到,通过高阶匹配,基于得分的扩散频率在合成数据和CIFAR-10上都具有更好的可能性,同时保留了高生成质量。
translated by 谷歌翻译