In this work, we propose a novel framework for estimating the dimension of the data manifold using a trained diffusion model. A trained diffusion model approximates the gradient of the log density of a noise-corrupted version of the target distribution for varying levels of corruption. If the data concentrates around a manifold embedded in the high-dimensional ambient space, then as the level of corruption decreases, the score function points towards the manifold, as this direction becomes the direction of maximum likelihood increase. Therefore, for small levels of corruption, the diffusion model provides us with access to an approximation of the normal bundle of the data manifold. This allows us to estimate the dimension of the tangent space, thus, the intrinsic dimension of the data manifold. Our method outperforms linear methods for dimensionality detection such as PPCA in controlled experiments.
translated by 谷歌翻译
扩散模型已成为深层生成建模的最有希望的框架之一。在这项工作中,我们探讨了不均匀扩散模型的潜力。我们表明,非均匀扩散会导致多尺度扩散模型,这些模型与多尺度归一化流的结构相似。我们从实验上发现,在相同或更少的训练时间中,多尺度扩散模型比标准均匀扩散模型获得更好的FID得分。更重要的是,它生成样品$ 4.4 $ 4.4美元的$ 4.4 $ $ 128 \ times 128 $分辨率。在使用更多量表的较高分辨率中,预计加速度将更高。此外,我们表明,不均匀的扩散导致有条件得分函数的新估计量,该估计函数以最新的条件降解估计量以PAR性能达到了PAR性能。我们的理论和实验性发现伴随着开源库MSDIFF,可以促进对非均匀扩散模型的进一步研究。
translated by 谷歌翻译
基于得分的扩散模型已成为深度生成型号最有前途的框架之一。在这项工作中,我们对基于得分的扩散模型进行了学习条件概率分布的不同方法的系统比较和理论分析。特别是,我们证明了结果为条件分数最成功的估算之一提供了理论典范。此外,我们引入了多速扩散框架,这导致了一个新的估算器,用于条件得分,与先前的最先进的方法相提并论。我们的理论和实验结果伴随着开源库MSDIFF,允许应用和进一步研究多速扩散模型。
translated by 谷歌翻译
扩散模型的最新进展带来了图像生成任务的最新性能。然而,扩散模型的先前研究的经验结果意味着密度估计与样品产生性能之间存在逆相关性。本文研究了足够的经验证据,表明这种反相关发生,因为密度估计值显着造成了较小的扩散时间的贡献,而样品产生主要取决于大扩散时间。但是,在整个扩散时间内训练得分网络良好,因为损耗量表在每个扩散时间都显着不平衡。因此,为了成功训练,我们引入了软截断,这是一种普遍适用的扩散模型训练技术,将固定和静态截断的超参数软化为随机变量。在实验中,软截断可在CIFAR-10,Celeba,Celeba-HQ 256X256和STL-10数据集上实现最先进的性能。
translated by 谷歌翻译
Denoising diffusions are state-of-the-art generative models which exhibit remarkable empirical performance and come with theoretical guarantees. The core idea of these models is to progressively transform the empirical data distribution into a simple Gaussian distribution by adding noise using a diffusion. We obtain new samples whose distribution is close to the data distribution by simulating a "denoising" diffusion approximating the time reversal of this "noising" diffusion. This denoising diffusion relies on approximations of the logarithmic derivatives of the noised data densities, known as scores, obtained using score matching. Such models can be easily extended to perform approximate posterior simulation in high-dimensional scenarios where one can only sample from the prior and simulate synthetic observations from the likelihood. These methods have been primarily developed for data on $\mathbb{R}^d$ while extensions to more general spaces have been developed on a case-by-case basis. We propose here a general framework which not only unifies and generalizes this approach to a wide class of spaces but also leads to an original extension of score matching. We illustrate the resulting class of denoising Markov models on various applications.
translated by 谷歌翻译
在连续时间域上表示为随机微分方程的基于扩散的方法最近已证明是一种非对抗性生成模型。培训此类模型依赖于denoising得分匹配,可以将其视为多尺度的Denoising自动编码器。在这里,我们扩大了Denoising分数匹配框架,以实现表示无监督信号的表示。 GAN和VAE通过将潜在代码直接转换为数据样本来学习表示形式。相比之下,引入的基于扩散的表示学习依赖于Denoisising分数匹配目标的新公式,因此编码了DeNoising所需的信息。我们说明了这种差异如何允许对表示中编码的细节级别进行手动控制。使用相同的方法,我们建议学习无限维度的潜在代码,该代码可在半监督图像分类中改善最先进的模型。我们还将扩散评分匹配的学术表示表示与自动编码器等其他方法的质量进行比较,并通过其在下游任务上的性能进行对比训练的系统。
translated by 谷歌翻译
我们定义了更广泛的腐败过程,该过程概括了先前已知的扩散模型。为了扭转这些一般的扩散,我们提出了一个称为“软得分匹配”的新目标,可以证明可以学习任何线性腐败过程的得分功能,并为Celeba提供最先进的结果。软得分匹配结合了网络中的降解过程,并训练模型以预测腐败与扩散观察相匹配的干净图像。我们表明,我们的目标在适当的规律性条件下为腐败过程的家庭学习了可能性的梯度。我们进一步开发了一种原则性的方法,以选择一般扩散过程的损坏水平和一种我们称为动量采样器的新型抽样方法。我们评估了我们的框架,腐败是高斯模糊和低幅度添加噪声。我们的方法在Celeba-64上获得了最先进的FID得分$ 1.85 $,表现优于所有以前的线性扩散模型。与香草deno的扩散相比,我们还显示出显着的计算益处。
translated by 谷歌翻译
扩散模型显示出令人难以置信的能力作为生成模型。实际上,它们为文本条件形成的图像生成(例如Imagen和dall-e2)提供了当前最新模型的启动基于观点。我们首先推导了变异扩散模型(VDM)作为马尔可夫分层变异自动编码器的特殊情况,其中三个关键假设可实现ELBO的可拖动计算和可扩展的优化。然后,我们证明,优化VDM归结为学习神经网络以预测三个潜在目标之一:来自任何任意噪声的原始源输入,任何任意噪声输入的原始源噪声或噪声的得分函数输入任何任意噪声水平。然后,我们更深入地研究学习分数函数的含义,并将扩散模型的变异透视图与通过Tweedie的公式明确地与基于得分的生成建模的角度联系起来。最后,我们涵盖了如何通过指导使用扩散模型学习条件分布的方法。
translated by 谷歌翻译
扩散(基于得分)生成模型已被广泛用于建模各种类型的复杂数据,包括图像,音频和点云。最近,已经揭示了前向后的随机微分方程(SDE)和基于扩散的模型之间的深厚连接,并提出了几种新的SDE变体(例如,Sub-VP,批判性抑制的Langevin)。尽管手工制作的固定前进SDE取得了经验成功,但仍未探索大量适当的正向SDE。在这项工作中,我们提出了一个通用框架,用于参数化扩散模型,尤其是正向SDE的空间部分。引入了一种抽象的形式主义,并具有理论保证,并且它与以前的扩散模型的联系得到了利用。我们从优化的角度展示了我们方法的理论优势。还提出了关于合成数据集,矿工和CIFAR10的数值实验,以验证我们框架的有效性。
translated by 谷歌翻译
基于分数的生成模型在发电质量和可能性方面具有出色的性能。他们通过将参数化的分数网络与一阶数据得分功能匹配来建模数据分布。分数网络可用于定义ODE(“基于得分的扩散ode”),以进行精确的似然评估。但是,颂歌的可能性与得分匹配目标之间的关系尚不清楚。在这项工作中,我们证明,匹配一阶得分不足以通过在最大可能性和分数匹配目标之间显示差距来最大化ode的可能性。为了填补这一空白,我们表明,可以通过控制第一,第二和三阶得分匹配错误来界定颂歌的负可能性;我们进一步提出了一种新型的高阶denoising评分匹配方法,以实现基于得分的扩散ODE的最大似然训练。我们的算法确保高阶匹配误差受训练错误和较低级错误的限制。我们从经验上观察到,通过高阶匹配,基于得分的扩散频率在合成数据和CIFAR-10上都具有更好的可能性,同时保留了高生成质量。
translated by 谷歌翻译
尽管存在扩散模型的各种变化,但将线性扩散扩散到非线性扩散过程中仅由几项作品研究。非线性效应几乎没有被理解,但是直觉上,将有更多有希望的扩散模式来最佳地训练生成分布向数据分布。本文介绍了基于分数扩散模型的数据自适应和非线性扩散过程。提出的隐式非线性扩散模型(INDM)通过结合归一化流量和扩散过程来学习非线性扩散过程。具体而言,INDM通过通过流网络利用\ textIt {litex {litex {littent Space}的线性扩散来隐式构建\ textIt {data Space}的非线性扩散。由于非线性完全取决于流网络,因此该流网络是形成非线性扩散的关键。这种灵活的非线性是针对DDPM ++的非MLE训练,将INDM的学习曲线提高到了几乎最大的似然估计(MLE)训练,事实证明,这是具有身份流量的INDM的特殊情况。同样,训练非线性扩散可以通过离散的步骤大小产生采样鲁棒性。在实验中,INDM实现了Celeba的最新FID。
translated by 谷歌翻译
DeNoising扩散模型代表了计算机视觉中最新的主题,在生成建模领域表现出了显着的结果。扩散模型是一个基于两个阶段的深层生成模型,一个正向扩散阶段和反向扩散阶段。在正向扩散阶段,通过添加高斯噪声,输入数据在几个步骤中逐渐受到干扰。在反向阶段,模型的任务是通过学习逐步逆转扩散过程来恢复原始输入数据。尽管已知的计算负担,即由于采样过程中涉及的步骤数量,扩散模型对生成样品的质量和多样性得到了广泛赞赏。在这项调查中,我们对视觉中应用的denoising扩散模型的文章进行了全面综述,包括该领域的理论和实际贡献。首先,我们识别并介绍了三个通用扩散建模框架,这些框架基于扩散概率模型,噪声调节得分网络和随机微分方程。我们进一步讨论了扩散模型与其他深层生成模型之间的关系,包括变异自动编码器,生成对抗网络,基于能量的模型,自回归模型和正常流量。然后,我们介绍了计算机视觉中应用的扩散模型的多角度分类。最后,我们说明了扩散模型的当前局限性,并设想了一些有趣的未来研究方向。
translated by 谷歌翻译
Score-based modeling through stochastic differential equations (SDEs) has provided a new perspective on diffusion models, and demonstrated superior performance on continuous data. However, the gradient of the log-likelihood function, i.e., the score function, is not properly defined for discrete spaces. This makes it non-trivial to adapt \textcolor{\cdiff}{the score-based modeling} to categorical data. In this paper, we extend diffusion models to discrete variables by introducing a stochastic jump process where the reverse process denoises via a continuous-time Markov chain. This formulation admits an analytical simulation during backward sampling. To learn the reverse process, we extend score matching to general categorical data and show that an unbiased estimator can be obtained via simple matching of the conditional marginal distributions. We demonstrate the effectiveness of the proposed method on a set of synthetic and real-world music and image benchmarks.
translated by 谷歌翻译
由于其高质量的重建以及将现有迭代求解器结合起来的易于性,因此最近将扩散模型作为强大的生成反问题解决器研究。但是,大多数工作都专注于在无噪声设置中解决简单的线性逆问题,这显着不足以使实际问题的复杂性不足。在这项工作中,我们将扩散求解器扩展求解器,以通过后采样的拉普拉斯近似有效地处理一般噪声(非)线性反问题。有趣的是,所得的后验采样方案是扩散采样的混合版本,具有歧管约束梯度,而没有严格的测量一致性投影步骤,与先前的研究相比,在嘈杂的设置中产生了更可取的生成路径。我们的方法表明,扩散模型可以结合各种测量噪声统计量,例如高斯和泊松,并且还有效处理嘈杂的非线性反问题,例如傅立叶相检索和不均匀的脱毛。
translated by 谷歌翻译
基于分数的生成模型(SGMS)已经证明了显着的合成质量。 SGMS依赖于扩散过程,逐渐将数据逐渐渗透到贸易分布,而生成式模型则学会去噪。除了数据分布本身,这种去噪任务的复杂性是由扩散过程独特地确定的。我们认为当前的SGMS采用过于简单的扩散,导致不必要的复杂的去噪流程,限制了生成的建模性能。根据与统计力学的联系,我们提出了一种新型危及阻尼Langevin扩散(CLD),并表明基于CLD的SGMS实现了优异的性能。 CLD可以被解释为在扩展空间中运行关节扩散,其中辅助变量可以被视为耦合到数据变量的“速度”,如Hamiltonian动态。我们推导了一种用于CLD的小说得分匹配目标,并表明该模型仅需要了解给定数据的速度分布的条件分布的得分函数,而不是直接学习数据的分数。我们还导出了一种新的采样方案,用于从基于CLD的扩散模型有效合成。我们发现CLD在类似的网络架构和采样计算预算中优于综合质量的先前SGM。我们展示我们的CLD的新型采样器显着优于欧拉 - 玛雅山等求解器。我们的框架为基于刻痕的去噪扩散模型提供了新的见解,并且可以随时用于高分辨率图像合成。项目页面和代码:https://nv-tlabs.github.io/cld-sgm。
translated by 谷歌翻译
基于分数的生成模型(SGM)需要近似中间分布的分数$ \ nabla \ log p_t $以及前进过程的最终分布$ p_t $。这些近似值的理论基础仍然缺乏。我们发现SGM能够从基础(低维)数据歧管$ \ MATHCAL {M} $中产生样本的精确条件。这确保我们能够生成“正确的样本”。例如,以$ \ mathcal {m} $作为面部图像的子集,我们发现SGM稳健产生面部图像的条件,即使这些图像的相对频率可能无法准确表示真实数据生成分布。此外,该分析是了解SGMS的概括属性的第一步:采用$ \ Mathcal {M} $作为所有培训样本的集合,我们的结果提供了SGM何时记住其培训数据的精确描述。
translated by 谷歌翻译
过去十年已经开发了各种各样的深度生成模型。然而,这些模型通常同时努力解决三个关键要求,包括:高样本质量,模式覆盖和快速采样。我们称之为这些要求所征收的挑战是生成的学习Trielemma,因为现有模型经常为他人交易其中一些。特别是,去噪扩散模型表明了令人印象深刻的样本质量和多样性,但它们昂贵的采样尚未允许它们在许多现实世界应用中应用。在本文中,我们认为这些模型中的缓慢采样基本上归因于去噪步骤中的高斯假设,这些假设仅针对小型尺寸的尺寸。为了使得具有大步骤的去噪,从而减少去噪步骤的总数,我们建议使用复杂的多模态分布来模拟去噪分布。我们引入了去噪扩散生成的对抗网络(去噪扩散GANS),其使用多模式条件GaN模拟每个去噪步骤。通过广泛的评估,我们表明去噪扩散GAN获得原始扩散模型的样本质量和多样性,而在CIFAR-10数据集中是2000 $ \时代。与传统的GAN相比,我们的模型表现出更好的模式覆盖和样本多样性。据我们所知,去噪扩散GaN是第一模型,可在扩散模型中降低采样成本,以便允许它们廉价地应用于现实世界应用。项目页面和代码:https://nvlabs.github.io/denoising-diffusion-gan
translated by 谷歌翻译
基于分数的模型研究在过去几年中通过采用高斯去噪得分匹配(DSM)产生了艺术生成模型的状态。然而,高斯噪声假设具有几个高维限制,使未来甚至更高维度PDF估计的促进更具体的路线。在将理论扩展到更广泛的声音分布的情况下,我们概述了这一限制 - 即,广义正常分布。在理论上,我们可以在(去噪)得分匹配理论中放宽一个关键假设,展示了差异化的分布{几乎无处不在}允许与高斯同样的客观简化。对于噪声矢量长度分布,我们在深度学习中普遍存在的高维空间中的衡量标准的有利集中。在该过程中,我们发现偏斜噪声矢量长度分布,并开发迭代噪声缩放算法,以一致地初始化退火的Langevin动态中的多级噪声。在实践方面,我们使用重尾DSM导致分数估计,可控采样融合,更平衡的不规则的无条件生成性能,对不平衡数据集进行更高。
translated by 谷歌翻译
We show that diffusion models can achieve image sample quality superior to the current state-of-the-art generative models. We achieve this on unconditional image synthesis by finding a better architecture through a series of ablations. For conditional image synthesis, we further improve sample quality with classifier guidance: a simple, compute-efficient method for trading off diversity for fidelity using gradients from a classifier. We achieve an FID of 2.97 on ImageNet 128×128, 4.59 on ImageNet 256×256, and 7.72 on ImageNet 512×512, and we match BigGAN-deep even with as few as 25 forward passes per sample, all while maintaining better coverage of the distribution. Finally, we find that classifier guidance combines well with upsampling diffusion models, further improving FID to 3.94 on ImageNet 256×256 and 3.85 on ImageNet 512×512. We release our code at https://github.com/openai/guided-diffusion.
translated by 谷歌翻译
扩散模型是图像产生和似然估计的最新方法。在这项工作中,我们将连续的时间扩散模型推广到任意的Riemannian流形,并得出了可能性估计的变异框架。在计算上,我们提出了计算可能性估计中需要的黎曼分歧的新方法。此外,在概括欧几里得案例时,我们证明,最大化该变异的下限等效于Riemannian得分匹配。从经验上讲,我们证明了Riemannian扩散模型在各种光滑的歧管上的表达能力,例如球体,Tori,双曲线和正交组。我们提出的方法在所有基准测试基准上实现了新的最先进的可能性。
translated by 谷歌翻译