我们的目标是将denoisis扩散隐式模型(DDIM)扩展到一般扩散模型〜(DMS)。我们没有像原始DDIM论文那样构建非马尔科夫no噪声过程,而是从数值的角度研究了DDIM的机制。我们发现,在求解相应的随机微分方程时,可以通过使用分数的一些特定近似值来获得DDIM。我们提出了DDIM加速效应的解释,该解释还解释了确定性抽样方案的优势,而不是随机采样方案进行快速采样。在此洞察力的基础上,我们将DDIM扩展到一般的DMS,并在参数化分数网络时进行了小而微妙的修改。当应用于批判性抑制的Langevin扩散模型时,最近提出的一种新型的扩散模型通过以速度增强扩散过程,我们的算法在CIFAR10上达到了2.28的FID分数,仅具有50个数量的得分功能评估(NFES)(NFES〜(NFES) )和仅有27个NFE的FID分数为2.87,比所有具有相同NFE的现有方法要好。代码可从https://github.com/qsh-zh/gddim获得
translated by 谷歌翻译
过去的几年见证了扩散模型〜(DMS)在生成建模任务中生成高保真样本方面取得的巨大成功。 DM的主要局限性是其臭名昭著的缓慢采样程序,通常需要数百到数千至数千个的时间离散步骤,以达到所需的准确性。我们的目标是为DMS开发快速采样方法,该方法的步骤少得多,同时保留了高样本质量。为此,我们系统地分析了DMS中的采样程序,并确定影响样本质量的关键因素,其中离散化方法至关重要。通过仔细检查学习的扩散过程,我们提出了扩散指数积分取样器〜(DEIS)。它基于设计用于离散的普通微分方程(ODE)的指数积分器,并利用学习扩散过程的半线性结构来减少离散误差。所提出的方法可以应用于任何DMS,并可以在短短10个步骤中生成高保真样本。在我们的实验中,一个A6000 GPU大约需要3分钟才能从CIFAR10产生$ 50K $的图像。此外,通过直接使用预训练的DMS,当得分函数评估的数量〜(NFE)的数量有限时,我们实现了最先进的采样性能,例如,使用10 NFES,3.37 FID和9.74的4.17 FID,仅为9.74 CIFAR10上的15个NFE。代码可从https://github.com/qsh-zh/deis获得
translated by 谷歌翻译
基于分数的生成模型(SGMS)已经证明了显着的合成质量。 SGMS依赖于扩散过程,逐渐将数据逐渐渗透到贸易分布,而生成式模型则学会去噪。除了数据分布本身,这种去噪任务的复杂性是由扩散过程独特地确定的。我们认为当前的SGMS采用过于简单的扩散,导致不必要的复杂的去噪流程,限制了生成的建模性能。根据与统计力学的联系,我们提出了一种新型危及阻尼Langevin扩散(CLD),并表明基于CLD的SGMS实现了优异的性能。 CLD可以被解释为在扩展空间中运行关节扩散,其中辅助变量可以被视为耦合到数据变量的“速度”,如Hamiltonian动态。我们推导了一种用于CLD的小说得分匹配目标,并表明该模型仅需要了解给定数据的速度分布的条件分布的得分函数,而不是直接学习数据的分数。我们还导出了一种新的采样方案,用于从基于CLD的扩散模型有效合成。我们发现CLD在类似的网络架构和采样计算预算中优于综合质量的先前SGM。我们展示我们的CLD的新型采样器显着优于欧拉 - 玛雅山等求解器。我们的框架为基于刻痕的去噪扩散模型提供了新的见解,并且可以随时用于高分辨率图像合成。项目页面和代码:https://nv-tlabs.github.io/cld-sgm。
translated by 谷歌翻译
扩散概率模型(DPM)是新兴的强大生成模型。尽管具有高质量的生成性能,但DPM仍然遭受缓慢采样的苦难,因为它们通常需要数百或数千个大型神经网络的顺序函数评估(步骤)来绘制样本。可以将来自DPM的采样视为求解相应的扩散普通微分方程(ODE)。在这项工作中,我们提出了扩散ODE的溶液的精确表述。该公式通过分析计算解决方案的线性部分,而不是将所有术语留给先前工作中采用的黑盒ode求解器。通过应用可变化的更改,可以将解决方案等效地简化为神经网络的指数加权积分。根据我们的公式,我们提出了DPM-Solver,这是一种通过收敛顺序保证的快速专用高阶求解器。 DPM溶剂适用于离散时间和连续时间DPM,而无需进行任何进一步的培训。实验结果表明,DPM-Solver可以在各种数据集上的10至20个功能评估中生成高质量的样本。我们在10个功能评估中实现了4.70 FID,在CIFAR10数据集上进行20个功能评估中的2.87 FID,与以前的各种数据集中的先前最先进的无培训样本器相比,$ 4 \ sim 16 \ times $速度。
translated by 谷歌翻译
我们提出了整流的流程,这是一种令人惊讶的简单学习方法(神经)的普通微分方程(ODE)模型,用于在两个经验观察到的分布\ pi_0和\ pi_1之间运输,因此为生成建模和域转移提供了统一的解决方案,以及其他各种任务。涉及分配运输。整流流的想法是学习ode,以遵循尽可能多的连接从\ pi_0和\ pi_1的直径。这是通过解决直接的非线性最小二乘优化问题来实现的,该问题可以轻松地缩放到大型模型,而无需在标准监督学习之外引入额外的参数。直径是特殊的,因此是特殊的,因为它们是两个点之间的最短路径,并且可以精确模拟而无需时间离散,因此可以在计算上产生高效的模型。我们表明,从数据(称为整流)中学习的整流流的过程将\ pi_0和\ pi_1的任意耦合转变为新的确定性耦合,并证明是非侵入的凸面运输成本。此外,递归应用矫正使我们能够获得具有越来越直的路径的流动序列,可以在推理阶段进行粗略的时间离散化来准确地模拟。在实证研究中,我们表明,整流流对图像产生,图像到图像翻译和域的适应性表现出色。特别是,在图像生成和翻译上,我们的方法几乎产生了几乎直流的流,即使是单个Euler离散步骤,也会产生高质量的结果。
translated by 谷歌翻译
尽管存在扩散模型的各种变化,但将线性扩散扩散到非线性扩散过程中仅由几项作品研究。非线性效应几乎没有被理解,但是直觉上,将有更多有希望的扩散模式来最佳地训练生成分布向数据分布。本文介绍了基于分数扩散模型的数据自适应和非线性扩散过程。提出的隐式非线性扩散模型(INDM)通过结合归一化流量和扩散过程来学习非线性扩散过程。具体而言,INDM通过通过流网络利用\ textIt {litex {litex {littent Space}的线性扩散来隐式构建\ textIt {data Space}的非线性扩散。由于非线性完全取决于流网络,因此该流网络是形成非线性扩散的关键。这种灵活的非线性是针对DDPM ++的非MLE训练,将INDM的学习曲线提高到了几乎最大的似然估计(MLE)训练,事实证明,这是具有身份流量的INDM的特殊情况。同样,训练非线性扩散可以通过离散的步骤大小产生采样鲁棒性。在实验中,INDM实现了Celeba的最新FID。
translated by 谷歌翻译
深度学习表现出巨大的生成任务潜力。生成模型是可以根据某些隐含参数随机生成观测值的模型类。最近,扩散模型由于其发电能力而成为一类生成模型。如今,已经取得了巨大的成就。除了计算机视觉,语音产生,生物信息学和自然语言处理外,还需要在该领域探索更多应用。但是,扩散模型具有缓慢生成过程的自然缺点,从而导致许多增强的作品。该调查总结了扩散模型的领域。我们首先说明了两项具有里程碑意义的作品的主要问题-DDPM和DSM。然后,我们提供各种高级技术,以加快扩散模型 - 训练时间表,无训练采样,混合模型以及得分和扩散统一。关于现有模型,我们还根据特定的NFE提供了FID得分的基准和NLL。此外,引入了带有扩散模型的应用程序,包括计算机视觉,序列建模,音频和科学AI。最后,该领域以及局限性和进一步的方向都进行了摘要。
translated by 谷歌翻译
扩散模型是一类深入生成模型,在具有密集理论建立的各种任务上显示出令人印象深刻的结果。尽管与其他最先进的模型相比,扩散模型的样本合成质量和多样性令人印象深刻,但它们仍然遭受了昂贵的抽样程序和次优可能的估计。最近的研究表明,对提高扩散模型的性能的热情非常热情。在本文中,我们对扩散模型的现有变体进行了首次全面综述。具体而言,我们提供了扩散模型的第一个分类法,并将它们分类为三种类型,即采样加速增强,可能性最大化的增强和数据将来增强。我们还详细介绍了其他五个生成模型(即变异自动编码器,生成对抗网络,正常流量,自动回归模型和基于能量的模型),并阐明扩散模型与这些生成模型之间的连接。然后,我们对扩散模型的应用进行彻底研究,包括计算机视觉,自然语言处理,波形信号处理,多模式建模,分子图生成,时间序列建模和对抗性纯化。此外,我们提出了与这种生成模型的发展有关的新观点。
translated by 谷歌翻译
去噪扩散概率模型(DDPMS)在没有对抗性训练的情况下实现了高质量的图像生成,但它们需要模拟Markov链以产生样品的许多步骤。为了加速采样,我们呈现去噪扩散隐式模型(DDIM),更有效的迭代类隐式概率模型,具有与DDPM相同的培训过程。在DDPMS中,生成过程被定义为Markovian扩散过程的反向。我们构建一类导致相同的训练目标的非马尔可瓦夫扩散过程,但其反向过程可能会更快地采样。我们经验证明,与DDPM相比,DDIM可以生产高质量的样本10倍以上$ 50 \时间$ 50 \倍。允许我们缩小对样本质量的计算,并可以直接执行语义有意义的图像插值潜在的空间。
translated by 谷歌翻译
扩散(基于得分)生成模型已被广泛用于建模各种类型的复杂数据,包括图像,音频和点云。最近,已经揭示了前向后的随机微分方程(SDE)和基于扩散的模型之间的深厚连接,并提出了几种新的SDE变体(例如,Sub-VP,批判性抑制的Langevin)。尽管手工制作的固定前进SDE取得了经验成功,但仍未探索大量适当的正向SDE。在这项工作中,我们提出了一个通用框架,用于参数化扩散模型,尤其是正向SDE的空间部分。引入了一种抽象的形式主义,并具有理论保证,并且它与以前的扩散模型的联系得到了利用。我们从优化的角度展示了我们方法的理论优势。还提出了关于合成数据集,矿工和CIFAR10的数值实验,以验证我们框架的有效性。
translated by 谷歌翻译
扩散模型是强大的生成模型,可使用得分函数模拟扩散过程的反面,以合成噪声数据。扩散模型的采样过程可以解释为求解反向随机微分方程(SDE)或扩散过程的普通微分方程(ODE),通常需要多达数千个离散步骤来生成单个图像。这引发了人们对开发反向S/ODE的有效整合技术的极大兴趣。在这里,我们提出了一种基于得分的采样的正交方法:Denoising MCMC(DMCMC)。 DMCMC首先使用MCMC在数据和方差(或扩散时间)的产品空间中生产样品。然后,使用反向S/ODE积分器来定义MCMC样品。由于MCMC越过数据歧管接近数据,因此为DMCMC生产干净样品的计算成本远小于从噪声中产生干净样品的计算成本。为了验证拟议的概念,我们表明denoing langevin Gibbs(DLG)是DMCMC实例,成功地加速了有关CIFAR10和Celeba-HQ-HQ-256图像生成的这项工作中考虑的所有六个反向S/ODE集成器。值得注意的是,结合了Karras等人的集成商。 (2022)和Song等人的预训练分数模型。 (2021b),DLG达到SOTA结果。在CIFAR10上有限数量的分数功能评估(NFE)设置中,我们有$ 3.86 $ fid,$ \ \ \ \ \ $ \ $ \ $ 2.63 $ fid,$ \ \ \ \ \ \ 20 $ nfe。在Celeba-HQ-256上,我们有$ 6.99 $ fid,$ \ $ \ 160 $ nfe,击败了Kim等人的当前最佳记录。 (2022)在基于分数的型号中,$ 7.16 $ FID,$ 4000 $ NFE。代码:https://github.com/1202KBS/DMCMC
translated by 谷歌翻译
基于分数的生成模型(SGMS)最近在样品质量和分配覆盖范围内表现出令人印象深刻的结果。但是,它们通常直接应用于数据空间,并且通常需要数千个网络评估来采样。在这里,我们提出了基于潜在的分数的生成模型(LSGM),这是一种在潜在空间中培训SGM的新方法,依赖于变分性AutoEncoder框架。从数据移动到潜伏空间允许我们培训更具表现力的生成模型,将SGMS应用于非连续数据,并在较小的空间中学习更顺畅的SGM,导致更少的网络评估和更快的采样。要以可扩展且稳定的方式启用培训LSGMS端到端,我们(i)我们(i)引入了适合于LSGM设置的新分数匹配目标,(ii)提出了一个新颖的分数函数参数化,允许SGM专注于关于简单正常的目标分布的不匹配,(III)分析了多种技术,用于减少训练目标的方差。 LSGM在CIFAR-10上获得最先进的FID分数为2.10,优先表现出此数据集的所有现有生成结果。在Celeba-HQ-256上,LSGM在样品质量上与先前的SGMS相同,同时以两个数量级的采样时间表现出来。在模拟二进制图像中,LSGM在二值化omniglot数据集上实现了最先进的可能性。我们的项目页面和代码可以在https://nvlabs.github.io/lsgm找到。
translated by 谷歌翻译
DeNoising扩散模型代表了计算机视觉中最新的主题,在生成建模领域表现出了显着的结果。扩散模型是一个基于两个阶段的深层生成模型,一个正向扩散阶段和反向扩散阶段。在正向扩散阶段,通过添加高斯噪声,输入数据在几个步骤中逐渐受到干扰。在反向阶段,模型的任务是通过学习逐步逆转扩散过程来恢复原始输入数据。尽管已知的计算负担,即由于采样过程中涉及的步骤数量,扩散模型对生成样品的质量和多样性得到了广泛赞赏。在这项调查中,我们对视觉中应用的denoising扩散模型的文章进行了全面综述,包括该领域的理论和实际贡献。首先,我们识别并介绍了三个通用扩散建模框架,这些框架基于扩散概率模型,噪声调节得分网络和随机微分方程。我们进一步讨论了扩散模型与其他深层生成模型之间的关系,包括变异自动编码器,生成对抗网络,基于能量的模型,自回归模型和正常流量。然后,我们介绍了计算机视觉中应用的扩散模型的多角度分类。最后,我们说明了扩散模型的当前局限性,并设想了一些有趣的未来研究方向。
translated by 谷歌翻译
Schr \“ Odinger Bridge(SB)是一个熵调控的最佳运输问题,与基于评分的生成模型(SGM)相比,在深层生成模型中,人们对其数学灵活性受到了越来越多的关注。但是,是否尚不清楚优化原理是否仍然不清楚SB的涉及深层生成模型的现代培训,这些模型通常依赖于构建对数类似目标的目标。这提出了有关SB模型作为生成应用的原则替代方案的问题。在这项工作中,我们提供了一个新颖的计算框架,用于基于前向后的随机微分方程理论的SB模型的似然训练 - 随机最佳控制中出现了一种数学方法论,将SB的最佳条件转换为一组SDE。至关重要的是,这些SDE可用于构建SB的SB目标目标,以构建SB的可能性目标。令人惊讶的是,这将SGM的特殊情况概括为特殊情况。这导致了新的Opmimi Zation原理继承了相同的SB最优性,但并没有失去现代生成训练技术的应用,我们表明所得的训练算法在生成MNIST,CEELBA和CIFAR10的现实图像方面取得了可比的结果。我们的代码可在https://github.com/ghliu/sb-fbsde上找到。
translated by 谷歌翻译
Score-based modeling through stochastic differential equations (SDEs) has provided a new perspective on diffusion models, and demonstrated superior performance on continuous data. However, the gradient of the log-likelihood function, i.e., the score function, is not properly defined for discrete spaces. This makes it non-trivial to adapt \textcolor{\cdiff}{the score-based modeling} to categorical data. In this paper, we extend diffusion models to discrete variables by introducing a stochastic jump process where the reverse process denoises via a continuous-time Markov chain. This formulation admits an analytical simulation during backward sampling. To learn the reverse process, we extend score matching to general categorical data and show that an unbiased estimator can be obtained via simple matching of the conditional marginal distributions. We demonstrate the effectiveness of the proposed method on a set of synthetic and real-world music and image benchmarks.
translated by 谷歌翻译
扩散模型最近显示出对生成建模的巨大希望,在密度估计下的感知质量和自回归模型上的表现优于gan。剩余的缺点是它们的缓慢采样时间:生成高质量的样品需要数百或数千次模型评估。在这里,我们做出了两项贡献,以帮助消除这一缺点:首先,我们提出了扩散模型的新参数化,这些参数在使用几个采样步骤时提供了增加的稳定性。其次,我们提出了一种使用许多步骤提炼训练有素的确定性扩散采样器的方法,将其采用一半的采样步骤。然后,我们继续逐步将此蒸馏过程应用于我们的模型,每次将所需的采样步骤的数量减半。在CIFAR-10,Imagenet和LSUN等标准图像生成基准上,我们从最先进的采样器开始采用多达8192步,并且能够将其蒸馏到型号中,而不会丢失4个步骤多种感知质量;例如,以4个步骤在CIFAR-10上实现3.0的FID。最后,我们表明,完整的渐进式蒸馏过程不需要花费更多的时间来训练原始模型,从而代表了在火车和测试时间使用扩散的生成建模的有效解决方案。
translated by 谷歌翻译
基于得分的扩散模型是一类生成模型,其动力学由将噪声映射到数据中的随机微分方程描述。尽管最近的作品已经开始为这些模型奠定理论基础,但仍缺乏对扩散时间t的作用的分析理解。当前的最佳实践提倡大型T,以确保正向动力学使扩散足够接近已知和简单的噪声分布。但是,对于更好的分数匹配目标和更高的计算效率,应优选较小的t值。从扩散模型的各种解释开始,在这项工作中,我们量化了这一权衡,并提出了一种新方法,通过采用较小的扩散时间来提高培训和采样的质量和效率。实际上,我们展示了如何使用辅助模型来弥合理想和模拟正向动力学之间的间隙,然后进行标准的反向扩散过程。经验结果支持我们的分析;对于图像数据,我们的方法是竞争性W.R.T.根据标准样本质量指标和对数可能的样本。
translated by 谷歌翻译
最近,基于扩散的生成模型已引入语音增强的任务。干净的语音损坏被建模为固定的远期过程,其中逐渐添加了越来越多的噪声。通过学习以嘈杂的输入为条件的迭代方式扭转这一过程,可以产生干净的语音。我们以先前的工作为基础,并在随机微分方程的形式主义中得出训练任务。我们对基础分数匹配目标进行了详细的理论综述,并探索了不同的采样器配置,以解决测试时的反向过程。通过使用自然图像生成文献的复杂网络体系结构,与以前的出版物相比,我们可以显着提高性能。我们还表明,我们可以与最近的判别模型竞争,并在评估与培训不同的语料库时获得更好的概括。我们通过主观的听力测试对评估结果进行补充,其中我们提出的方法是最好的。此外,我们表明所提出的方法在单渠道语音覆盖中实现了出色的最新性能。我们的代码和音频示例可在线获得,请参见https://uhh.de/inf-sp-sgmse
translated by 谷歌翻译
我们提出了一种新的“泊松流”生成模型(PFGM),该模型将高维半球上的均匀分布映射到任何数据分布中。我们将数据点解释为$ z = 0 $超平面上的电荷,在增加额外尺寸$ z $的空间中,产生了高维电场(泊松方程解决方案的梯度)。我们证明,如果这些电荷沿电场线向上流动,则它们在$ z = 0 $平面中的初始分布将变成半径$ r $半球的分布,该分布在$ r \ to \ infty $限制中变成均匀。为了学习徒的转化,我们估计了增强空间中的归一化场。对于采样,我们设计了一种由物理上有意义的附加尺寸锚定的向后ode:当$ z $达到零时,样本击中了未加重的数据歧管。在实验上,PFGM在CIFAR-10上的正常流量模型中实现了当前的最新性能,其成立分数为9.68美元,而FID得分为2.48美元。它还可以与最先进的SDE方法相同,同时提供$ 10 \ times $至$ 20 \ $ 20 \ times $ $加速图像生成任务。此外,PFGM在较弱的网络体系结构上似乎更宽容估计误差,并且对Euler方法中的步骤大小稳健。该代码可在https://github.com/newbeeer/poisson_flow上找到。
translated by 谷歌翻译
Score-based generative models learn a family of noise-conditional score functions corresponding to the data density perturbed with increasingly large amounts of noise. These perturbed data densities are tied together by the Fokker-Planck equation (FPE), a PDE governing the spatial-temporal evolution of a density undergoing a diffusion process. In this work, we derive a corresponding equation characterizing the noise-conditional scores of the perturbed data densities (i.e., their gradients), termed the score FPE. Surprisingly, despite impressive empirical performance, we observe that scores learned via denoising score matching (DSM) do not satisfy the underlying score FPE. We mathematically analyze three implications of satisfying the score FPE and a potential explanation for why the score FPE is not satisfied in practice. At last, we propose to regularize the DSM objective to enforce satisfaction of the score FPE, and show its effectiveness on synthetic data and MNIST.
translated by 谷歌翻译