过去的几年见证了扩散模型〜(DMS)在生成建模任务中生成高保真样本方面取得的巨大成功。 DM的主要局限性是其臭名昭著的缓慢采样程序,通常需要数百到数千至数千个的时间离散步骤,以达到所需的准确性。我们的目标是为DMS开发快速采样方法,该方法的步骤少得多,同时保留了高样本质量。为此,我们系统地分析了DMS中的采样程序,并确定影响样本质量的关键因素,其中离散化方法至关重要。通过仔细检查学习的扩散过程,我们提出了扩散指数积分取样器〜(DEIS)。它基于设计用于离散的普通微分方程(ODE)的指数积分器,并利用学习扩散过程的半线性结构来减少离散误差。所提出的方法可以应用于任何DMS,并可以在短短10个步骤中生成高保真样本。在我们的实验中,一个A6000 GPU大约需要3分钟才能从CIFAR10产生$ 50K $的图像。此外,通过直接使用预训练的DMS,当得分函数评估的数量〜(NFE)的数量有限时,我们实现了最先进的采样性能,例如,使用10 NFES,3.37 FID和9.74的4.17 FID,仅为9.74 CIFAR10上的15个NFE。代码可从https://github.com/qsh-zh/deis获得
translated by 谷歌翻译
我们的目标是将denoisis扩散隐式模型(DDIM)扩展到一般扩散模型〜(DMS)。我们没有像原始DDIM论文那样构建非马尔科夫no噪声过程,而是从数值的角度研究了DDIM的机制。我们发现,在求解相应的随机微分方程时,可以通过使用分数的一些特定近似值来获得DDIM。我们提出了DDIM加速效应的解释,该解释还解释了确定性抽样方案的优势,而不是随机采样方案进行快速采样。在此洞察力的基础上,我们将DDIM扩展到一般的DMS,并在参数化分数网络时进行了小而微妙的修改。当应用于批判性抑制的Langevin扩散模型时,最近提出的一种新型的扩散模型通过以速度增强扩散过程,我们的算法在CIFAR10上达到了2.28的FID分数,仅具有50个数量的得分功能评估(NFES)(NFES〜(NFES) )和仅有27个NFE的FID分数为2.87,比所有具有相同NFE的现有方法要好。代码可从https://github.com/qsh-zh/gddim获得
translated by 谷歌翻译
扩散概率模型(DPM)是新兴的强大生成模型。尽管具有高质量的生成性能,但DPM仍然遭受缓慢采样的苦难,因为它们通常需要数百或数千个大型神经网络的顺序函数评估(步骤)来绘制样本。可以将来自DPM的采样视为求解相应的扩散普通微分方程(ODE)。在这项工作中,我们提出了扩散ODE的溶液的精确表述。该公式通过分析计算解决方案的线性部分,而不是将所有术语留给先前工作中采用的黑盒ode求解器。通过应用可变化的更改,可以将解决方案等效地简化为神经网络的指数加权积分。根据我们的公式,我们提出了DPM-Solver,这是一种通过收敛顺序保证的快速专用高阶求解器。 DPM溶剂适用于离散时间和连续时间DPM,而无需进行任何进一步的培训。实验结果表明,DPM-Solver可以在各种数据集上的10至20个功能评估中生成高质量的样本。我们在10个功能评估中实现了4.70 FID,在CIFAR10数据集上进行20个功能评估中的2.87 FID,与以前的各种数据集中的先前最先进的无培训样本器相比,$ 4 \ sim 16 \ times $速度。
translated by 谷歌翻译
我们提出了整流的流程,这是一种令人惊讶的简单学习方法(神经)的普通微分方程(ODE)模型,用于在两个经验观察到的分布\ pi_0和\ pi_1之间运输,因此为生成建模和域转移提供了统一的解决方案,以及其他各种任务。涉及分配运输。整流流的想法是学习ode,以遵循尽可能多的连接从\ pi_0和\ pi_1的直径。这是通过解决直接的非线性最小二乘优化问题来实现的,该问题可以轻松地缩放到大型模型,而无需在标准监督学习之外引入额外的参数。直径是特殊的,因此是特殊的,因为它们是两个点之间的最短路径,并且可以精确模拟而无需时间离散,因此可以在计算上产生高效的模型。我们表明,从数据(称为整流)中学习的整流流的过程将\ pi_0和\ pi_1的任意耦合转变为新的确定性耦合,并证明是非侵入的凸面运输成本。此外,递归应用矫正使我们能够获得具有越来越直的路径的流动序列,可以在推理阶段进行粗略的时间离散化来准确地模拟。在实证研究中,我们表明,整流流对图像产生,图像到图像翻译和域的适应性表现出色。特别是,在图像生成和翻译上,我们的方法几乎产生了几乎直流的流,即使是单个Euler离散步骤,也会产生高质量的结果。
translated by 谷歌翻译
基于分数的生成模型(SGMS)已经证明了显着的合成质量。 SGMS依赖于扩散过程,逐渐将数据逐渐渗透到贸易分布,而生成式模型则学会去噪。除了数据分布本身,这种去噪任务的复杂性是由扩散过程独特地确定的。我们认为当前的SGMS采用过于简单的扩散,导致不必要的复杂的去噪流程,限制了生成的建模性能。根据与统计力学的联系,我们提出了一种新型危及阻尼Langevin扩散(CLD),并表明基于CLD的SGMS实现了优异的性能。 CLD可以被解释为在扩展空间中运行关节扩散,其中辅助变量可以被视为耦合到数据变量的“速度”,如Hamiltonian动态。我们推导了一种用于CLD的小说得分匹配目标,并表明该模型仅需要了解给定数据的速度分布的条件分布的得分函数,而不是直接学习数据的分数。我们还导出了一种新的采样方案,用于从基于CLD的扩散模型有效合成。我们发现CLD在类似的网络架构和采样计算预算中优于综合质量的先前SGM。我们展示我们的CLD的新型采样器显着优于欧拉 - 玛雅山等求解器。我们的框架为基于刻痕的去噪扩散模型提供了新的见解,并且可以随时用于高分辨率图像合成。项目页面和代码:https://nv-tlabs.github.io/cld-sgm。
translated by 谷歌翻译
尽管存在扩散模型的各种变化,但将线性扩散扩散到非线性扩散过程中仅由几项作品研究。非线性效应几乎没有被理解,但是直觉上,将有更多有希望的扩散模式来最佳地训练生成分布向数据分布。本文介绍了基于分数扩散模型的数据自适应和非线性扩散过程。提出的隐式非线性扩散模型(INDM)通过结合归一化流量和扩散过程来学习非线性扩散过程。具体而言,INDM通过通过流网络利用\ textIt {litex {litex {littent Space}的线性扩散来隐式构建\ textIt {data Space}的非线性扩散。由于非线性完全取决于流网络,因此该流网络是形成非线性扩散的关键。这种灵活的非线性是针对DDPM ++的非MLE训练,将INDM的学习曲线提高到了几乎最大的似然估计(MLE)训练,事实证明,这是具有身份流量的INDM的特殊情况。同样,训练非线性扩散可以通过离散的步骤大小产生采样鲁棒性。在实验中,INDM实现了Celeba的最新FID。
translated by 谷歌翻译
Schr \“ Odinger Bridge(SB)是一个熵调控的最佳运输问题,与基于评分的生成模型(SGM)相比,在深层生成模型中,人们对其数学灵活性受到了越来越多的关注。但是,是否尚不清楚优化原理是否仍然不清楚SB的涉及深层生成模型的现代培训,这些模型通常依赖于构建对数类似目标的目标。这提出了有关SB模型作为生成应用的原则替代方案的问题。在这项工作中,我们提供了一个新颖的计算框架,用于基于前向后的随机微分方程理论的SB模型的似然训练 - 随机最佳控制中出现了一种数学方法论,将SB的最佳条件转换为一组SDE。至关重要的是,这些SDE可用于构建SB的SB目标目标,以构建SB的可能性目标。令人惊讶的是,这将SGM的特殊情况概括为特殊情况。这导致了新的Opmimi Zation原理继承了相同的SB最优性,但并没有失去现代生成训练技术的应用,我们表明所得的训练算法在生成MNIST,CEELBA和CIFAR10的现实图像方面取得了可比的结果。我们的代码可在https://github.com/ghliu/sb-fbsde上找到。
translated by 谷歌翻译
去噪扩散概率模型(DDPMS)在没有对抗性训练的情况下实现了高质量的图像生成,但它们需要模拟Markov链以产生样品的许多步骤。为了加速采样,我们呈现去噪扩散隐式模型(DDIM),更有效的迭代类隐式概率模型,具有与DDPM相同的培训过程。在DDPMS中,生成过程被定义为Markovian扩散过程的反向。我们构建一类导致相同的训练目标的非马尔可瓦夫扩散过程,但其反向过程可能会更快地采样。我们经验证明,与DDPM相比,DDIM可以生产高质量的样本10倍以上$ 50 \时间$ 50 \倍。允许我们缩小对样本质量的计算,并可以直接执行语义有意义的图像插值潜在的空间。
translated by 谷歌翻译
基于得分的扩散模型是一类生成模型,其动力学由将噪声映射到数据中的随机微分方程描述。尽管最近的作品已经开始为这些模型奠定理论基础,但仍缺乏对扩散时间t的作用的分析理解。当前的最佳实践提倡大型T,以确保正向动力学使扩散足够接近已知和简单的噪声分布。但是,对于更好的分数匹配目标和更高的计算效率,应优选较小的t值。从扩散模型的各种解释开始,在这项工作中,我们量化了这一权衡,并提出了一种新方法,通过采用较小的扩散时间来提高培训和采样的质量和效率。实际上,我们展示了如何使用辅助模型来弥合理想和模拟正向动力学之间的间隙,然后进行标准的反向扩散过程。经验结果支持我们的分析;对于图像数据,我们的方法是竞争性W.R.T.根据标准样本质量指标和对数可能的样本。
translated by 谷歌翻译
基于分数的生成模型(SGMS)最近在样品质量和分配覆盖范围内表现出令人印象深刻的结果。但是,它们通常直接应用于数据空间,并且通常需要数千个网络评估来采样。在这里,我们提出了基于潜在的分数的生成模型(LSGM),这是一种在潜在空间中培训SGM的新方法,依赖于变分性AutoEncoder框架。从数据移动到潜伏空间允许我们培训更具表现力的生成模型,将SGMS应用于非连续数据,并在较小的空间中学习更顺畅的SGM,导致更少的网络评估和更快的采样。要以可扩展且稳定的方式启用培训LSGMS端到端,我们(i)我们(i)引入了适合于LSGM设置的新分数匹配目标,(ii)提出了一个新颖的分数函数参数化,允许SGM专注于关于简单正常的目标分布的不匹配,(III)分析了多种技术,用于减少训练目标的方差。 LSGM在CIFAR-10上获得最先进的FID分数为2.10,优先表现出此数据集的所有现有生成结果。在Celeba-HQ-256上,LSGM在样品质量上与先前的SGMS相同,同时以两个数量级的采样时间表现出来。在模拟二进制图像中,LSGM在二值化omniglot数据集上实现了最先进的可能性。我们的项目页面和代码可以在https://nvlabs.github.io/lsgm找到。
translated by 谷歌翻译
去核扩散模型最近已成为强大的生成模型类别。它们提供最新的结果,不仅用于无条件模拟,而且还提供了解决在各种反问题中产生的条件模拟问题时。这些模型的一个局限性在于它们在生成时间上是计算密集型的,因为它们需要长期模拟扩散过程。进行无条件的模拟时,Schr \“生成建模的Odinger桥式公式会导致理论上接地的算法缩短生成时间,这与其他提出的加速技术互补。我们将Schr \'Edinger桥式桥式扩展到条件模拟。我们在各种应用程序上演示了这种新颖的方法,包括图像超分辨率,状态空间模型的最佳过滤以及预训练的网络的完善。我们的代码可以在https://github.com/vdeborto/cdsb上找到。
translated by 谷歌翻译
我们定义了更广泛的腐败过程,该过程概括了先前已知的扩散模型。为了扭转这些一般的扩散,我们提出了一个称为“软得分匹配”的新目标,可以证明可以学习任何线性腐败过程的得分功能,并为Celeba提供最先进的结果。软得分匹配结合了网络中的降解过程,并训练模型以预测腐败与扩散观察相匹配的干净图像。我们表明,我们的目标在适当的规律性条件下为腐败过程的家庭学习了可能性的梯度。我们进一步开发了一种原则性的方法,以选择一般扩散过程的损坏水平和一种我们称为动量采样器的新型抽样方法。我们评估了我们的框架,腐败是高斯模糊和低幅度添加噪声。我们的方法在Celeba-64上获得了最先进的FID得分$ 1.85 $,表现优于所有以前的线性扩散模型。与香草deno的扩散相比,我们还显示出显着的计算益处。
translated by 谷歌翻译
扩散模型的最新进展带来了图像生成任务的最新性能。然而,扩散模型的先前研究的经验结果意味着密度估计与样品产生性能之间存在逆相关性。本文研究了足够的经验证据,表明这种反相关发生,因为密度估计值显着造成了较小的扩散时间的贡献,而样品产生主要取决于大扩散时间。但是,在整个扩散时间内训练得分网络良好,因为损耗量表在每个扩散时间都显着不平衡。因此,为了成功训练,我们引入了软截断,这是一种普遍适用的扩散模型训练技术,将固定和静态截断的超参数软化为随机变量。在实验中,软截断可在CIFAR-10,Celeba,Celeba-HQ 256X256和STL-10数据集上实现最先进的性能。
translated by 谷歌翻译
扩散模型是强大的生成模型,可使用得分函数模拟扩散过程的反面,以合成噪声数据。扩散模型的采样过程可以解释为求解反向随机微分方程(SDE)或扩散过程的普通微分方程(ODE),通常需要多达数千个离散步骤来生成单个图像。这引发了人们对开发反向S/ODE的有效整合技术的极大兴趣。在这里,我们提出了一种基于得分的采样的正交方法:Denoising MCMC(DMCMC)。 DMCMC首先使用MCMC在数据和方差(或扩散时间)的产品空间中生产样品。然后,使用反向S/ODE积分器来定义MCMC样品。由于MCMC越过数据歧管接近数据,因此为DMCMC生产干净样品的计算成本远小于从噪声中产生干净样品的计算成本。为了验证拟议的概念,我们表明denoing langevin Gibbs(DLG)是DMCMC实例,成功地加速了有关CIFAR10和Celeba-HQ-HQ-256图像生成的这项工作中考虑的所有六个反向S/ODE集成器。值得注意的是,结合了Karras等人的集成商。 (2022)和Song等人的预训练分数模型。 (2021b),DLG达到SOTA结果。在CIFAR10上有限数量的分数功能评估(NFE)设置中,我们有$ 3.86 $ fid,$ \ \ \ \ \ $ \ $ \ $ 2.63 $ fid,$ \ \ \ \ \ \ 20 $ nfe。在Celeba-HQ-256上,我们有$ 6.99 $ fid,$ \ $ \ 160 $ nfe,击败了Kim等人的当前最佳记录。 (2022)在基于分数的型号中,$ 7.16 $ FID,$ 4000 $ NFE。代码:https://github.com/1202KBS/DMCMC
translated by 谷歌翻译
深度学习表现出巨大的生成任务潜力。生成模型是可以根据某些隐含参数随机生成观测值的模型类。最近,扩散模型由于其发电能力而成为一类生成模型。如今,已经取得了巨大的成就。除了计算机视觉,语音产生,生物信息学和自然语言处理外,还需要在该领域探索更多应用。但是,扩散模型具有缓慢生成过程的自然缺点,从而导致许多增强的作品。该调查总结了扩散模型的领域。我们首先说明了两项具有里程碑意义的作品的主要问题-DDPM和DSM。然后,我们提供各种高级技术,以加快扩散模型 - 训练时间表,无训练采样,混合模型以及得分和扩散统一。关于现有模型,我们还根据特定的NFE提供了FID得分的基准和NLL。此外,引入了带有扩散模型的应用程序,包括计算机视觉,序列建模,音频和科学AI。最后,该领域以及局限性和进一步的方向都进行了摘要。
translated by 谷歌翻译
DeNoising扩散模型代表了计算机视觉中最新的主题,在生成建模领域表现出了显着的结果。扩散模型是一个基于两个阶段的深层生成模型,一个正向扩散阶段和反向扩散阶段。在正向扩散阶段,通过添加高斯噪声,输入数据在几个步骤中逐渐受到干扰。在反向阶段,模型的任务是通过学习逐步逆转扩散过程来恢复原始输入数据。尽管已知的计算负担,即由于采样过程中涉及的步骤数量,扩散模型对生成样品的质量和多样性得到了广泛赞赏。在这项调查中,我们对视觉中应用的denoising扩散模型的文章进行了全面综述,包括该领域的理论和实际贡献。首先,我们识别并介绍了三个通用扩散建模框架,这些框架基于扩散概率模型,噪声调节得分网络和随机微分方程。我们进一步讨论了扩散模型与其他深层生成模型之间的关系,包括变异自动编码器,生成对抗网络,基于能量的模型,自回归模型和正常流量。然后,我们介绍了计算机视觉中应用的扩散模型的多角度分类。最后,我们说明了扩散模型的当前局限性,并设想了一些有趣的未来研究方向。
translated by 谷歌翻译
扩散(基于得分)生成模型已被广泛用于建模各种类型的复杂数据,包括图像,音频和点云。最近,已经揭示了前向后的随机微分方程(SDE)和基于扩散的模型之间的深厚连接,并提出了几种新的SDE变体(例如,Sub-VP,批判性抑制的Langevin)。尽管手工制作的固定前进SDE取得了经验成功,但仍未探索大量适当的正向SDE。在这项工作中,我们提出了一个通用框架,用于参数化扩散模型,尤其是正向SDE的空间部分。引入了一种抽象的形式主义,并具有理论保证,并且它与以前的扩散模型的联系得到了利用。我们从优化的角度展示了我们方法的理论优势。还提出了关于合成数据集,矿工和CIFAR10的数值实验,以验证我们框架的有效性。
translated by 谷歌翻译
扩散模型是一类深入生成模型,在具有密集理论建立的各种任务上显示出令人印象深刻的结果。尽管与其他最先进的模型相比,扩散模型的样本合成质量和多样性令人印象深刻,但它们仍然遭受了昂贵的抽样程序和次优可能的估计。最近的研究表明,对提高扩散模型的性能的热情非常热情。在本文中,我们对扩散模型的现有变体进行了首次全面综述。具体而言,我们提供了扩散模型的第一个分类法,并将它们分类为三种类型,即采样加速增强,可能性最大化的增强和数据将来增强。我们还详细介绍了其他五个生成模型(即变异自动编码器,生成对抗网络,正常流量,自动回归模型和基于能量的模型),并阐明扩散模型与这些生成模型之间的连接。然后,我们对扩散模型的应用进行彻底研究,包括计算机视觉,自然语言处理,波形信号处理,多模式建模,分子图生成,时间序列建模和对抗性纯化。此外,我们提出了与这种生成模型的发展有关的新观点。
translated by 谷歌翻译
扩散概率模型(DPM)是一类强大的深层生成模型(DGM)。尽管取得了成功,但在整个时间段上的迭代生成过程效率要比其他DGMS(例如gans)效率要低得多。因此,时间步长上的生成性能至关重要,这受到DPMS中协方差设计的极大影响。在这项工作中,我们考虑对角和完整的协方差,以提高DPM的表现力。我们得出此类协方差的最佳结果,然后在DPM的平均值不完善时将其纠正。最佳和校正后的都可以分解为对噪声功能的条件期望的术语。在此基础上,我们建议通过学习这些条件期望来估计最佳协方差及其校正。我们的方法可以应用于离散时间和连续时间段的DPM。我们在实施计算效率方面考虑了对角协方差。为了进行有效的实际实施,我们采用参数共享方案和两阶段的培训过程。从经验上讲,我们的方法的表现优于可能性结果的各种协方差设计,并提高了样本质量,尤其是在少数时间段上。
translated by 谷歌翻译
扩散模型已成为深层生成建模的最有希望的框架之一。在这项工作中,我们探讨了不均匀扩散模型的潜力。我们表明,非均匀扩散会导致多尺度扩散模型,这些模型与多尺度归一化流的结构相似。我们从实验上发现,在相同或更少的训练时间中,多尺度扩散模型比标准均匀扩散模型获得更好的FID得分。更重要的是,它生成样品$ 4.4 $ 4.4美元的$ 4.4 $ $ 128 \ times 128 $分辨率。在使用更多量表的较高分辨率中,预计加速度将更高。此外,我们表明,不均匀的扩散导致有条件得分函数的新估计量,该估计函数以最新的条件降解估计量以PAR性能达到了PAR性能。我们的理论和实验性发现伴随着开源库MSDIFF,可以促进对非均匀扩散模型的进一步研究。
translated by 谷歌翻译