本文提出了一种新颖的域翻译方法。利用生成模型和动态系统之间建立的相似之处,我们提出了对循环构造的重新制定。通过将模型嵌入哈密顿结构,我们获得了一个连续,表现力且最重要的是域翻译的可逆生成模型。
translated by 谷歌翻译
DeNoising扩散模型代表了计算机视觉中最新的主题,在生成建模领域表现出了显着的结果。扩散模型是一个基于两个阶段的深层生成模型,一个正向扩散阶段和反向扩散阶段。在正向扩散阶段,通过添加高斯噪声,输入数据在几个步骤中逐渐受到干扰。在反向阶段,模型的任务是通过学习逐步逆转扩散过程来恢复原始输入数据。尽管已知的计算负担,即由于采样过程中涉及的步骤数量,扩散模型对生成样品的质量和多样性得到了广泛赞赏。在这项调查中,我们对视觉中应用的denoising扩散模型的文章进行了全面综述,包括该领域的理论和实际贡献。首先,我们识别并介绍了三个通用扩散建模框架,这些框架基于扩散概率模型,噪声调节得分网络和随机微分方程。我们进一步讨论了扩散模型与其他深层生成模型之间的关系,包括变异自动编码器,生成对抗网络,基于能量的模型,自回归模型和正常流量。然后,我们介绍了计算机视觉中应用的扩散模型的多角度分类。最后,我们说明了扩散模型的当前局限性,并设想了一些有趣的未来研究方向。
translated by 谷歌翻译
常见的图像到图像翻译方法依赖于来自源和目标域的数据的联合培训。这可以防止培训过程保留域数据的隐私(例如,在联合环境中),并且通常意味着必须对新模型进行新的模型。我们提出了双扩散隐式桥(DDIB),这是一种基于扩散模型的图像翻译方法,它绕过域对训练。带有DDIBS的图像翻译依赖于对每个域独立训练的两个扩散模型,并且是一个两步的过程:DDIB首先获得具有源扩散模型的源图像的潜在编码,然后使用目标模型来解码此类编码,以构造目标模型。这两个步骤均通过ODE定义,因此该过程仅与ODE求解器的离散误差有关。从理论上讲,我们将DDIB解释为潜在源的串联,而潜在的靶向Schr \” Odinger Bridges是一种熵调节的最佳运输形式,以解释该方法的功效。我们在实验上都应用了ddibs,在合成和高级和高位上应用DDIB分辨率图像数据集,以在各种翻译任务中演示其实用性及其与现有最佳传输方法的连接。
translated by 谷歌翻译
与深入生成模型中现有的基于功能的模型相比,最近提出的扩散模型通过基于随机过程的方法实现了出色的性能。但是,由于许多时间段的离散时间,这种方法需要长时间的采样时间。 Schr \“基于Odinger Bridge(SB)的模型试图通过训练分布之间的双向随机过程来解决此问题。但是,与生成对抗性网络等生成模型相比,它们仍然具有缓慢的采样速度。由于生成对抗性网络。双向随机过程,它们需要相对较长的训练时间。因此,这项研究试图减少所需的时间段和训练时间的数量,并向现有的SB模型提出了正则化项,以使双向随机过程保持一致且稳定,并减少稳定时间段。每个正则化项都集成到单个术语中,以实现计算时间和内存使用情况的效率训练。将此正则随机过程应用于各种生成任务,获得了不同分布之间的所需翻译,因此,生成建模的可能性基于更快的随机过程可以确认采样速度。该代码可在https://github.com/kiungsong/rsb上获得。
translated by 谷歌翻译
广泛的应用需要学习图像生成模型,其潜在空间有效地捕获数据分布中存在的变化的高级别因数。模型代表通过其潜在空间的这种变化的程度可以通过其在平滑图像之间插值的能力来判断。然而,在所生成的图像之前映射固定的大多数生成模型导致插值轨迹缺乏平滑度并且包含降低质量的图像。在这项工作中,我们提出了一种新的生成模型,该模型在插值轨迹之前学习灵活的非参数,调节在一对源图像和目标图像上。而不是依赖确定性的插值方法(例如潜伏空间中的线性或球形插值),我们设计了一种使用潜在二阶神经常规差分方程的两个给定图像之间的轨迹分布的框架。通过重建和对抗性损失的混合组合,发电机训练以从这些轨迹将采样点映射到现实图像的序列,该轨迹的序列是从源进入目标图像的平稳转换。通过综合定性和定量实验,我们展示了我们的方法在生成改进质量的图像方面的有效性以及对任何对任何对实际来源和目标图像的平滑插值轨迹学习多元化分布的能力。
translated by 谷歌翻译
我们提出了整流的流程,这是一种令人惊讶的简单学习方法(神经)的普通微分方程(ODE)模型,用于在两个经验观察到的分布\ pi_0和\ pi_1之间运输,因此为生成建模和域转移提供了统一的解决方案,以及其他各种任务。涉及分配运输。整流流的想法是学习ode,以遵循尽可能多的连接从\ pi_0和\ pi_1的直径。这是通过解决直接的非线性最小二乘优化问题来实现的,该问题可以轻松地缩放到大型模型,而无需在标准监督学习之外引入额外的参数。直径是特殊的,因此是特殊的,因为它们是两个点之间的最短路径,并且可以精确模拟而无需时间离散,因此可以在计算上产生高效的模型。我们表明,从数据(称为整流)中学习的整流流的过程将\ pi_0和\ pi_1的任意耦合转变为新的确定性耦合,并证明是非侵入的凸面运输成本。此外,递归应用矫正使我们能够获得具有越来越直的路径的流动序列,可以在推理阶段进行粗略的时间离散化来准确地模拟。在实证研究中,我们表明,整流流对图像产生,图像到图像翻译和域的适应性表现出色。特别是,在图像生成和翻译上,我们的方法几乎产生了几乎直流的流,即使是单个Euler离散步骤,也会产生高质量的结果。
translated by 谷歌翻译
Normalizing Flows are generative models which produce tractable distributions where both sampling and density evaluation can be efficient and exact. The goal of this survey article is to give a coherent and comprehensive review of the literature around the construction and use of Normalizing Flows for distribution learning. We aim to provide context and explanation of the models, review current state-of-the-art literature, and identify open questions and promising future directions.
translated by 谷歌翻译
Normalizing flow is a class of deep generative models for efficient sampling and density estimation. In practice, the flow often appears as a chain of invertible neural network blocks; to facilitate training, existing works have regularized flow trajectories and designed special network architectures. The current paper develops a neural ODE flow network inspired by the Jordan-Kinderleherer-Otto (JKO) scheme, which allows efficient block-wise training of the residual blocks and avoids inner loops of score matching or variational learning. As the JKO scheme unfolds the dynamic of gradient flow, the proposed model naturally stacks residual network blocks one-by-one, reducing the memory load and difficulty of performing end-to-end training of deep flow networks. We also develop adaptive time reparameterization of the flow network with a progressive refinement of the trajectory in probability space, which improves the model training efficiency and accuracy in practice. Using numerical experiments with synthetic and real data, we show that the proposed JKO-iFlow model achieves similar or better performance in generating new samples compared with existing flow and diffusion models at a significantly reduced computational and memory cost.
translated by 谷歌翻译
Normalizing flows provide a general mechanism for defining expressive probability distributions, only requiring the specification of a (usually simple) base distribution and a series of bijective transformations. There has been much recent work on normalizing flows, ranging from improving their expressive power to expanding their application. We believe the field has now matured and is in need of a unified perspective. In this review, we attempt to provide such a perspective by describing flows through the lens of probabilistic modeling and inference. We place special emphasis on the fundamental principles of flow design, and discuss foundational topics such as expressive power and computational trade-offs. We also broaden the conceptual framing of flows by relating them to more general probability transformations. Lastly, we summarize the use of flows for tasks such as generative modeling, approximate inference, and supervised learning.
translated by 谷歌翻译
标准化流动,扩散归一化流量和变形自动置换器是强大的生成模型。在本文中,我们提供了一个统一的框架来通过马尔可夫链处理这些方法。实际上,我们考虑随机标准化流量作为一对马尔可夫链,满足一些属性,并表明许多用于数据生成的最先进模型适合该框架。马尔可夫链的观点使我们能够将确定性层作为可逆的神经网络和随机层作为大都会加速层,Langevin层和变形自身偏移,以数学上的声音方式。除了具有Langevin层的密度的层,扩散层或变形自身形式,也可以处理与确定性层或大都会加热器层没有密度的层。因此,我们的框架建立了一个有用的数学工具来结合各种方法。
translated by 谷歌翻译
与CNN的分类,分割或对象检测相比,生成网络的目标和方法根本不同。最初,它们不是作为图像分析工具,而是生成自然看起来的图像。已经提出了对抗性训练范式来稳定生成方法,并已被证明是非常成功的 - 尽管绝不是第一次尝试。本章对生成对抗网络(GAN)的动机进行了基本介绍,并通​​过抽象基本任务和工作机制并得出了早期实用方法的困难来追溯其成功的道路。将显示进行更稳定的训练方法,也将显示出不良收敛及其原因的典型迹象。尽管本章侧重于用于图像生成和图像分析的gan,但对抗性训练范式本身并非特定于图像,并且在图像分析中也概括了任务。在将GAN与最近进入场景的进一步生成建模方法进行对比之前,将闻名图像语义分割和异常检测的架构示例。这将允许对限制的上下文化观点,但也可以对gans有好处。
translated by 谷歌翻译
学习动态是机器学习(ML)的许多重要应用的核心,例如机器人和自主驾驶。在这些设置中,ML算法通常需要推理使用高维观察的物理系统,例如图像,而不访问底层状态。最近,已经提出了几种方法将从经典机制的前沿集成到ML模型中,以解决图像的物理推理的挑战。在这项工作中,我们清醒了这些模型的当前功能。为此,我们介绍一套由17个数据集组成的套件,该数据集基于具有呈现各种动态的物理系统的视觉观测。我们对几种强大的基线进行了彻底的和详细比较了物理启发方法的主要类别。虽然包含物理前沿的模型通常可以学习具有所需特性的潜在空间,但我们的结果表明这些方法无法显着提高标准技术。尽管如此,我们发现使用连续和时间可逆动力学的使用效益所有课程的模型。
translated by 谷歌翻译
扩散模型是一类深入生成模型,在具有密集理论建立的各种任务上显示出令人印象深刻的结果。尽管与其他最先进的模型相比,扩散模型的样本合成质量和多样性令人印象深刻,但它们仍然遭受了昂贵的抽样程序和次优可能的估计。最近的研究表明,对提高扩散模型的性能的热情非常热情。在本文中,我们对扩散模型的现有变体进行了首次全面综述。具体而言,我们提供了扩散模型的第一个分类法,并将它们分类为三种类型,即采样加速增强,可能性最大化的增强和数据将来增强。我们还详细介绍了其他五个生成模型(即变异自动编码器,生成对抗网络,正常流量,自动回归模型和基于能量的模型),并阐明扩散模型与这些生成模型之间的连接。然后,我们对扩散模型的应用进行彻底研究,包括计算机视觉,自然语言处理,波形信号处理,多模式建模,分子图生成,时间序列建模和对抗性纯化。此外,我们提出了与这种生成模型的发展有关的新观点。
translated by 谷歌翻译
Generative adversarial networks (GANs) provide a way to learn deep representations without extensively annotated training data. They achieve this through deriving backpropagation signals through a competitive process involving a pair of networks. The representations that can be learned by GANs may be used in a variety of applications, including image synthesis, semantic image editing, style transfer, image super-resolution and classification. The aim of this review paper is to provide an overview of GANs for the signal processing community, drawing on familiar analogies and concepts where possible. In addition to identifying different methods for training and constructing GANs, we also point to remaining challenges in their theory and application.
translated by 谷歌翻译
能量保护是许多物理现象和动态系统的核心。在过去的几年中,有大量作品旨在预测使用神经网络的动力系统运动轨迹,同时遵守能源保护法。这些作品中的大多数受到古典力学的启发,例如哈密顿和拉格朗日力学以及神经普通微分方程。尽管这些作品已被证明在特定领域中分别很好地工作,但缺乏统一的方法,该方法通常不适用,而无需对神经网络体系结构进行重大更改。在这项工作中,我们旨在通过提供一种简单的方法来解决此问题,该方法不仅可以应用于能源持持势的系统,还可以应用于耗散系统,通过在不同情况下以不同的情况在不同情况下以正规化术语形式包括不同的归纳偏见。损失功能。所提出的方法不需要更改神经网络体系结构,并且可以构成验证新思想的基础,因此表明有望在这个方向上加速研究。
translated by 谷歌翻译
Lipschitz regularized f-divergences are constructed by imposing a bound on the Lipschitz constant of the discriminator in the variational representation. They interpolate between the Wasserstein metric and f-divergences and provide a flexible family of loss functions for non-absolutely continuous (e.g. empirical) distributions, possibly with heavy tails. We construct Lipschitz regularized gradient flows on the space of probability measures based on these divergences. Examples of such gradient flows are Lipschitz regularized Fokker-Planck and porous medium partial differential equations (PDEs) for the Kullback-Leibler and alpha-divergences, respectively. The regularization corresponds to imposing a Courant-Friedrichs-Lewy numerical stability condition on the PDEs. For empirical measures, the Lipschitz regularization on gradient flows induces a numerically stable transporter/discriminator particle algorithm, where the generative particles are transported along the gradient of the discriminator. The gradient structure leads to a regularized Fisher information (particle kinetic energy) used to track the convergence of the algorithm. The Lipschitz regularized discriminator can be implemented via neural network spectral normalization and the particle algorithm generates approximate samples from possibly high-dimensional distributions known only from data. Notably, our particle algorithm can generate synthetic data even in small sample size regimes. A new data processing inequality for the regularized divergence allows us to combine our particle algorithm with representation learning, e.g. autoencoder architectures. The resulting algorithm yields markedly improved generative properties in terms of efficiency and quality of the synthetic samples. From a statistical mechanics perspective the encoding can be interpreted dynamically as learning a better mobility for the generative particles.
translated by 谷歌翻译
产生现实车辆速度轨迹是评估车辆燃料经济性和自动驾驶汽车预测控制的重要组成部分。传统的生成型号依靠马尔可夫链方法,可以生产精确的合成轨迹,但受维度的诅咒。它们不允许将条件输入变量包含到生成过程中。在本文中,我们展示了深度生成模型的延伸如何允许准确且可扩展的生成。拟议的架构涉及复发和前馈层,并使用对抗技术训练。我们的型号显示在使用芝加哥大都市地区的GPS数据上进行的模型来生成车辆轨迹。
translated by 谷歌翻译
Diffusion models have recently outperformed alternative approaches to model the distribution of natural images, such as GANs. Such diffusion models allow for deterministic sampling via the probability flow ODE, giving rise to a latent space and an encoder map. While having important practical applications, such as estimation of the likelihood, the theoretical properties of this map are not yet fully understood. In the present work, we partially address this question for the popular case of the VP SDE (DDPM) approach. We show that, perhaps surprisingly, the DDPM encoder map coincides with the optimal transport map for common distributions; we support this claim theoretically and by extensive numerical experiments.
translated by 谷歌翻译