自回归生成模型可以估计复杂的连续数据分布,例如在RL环境,图像强度和音频中的轨迹推出。大多数最先进的模型将连续数据离散为几个箱,并在箱上使用分类分布来近似连续数据分布。优点是,分类分布可以轻松地表达多种模式,并且可以简单地进行优化。但是,如果没有明显的垃圾箱,这种近似就无法表达密度的急剧变化,从而使其参数效率低下。我们提出了一种称为自适应分类离散化(ADACAT)的有效,表现力的多模式参数化。 AdaCat自适应地自适应地自动回归模型的每个维度,这使该模型能够分配密度为感兴趣的细胞间隔,从而提高了参数效率。 Adacat概括了分类和基于分位数的回归。 ADACAT是任何基于离散化的分布估计器的简单附加组件。在实验中,Adacat改善了现实世界表数据,图像,音频和轨迹的密度估计,并改善了基于模型的离线RL计划。
translated by 谷歌翻译
Diffusion models have quickly become the go-to paradigm for generative modelling of perceptual signals (such as images and sound) through iterative refinement. Their success hinges on the fact that the underlying physical phenomena are continuous. For inherently discrete and categorical data such as language, various diffusion-inspired alternatives have been proposed. However, the continuous nature of diffusion models conveys many benefits, and in this work we endeavour to preserve it. We propose CDCD, a framework for modelling categorical data with diffusion models that are continuous both in time and input space. We demonstrate its efficacy on several language modelling tasks.
translated by 谷歌翻译
矢量量化变量自动编码器(VQ-VAE)是基于数据的离散潜在表示的生成模型,其中输入映射到有限的学习嵌入式集合。要生成新样品,必须对离散状态进行自动介绍的先验分布。分别地。这一先验通常非常复杂,并导致生成缓慢。在这项工作中,我们提出了一个新模型,以同时训练先验和编码器/解码器网络。我们在连续编码的向量和非信息性先验分布之间建立扩散桥。然后将潜在离散状态作为这些连续向量的随机函数。我们表明,我们的模型与迷你imagenet和Cifar数据集的自动回归先验具有竞争力,并且在优化和采样方面都有效。我们的框架还扩展了标准VQ-VAE,并可以启用端到端培训。
translated by 谷歌翻译
本文介绍了自回归模型采样的替代方法。根据模型定义的过渡动态,通常按归类模型顺序进行采样。相反,我们提出了一种采样过程,用于初始化具有白噪声的序列,并遵循Langevin动态定义的Markov链在序列的全局日志似然上。该方法并行化采样过程并推广到条件采样。使用自回归模型作为贝叶斯先前,我们可以使用条件可能性或约束来转向生成模型的输出。我们将这些技术应用于视觉和音频域的自回归模型,具有竞争力的音频源分离,超级分辨率和染色。
translated by 谷歌翻译
A normalizing flow models a complex probability density as an invertible transformation of a simple base density. Flows based on either coupling or autoregressive transforms both offer exact density evaluation and sampling, but rely on the parameterization of an easily invertible elementwise transformation, whose choice determines the flexibility of these models. Building upon recent work, we propose a fully-differentiable module based on monotonic rational-quadratic splines, which enhances the flexibility of both coupling and autoregressive transforms while retaining analytic invertibility. We demonstrate that neural spline flows improve density estimation, variational inference, and generative modeling of images.
translated by 谷歌翻译
条件密度估计(CDE)是估算某些输入上的事件概率的任务。神经网络(NN)还可用于计算连续域的输出分布,这可以被视为回归任务的扩展。然而,在不知道其一般形式的信息的情况下,难以明确地近似分布。为了符合任意条件分布,将连续域分离成箱是一种有效的策略,只要我们拥有足够窄的箱和非常大的数据。然而,收集足够的数据通常很难到达,并且在许多情况下,特别是在多变量Cde的诅咒中的诅咒中的那种理想。在本文中,我们展示了使用基于Deconvolution的神经网络框架建模自由形式条件分布的好处,在离散化中应对数据缺陷问题。它具有灵活性的优点,但也利用了解压缩层提供的分层平滑度。我们将我们的方法与许多其他密度估计方法进行比较,并表明我们的解卷积密度网络(DDN)优于许多单变量和多变量任务的竞争方法。 DDN的代码可在https://github.com/nbiclab/ddn上获得。
translated by 谷歌翻译
强化学习(RL)通常涉及估计静止政策或单步模型,利用马尔可夫属性来解决问题。但是,我们也可以将RL视为通用序列建模问题,目标是产生一系列导致一系列高奖励的动作。通过这种方式观看,考虑在其他域中运用良好的高容量序列预测模型,例如自然语言处理,也可以为RL问题提供有效的解决方案。为此,我们探索如何使用变压器架构与序列建模的工具来解决RL,以将分布在轨迹上和将光束搜索作为规划算法进行重新定位。框架RL作为序列建模问题简化了一系列设计决策,允许我们分配在离线RL算法中常见的许多组件。我们展示了这种方法跨越长地平动态预测,仿制学习,目标条件的RL和离线RL的灵活性。此外,我们表明这种方法可以与现有的无模型算法结合起来,以在稀疏奖励,长地平线任务中产生最先进的策划仪。
translated by 谷歌翻译
当我们希望将其用作生成模型时,任何显式的功能表示$ f $都会受到两个主要障碍的阻碍:设计$ f $,以便采样快速,并估计$ z = \ int f $ ^{ - 1} f $集成到1。随着$ f $本身变得复杂,这变得越来越复杂。在本文中,我们表明,当通过让网络代表目标密度的累积分布函数并应用积极的基本定理,可以通过神经网络对一维条件密度进行建模时,可以精确地计算出$ z $。 。我们还得出了一种快速算法,用于通过逆变换方法从产生的表示。通过将这些原理扩展到更高的维度,我们介绍了\ textbf {神经逆变换采样器(NITS)},这是一个新颖的深度学习框架,用于建模和从一般,多维,紧凑的概率密度。 NIT是一个高度表达性的密度估计器,具有端到端的可不同性,快速采样以及精确且廉价的可能性评估。我们通过将其应用于现实,高维密度估计任务来证明NIT的适用性:基于CIFAR-10数据集对基于可能性的生成模型,以及基于基准数据集的UCI套件的密度估计,nits可以在其中产生令人信服的结果或超越或超越或超越或超越或超越或超越或超越或超越。艺术状态。
translated by 谷歌翻译
Normalizing Flows are generative models which produce tractable distributions where both sampling and density evaluation can be efficient and exact. The goal of this survey article is to give a coherent and comprehensive review of the literature around the construction and use of Normalizing Flows for distribution learning. We aim to provide context and explanation of the models, review current state-of-the-art literature, and identify open questions and promising future directions.
translated by 谷歌翻译
科学和工程中的许多问题涉及在高维空间上优化昂贵的黑盒功能。对于此类黑盒优化(BBO)问题,我们通常会为在线功能评估进行少量预算,但通常也可以访问固定的离线数据集进行预读。先前的方法试图利用离线数据来近似函数或逆向,但与数据分布相距不足。我们提出了Black-Box优化变压器(Boomer),这是一种使用离线数据集预处理黑框优化器的生成框架。在Boomer中,我们训练自回归模型,以模仿隐式黑框功能优化器的轨迹运行。由于默认情况下这些轨迹不可用,因此我们通过从离线数据中对随机点进行排序来开发一个简单的随机启发式,以合成轨迹。从理论上讲,我们表明这种启发式诱导的轨迹,这些轨迹模仿了从不同的低保真度(探索)到高保真(剥削)样本的过渡。此外,我们引入了机制,以控制从勘探到剥削的轨迹过渡的速率,并在测试时间内将其推广到离线数据之外。从经验上讲,我们使用随便的蒙面变压器实例化繁荣,并在设计基础上进行评估,在设计基础上,我们平均排名最优于最优于最先进的基线。
translated by 谷歌翻译
Generative AI has matured to a point where large-scale models can generate text that seems indistinguishable from human-written text and remarkably photorealistic images. Automatically measuring how close the distribution of generated data is to the target real data distribution is a key step in diagnosing existing models and developing better models. We present MAUVE, a family of comparison measures between pairs of distributions such as those encountered in the generative modeling of text or images. These scores are statistical summaries of divergence frontiers capturing two types of errors in generative modeling. We explore four approaches to statistically estimate these scores: vector quantization, non-parametric estimation, classifier-based estimation, and parametric Gaussian approximations. We provide statistical bounds for the vector quantization approach. Empirically, we find that the proposed scores paired with a range of $f$-divergences and statistical estimation methods can quantify the gaps between the distributions of human-written text and those of modern neural language models by correlating with human judgments and identifying known properties of the generated texts. We conclude the paper by demonstrating its applications to other AI domains and discussing practical recommendations.
translated by 谷歌翻译
基于扩散的生成模型已经证明了感知上令人印象深刻的合成能力,但是它们也可以是基于可能性的模型吗?我们以肯定的方式回答了这一点,并介绍了一个基于扩散的生成模型家族,该模型可以在标准图像密度估计基准上获得最先进的可能性。与其他基于扩散的模型不同,我们的方法允许与其他模型的其余部分共同对噪声时间表进行有效优化。我们表明,根据扩散数据的信噪比,变异下限(VLB)简化为非常短的表达,从而改善了我们对该模型类别的理论理解。使用这种见解,我们证明了文献中提出的几个模型之间的等效性。此外,我们表明连续时间VLB在噪声方面不变,除了其端点处的信噪比。这使我们能够学习一个噪声时间表,以最大程度地减少所得VLB估计器的差异,从而更快地优化。将这些进步与建筑改进相结合,我们获得了图像密度估计基准的最先进的可能性,超过了多年来主导这些基准测试的自回旋模型,通常优化了很多年。此外,我们展示了如何将模型用作BITS背包压缩方案的一部分,并展示了接近理论最佳的无损压缩率。代码可在https://github.com/google-research/vdm上找到。
translated by 谷歌翻译
Normalizing flows provide a general mechanism for defining expressive probability distributions, only requiring the specification of a (usually simple) base distribution and a series of bijective transformations. There has been much recent work on normalizing flows, ranging from improving their expressive power to expanding their application. We believe the field has now matured and is in need of a unified perspective. In this review, we attempt to provide such a perspective by describing flows through the lens of probabilistic modeling and inference. We place special emphasis on the fundamental principles of flow design, and discuss foundational topics such as expressive power and computational trade-offs. We also broaden the conceptual framing of flows by relating them to more general probability transformations. Lastly, we summarize the use of flows for tasks such as generative modeling, approximate inference, and supervised learning.
translated by 谷歌翻译
扩散模型是一类深入生成模型,在具有密集理论建立的各种任务上显示出令人印象深刻的结果。尽管与其他最先进的模型相比,扩散模型的样本合成质量和多样性令人印象深刻,但它们仍然遭受了昂贵的抽样程序和次优可能的估计。最近的研究表明,对提高扩散模型的性能的热情非常热情。在本文中,我们对扩散模型的现有变体进行了首次全面综述。具体而言,我们提供了扩散模型的第一个分类法,并将它们分类为三种类型,即采样加速增强,可能性最大化的增强和数据将来增强。我们还详细介绍了其他五个生成模型(即变异自动编码器,生成对抗网络,正常流量,自动回归模型和基于能量的模型),并阐明扩散模型与这些生成模型之间的连接。然后,我们对扩散模型的应用进行彻底研究,包括计算机视觉,自然语言处理,波形信号处理,多模式建模,分子图生成,时间序列建模和对抗性纯化。此外,我们提出了与这种生成模型的发展有关的新观点。
translated by 谷歌翻译
机器学习的许多应用涉及预测模型输出的灵活概率分布。我们提出了自动评级分位式流动,这是一种灵活的概率模型,高维变量,可用于准确地捕获预测的炼膜不确定性。这些模型是根据适当评分规则使用新颖目标培训的自回归流动的情况,这简化了培训期间雅各比亚的计算昂贵的决定因素,并支持新型的神经结构。我们证明这些模型可用于参数化预测条件分布,提高时间序列预测和对象检测的概率预测质量。
translated by 谷歌翻译
当前独立于域的经典计划者需要问题域和实例作为输入的符号模型,从而导致知识采集瓶颈。同时,尽管深度学习在许多领域都取得了重大成功,但知识是在与符号系统(例如计划者)不兼容的亚符号表示中编码的。我们提出了Latplan,这是一种无监督的建筑,结合了深度学习和经典计划。只有一组未标记的图像对,显示了环境中允许的过渡子集(训练输入),Latplan学习了环境的完整命题PDDL动作模型。稍后,当给出代表初始状态和目标状态(计划输入)的一对图像时,Latplan在符号潜在空间中找到了目标状态的计划,并返回可视化的计划执行。我们使用6个计划域的基于图像的版本来评估LATPLAN:8个插头,15个式嘴,Blockworld,Sokoban和两个LightsOut的变体。
translated by 谷歌翻译
与CNN的分类,分割或对象检测相比,生成网络的目标和方法根本不同。最初,它们不是作为图像分析工具,而是生成自然看起来的图像。已经提出了对抗性训练范式来稳定生成方法,并已被证明是非常成功的 - 尽管绝不是第一次尝试。本章对生成对抗网络(GAN)的动机进行了基本介绍,并通​​过抽象基本任务和工作机制并得出了早期实用方法的困难来追溯其成功的道路。将显示进行更稳定的训练方法,也将显示出不良收敛及其原因的典型迹象。尽管本章侧重于用于图像生成和图像分析的gan,但对抗性训练范式本身并非特定于图像,并且在图像分析中也概括了任务。在将GAN与最近进入场景的进一步生成建模方法进行对比之前,将闻名图像语义分割和异常检测的架构示例。这将允许对限制的上下文化观点,但也可以对gans有好处。
translated by 谷歌翻译
Denoising diffusion probabilistic models (DDPM) are a class of generative models which have recently been shown to produce excellent samples. We show that with a few simple modifications, DDPMs can also achieve competitive loglikelihoods while maintaining high sample quality. Additionally, we find that learning variances of the reverse diffusion process allows sampling with an order of magnitude fewer forward passes with a negligible difference in sample quality, which is important for the practical deployment of these models. We additionally use precision and recall to compare how well DDPMs and GANs cover the target distribution. Finally, we show that the sample quality and likelihood of these models scale smoothly with model capacity and training compute, making them easily scalable. We release our code at https://github.com/ openai/improved-diffusion.
translated by 谷歌翻译
时间点过程(TPP)通常用于模拟具有出现时间戳的异步事件序列,并由以历史影响为条件的概率模型揭示。尽管以前的许多作品通过最大程度地提高了TPP模型的“合适性”,但它们的预测性能不令人满意,这意味着模型产生的时间戳与真实的观察相距甚远。最近,诸如DENOTO扩散和得分匹配模型之类的深层生成模型通过证明其生成高质量样本的能力,在图像生成任务方面取得了巨大进展。但是,在事件发生在TPP的情况下,尚无完整而统一的作品来探索和研究生成模型的潜力。在这项工作中,我们尝试通过设计一个unified \ textbf {g} \ textbf {n} eural \ textbf {t} emporal \ emporal \ textbf {p} oint \ textbf {p} rocess {p} rocess(\ textsc {\ textsc { GNTPP})模型探索其可行性和有效性,并进一步改善模型的预测性能。此外,在衡量历史影响方面,我们修改了细心的模型,这些模型总结了历史事件的影响,并以适应性的重新加权术语来考虑事件的类型关系和时间间隔。已经进行了广泛的实验,以说明\ textsc {gntpp}的预测能力的提高,并用一系列生成概率解码器,并从修订后的注意力中获得了绩效增长。据我们所知,这是第一批适应生成模型在完整的统一框架中并在TPP背景下研究其有效性的作品。我们的代码库包括第5.1.1节中给出的所有方法。5.1.1在\ url {https://github.com/bird-tao/gntpp}中打开。我们希望代码框架可以促进神经TPP的未来研究。
translated by 谷歌翻译
The reparameterization trick enables optimizing large scale stochastic computation graphs via gradient descent. The essence of the trick is to refactor each stochastic node into a differentiable function of its parameters and a random variable with fixed distribution. After refactoring, the gradients of the loss propagated by the chain rule through the graph are low variance unbiased estimators of the gradients of the expected loss. While many continuous random variables have such reparameterizations, discrete random variables lack useful reparameterizations due to the discontinuous nature of discrete states. In this work we introduce CONCRETE random variables-CONtinuous relaxations of disCRETE random variables. The Concrete distribution is a new family of distributions with closed form densities and a simple reparameterization. Whenever a discrete stochastic node of a computation graph can be refactored into a one-hot bit representation that is treated continuously, Concrete stochastic nodes can be used with automatic differentiation to produce low-variance biased gradients of objectives (including objectives that depend on the log-probability of latent stochastic nodes) on the corresponding discrete graph. We demonstrate the effectiveness of Concrete relaxations on density estimation and structured prediction tasks using neural networks.
translated by 谷歌翻译