归一化流量是灵活的,参数化分布,可用于通过重要性采样从难治性分布中的预期近似。然而,目前的基于流动的方法受到挑战目标的限制,其中它们患有模式寻求行为或在训练损失中的高方差,或依赖于目标分布的样本,这可能不可用。为了解决这些挑战,我们将流量与退火重点采样(AIS)相结合,同时使用$ \ Alpha $ - 在新颖的培训程序中使用$ \ Alpha $ - 作为我们的目标,在培训程序Fab(Flow AIS Bootstrap)中。因此,流动和AI以自动启动方式彼此改进。我们展示了FAB可以用于对复杂的目标分布产生准确的近似,包括Boltzmann分布,在前一种基于流基的方法失败的问题中。
translated by 谷歌翻译
标准化流是可易处理的密度模型,可以近似复杂的目标分布,例如物理系统的玻尔兹曼分布。但是,当前的训练流量要么具有寻求模式的行为,要么使用昂贵的MCMC模拟事先生成的目标样本,要么使用具有很高差异的随机损失。为了避免这些问题,我们以退火重要性采样(AIS)增强流量,并最大程度地减少覆盖$ \ alpha $ -divergence的质量,并使用$ \ alpha = 2 $,从而最大程度地减少了重要性的重量差异。我们的方法是流动性Bootstrap(Fab),使用AIS在流动较差的目标区域中生成样品,从而促进了新模式的发现。我们以AIS的最小差异分布来定位,以通过重要性抽样来估计$ \ alpha $ -Divergence。我们还使用优先的缓冲区来存储和重复使用AIS样本。这两个功能显着提高了Fab的性能。我们将FAB应用于复杂的多模式目标,并表明我们可以在以前的方法失败的情况下非常准确地近似它们。据我们所知,我们是第一个仅使用非均衡目标密度学习丙氨酸二肽分子的玻璃体分布,而无需通过分子动力学(MD)模拟生成的样品:FAB与通过最大可能性训练更好的效果,而不是通过最大可能性产生的结果。在MD样品上使用100倍的目标评估。在重新获得重要权重的样品后,我们获得了与地面真相几乎相同的二面角的无偏直方图。
translated by 谷歌翻译
退火重要性采样(AIS)是一种流行的算法,用于估计深层生成模型的棘手边际可能性。尽管AIS可以保证为任何一组超参数提供无偏估计,但共同的实现依赖于简单的启发式方法,例如初始和目标分布之间的几何平均桥接分布,这些分布在计算预算有限时会影响估计性性能。由于使用Markov过渡中的大都市磨碎(MH)校正步骤,因此对完全参数AI的优化仍然具有挑战性。我们提出一个具有灵活中间分布的参数AIS过程,并优化桥接分布以使用较少数量的采样步骤。一种重新聚集方法,它允许我们优化分布序列和Markov转换的参数,该参数适用于具有MH校正的大型Markov内核。我们评估了优化AIS的性能,以进行深层生成模型的边际可能性估计,并将其与其他估计器进行比较。
translated by 谷歌翻译
我们提出了连续重复的退火流传输蒙特卡洛(CRAFT),该方法结合了顺序的蒙特卡洛(SMC)采样器(本身是退火重要性采样的概括)与使用归一化流量的变异推断。直接训练了归一化的流量,可用于使用KL差异进行每个过渡,以在退火温度之间运输。使用归一化流/SMC近似值估算了此优化目标。我们从概念上展示并使用多个经验示例,这些示例可以改善退火流运输蒙特卡洛(Arbel等,2021),并在其上建造,也可以在基于马尔可夫链蒙特卡洛(MCMC)基于基于的随机归一化流(Wu等人。2020)。通过将工艺纳入粒子MCMC中,我们表明,这种学识渊博的采样器可以在具有挑战性的晶格场理论示例中获得令人印象深刻的准确结果。
translated by 谷歌翻译
我们提出了一种算法,以估计反向和前向kullback-leibler差异的路径梯度,以明显可逆地归一流。与标准的总梯度估计器相比,所得的路径梯度估计器可直接实施,具有较低的差异,不仅可以提高训练的速度更快,而且导致总体近似结果更好。我们还证明,路径梯度训练不太容易受到模式折叠的影响。鉴于我们的结果,我们期望路径梯度估计器将成为训练归一化流量的新标准方法。
translated by 谷歌翻译
我们呈现路径积分采样器〜(PIS),一种新型算法,用于从非正规化概率密度函数中绘制样本。 PIS建立在SCHR \“odinger桥问题上,旨在恢复鉴于其初始分布和终端分布的扩散过程的最可能演变。PIS从初始分布中抽取样品,然后通过SCHR \”传播样本“少剂桥到达终端分布。应用Girsanov定理,通过简单的先前扩散,我们将PIS制定为随机最佳控制问题,其运行成本是根据目标分布选择控制能量和终端成本。通过将控件建模为神经网络,我们建立了一种可以训练结束到底的采样算法。在使用子最优控制时,我们在Wassersein距离方面提供了PIS的采样质量的理论典范。此外,路径积分理论用于计算样本的重要性权重,以补偿由控制器的次级最优性和时间离散化引起的偏差。我们通过关于各种任务的其他启动采样方法进行了实验证明了PIS的优势。
translated by 谷歌翻译
通过最小化kullback-leibler(kl)差异,变化推断近似于非差异分布。尽管这种差异对于计算有效,并且已在应用中广泛使用,但它具有一些不合理的属性。例如,它不是一个适当的度量标准,即,它是非对称的,也不保留三角形不等式。另一方面,最近的最佳运输距离显示出比KL差异的一些优势。在这些优势的帮助下,我们通过最大程度地减少切片的瓦斯汀距离,这是一种由最佳运输产生的有效度量,提出了一种新的变异推理方法。仅通过运行MCMC而不能解决任何优化问题,就可以简单地近似切片的Wasserstein距离。我们的近似值也不需要变异分布的易于处理密度函数,因此诸如神经网络之类的发电机可以摊销近似家庭。此外,我们提供了方法的理论特性分析。说明了关于合成和真实数据的实验,以显示提出的方法的性能。
translated by 谷歌翻译
变异推理通常从近似分布q到后p中最小化“反向” kullbeck-leibeler(kl)kl(q || p)。最近的工作研究“正向” KL KL(P || Q),它与反向KL不同并不能导致低估不确定性的变异近似值。本文介绍了运输评分攀登(TSC),该方法通过使用汉密尔顿蒙特卡洛(HMC)和新型的自适应传输图来优化KL(P || Q)。传输图通过充当潜在变量空间和扭曲空间之间变量的变化来改善HMC的轨迹。TSC使用HMC样品在优化KL时动态训练传输图(P || Q)。TSC利用协同作用,在该协同作用下,更好的运输地图会导致更好的HMC采样,从而导致更好的传输地图。我们在合成和真实数据上演示了TSC。我们发现,在训练大规模数据的变异自动编码器时,TSC可以实现竞争性能。
translated by 谷歌翻译
标准化流动,扩散归一化流量和变形自动置换器是强大的生成模型。在本文中,我们提供了一个统一的框架来通过马尔可夫链处理这些方法。实际上,我们考虑随机标准化流量作为一对马尔可夫链,满足一些属性,并表明许多用于数据生成的最先进模型适合该框架。马尔可夫链的观点使我们能够将确定性层作为可逆的神经网络和随机层作为大都会加速层,Langevin层和变形自身偏移,以数学上的声音方式。除了具有Langevin层的密度的层,扩散层或变形自身形式,也可以处理与确定性层或大都会加热器层没有密度的层。因此,我们的框架建立了一个有用的数学工具来结合各种方法。
translated by 谷歌翻译
The choice of approximate posterior distribution is one of the core problems in variational inference. Most applications of variational inference employ simple families of posterior approximations in order to allow for efficient inference, focusing on mean-field or other simple structured approximations. This restriction has a significant impact on the quality of inferences made using variational methods. We introduce a new approach for specifying flexible, arbitrarily complex and scalable approximate posterior distributions. Our approximations are distributions constructed through a normalizing flow, whereby a simple initial density is transformed into a more complex one by applying a sequence of invertible transformations until a desired level of complexity is attained. We use this view of normalizing flows to develop categories of finite and infinitesimal flows and provide a unified view of approaches for constructing rich posterior approximations. We demonstrate that the theoretical advantages of having posteriors that better match the true posterior, combined with the scalability of amortized variational approaches, provides a clear improvement in performance and applicability of variational inference.
translated by 谷歌翻译
变异推理(VI)的核心原理是将计算复杂后概率密度计算的统计推断问题转换为可拖动的优化问题。该属性使VI比几种基于采样的技术更快。但是,传统的VI算法无法扩展到大型数据集,并且无法轻易推断出越野数据点,而无需重新运行优化过程。该领域的最新发展,例如随机,黑框和摊销VI,已帮助解决了这些问题。如今,生成的建模任务广泛利用摊销VI来实现其效率和可扩展性,因为它利用参数化函数来学习近似的后验密度参数。在本文中,我们回顾了各种VI技术的数学基础,以构成理解摊销VI的基础。此外,我们还概述了最近解决摊销VI问题的趋势,例如摊销差距,泛化问题,不一致的表示学习和后验崩溃。最后,我们分析了改善VI优化的替代差异度量。
translated by 谷歌翻译
Normalizing flows provide a general mechanism for defining expressive probability distributions, only requiring the specification of a (usually simple) base distribution and a series of bijective transformations. There has been much recent work on normalizing flows, ranging from improving their expressive power to expanding their application. We believe the field has now matured and is in need of a unified perspective. In this review, we attempt to provide such a perspective by describing flows through the lens of probabilistic modeling and inference. We place special emphasis on the fundamental principles of flow design, and discuss foundational topics such as expressive power and computational trade-offs. We also broaden the conceptual framing of flows by relating them to more general probability transformations. Lastly, we summarize the use of flows for tasks such as generative modeling, approximate inference, and supervised learning.
translated by 谷歌翻译
无似然推理涉及在给定的数据和模拟器模型的情况下推断参数值。模拟器是计算机代码,它采用参数,执行随机计算并输出模拟数据。在这项工作中,我们将模拟器视为一个函数,其输入为(1)参数和(2)伪随机绘制的向量。我们试图推断出以观察结果为条件的所有这些输入。这是具有挑战性的,因为最终的后验可能是高维且涉及强大的依赖性。我们使用归一化流量(柔性参数密度族)近似后验。训练数据是通过具有较大带宽值Epsilon的非似然重要性采样来生成的,这使得目标与先验相似。培训数据通过使用它来训练更新的归一流流程来“蒸馏”。该过程是迭代的,使用更新的流程作为重要性采样建议,并慢慢降低epsilon,从而使目标变得更接近后部。与大多数其他无似然的方法不同,我们避免将数据减少到低维汇总统计数据,因此可以实现更准确的结果。我们在两个充满挑战的排队和流行病学示例中说明了我们的方法。
translated by 谷歌翻译
引入后二十年多,退火重要性采样(AIS)仍然是边际可能性估计的最有效方法之一。它依赖于一系列分布序列在可聊天的初始分布和利益的目标分布之间插值,我们从大约使用非均匀的马尔可夫链中模拟了分布。为了获得边际可能性的重要性采样估计,AIS引入了扩展的目标分布,以重新持续马尔可夫链提案。尽管已经大量努力通过更改AIS使用的提案分布,通过更改中间分布和相应的马尔可夫内核,但不被评估的问题是AIS使用方便但次优的扩展目标分布。这可能会阻碍其性能。我们在这里利用基于分数的生成建模(SGM)的最新进展来近似与Langevin和Hamiltonian Dynamics离散化相对应的AIS建议的最佳扩展目标分布。我们在许多合成基准分布和变异自动编码器上展示了这些新颖的,可区分的AIS程序。
translated by 谷歌翻译
从观察到的调查数据中,宇宙学的正向建模方法使在宇宙开头重建初始条件成为可能。但是,参数空间的高维度仍然构成挑战,探索完整的后部,传统算法(例如汉密尔顿蒙特卡洛(HMC))由于产生相关样本而在计算上效率低下发散(损失)功能。在这里,我们开发了一种称为变异自动采样(VBS)的混合方案,以通过学习用于蒙特卡洛采样的建议分布的变异近似来减轻这两种算法的缺点,并将其与HMC结合。变异分布被参数化为正常化的流量,并通过即时生成的样品学习,而从中提取的建议则减少了MCMC链中的自动相关长度。我们的归一化流程使用傅立叶空间卷积和元素的操作来扩展到高维度。我们表明,经过短暂的初始热身和训练阶段,VBS比简单的VI方法产生了更好的样品质量,并将采样阶段的相关长度缩短了10-50倍,仅使用HMC探索初始的后验64 $^3 $和128 $^3 $维度问题的条件,高信噪比数据观察的收益较大。
translated by 谷歌翻译
最近推出的热集成技术已经了解并改善变推理(VI),提供了一个新的框架。在这项工作中,我们提出了热力学变目标(TVO)的仔细分析,弥合现有的变分目标和脱落的新见解,以推动该领域的差距。特别是,我们阐明了如何将TVO自然连接三个关键变方案,即重要性加权VI,仁义-VI,和MCMC-VI,它包含了最VI目标在实践中采用。为了解释理论和实践之间的性能差距,我们揭示热力学曲线的病理几何形状是如何产生负面影响TVO。通过推广加权平均持有人从几何平均值的整合路径,我们扩展TVO的理论和发现提高VI新的机遇。这促使我们的新VI的目标,命名为持有人的边界,这拼合热力学曲线和承诺,以实现精确的边缘数似然的一步逼近。提供对数字估计的选择的全面讨论。我们目前的合成和真实世界的数据集强有力的实证证据来支持我们的要求。
translated by 谷歌翻译
近似复杂的概率密度是现代统计中的核心问题。在本文中,我们介绍了变分推理(VI)的概念,这是一种机器学习中的流行方法,该方法使用优化技术来估计复杂的概率密度。此属性允许VI汇聚速度比经典方法更快,例如Markov Chain Monte Carlo采样。概念上,VI通过选择一个概率密度函数,然后找到最接近实际概率密度的家庭 - 通常使用Kullback-Leibler(KL)发散作为优化度量。我们介绍了缩窄的证据,以促进近似的概率密度,我们审查了平均场变分推理背后的想法。最后,我们讨论VI对变分式自动编码器(VAE)和VAE-生成的对抗网络(VAE-GAN)的应用。用本文,我们的目标是解释VI的概念,并通过这种方法协助协助。
translated by 谷歌翻译
统计模型是机器学习的核心,具有广泛适用性,跨各种下游任务。模型通常由通过最大似然估计从数据估计的自由参数控制。但是,当面对现实世界数据集时,许多模型运行到一个关键问题:它们是在完全观察到的数据方面配制的,而在实践中,数据集会困扰缺失数据。来自不完整数据的统计模型估计理论在概念上类似于潜在变量模型的估计,其中存在强大的工具,例如变分推理(VI)。然而,与标准潜在变量模型相比,具有不完整数据的参数估计通常需要估计缺失变量的指数 - 许多条件分布,因此使标准的VI方法是棘手的。通过引入变分Gibbs推理(VGI),是一种新的通用方法来解决这个差距,以估计来自不完整数据的统计模型参数。我们在一组合成和实际估算任务上验证VGI,从不完整的数据中估算重要的机器学习模型,VAE和标准化流程。拟议的方法,同时通用,实现比现有的特定模型特定估计方法竞争或更好的性能。
translated by 谷歌翻译
Score based approaches to sampling have shown much success as a generative algorithm to produce new samples from a target density given a pool of initial samples. In this work, we consider if we have no initial samples from the target density, but rather $0^{th}$ and $1^{st}$ order oracle access to the log likelihood. Such problems may arise in Bayesian posterior sampling, or in approximate minimization of non-convex functions. Using this knowledge alone, we propose a Monte Carlo method to estimate the score empirically as a particular expectation of a random variable. Using this estimator, we can then run a discrete version of the backward flow SDE to produce samples from the target density. This approach has the benefit of not relying on a pool of initial samples from the target density, and it does not rely on a neural network or other black box model to estimate the score.
translated by 谷歌翻译
估计自由能,以及其他热力学可观察,是格子田间理论中的关键任务。最近,已经指出,可以在这种情况下使用深生成的模型。至关重要的是,这些模型允许在参数空间中的给定点处直接估计自由能。这与基于Markov链条的现有方法形成对比,这些方法通常需要通过参数空间集成。在这一贡献中,我们将审查这种基于机器学习的估算方法。我们将详细讨论模式崩溃问题和大纲缓解技术,这些技术特别适用于有限温度的应用。
translated by 谷歌翻译