智能论文笔记

Continual Repeated Annealed Flow Transport Monte Carlo

Alexander G. D. G. Matthews , Michael Arbel , Danilo J. Rezende , Arnaud Doucet

分类： (统计)机器学习 | 机器学习

2022-01-31

我们提出了连续重复的退火流传输蒙特卡洛（CRAFT），该方法结合了顺序的蒙特卡洛（SMC）采样器（本身是退火重要性采样的概括）与使用归一化流量的变异推断。直接训练了归一化的流量，可用于使用KL差异进行每个过渡，以在退火温度之间运输。使用归一化流/SMC近似值估算了此优化目标。我们从概念上展示并使用多个经验示例，这些示例可以改善退火流运输蒙特卡洛（Arbel等，2021），并在其上建造，也可以在基于马尔可夫链蒙特卡洛（MCMC）基于基于的随机归一化流（Wu等人。2020）。通过将工艺纳入粒子MCMC中，我们表明，这种学识渊博的采样器可以在具有挑战性的晶格场理论示例中获得令人印象深刻的准确结果。

translated by 谷歌翻译

Flow Annealed Importance Sampling Bootstrap

Laurence Illing Midgley , Vincent Stimper , Gregor N. C. Simm , Bernhard Schölkopf , José Miguel Hernández-Lobato

分类：机器学习 | (统计)机器学习

2022-08-03

标准化流是可易处理的密度模型，可以近似复杂的目标分布，例如物理系统的玻尔兹曼分布。但是，当前的训练流量要么具有寻求模式的行为，要么使用昂贵的MCMC模拟事先生成的目标样本，要么使用具有很高差异的随机损失。为了避免这些问题，我们以退火重要性采样（AIS）增强流量，并最大程度地减少覆盖$ \ alpha $ -divergence的质量，并使用$ \ alpha = 2 $，从而最大程度地减少了重要性的重量差异。我们的方法是流动性Bootstrap（Fab），使用AIS在流动较差的目标区域中生成样品，从而促进了新模式的发现。我们以AIS的最小差异分布来定位，以通过重要性抽样来估计$ \ alpha $ -Divergence。我们还使用优先的缓冲区来存储和重复使用AIS样本。这两个功能显着提高了Fab的性能。我们将FAB应用于复杂的多模式目标，并表明我们可以在以前的方法失败的情况下非常准确地近似它们。据我们所知，我们是第一个仅使用非均衡目标密度学习丙氨酸二肽分子的玻璃体分布，而无需通过分子动力学（MD）模拟生成的样品：FAB与通过最大可能性训练更好的效果，而不是通过最大可能性产生的结果。在MD样品上使用100倍的目标评估。在重新获得重要权重的样品后，我们获得了与地面真相几乎相同的二面角的无偏直方图。

translated by 谷歌翻译

Score-Based Diffusion meets Annealed Importance Sampling

Arnaud Doucet , Will Grathwohl , Alexander G. D. G. Matthews , Heiko Strathmann

分类： (统计)机器学习 | 机器学习

2022-08-16

引入后二十年多，退火重要性采样（AIS）仍然是边际可能性估计的最有效方法之一。它依赖于一系列分布序列在可聊天的初始分布和利益的目标分布之间插值，我们从大约使用非均匀的马尔可夫链中模拟了分布。为了获得边际可能性的重要性采样估计，AIS引入了扩展的目标分布，以重新持续马尔可夫链提案。尽管已经大量努力通过更改AIS使用的提案分布，通过更改中间分布和相应的马尔可夫内核，但不被评估的问题是AIS使用方便但次优的扩展目标分布。这可能会阻碍其性能。我们在这里利用基于分数的生成建模（SGM）的最新进展来近似与Langevin和Hamiltonian Dynamics离散化相对应的AIS建议的最佳扩展目标分布。我们在许多合成基准分布和变异自动编码器上展示了这些新颖的，可区分的AIS程序。

translated by 谷歌翻译

Optimization of Annealed Importance Sampling Hyperparameters

Shirin Goshtasbpour , Fernando Perez-Cruz

分类： (统计)机器学习 | 机器学习

2022-09-27

退火重要性采样（AIS）是一种流行的算法，用于估计深层生成模型的棘手边际可能性。尽管AIS可以保证为任何一组超参数提供无偏估计，但共同的实现依赖于简单的启发式方法，例如初始和目标分布之间的几何平均桥接分布，这些分布在计算预算有限时会影响估计性性能。由于使用Markov过渡中的大都市磨碎（MH）校正步骤，因此对完全参数AI的优化仍然具有挑战性。我们提出一个具有灵活中间分布的参数AIS过程，并优化桥接分布以使用较少数量的采样步骤。一种重新聚集方法，它允许我们优化分布序列和Markov转换的参数，该参数适用于具有MH校正的大型Markov内核。我们评估了优化AIS的性能，以进行深层生成模型的边际可能性估计，并将其与其他估计器进行比较。

translated by 谷歌翻译

Normalizing Flows for Probabilistic Modeling and Inference

George Papamakarios , Eric Nalisnick , Danilo Jimenez Rezende , Shakir Mohamed , Balaji Lakshminarayanan

分类：

2019-12-05

Normalizing flows provide a general mechanism for defining expressive probability distributions, only requiring the specification of a (usually simple) base distribution and a series of bijective transformations. There has been much recent work on normalizing flows, ranging from improving their expressive power to expanding their application. We believe the field has now matured and is in need of a unified perspective. In this review, we attempt to provide such a perspective by describing flows through the lens of probabilistic modeling and inference. We place special emphasis on the fundamental principles of flow design, and discuss foundational topics such as expressive power and computational trade-offs. We also broaden the conceptual framing of flows by relating them to more general probability transformations. Lastly, we summarize the use of flows for tasks such as generative modeling, approximate inference, and supervised learning.

translated by 谷歌翻译

Gradients should stay on Path: Better Estimators of the Reverse- and Forward KL Divergence for Normalizing Flows

Lorenz Vaitl , Kim A. Nicoli , Shinichi Nakajima , Pan Kessel

分类：机器学习 | (统计)机器学习

2022-07-17

我们提出了一种算法，以估计反向和前向kullback-leibler差异的路径梯度，以明显可逆地归一流。与标准的总梯度估计器相比，所得的路径梯度估计器可直接实施，具有较低的差异，不仅可以提高训练的速度更快，而且导致总体近似结果更好。我们还证明，路径梯度训练不太容易受到模式折叠的影响。鉴于我们的结果，我们期望路径梯度估计器将成为训练归一化流量的新标准方法。

translated by 谷歌翻译

Path Integral Sampler: a stochastic control approach for sampling

Qinsheng Zhang , Yongxin Chen

分类：机器学习

2021-11-30

我们呈现路径积分采样器〜（PIS），一种新型算法，用于从非正规化概率密度函数中绘制样本。 PIS建立在SCHR \“odinger桥问题上，旨在恢复鉴于其初始分布和终端分布的扩散过程的最可能演变。PIS从初始分布中抽取样品，然后通过SCHR \”传播样本“少剂桥到达终端分布。应用Girsanov定理，通过简单的先前扩散，我们将PIS制定为随机最佳控制问题，其运行成本是根据目标分布选择控制能量和终端成本。通过将控件建模为神经网络，我们建立了一种可以训练结束到底的采样算法。在使用子最优控制时，我们在Wassersein距离方面提供了PIS的采样质量的理论典范。此外，路径积分理论用于计算样本的重要性权重，以补偿由控制器的次级最优性和时间离散化引起的偏差。我们通过关于各种任务的其他启动采样方法进行了实验证明了PIS的优势。

translated by 谷歌翻译

A Unified Approach to Variational Autoencoders and Stochastic Normalizing Flows via Markov Chains

Johannes Hertrich , Paul Hagemann , Gabriele Steidl

分类：机器学习

2021-11-24

标准化流动，扩散归一化流量和变形自动置换器是强大的生成模型。在本文中，我们提供了一个统一的框架来通过马尔可夫链处理这些方法。实际上，我们考虑随机标准化流量作为一对马尔可夫链，满足一些属性，并表明许多用于数据生成的最先进模型适合该框架。马尔可夫链的观点使我们能够将确定性层作为可逆的神经网络和随机层作为大都会加速层，Langevin层和变形自身偏移，以数学上的声音方式。除了具有Langevin层的密度的层，扩散层或变形自身形式，也可以处理与确定性层或大都会加热器层没有密度的层。因此，我们的框架建立了一个有用的数学工具来结合各种方法。

translated by 谷歌翻译

Variational Gibbs inference for statistical model estimation from incomplete data

Vaidotas Simkus , Benjamin Rhodes , Michael U. Gutmann

分类：机器学习 | (统计)机器学习

2021-11-25

统计模型是机器学习的核心，具有广泛适用性，跨各种下游任务。模型通常由通过最大似然估计从数据估计的自由参数控制。但是，当面对现实世界数据集时，许多模型运行到一个关键问题：它们是在完全观察到的数据方面配制的，而在实践中，数据集会困扰缺失数据。来自不完整数据的统计模型估计理论在概念上类似于潜在变量模型的估计，其中存在强大的工具，例如变分推理（VI）。然而，与标准潜在变量模型相比，具有不完整数据的参数估计通常需要估计缺失变量的指数 - 许多条件分布，因此使标准的VI方法是棘手的。通过引入变分Gibbs推理（VGI），是一种新的通用方法来解决这个差距，以估计来自不完整数据的统计模型参数。我们在一组合成和实际估算任务上验证VGI，从不完整的数据中估算重要的机器学习模型，VAE和标准化流程。拟议的方法，同时通用，实现比现有的特定模型特定估计方法竞争或更好的性能。

translated by 谷歌翻译

Ex$^2$MCMC: Sampling through Exploration Exploitation

Evgeny Lagutin , Daniil Selikhanovych , Achille Thin , Sergey Samsonov , Alexey Naumov , Denis Belomestny , Maxim Panov , Eric Moulines

分类： (统计)机器学习 | 机器学习

2021-11-04

我们开发了一个探索漏洞利用马尔可夫链Monte Carlo算法（$ \ OperatorName {ex ^ 2mcmc} $），它结合了多个全局提议和本地移动。所提出的方法是巨大的平行化和极其计算的高效。我们证明$ \ operatorname {ex ^ 2mcmc} $下的$ v $ v $ -unique几何ergodicity在现实条件下，并计算混合速率的显式界限，显示多个全局移动带来的改进。我们展示$ \ operatorname {ex ^ 2mcmc} $允许通过提出依赖全局移动的新方法进行微调剥削（本地移动）和探索（全球移动）。最后，我们开发了一个自适应方案，$ \ OperatorName {Flex ^ 2mcmc} $，它学习使用归一化流的全局动作的分布。我们说明了许多经典采样基准测试的$ \ OperatorName {ex ^ 2mccmc} $及其自适应版本的效率。我们还表明，这些算法提高了对基于能量的模型的抽样GAN的质量。

translated by 谷歌翻译

Flow-based sampling for fermionic lattice field theories

Michael S. Albergo , Gurtej Kanwar , Sébastien Racanière , Danilo J. Rezende , Julian M. Urban , Denis Boyda , Kyle Cranmer , Daniel C. Hackett , Phiala E. Shanahan

分类：机器学习

2021-06-10

基于标准化流的算法是由于有希望的机器学习方法，以便以可以使渐近精确的方式采样复杂的概率分布。在格子场理论的背景下，原则上的研究已经证明了这种方法对标量理论，衡量理论和统计系统的有效性。这项工作开发了能够使用动力学蜕皮的基于流动的理论采样的方法，这对于应用于粒子物理标准模型和许多冷凝物系的晶格场理论研究是必要的。作为一种实践演示，这些方法应用于通过Yukawa相互作用耦合到标量场的无大量交错的费米子的二维理论的现场配置的采样。

translated by 谷歌翻译

Transport Score Climbing: Variational Inference Using Forward KL and Adaptive Neural Transport

Liyi Zhang , David M. Blei , Christian A. Naesseth

分类： (统计)机器学习 | 机器学习

2022-02-03

变异推理通常从近似分布q到后p中最小化“反向” kullbeck-leibeler（kl）kl（q || p）。最近的工作研究“正向” KL KL（P || Q），它与反向KL不同并不能导致低估不确定性的变异近似值。本文介绍了运输评分攀登（TSC），该方法通过使用汉密尔顿蒙特卡洛（HMC）和新型的自适应传输图来优化KL（P || Q）。传输图通过充当潜在变量空间和扭曲空间之间变量的变化来改善HMC的轨迹。TSC使用HMC样品在优化KL时动态训练传输图（P || Q）。TSC利用协同作用，在该协同作用下，更好的运输地图会导致更好的HMC采样，从而导致更好的传输地图。我们在合成和真实数据上演示了TSC。我们发现，在训练大规模数据的变异自动编码器时，TSC可以实现竞争性能。

translated by 谷歌翻译

Marginal likelihood computation for model selection and hypothesis testing: an extensive review

Fernando Llorente , Luca Martino , David Delgado , Javier Lopez-Santiago

分类：机器学习

2020-05-17

这是模型选择和假设检测的边缘似然计算的最新介绍和概述。计算概率模型（或常量比率）的常规规定常数是许多统计数据，应用数学，信号处理和机器学习中的许多应用中的基本问题。本文提供了对主题的全面研究。我们突出了不同技术之间的局限性，优势，连接和差异。还描述了使用不正确的前沿的问题和可能的解决方案。通过理论比较和数值实验比较一些最相关的方法。

translated by 谷歌翻译

Hamiltonian Dynamics with Non-Newtonian Momentum for Rapid Sampling

Greg Ver Steeg , Aram Galstyan

分类：机器学习

2021-11-03

从非正规化概率分布的抽样是机器学习中的基本问题，包括贝叶斯建模，潜在因子推断和基于能源的模型训练。在几十年的研究之后，尽管收敛缓慢，但MCMC的变化仍然是抽样的默认方法。辅助神经模型可以学习加速MCMC，但训练额外模型的开销可能是禁止的。我们通过具有非牛顿势头的新的汉密尔顿动态提出了对这个问题的根本不同的方法。与MCMC蒙特卡洛等MCMC接近相比，不需要随机步骤。相反，在扩展状态空间中提出的确定性动态精确地对能量函数指定的目标分布，在ergodicity的假设下。或者，可以将动态解释为在没有训练的情况下对指定的能量模型进行采样的标准化流程。所提出的能量采样哈密尔顿（ESH）动态有一个简单的形式，可以用现有的颂歌解决，但我们推出了一个专业的求解器，它表现出更好的性能。 ESH Dynamics会收敛于其MCMC竞争对手的速度更快，更稳定地培训神经网络能量模型。

translated by 谷歌翻译

State and parameter learning with PaRIS particle Gibbs

Gabriel Cardoso , Yazid Janati El Idrissi , Sylvain Le Corff , Eric Moulines , Jimmy Olsson

分类： (统计)机器学习

2023-01-02

Non-linear state-space models, also known as general hidden Markov models, are ubiquitous in statistical machine learning, being the most classical generative models for serial data and sequences in general. The particle-based, rapid incremental smoother PaRIS is a sequential Monte Carlo (SMC) technique allowing for efficient online approximation of expectations of additive functionals under the smoothing distribution in these models. Such expectations appear naturally in several learning contexts, such as likelihood estimation (MLE) and Markov score climbing (MSC). PARIS has linear computational complexity, limited memory requirements and comes with non-asymptotic bounds, convergence results and stability guarantees. Still, being based on self-normalised importance sampling, the PaRIS estimator is biased. Our first contribution is to design a novel additive smoothing algorithm, the Parisian particle Gibbs PPG sampler, which can be viewed as a PaRIS algorithm driven by conditional SMC moves, resulting in bias-reduced estimates of the targeted quantities. We substantiate the PPG algorithm with theoretical results, including new bounds on bias and variance as well as deviation inequalities. Our second contribution is to apply PPG in a learning framework, covering MLE and MSC as special examples. In this context, we establish, under standard assumptions, non-asymptotic bounds highlighting the value of bias reduction and the implicit Rao--Blackwellization of PPG. These are the first non-asymptotic results of this kind in this setting. We illustrate our theoretical results with numerical experiments supporting our claims.

translated by 谷歌翻译

SIXO: Smoothing Inference with Twisted Objectives

Dieterich Lawson , Allan Raventós , Andrew Warrington , Scott Linderman

分类：机器学习 | 人工智能 | (统计)机器学习

2022-06-13

顺序蒙特卡洛（SMC）是状态空间模型的推理算法，通过从一系列中间目标分布进行采样来近似后验。目标分布通常被选择为过滤分布，但是这些忽略了未来观察结果的信息，从而导致推理和模型学习的实际和理论局限性。我们介绍了SIXO，这种方法将学习近似平滑分布的目标，并结合了所有观测值的信息。关键思想是使用密度比估计来拟合将过滤分布扭曲到平滑分布中的功能。然后，我们将SMC与这些学习的目标一起使用，以定义模型和建议学习的变异目标。六体的产量可证明更紧密的对数边缘下限，并在各种域中提供了更准确的后验推断和参数估计。

translated by 谷歌翻译

Amortized Variational Inference: Towards the Mathematical Foundation and Review

Ankush Ganguly , Sanjana Jain , Ukrit Watchareeruetai

分类：机器学习 | (统计)机器学习

2022-09-22

变异推理（VI）的核心原理是将计算复杂后概率密度计算的统计推断问题转换为可拖动的优化问题。该属性使VI比几种基于采样的技术更快。但是，传统的VI算法无法扩展到大型数据集，并且无法轻易推断出越野数据点，而无需重新运行优化过程。该领域的最新发展，例如随机，黑框和摊销VI，已帮助解决了这些问题。如今，生成的建模任务广泛利用摊销VI来实现其效率和可扩展性，因为它利用参数化函数来学习近似的后验密度参数。在本文中，我们回顾了各种VI技术的数学基础，以构成理解摊销VI的基础。此外，我们还概述了最近解决摊销VI问题的趋势，例如摊销差距，泛化问题，不一致的表示学习和后验崩溃。最后，我们分析了改善VI优化的替代差异度量。

translated by 谷歌翻译

BR-SNIS: Bias Reduced Self-Normalized Importance Sampling

Gabriel Cardoso , Sergey Samsonov , Achille Thin , Eric Moulines , Jimmy Olsson

分类： (统计)机器学习 | 机器学习

2022-07-13

重要性采样（IS）是一种使用来自建议分布和相关重要性权重的独立样本在目标分布下近似期望的方法。在许多应用中，只有直到归一化常数才知道目标分布，在这种情况下，可以使用自称为（SNIS）。虽然自我正态化的使用可能会对估计量的分散产生积极影响，但它引入了偏见。在这项工作中，我们提出了一种新方法BR-SNIS，其复杂性与SNI的复杂性基本相同，并且显着降低了偏见而不增加差异。这种方法是一种包装器，从某种意义上说，它使用了与SNIS相同的建议样本和重要性权重，但巧妙地使用了迭代采样（ISIR）重新采样（ISIR）来形成估算器的偏置版本。我们为提出的算法提供了严格的理论结果，包括新的偏见，方差和高概率界限，这些算法由数值示例进行了说明。

translated by 谷歌翻译

NetKet 3: Machine Learning Toolbox for Many-Body Quantum Systems

Filippo Vicentini , Damian Hofmann , Attila Szabó , Dian Wu , Christopher Roth , Clemens Giuliani , Gabriel Pescia , Jannes Nys , Vladimir Vargas-Calderon , Nikita Astrakhantsev

分类：机器学习

2021-12-20

我们介绍了Netket的版本3，机器学习工具箱适用于许多身体量子物理学。Netket围绕神经网络量子状态构建，并为其评估和优化提供有效的算法。这个新版本是基于JAX的顶部，一个用于Python编程语言的可差分编程和加速的线性代数框架。最重要的新功能是使用机器学习框架的简明符号来定义纯Python代码中的任意神经网络ANS \“凝固的可能性，这允许立即编译以及渐变的隐式生成自动化。Netket 3还带来了GPU和TPU加速器的支持，对离散对称组的高级支持，块以缩放多程度的自由度，Quantum动态应用程序的驱动程序，以及改进的模块化，允许用户仅使用部分工具箱是他们自己代码的基础。

translated by 谷歌翻译

Efficient Learning of the Parameters of Non-Linear Models using Differentiable Resampling in Particle Filters

Conor Rosato , Paul Horridge , Thomas B. Schön , Simon Maskell

分类： (统计)机器学习 | 机器学习

2021-11-02

它已被广泛记录说粒子过滤器中的采样和重采样步骤不能差异化。介绍{\ itshape Reparameterisisisisisation技巧}以允许采样步骤重新重整为可微分功能。我们扩展{\ itshape Reparameterisisisation Trick}以包括重采样的随机输入，因此在此步骤之后限制了梯度计算中的不连续性。了解先前和可能性的梯度允许我们运行粒子马尔可夫链蒙特卡罗（P-MCMC）并在估算参数时使用No-U转样采样器（螺母）作为提案。我们将大都市调整后的Langevin算法（MALA）进行比较，汉密尔顿蒙特卡罗与不同数量的步骤和坚果。我们考虑两个状态空间模型，并表明坚果改善了马尔可夫链的混合，可以在较少的计算时间内产生更准确的结果。

translated by 谷歌翻译