智能论文笔记

PAVI: Plate-Amortized Variational Inference

Louis Rouillard , Thomas Moreau , Demian Wassermann

分类：人工智能 | 机器学习 | (统计)机器学习

2022-06-10

鉴于一些观察到的数据和概率生成模型，贝叶斯推论的目的是获得可能产生数据的模型潜在参数的分布。对于大型人群研究，这项任务是具有挑战性的，在大量人群研究中，在数百名受试者的队列中进行了数千次测量，从而产生了大规模的潜在参数空间。这种较大的基数使现成的变异推理（VI）在计算上是不切实际的。在这项工作中，我们设计了可以有效解决大型人口研究的结构化VI家族。为此，我们的主要思想是在不同的I.I.D.上共享参数化和学习。由模型板拟合的生成模型中的变量。我们将此概念板摊销命名，并说明了其权利的强大协同作用，从而导致表达性，简短的参数化和更快的数量级，以训练大型层次分布分布。我们通过一个充满挑战的神经影像学示例来说明PAVI的实际实用性，该示例具有一百万个潜在参数，这表明了朝着可扩展和表现力的变异推理迈出的重要一步。

translated by 谷歌翻译

HNPE: Leveraging Global Parameters for Neural Posterior Estimation

Pedro L. C. Rodrigues , Thomas Moreau , Gilles Louppe , Alexandre Gramfort

分类： (统计)机器学习 | 机器学习

2021-02-12

推断基于实验观察的随机模型的参数是科学方法的核心。特别具有挑战性的设置是当模型强烈不确定时，即当不同的参数集产生相同的观察时。这在许多实际情况下出现，例如在推断无线电源的距离和功率时（是源关闭和弱或远远强，且强大且强大？）或估计电生理实验的放大器增益和底层脑活动。在这项工作中，我们通过利用由辅助观察集共享全局参数传达的附加信息来阐明这种不确定性的新方法。我们的方法基于对贝叶斯分层模型的标准化流程扩展了基于仿真的推断（SBI）的最新进展。我们通过模拟和实际EEG数据将其应用于可用于分析解决方案的激励示例，以便将其验证我们的提案，然后将其从计算神经科学逆变众所周知的非线性模型。

translated by 谷歌翻译

Variational Gibbs inference for statistical model estimation from incomplete data

Vaidotas Simkus , Benjamin Rhodes , Michael U. Gutmann

分类：机器学习 | (统计)机器学习

2021-11-25

统计模型是机器学习的核心，具有广泛适用性，跨各种下游任务。模型通常由通过最大似然估计从数据估计的自由参数控制。但是，当面对现实世界数据集时，许多模型运行到一个关键问题：它们是在完全观察到的数据方面配制的，而在实践中，数据集会困扰缺失数据。来自不完整数据的统计模型估计理论在概念上类似于潜在变量模型的估计，其中存在强大的工具，例如变分推理（VI）。然而，与标准潜在变量模型相比，具有不完整数据的参数估计通常需要估计缺失变量的指数 - 许多条件分布，因此使标准的VI方法是棘手的。通过引入变分Gibbs推理（VGI），是一种新的通用方法来解决这个差距，以估计来自不完整数据的统计模型参数。我们在一组合成和实际估算任务上验证VGI，从不完整的数据中估算重要的机器学习模型，VAE和标准化流程。拟议的方法，同时通用，实现比现有的特定模型特定估计方法竞争或更好的性能。

translated by 谷歌翻译

Amortized Variational Inference: Towards the Mathematical Foundation and Review

Ankush Ganguly , Sanjana Jain , Ukrit Watchareeruetai

分类：机器学习 | (统计)机器学习

2022-09-22

变异推理（VI）的核心原理是将计算复杂后概率密度计算的统计推断问题转换为可拖动的优化问题。该属性使VI比几种基于采样的技术更快。但是，传统的VI算法无法扩展到大型数据集，并且无法轻易推断出越野数据点，而无需重新运行优化过程。该领域的最新发展，例如随机，黑框和摊销VI，已帮助解决了这些问题。如今，生成的建模任务广泛利用摊销VI来实现其效率和可扩展性，因为它利用参数化函数来学习近似的后验密度参数。在本文中，我们回顾了各种VI技术的数学基础，以构成理解摊销VI的基础。此外，我们还概述了最近解决摊销VI问题的趋势，例如摊销差距，泛化问题，不一致的表示学习和后验崩溃。最后，我们分析了改善VI优化的替代差异度量。

translated by 谷歌翻译

BCD Nets: Scalable Variational Approaches for Bayesian Causal Discovery

Chris Cundy , Aditya Grover , Stefano Ermon

分类：机器学习 | 人工智能 | (统计)机器学习

2021-12-06

结构方程模型（SEM）是一种有效的框架，其原因是通过定向非循环图（DAG）表示的因果关系。最近的进步使得能够从观察数据中实现了DAG的最大似然点估计。然而，在实际场景中，可以不能准确地捕获在推断下面的底层图中的不确定性，其中真正的DAG是不可识别的并且/或观察到的数据集是有限的。我们提出了贝叶斯因果发现网（BCD网），一个变分推理框架，用于估算表征线性高斯SEM的DAG的分布。由于图形的离散和组合性质，开发一个完整的贝叶斯后面是挑战。我们通过表达变分别家庭分析可扩展VI的可扩展VI的关键设计选择，例如1）表达性变分别家庭，2）连续弛豫，使低方差随机优化和3）在潜在变量上具有合适的前置。我们提供了一系列关于实际和合成数据的实验，显示BCD网在低数据制度中的标准因果发现度量上的最大似然方法，例如结构汉明距离。

translated by 谷歌翻译

Normalizing Flows for Probabilistic Modeling and Inference

George Papamakarios , Eric Nalisnick , Danilo Jimenez Rezende , Shakir Mohamed , Balaji Lakshminarayanan

分类：

2019-12-05

Normalizing flows provide a general mechanism for defining expressive probability distributions, only requiring the specification of a (usually simple) base distribution and a series of bijective transformations. There has been much recent work on normalizing flows, ranging from improving their expressive power to expanding their application. We believe the field has now matured and is in need of a unified perspective. In this review, we attempt to provide such a perspective by describing flows through the lens of probabilistic modeling and inference. We place special emphasis on the fundamental principles of flow design, and discuss foundational topics such as expressive power and computational trade-offs. We also broaden the conceptual framing of flows by relating them to more general probability transformations. Lastly, we summarize the use of flows for tasks such as generative modeling, approximate inference, and supervised learning.

translated by 谷歌翻译

Modeling Item Response Theory with Stochastic Variational Inference

Mike Wu , Richard L. Davis , Benjamin W. Domingue , Chris Piech , Noah Goodman

分类：机器学习 | (统计)机器学习

2021-08-26

项目反应理论（IRT）是一个无处不在的模型，可以根据他们对问题的回答理解人类行为和态度。大型现代数据集为捕捉人类行为的更多细微差别提供了机会，从而有可能改善心理测量模型，从而改善科学理解和公共政策。但是，尽管较大的数据集允许采用更灵活的方法，但许多用于拟合IRT模型的当代算法也可能具有禁止现实世界应用的巨大计算需求。为了解决这种瓶颈，我们引入了IRT的变异贝叶斯推理算法，并表明它在不牺牲准确性的情况下快速可扩展。将此方法应用于认知科学和教育的五个大规模项目响应数据集中，比替代推理算法更高的对数可能性和更高的准确性。然后，使用这种新的推论方法，我们将IRT概括为具有表现力的贝叶斯响应模型，利用深度学习的最新进展来捕获具有神经网络的非线性项目特征曲线（ICC）。使用TIMSS的特定级数学测试，我们显示我们的非线性IRT模型可以捕获有趣的不对称ICC。该算法实现是开源的，易于使用。

translated by 谷歌翻译

Inverting brain grey matter models with likelihood-free inference: a tool for trustable cytoarchitecture measurements

Maëliss Jallais , Pedro Rodrigues , Alexandre Gramfort , Demian Wassermann

分类：机器学习

2021-11-15

对脑灰质细胞结构的有效表征具有定量敏感性对SOMA密度和体积的敏感性仍然是扩散MRI（DMRI）中的未解决的攻击。解决与细胞建筑特征的DMRI信号相关的问题呼吁通过少数生理相关参数和用于反相模型的算法来定义描述脑组织的数学模型。为了解决这个问题，我们提出了一个新的前向模型，特别是一个新的方程式系统，需要几个相对稀疏的B-shell。然后，我们从贝叶斯分析中应用现代工具，称为无似然推论（LFI）来颠覆我们所提出的模型。与文献中的其他方法相比，我们的算法不仅产生了最能描述给定的观察数据点$ x_0 $的参数向量$ \ theta $的估计，而且还产生了全面的后分发$ p（\ theta | x_0）超过参数空间。这使得模型反演的描述能够更丰富地描述，提供估计参数的可信间隔的指示符以及模型可能呈现不确定性的参数区域的完整表征。我们近似使用深神经密度估计器的后部分布，称为标准化流，并使用来自前向模型的一组重复模拟来拟合它们。我们使用DMIPY验证我们的模拟方法，然后在两个公共可用数据集上应用整个管道。

translated by 谷歌翻译

Reliable amortized variational inference with physics-based latent distribution correction

Ali Siahkoohi , Gabrio Rizzuti , Rafael Orozco , Felix J. Herrmann

分类： (统计)机器学习 | 机器学习

2022-07-24

远期操作员的计算成本和选择适当的先前分布的计算成本挑战了贝叶斯对高维逆问题的推断。摊销的变异推理解决了这些挑战，在这些挑战中，训练神经网络以近似于现有模型和数据对的后验分布。如果以前看不见的数据和正态分布的潜在样品作为输入，则预处理的深神经网络（在我们的情况下是有条件的正常化流量）几乎没有成本的后验样品。然而，这种方法的准确性取决于高保真训练数据的可用性，由于地球的异质结构，由于地球物理逆问题很少存在。此外，准确的摊销变异推断需要从训练数据分布中汲取观察到的数据。因此，我们建议通过基于物理学的校正对有条件的归一化流量分布来提高摊销变异推断的弹性。为了实现这一目标，我们不是标准的高斯潜在分布，我们通过具有未知平均值和对角线协方差的高斯分布来对潜在分布进行参数化。然后，通过最小化校正后分布和真实后验分布之间的kullback-leibler差异来估算这些未知数量。尽管通用和适用于其他反问题，但通过地震成像示例，我们表明我们的校正步骤可提高摊销变异推理的鲁棒性，以相对于源实验数量的变化，噪声方差以及先前分布的变化。这种方法提供了伪像有限的地震图像，并评估其不确定性，其成本大致与五个反度迁移相同。

translated by 谷歌翻译

Structured Stochastic Gradient MCMC

Antonios Alexos , Alex Boyd , Stephan Mandt

分类：机器学习 | (统计)机器学习

2021-07-19

随机梯度马尔可夫链蒙特卡洛（SGMCMC）被认为是大型模型（例如贝叶斯神经网络）中贝叶斯推断的金标准。由于从业人员在这些模型中面临速度与准确性权衡，因此变异推理（VI）通常是可取的选择。不幸的是，VI对后部的分解和功能形式做出了有力的假设。在这项工作中，我们提出了一个新的非参数变分近似，该近似没有对后验功能形式进行假设，并允许从业者指定算法应尊重或断裂的确切依赖性。该方法依赖于在修改的能量函数上运行的新的langevin型算法，其中潜在变量的一部分是在马尔可夫链的早期迭代中平均的。这样，统计依赖性可以以受控的方式破裂，从而使链条混合更快。可以以“辍学”方式进一步修改该方案，从而导致更大的可扩展性。我们在CIFAR-10，SVHN和FMNIST上测试RESNET-20的计划。在所有情况下，与SG-MCMC和VI相比，我们都会发现收敛速度和/或最终精度的提高。

translated by 谷歌翻译

Incremental Non-Gaussian Inference for SLAM Using Normalizing Flows

Qiangqiang Huang , Can Pu , Kasra Khosoussi , David M. Rosen , Dehann Fourie , Jonathan P. How , John J. Leonard

分类：机器人 | 机器学习

2021-10-02

本文介绍了用于增量平滑和映射（NF-ISAM）的归一化流，这是一种新型算法，用于通过非线性测量模型和非高斯因素来推断SLAM问题中完整的后验分布。NF-ISAM利用了神经网络的表达能力，并将正常的流量训练以建模和对完整的后部进行采样。通过利用贝叶斯树，NF-ISAM启用了类似于ISAM2的有效增量更新，尽管在更具挑战性的非高斯环境中。我们证明了NF-ISAM使用数据关联模棱两可的仅范围的SLAM问题来证明NF-ISAM比最先进的点和分布估计算法的优势。NF-ISAM在描述连续变量（例如位置）和离散变量（例如数据关联）的后验信仰方面提出了卓越的准确性。

translated by 谷歌翻译

Bayesian model calibration for block copolymer self-assembly: Likelihood-free inference and expected information gain computation via measure transport

Ricardo Baptista , Lianghao Cao , Joshua Chen , Omar Ghattas , Fengyi Li , Youssef M. Marzouk , J. Tinsley Oden

分类： (统计)机器学习

2022-06-22

我们考虑了使用显微镜或X射线散射技术产生的图像数据自组装的模型的贝叶斯校准。为了说明BCP平衡结构中的随机远程疾病，我们引入了辅助变量以表示这种不确定性。然而，这些变量导致了高维图像数据的综合可能性，通常可以评估。我们使用基于测量运输的可能性方法以及图像数据的摘要统计数据来解决这一具有挑战性的贝叶斯推理问题。我们还表明，可以计算出有关模型参数的数据中的预期信息收益（EIG），而无需额外的成本。最后，我们介绍了基于二嵌段共聚物薄膜自组装和自上而下显微镜表征的ohta-kawasaki模型的数值案例研究。为了进行校准，我们介绍了一些基于域的能量和傅立叶的摘要统计数据，并使用EIG量化了它们的信息性。我们证明了拟议方法研究数据损坏和实验设计对校准结果的影响的力量。

translated by 谷歌翻译

Black-box Coreset Variational Inference

Dionysis Manousakas , Hippolyt Ritter , Theofanis Karaletsos

分类： (统计)机器学习 | 机器学习

2022-11-04

Recent advances in coreset methods have shown that a selection of representative datapoints can replace massive volumes of data for Bayesian inference, preserving the relevant statistical information and significantly accelerating subsequent downstream tasks. Existing variational coreset constructions rely on either selecting subsets of the observed datapoints, or jointly performing approximate inference and optimizing pseudodata in the observed space akin to inducing points methods in Gaussian Processes. So far, both approaches are limited by complexities in evaluating their objectives for general purpose models, and require generating samples from a typically intractable posterior over the coreset throughout inference and testing. In this work, we present a black-box variational inference framework for coresets that overcomes these constraints and enables principled application of variational coresets to intractable models, such as Bayesian neural networks. We apply our techniques to supervised learning problems, and compare them with existing approaches in the literature for data summarization and inference.

translated by 谷歌翻译

Representation Learning: A Review and New Perspectives

Yoshua Bengio , Aaron Courville , Pascal Vincent

分类：

2012-06-24

The success of machine learning algorithms generally depends on data representation, and we hypothesize that this is because different representations can entangle and hide more or less the different explanatory factors of variation behind the data. Although specific domain knowledge can be used to help design representations, learning with generic priors can also be used, and the quest for AI is motivating the design of more powerful representation-learning algorithms implementing such priors. This paper reviews recent work in the area of unsupervised feature learning and deep learning, covering advances in probabilistic models, auto-encoders, manifold learning, and deep networks. This motivates longer-term unanswered questions about the appropriate objectives for learning good representations, for computing representations (i.e., inference), and the geometrical connections between representation learning, density estimation and manifold learning.

translated by 谷歌翻译

Hands-on Bayesian Neural Networks -- a Tutorial for Deep Learning Users

Laurent Valentin Jospin , Wray Buntine , Farid Boussaid , Hamid Laga , Mohammed Bennamoun

分类：机器学习 | (统计)机器学习

2020-07-14

现代深度学习方法构成了令人难以置信的强大工具，以解决无数的挑战问题。然而，由于深度学习方法作为黑匣子运作，因此与其预测相关的不确定性往往是挑战量化。贝叶斯统计数据提供了一种形式主义来理解和量化与深度神经网络预测相关的不确定性。本教程概述了相关文献和完整的工具集，用于设计，实施，列车，使用和评估贝叶斯神经网络，即使用贝叶斯方法培训的随机人工神经网络。

translated by 谷歌翻译

Fast and Credible Likelihood-Free Cosmology with Truncated Marginal Neural Ratio Estimation

Alex Cole , Benjamin Kurt Miller , Samuel J. Witte , Maxwell X. Cai , Meiert W. Grootes , Francesco Nattino , Christoph Weniger

分类：机器学习

2021-11-15

基于采样的推理技术是现代宇宙学数据分析的核心;然而，这些方法与维度不良，通常需要近似或顽固的可能性。在本文中，我们描述了截短的边际神经比率估计（TMNRE）（即所谓的基于模拟的推断的新方法）自然避免了这些问题，提高了$（i）$效率，$（ii）$可扩展性和$ （iii）推断后的后续后续的可信度。使用宇宙微波背景（CMB）的测量，我们表明TMNRE可以使用比传统马尔可夫链蒙特卡罗（MCMC）方法更少模拟器呼叫的数量级来实现融合的后海后。值得注意的是，所需数量的样本有效地独立于滋扰参数的数量。此外，称为\ MEMPH {本地摊销}的属性允许对基于采样的方法无法访问的严格统计一致性检查的性能。 TMNRE承诺成为宇宙学数据分析的强大工具，特别是在扩展宇宙学的背景下，其中传统的基于采样的推理方法所需的时间级数融合可以大大超过$ \ Lambda $ CDM等简单宇宙学模型的时间。为了执行这些计算，我们使用开源代码\ texttt {swyft}来使用TMNRE的实现。

translated by 谷歌翻译

Predictive Coding: a Theoretical and Experimental Review

Beren Millidge , Anil Seth , Christopher L Buckley

分类：人工智能 | 神经与进化计算

2021-07-27

预测性编码提供了对皮质功能的潜在统一说明 - 假设大脑的核心功能是最小化有关世界生成模型的预测错误。该理论与贝叶斯大脑框架密切相关，在过去的二十年中，在理论和认知神经科学领域都产生了重大影响。基于经验测试的预测编码的改进和扩展的理论和数学模型，以及评估其在大脑中实施的潜在生物学合理性以及该理论所做的具体神经生理学和心理学预测。尽管存在这种持久的知名度，但仍未对预测编码理论，尤其是该领域的最新发展进行全面回顾。在这里，我们提供了核心数学结构和预测编码的逻辑的全面综述，从而补充了文献中最新的教程。我们还回顾了该框架中的各种经典和最新工作，从可以实施预测性编码的神经生物学现实的微电路到预测性编码和广泛使用的错误算法的重新传播之间的紧密关系，以及对近距离的调查。预测性编码和现代机器学习技术之间的关系。

translated by 谷歌翻译

Implicit Deep Adaptive Design: Policy-Based Experimental Design without Likelihoods

Desi R. Ivanova , Adam Foster , Steven Kleinegesse , Michael U. Gutmann , Tom Rainforth

分类： (统计)机器学习 | 人工智能 | 机器学习

2021-11-03

我们引入隐深自适应设计（iDAD），在实时与隐性模型进行适应性实验的新方法。iDAD通过学习设计政策网络的前期，然后可以在实验时快速部署摊销贝叶斯优化实验设计（BOED）的成本。该iDAD网络可以在其模拟微样品，不同于需要一个封闭的形式可能性和条件独立实验以前的设计政策工作的任何模型进行训练。在部署时，iDAD允许以毫秒为单位进行设计决策，而相比之下，需要实验本身期间繁重的计算传统BOED方法。我们说明了多项实验iDAD的适用性，并表明它提供了与隐式模型进行适应性设计一个快速和有效的机制。

translated by 谷歌翻译

Function-space Inference with Sparse Implicit Processes

Simón Rodríguez Santana , Bryan Zaldivar , Daniel Hernández-Lobato

分类： (统计)机器学习 | 机器学习

2021-10-14

隐式过程（IPS）代表一个灵活的框架，可用于描述各种模型，从贝叶斯神经网络，神经抽样器和数据生成器到许多其他模型。 IP还允许在功能空间上进行大致推断。公式的这种变化解决了参数空间的固有退化问题近似推断，即参数数量及其在大型模型中的强大依赖性。为此，文献中先前的作品试图采用IPS来设置先验并近似产生的后部。但是，这被证明是一项具有挑战性的任务。现有的方法可以调整先前的IP导致高斯预测分布，该分布未能捕获重要的数据模式。相比之下，通过使用另一个IP近似后验过程产生灵活预测分布的方法不能将先前的IP调整到观察到的数据中。我们在这里建议第一个可以实现这两个目标的方法。为此，我们依赖于先前IP的诱导点表示，就像在稀疏高斯过程中所做的那样。结果是一种可扩展的方法，用于与IP的近似推断，可以将先前的IP参数调整到数据中，并提供准确的非高斯预测分布。

translated by 谷歌翻译

Amortized Variational Inference for Simple Hierarchical Models

Abhinav Agrawal , Justin Domke

分类：机器学习 | (统计)机器学习

2021-11-04

由于本地潜在变量的数量与数据集缩放，因此难以使用分层模型中的变分推理。因此，分层模型中的推断仍然是大规模的挑战。使用与后部匹配的结构进行变形家庭是有帮助的，但由于局部分布的巨大数量，优化仍然缓慢。相反，本文建议摊销方法，其中共享参数同时表示所有本地分布。这种方法类似地是使用给定的联合分布（例如，全级高斯），但在数据集上是可行的，这些数量幅度较大。它也比使用结构化的变分布速度更快。

translated by 谷歌翻译