智能论文笔记

On the detrimental effect of invariances in the likelihood for variational inference

Richard Kurle , Ralf Herbrich , Tim Januschowski , Yuyang Wang , Jan Gasthaus

分类：机器学习

2022-09-15

变异贝叶斯后推理通常需要简化近似值，例如平均场参数化，以确保障碍性。但是，先前的工作已将贝叶斯神经网络的变异平均场近似与小数据集或大型型号相关联。在这项工作中，我们表明，过度参数模型的可能性函数的不变函数有助于这种现象，因为这些不变通过引入离散和/或连续模式来使后验的结构复杂化，而高斯均值均不能很好地近似。特别是，我们表明平均场近似在证据下界限的额外差距与专门建造的后部相比，考虑到已知的不变。重要的是，这种不变差距并不恒定。随着近似值恢复为先验，它消失了。我们首先在线性模型中首先考虑具有单个数据点的线性模型中的翻译不变。我们表明，尽管可以从平均场参数化构建真实的后验，但仅当目标函数考虑不变性差距时才能实现。然后，我们将线性模型的分析转移到神经网络。我们的分析为将来的工作提供了一个框架，以探索解决不变性问题的解决方案。

translated by 谷歌翻译

BCD Nets: Scalable Variational Approaches for Bayesian Causal Discovery

Chris Cundy , Aditya Grover , Stefano Ermon

分类：机器学习 | 人工智能 | (统计)机器学习

2021-12-06

结构方程模型（SEM）是一种有效的框架，其原因是通过定向非循环图（DAG）表示的因果关系。最近的进步使得能够从观察数据中实现了DAG的最大似然点估计。然而，在实际场景中，可以不能准确地捕获在推断下面的底层图中的不确定性，其中真正的DAG是不可识别的并且/或观察到的数据集是有限的。我们提出了贝叶斯因果发现网（BCD网），一个变分推理框架，用于估算表征线性高斯SEM的DAG的分布。由于图形的离散和组合性质，开发一个完整的贝叶斯后面是挑战。我们通过表达变分别家庭分析可扩展VI的可扩展VI的关键设计选择，例如1）表达性变分别家庭，2）连续弛豫，使低方差随机优化和3）在潜在变量上具有合适的前置。我们提供了一系列关于实际和合成数据的实验，显示BCD网在低数据制度中的标准因果发现度量上的最大似然方法，例如结构汉明距离。

translated by 谷歌翻译

Wide Bayesian neural networks have a simple weight posterior: theory and accelerated sampling

Jiri Hron , Roman Novak , Jeffrey Pennington , Jascha Sohl-Dickstein

分类： (统计)机器学习 | 机器学习

2022-06-15

我们引入了重新定性，这是一种数据依赖性的重新聚集化，将贝叶斯神经网络（BNN）转化为后部的分布，其KL对BNN对BNN的差异随着层宽度的增长而消失。重新定义图直接作用于参数，其分析简单性补充了宽BNN在功能空间中宽BNN的已知神经网络过程（NNGP）行为。利用重新定性，我们开发了马尔可夫链蒙特卡洛（MCMC）后采样算法，该算法将BNN更快地混合在一起。这与MCMC在高维度上的表现差异很差。对于完全连接和残留网络，我们观察到有效样本量高达50倍。在各个宽度上都取得了改进，并在层宽度的重新培训和标准BNN之间的边缘。

translated by 谷歌翻译

Variational Inference of overparameterized Bayesian Neural Networks: a theoretical and empirical study

Tom Huix , Szymon Majewski , Alain Durmus , Eric Moulines , Anna Korba

分类： (统计)机器学习 | 机器学习

2022-07-08

本文研究了用于训练过度参数化制度中的贝叶斯神经网络（BNN）的变异推理（VI），即当神经元的数量趋于无穷大时。更具体地说，我们考虑过度参数化的两层BNN，并指出平均VI训练中的关键问题。这个问题来自于证据（ELBO）的下限分解为两个术语：一个与模型的可能性函数相对应，第二个对应于kullback-leibler（KL）差异（KL）差异。特别是，我们从理论和经验上都表明，只有当根据观测值和神经元之间的比率适当地重新缩放KL时，在过度参数化制度中，这两个术语之间存在权衡。我们还通过数值实验来说明我们的理论结果，这些实验突出了该比率的关键选择。

translated by 谷歌翻译

Trace-class Gaussian priors for Bayesian learning of neural networks with MCMC

Torben Sell , Sumeetpal S. Singh

分类： (统计)机器学习

2020-12-20

本文介绍了一个新的神经网络，在$ \ mathbb r ^ d $的真实值函数之前，通过施工更容易和便宜地缩放到域维数$ d $与通常的karhunen-lo \`eve相比功能空间之前。新的先前是高斯神经网络，其中每个重量和偏差都有一个独立的高斯的先前，但是差异的关键差异是，差异在网络的宽度下减小，使得所得到的函数几乎肯定地定义了很多无限宽度网络的极限。我们表明，在推断未知功能的贝叶斯治疗中，使用希尔伯特Space Markov链蒙特卡罗（MCMC）方法，诱导的后续功能均可用于蒙特卡罗采样。这种类型的MCMC很受欢迎，例如，在贝叶斯逆问题文献中，因为它在网眼细化下稳定，即接受概率不会缩小到0美元，因为函数之前的更多参数甚至是AD Infinitum。在数值例子中，我们展示了其他功能空间前沿的这些竞争优势。我们还在贝叶斯加固学习中实施示例以自动化数据的任务，并首次演示MCMC的稳定性以对这些类型的问题进行网格细化。

translated by 谷歌翻译

Variational Autoencoders and Nonlinear ICA: A Unifying Framework

Ilyes Khemakhem , Diederik P. Kingma , Ricardo Pio Monti , Aapo Hyvärinen

分类：

2019-07-10

The framework of variational autoencoders allows us to efficiently learn deep latent-variable models, such that the model's marginal distribution over observed variables fits the data. Often, we're interested in going a step further, and want to approximate the true joint distribution over observed and latent variables, including the true prior and posterior distributions over latent variables. This is known to be generally impossible due to unidentifiability of the model. We address this issue by showing that for a broad family of deep latentvariable models, identification of the true joint distribution over observed and latent variables is actually possible up to very simple transformations, thus achieving a principled and powerful form of disentanglement. Our result requires a factorized prior distribution over the latent variables that is conditioned on an additionally observed variable, such as a class label or almost any other observation. We build on recent developments in nonlinear ICA, which we extend to the case with noisy or undercomplete observations, integrated in a maximum likelihood framework. The result also trivially contains identifiable flow-based generative models as a special case.

translated by 谷歌翻译

Mitigating the Effects of Non-Identifiability on Inference for Bayesian Neural Networks with Latent Variables

Yaniv Yacoby , Weiwei Pan , Finale Doshi-Velez

分类：机器学习 | (统计)机器学习

2019-11-01

贝叶斯神经网络具有潜在变量（BNN + LVS）通过明确建模模型不确定性（通过网络权重）和环境暂停（通过潜在输入噪声变量）来捕获预测的不确定性。在这项工作中，我们首先表明BNN + LV具有严重形式的非可识别性：可以在模型参数和潜在变量之间传输解释性，同时拟合数据。我们证明，在无限数据的极限中，网络权重和潜变量的后部模式从地面真理渐近地偏离。由于这种渐近偏差，传统的推理方法可以在实践中，产量参数概括不确定和不确定的不确定性。接下来，我们开发一种新推断过程，明确地减轻了训练期间不可识别性的影响，并产生高质量的预测以及不确定性估计。我们展示我们的推理方法在一系列合成和实际数据集中改善了基准方法。

translated by 谷歌翻译

An Introduction to Modern Statistical Learning

Joseph G. Makin

分类：机器学习

2022-07-20

这项正在进行的工作旨在为统计学习提供统一的介绍，从诸如GMM和HMM等经典模型到现代神经网络（如VAE和扩散模型）缓慢地构建。如今，有许多互联网资源可以孤立地解释这一点或新的机器学习算法，但是它们并没有（也不能在如此简短的空间中）将这些算法彼此连接起来，或者与统计模型的经典文献相连现代算法出现了。同样明显缺乏的是一个单一的符号系统，尽管对那些已经熟悉材料的人（如这些帖子的作者）不满意，但对新手的入境造成了重大障碍。同样，我的目的是将各种模型（尽可能）吸收到一个用于推理和学习的框架上，表明（以及为什么）如何以最小的变化将一个模型更改为另一个模型（其中一些是新颖的，另一些是文献中的）。某些背景当然是必要的。我以为读者熟悉基本的多变量计算，概率和统计以及线性代数。这本书的目标当然不是完整性，而是从基本知识到过去十年中极强大的新模型的直线路径或多或少。然后，目标是补充而不是替换，诸如Bishop的\ emph {模式识别和机器学习}之类的综合文本，该文本现在已经15岁了。

translated by 谷歌翻译

Variational Inference with Normalizing Flows

Danilo Jimenez Rezende , Shakir Mohamed

分类：

2015-05-21

The choice of approximate posterior distribution is one of the core problems in variational inference. Most applications of variational inference employ simple families of posterior approximations in order to allow for efficient inference, focusing on mean-field or other simple structured approximations. This restriction has a significant impact on the quality of inferences made using variational methods. We introduce a new approach for specifying flexible, arbitrarily complex and scalable approximate posterior distributions. Our approximations are distributions constructed through a normalizing flow, whereby a simple initial density is transformed into a more complex one by applying a sequence of invertible transformations until a desired level of complexity is attained. We use this view of normalizing flows to develop categories of finite and infinitesimal flows and provide a unified view of approaches for constructing rich posterior approximations. We demonstrate that the theoretical advantages of having posteriors that better match the true posterior, combined with the scalability of amortized variational approaches, provides a clear improvement in performance and applicability of variational inference.

translated by 谷歌翻译

A theory of representation learning in deep neural networks gives a deep generalisation of kernel methods

Adam X. Yang , Maxime Robeyns , Edward Milsom , Nandi Schoots , Laurence Aitchison

分类： (统计)机器学习 | 机器学习

2021-08-30

现代深度神经网络（DNN）的成功基于其在多层转换投入以建立良好高级表示的能力。因此，了解这种表示学习过程至关重要。但是，我们不能使用涉及无限宽度限制的标准理论方法，因为它们消除了代表性学习。因此，我们开发了一个新的无限宽度限制，即表示的学习限制，该限制表现出表示形式的学习反映，但在有限宽度网络中，但同时仍然非常容易处理。例如，表示学习限制在深处的高斯过程中提供了恰好具有多种内核的多元高斯后期，包括所有各向同性（距离依赖）内核。我们得出一个优雅的目标，描述了每个网络层如何学习在输入和输出之间插值的表示形式。最后，我们使用此限制和目标来开发对内核方法的灵活，深刻的概括，我们称之为深内核机器（DKMS）。我们表明，可以使用受高斯过程文献中诱导点方法启发的方法将DKMS缩放到大数据集，并且我们表明DKMS表现出优于其他基于内核方法的性能。

translated by 谷歌翻译

Quasi Black-Box Variational Inference with Natural Gradients for Bayesian Learning

Martin Magris , Mostafa Shabani , Alexandros Iosifidis

分类： (统计)机器学习 | 机器学习

2022-05-23

We develop an optimization algorithm suitable for Bayesian learning in complex models. Our approach relies on natural gradient updates within a general black-box framework for efficient training with limited model-specific derivations. It applies within the class of exponential-family variational posterior distributions, for which we extensively discuss the Gaussian case for which the updates have a rather simple form. Our Quasi Black-box Variational Inference (QBVI) framework is readily applicable to a wide class of Bayesian inference problems and is of simple implementation as the updates of the variational posterior do not involve gradients with respect to the model parameters, nor the prescription of the Fisher information matrix. We develop QBVI under different hypotheses for the posterior covariance matrix, discuss details about its robust and feasible implementation, and provide a number of real-world applications to demonstrate its effectiveness.

translated by 谷歌翻译

The Limitations of Large Width in Neural Networks: A Deep Gaussian Process Perspective

Geoff Pleiss , John P. Cunningham

分类：机器学习 | (统计)机器学习

2021-06-11

宽度限制最近是深度学习研究的焦点：模数计算实用，做更广泛的网络优于较窄的网络？当传统网络增益具有宽度的代表性，潜在掩盖任何负面影响，回答这个问题一直在具有挑战性。我们在本文中的分析通过神经网络的概括到深层高斯过程（深GP），一类非参数分层模型，占据了神经网络的非参数分层模型。在这样做时，我们的目标是了解一旦对给定建模任务的容量足够的容量，才能了解宽度（标准）神经网络。我们深入GP的理论和经验结果表明，大宽度可能对等级模型有害。令人惊讶的是，我们证明了甚至非参数的深GP融合到高斯过程，实际上变得浅薄而没有任何代表性的力量。对应于数据适应性基本函数的混合的后后，与宽度变得较小。我们的尾部分析表明，宽度和深度具有相反的影响：深度突出了模型的非高斯，而宽度使模型越来越高斯。我们发现有一个“甜蜜点”，可以在限制GP行为防止适应性之前最大化测试性能，以宽度= 1或宽度= 2用于非参数深GP。这些结果对具有L2正规化训练的传统神经网络中的相同现象（类似于参数的高斯），使得这种神经网络可能需要多达500至1000个隐藏单元的现象，以获得足够的容量 - 取决于数据集 - 但进一步的宽度降低了性能。

translated by 谷歌翻译

A similarity-based Bayesian mixture-of-experts model

Tianfang Zhang , Rasmus Bokrantz , Jimmy Olsson

分类： (统计)机器学习 | 机器学习

2020-12-03

我们提出了一种新的非参数混合物模型，用于多变量回归问题，灵感来自概率K-Nearthimest邻居算法。使用有条件指定的模型，对样本外输入的预测基于与每个观察到的数据点的相似性，从而产生高斯混合物表示的预测分布。在混合物组件的参数以及距离度量标准的参数上，使用平均场变化贝叶斯算法进行后推断，并具有基于随机梯度的优化过程。在与数据大小相比，输入 - 输出关系很复杂，预测分布可能偏向或多模式的情况下，输入相对较高的尺寸，该方法尤其有利。对五个数据集进行的计算研究，其中两个是合成生成的，这说明了我们的高维输入的专家混合物方法的明显优势，在验证指标和视觉检查方面都优于竞争者模型。

translated by 谷歌翻译

NOMU: Neural Optimization-based Model Uncertainty

Jakob Heiss , Jakob Weissteiner , Hanna Wutte , Sven Seuken , Josef Teichmann

分类：机器学习 | 人工智能 | (统计)机器学习

2021-02-26

我们研究了回归中神经网络（NNS）的模型不确定性的方法。为了隔离模型不确定性的效果，我们专注于稀缺训练数据的无噪声环境。我们介绍了关于任何方法都应满足的模型不确定性的五个重要的逃亡者。但是，我们发现，建立的基准通常无法可靠地捕获其中一些逃避者，即使是贝叶斯理论要求的基准。为了解决这个问题，我们介绍了一种新方法来捕获NNS的模型不确定性，我们称之为基于神经优化的模型不确定性（NOMU）。 NOMU的主要思想是设计一个由两个连接的子NN组成的网络体系结构，一个用于模型预测，一个用于模型不确定性，并使用精心设计的损耗函数进行训练。重要的是，我们的设计执行NOMU满足我们的五个Desiderata。由于其模块化体系结构，NOMU可以为任何给定（先前训练）NN提供模型不确定性，如果访问其培训数据。我们在各种回归任务和无嘈杂的贝叶斯优化（BO）中评估NOMU，并具有昂贵的评估。在回归中，NOMU至少和最先进的方法。在BO中，Nomu甚至胜过所有考虑的基准。

translated by 谷歌翻译

Statistical and Computational Trade-offs in Variational Inference: A Case Study in Inferential Model Selection

Kush Bhatia , Nikki Lijing Kuang , Yi-An Ma , Yixin Wang

分类： (统计)机器学习 | 机器学习

2022-07-22

最近出现了变异推断，成为大规模贝叶斯推理中古典马尔特·卡洛（MCMC）的流行替代品。变异推断的核心思想是贸易统计准确性以达到计算效率。它旨在近似后部，以降低计算成本，但可能损害其统计准确性。在这项工作中，我们通过推论模型选择中的案例研究研究了这种统计和计算权衡。侧重于具有对角和低级精度矩阵的高斯推论模型（又名变异近似族），我们在两个方面启动了对权衡的理论研究，贝叶斯后期推断误差和频繁的不确定性不确定定量误差。从贝叶斯后推理的角度来看，我们表征了相对于精确后部的变异后部的误差。我们证明，鉴于固定的计算预算，较低的推论模型会产生具有较高统计近似误差的变异后期，但计算误差较低。它减少了随机优化的方差，进而加速收敛。从频繁的不确定性定量角度来看，我们将变异后部的精度矩阵视为不确定性估计值。我们发现，相对于真实的渐近精度，变异近似遭受了来自数据的采样不确定性的附加统计误差。此外，随着计算预算的增加，这种统计误差成为主要因素。结果，对于小型数据集，推论模型不必全等级即可达到最佳估计误差。我们最终证明了在经验研究之间的这些统计和计算权衡推论，从而证实了理论发现。

translated by 谷歌翻译

Amortized Variational Inference: Towards the Mathematical Foundation and Review

Ankush Ganguly , Sanjana Jain , Ukrit Watchareeruetai

分类：机器学习 | (统计)机器学习

2022-09-22

变异推理（VI）的核心原理是将计算复杂后概率密度计算的统计推断问题转换为可拖动的优化问题。该属性使VI比几种基于采样的技术更快。但是，传统的VI算法无法扩展到大型数据集，并且无法轻易推断出越野数据点，而无需重新运行优化过程。该领域的最新发展，例如随机，黑框和摊销VI，已帮助解决了这些问题。如今，生成的建模任务广泛利用摊销VI来实现其效率和可扩展性，因为它利用参数化函数来学习近似的后验密度参数。在本文中，我们回顾了各种VI技术的数学基础，以构成理解摊销VI的基础。此外，我们还概述了最近解决摊销VI问题的趋势，例如摊销差距，泛化问题，不一致的表示学习和后验崩溃。最后，我们分析了改善VI优化的替代差异度量。

translated by 谷歌翻译

Hands-on Bayesian Neural Networks -- a Tutorial for Deep Learning Users

Laurent Valentin Jospin , Wray Buntine , Farid Boussaid , Hamid Laga , Mohammed Bennamoun

分类：机器学习 | (统计)机器学习

2020-07-14

现代深度学习方法构成了令人难以置信的强大工具，以解决无数的挑战问题。然而，由于深度学习方法作为黑匣子运作，因此与其预测相关的不确定性往往是挑战量化。贝叶斯统计数据提供了一种形式主义来理解和量化与深度神经网络预测相关的不确定性。本教程概述了相关文献和完整的工具集，用于设计，实施，列车，使用和评估贝叶斯神经网络，即使用贝叶斯方法培训的随机人工神经网络。

translated by 谷歌翻译

A Jensen-Shannon Divergence Based Loss Function for Bayesian Neural Networks

Ponkrshnan Thiagarajan , Susanta Ghosh

分类：机器学习

2022-09-23

Kullback-Leibler（KL）差异广泛用于贝叶斯神经网络（BNNS）的变异推理。然而，KL差异具有无限性和不对称性等局限性。我们检查了更通用，有限和对称的詹森 - 香农（JS）差异。我们根据几何JS差异为BNN制定新的损失函数，并表明基于KL差异的常规损失函数是其特殊情况。我们以封闭形式的高斯先验评估拟议损失函数的差异部分。对于任何其他一般的先验，都可以使用蒙特卡洛近似值。我们提供了实施这两种情况的算法。我们证明所提出的损失函数提供了一个可以调整的附加参数，以控制正则化程度。我们得出了所提出的损失函数在高斯先验和后代的基于KL差异的损失函数更好的条件。我们证明了基于嘈杂的CIFAR数据集和有偏见的组织病理学数据集的最新基于KL差异的BNN的性能提高。

translated by 谷歌翻译

Gaussian Process Behaviour in Wide Deep Neural Networks

Alexander G. de G. Matthews , Mark Rowland , Jiri Hron , Richard E. Turner , Zoubin Ghahramani

分类：

2018-04-30

Whilst deep neural networks have shown great empirical success, there is still much work to be done to understand their theoretical properties. In this paper, we study the relationship between random, wide, fully connected, feedforward networks with more than one hidden layer and Gaussian processes with a recursive kernel definition. We show that, under broad conditions, as we make the architecture increasingly wide, the implied random function converges in distribution to a Gaussian process, formalising and extending existing results by Neal (1996) to deep networks. To evaluate convergence rates empirically, we use maximum mean discrepancy. We then compare finite Bayesian deep networks from the literature to Gaussian processes in terms of the key predictive quantities of interest, finding that in some cases the agreement can be very close. We discuss the desirability of Gaussian process behaviour and review non-Gaussian alternative models from the literature. 1

translated by 谷歌翻译

Posterior Collapse and Latent Variable Non-identifiability

Yixin Wang , David M. Blei , John P. Cunningham

分类： (统计)机器学习 | 机器学习

2023-01-02

Variational autoencoders model high-dimensional data by positing low-dimensional latent variables that are mapped through a flexible distribution parametrized by a neural network. Unfortunately, variational autoencoders often suffer from posterior collapse: the posterior of the latent variables is equal to its prior, rendering the variational autoencoder useless as a means to produce meaningful representations. Existing approaches to posterior collapse often attribute it to the use of neural networks or optimization issues due to variational approximation. In this paper, we consider posterior collapse as a problem of latent variable non-identifiability. We prove that the posterior collapses if and only if the latent variables are non-identifiable in the generative model. This fact implies that posterior collapse is not a phenomenon specific to the use of flexible distributions or approximate inference. Rather, it can occur in classical probabilistic models even with exact inference, which we also demonstrate. Based on these results, we propose a class of latent-identifiable variational autoencoders, deep generative models which enforce identifiability without sacrificing flexibility. This model class resolves the problem of latent variable non-identifiability by leveraging bijective Brenier maps and parameterizing them with input convex neural networks, without special variational inference objectives or optimization tricks. Across synthetic and real datasets, latent-identifiable variational autoencoders outperform existing methods in mitigating posterior collapse and providing meaningful representations of the data.

translated by 谷歌翻译