智能论文笔记

Deep Kernels with Probabilistic Embeddings for Small-Data Learning

Ankur Mallick , Chaitanya Dwivedi , Bhavya Kailkhura , Gauri Joshi , T. Yong-Jin Han

分类：机器学习 | (统计)机器学习

2019-10-13

众所周知，即使通过核心点之间捕获数据点之间的相似性，也可以通过捕获相似性来提供准确的预测和不确定性估计，以提供准确的预测和不确定性估计。然而，传统的GP内核在捕获高维数据点之间的相似性时不是非常有效的。神经网络可用于学习在高维数据中编码复杂结构的良好表示，并且可以用作GP内核的输入。然而，神经网络的巨大数据要求使得这种方法在小数据设置中无效。为了解决代表学习和数据效率的冲突问题，我们建议通过使用概率神经网络来学习概率嵌入的深核。我们的方法将高维数据映射到低维子空间中的概率分布，然后计算这些分布之间的内核以捕获相似性。要启用端到端学习，我们可以推导出用于培训模型的功能梯度血清过程。各种数据集的实验表明，我们的方法在监督和半监督设置中占GP内核学习中的最先进。我们还将我们的方法扩展到其他小型数据范例，例如少量分类，在迷你想象网和小熊数据集上以前的方式胜过先前的方法。

translated by 谷歌翻译

Transfer Bayesian Meta-learning via Weighted Free Energy Minimization

Yunchuan Zhang , Sharu Theresa Jose , Osvaldo Simeone

分类：机器学习

2021-06-20

元学习优化了培训过程的超参数，例如其初始化，内核或学习率，基于从许多辅助任务中采样的数据。关键的潜在假设是，称为元训练任务的辅助任务与在部署时间遇到的任务相同的生成分发，称为元测试任务。然而，这可能不是这种情况，当测试环境与元训练条件不同时。为了解决任务的转变，在元训练和元测试阶段之间产生分配，介绍了转移元学习的加权自由能量最小化（WFEM）。我们实例化了通过高斯进程（GPS）的非参数贝叶斯回归和分类的提议方法。该方法在玩具正弦回归问题上验证，以及使用MiniiMAGENET和CUB数据集的分类，通过与PACOH实现的标准元学习的标准元学习进行比较。

translated by 谷歌翻译

$π$VAE: a stochastic process prior for Bayesian deep learning with MCMC

Swapnil Mishra , Seth Flaxman , Tresnia Berah , Harrison Zhu , Mikko Pakkanen , Samir Bhatt

分类：机器学习 | (统计)机器学习

2020-02-17

随机过程提供了数学上优雅的方式模型复杂数据。从理论上讲，它们为可以编码广泛有趣的假设的功能类提供了灵活的先验。但是，实际上，难以通过优化或边缘化来有效推断，这一问题进一步加剧了大数据和高维输入空间。我们提出了一种新颖的变性自动编码器（VAE），称为先前的编码变量自动编码器（$ \ pi $ vae）。 $ \ pi $ vae是有限的交换且Kolmogorov一致的，因此是一个连续的随机过程。我们使用$ \ pi $ vae学习功能类的低维嵌入。我们表明，我们的框架可以准确地学习表达功能类，例如高斯流程，也可以学习函数的属性以启用统计推断（例如log高斯过程的积分）。对于流行的任务，例如空间插值，$ \ pi $ vae在准确性和计算效率方面都达到了最先进的性能。也许最有用的是，我们证明了所学的低维独立分布的潜在空间表示提供了一种优雅，可扩展的方法，可以在概率编程语言（例如Stan）中对随机过程进行贝叶斯推断。

translated by 谷歌翻译

A Simple Approach to Improve Single-Model Deep Uncertainty via Distance-Awareness

Jeremiah Zhe Liu , Shreyas Padhy , Jie Ren , Zi Lin , Yeming Wen , Ghassen Jerfel , Zack Nado , Jasper Snoek , Dustin Tran , Balaji Lakshminarayanan

分类：机器学习 | (统计)机器学习

2022-05-01

Accurate uncertainty quantification is a major challenge in deep learning, as neural networks can make overconfident errors and assign high confidence predictions to out-of-distribution (OOD) inputs. The most popular approaches to estimate predictive uncertainty in deep learning are methods that combine predictions from multiple neural networks, such as Bayesian neural networks (BNNs) and deep ensembles. However their practicality in real-time, industrial-scale applications are limited due to the high memory and computational cost. Furthermore, ensembles and BNNs do not necessarily fix all the issues with the underlying member networks. In this work, we study principled approaches to improve uncertainty property of a single network, based on a single, deterministic representation. By formalizing the uncertainty quantification as a minimax learning problem, we first identify distance awareness, i.e., the model's ability to quantify the distance of a testing example from the training data, as a necessary condition for a DNN to achieve high-quality (i.e., minimax optimal) uncertainty estimation. We then propose Spectral-normalized Neural Gaussian Process (SNGP), a simple method that improves the distance-awareness ability of modern DNNs with two simple changes: (1) applying spectral normalization to hidden weights to enforce bi-Lipschitz smoothness in representations and (2) replacing the last output layer with a Gaussian process layer. On a suite of vision and language understanding benchmarks, SNGP outperforms other single-model approaches in prediction, calibration and out-of-domain detection. Furthermore, SNGP provides complementary benefits to popular techniques such as deep ensembles and data augmentation, making it a simple and scalable building block for probabilistic deep learning. Code is open-sourced at https://github.com/google/uncertainty-baselines

translated by 谷歌翻译

Batch Bayesian optimisation via density-ratio estimation with guarantees

Rafael Oliveira , Louis Tiao , Fabio Ramos

分类：机器学习 | 人工智能 | (统计)机器学习

2022-09-22

贝叶斯优化（BO）算法在涉及昂贵的黑盒功能的应用中表现出了显着的成功。传统上，BO被设置为一个顺序决策过程，该过程通过采集函数和先前的功能（例如高斯过程）来估计查询点的实用性。然而，最近，通过密度比率估计（BORE）对BO进行重新制定允许将采集函数重新诠释为概率二进制分类器，从而消除了对函数的显式先验和提高可伸缩性的需求。在本文中，我们介绍了对孔的遗憾和算法扩展的理论分析，并提高了不确定性估计。我们还表明，通过将问题重新提交为近似贝叶斯推断，可以自然地扩展到批处理优化设置。所得算法配备了理论性能保证，并在一系列实验中对其他批处理基本线进行了评估。

translated by 谷歌翻译

Transformers Can Do Bayesian Inference

Samuel Müller , Noah Hollmann , Sebastian Pineda Arango , Josif Grabocka , Frank Hutter

分类：机器学习 | (统计)机器学习

2021-12-20

目前，难以获得贝叶斯方法深入学习的好处，这允许明确的知识规范，准确地捕获模型不确定性。我们呈现先前数据拟合网络（PFN）。 PFN利用大规模机器学习技术来近似一组一组后索。 PFN唯一要求工作的要求是能够从先前分配通过监督的学习任务（或函数）来采样。我们的方法将后近似的目标重新定为具有带有值的输入的监督分类问题：它反复从先前绘制任务（或功能），从中绘制一组数据点及其标签，掩盖其中一个标签并学习基于其余数据点的设定值输入对其进行概率预测。呈现来自新的监督学习任务的一组样本作为输入，PFNS在单个前向传播中对任意其他数据点进行概率预测，从而学习到近似贝叶斯推断。我们展示了PFN可以接近完全模仿高斯过程，并且还可以实现高效的贝叶斯推理对难以处理的问题，与当前方法相比，多个设置中有超过200倍的加速。我们在非常多样化的地区获得强烈的结果，如高斯过程回归，贝叶斯神经网络，小型表格数据集的分类，以及少量图像分类，展示了PFN的一般性。代码和培训的PFN在https://github.com/automl/transformerscandobayesianinference发布。

translated by 谷歌翻译

Uncertainty-Aware (UNA) Bases for Deep Bayesian Regression Using Multi-Headed Auxiliary Networks

Sujay Thakur , Cooper Lorsung , Yaniv Yacoby , Finale Doshi-Velez , Weiwei Pan

分类： (统计)机器学习 | 机器学习

2020-06-21

神经线性模型（NLM）是深度贝叶斯模型，通过从数据中学习特征，然后对这些特征进行贝叶斯线性回归来产生预测的不确定性。尽管他们受欢迎，但很少有作品专注于有条理地评估这些模型的预测性不确定性。在这项工作中，我们证明了NLMS的传统培训程序急剧低估了分发输入的不确定性，因此它们不能在风险敏感的应用中暂时部署。我们确定了这种行为的基本原因，并提出了一种新的培训框架，捕获下游任务的有用预测不确定性。

translated by 谷歌翻译

A Framework and Benchmark for Deep Batch Active Learning for Regression

David Holzmüller , Viktor Zaverkin , Johannes Kästner , Ingo Steinwart

分类： (统计)机器学习 | 机器学习 | 神经与进化计算

2022-03-17

收购用于监督学习的标签可能很昂贵。为了提高神经网络回归的样本效率，我们研究了活跃的学习方法，这些方法可以适应地选择未标记的数据进行标记。我们提出了一个框架，用于从（与网络相关的）基础内核，内核转换和选择方法中构造此类方法。我们的框架涵盖了许多基于神经网络的高斯过程近似以及非乘式方法的现有贝叶斯方法。此外，我们建议用草图的有限宽度神经切线核代替常用的最后层特征，并将它们与一种新型的聚类方法结合在一起。为了评估不同的方法，我们引入了一个由15个大型表格回归数据集组成的开源基准。我们所提出的方法的表现优于我们的基准测试上的最新方法，缩放到大数据集，并在不调整网络体系结构或培训代码的情况下开箱即用。我们提供开源代码，包括所有内核，内核转换和选择方法的有效实现，并可用于复制我们的结果。

translated by 谷歌翻译

Hands-on Bayesian Neural Networks -- a Tutorial for Deep Learning Users

Laurent Valentin Jospin , Wray Buntine , Farid Boussaid , Hamid Laga , Mohammed Bennamoun

分类：机器学习 | (统计)机器学习

2020-07-14

现代深度学习方法构成了令人难以置信的强大工具，以解决无数的挑战问题。然而，由于深度学习方法作为黑匣子运作，因此与其预测相关的不确定性往往是挑战量化。贝叶斯统计数据提供了一种形式主义来理解和量化与深度神经网络预测相关的不确定性。本教程概述了相关文献和完整的工具集，用于设计，实施，列车，使用和评估贝叶斯神经网络，即使用贝叶斯方法培训的随机人工神经网络。

translated by 谷歌翻译

Evidential Conditional Neural Processes

Deep Shankar Pandey , Qi Yu

分类：机器学习 | 人工智能

2022-11-30

The Conditional Neural Process (CNP) family of models offer a promising direction to tackle few-shot problems by achieving better scalability and competitive predictive performance. However, the current CNP models only capture the overall uncertainty for the prediction made on a target data point. They lack a systematic fine-grained quantification on the distinct sources of uncertainty that are essential for model training and decision-making under the few-shot setting. We propose Evidential Conditional Neural Processes (ECNP), which replace the standard Gaussian distribution used by CNP with a much richer hierarchical Bayesian structure through evidential learning to achieve epistemic-aleatoric uncertainty decomposition. The evidential hierarchical structure also leads to a theoretically justified robustness over noisy training tasks. Theoretical analysis on the proposed ECNP establishes the relationship with CNP while offering deeper insights on the roles of the evidential parameters. Extensive experiments conducted on both synthetic and real-world data demonstrate the effectiveness of our proposed model in various few-shot settings.

translated by 谷歌翻译

NP-Match: When Neural Processes meet Semi-Supervised Learning

Jianfeng Wang , Thomas Lukasiewicz , Daniela Massiceti , Xiaolin Hu , Vladimir Pavlovic , Alexandros Neophytou

分类：机器学习 | 计算机视觉

2022-07-03

近年来，半监督学习（SSL）已广泛探索，这是利用未标记数据来减少对标记数据的依赖的有效方法。在这项工作中，我们将神经过程（NP）调整为半监督图像分类任务，从而导致了一种名为NP匹配的新方法。 NP匹配适合此任务的原因有两个。首先，NP匹配在做出预测时隐含地比较数据点，结果，每个未标记的数据点的预测受到与之相似的标记数据点的影响，从而提高了伪标签的质量。其次，NP匹配能够估计不确定性，可以用作选择具有可靠伪标签的未标记样品的工具。与使用Monte Carlo（MC）辍学实现的基于不确定性的SSL方法相比，NP匹配估计不确定性的计算开销要少得多，这可以节省训练和测试阶段的时间。我们在四个公共数据集上进行了广泛的实验，NP匹配的表现优于最先进的结果（SOTA）或在它们上取得了竞争成果，这表明了NP匹配的有效性及其对SSL的潜力。

translated by 谷歌翻译

NOMU: Neural Optimization-based Model Uncertainty

Jakob Heiss , Jakob Weissteiner , Hanna Wutte , Sven Seuken , Josef Teichmann

分类：机器学习 | 人工智能 | (统计)机器学习

2021-02-26

我们研究了回归中神经网络（NNS）的模型不确定性的方法。为了隔离模型不确定性的效果，我们专注于稀缺训练数据的无噪声环境。我们介绍了关于任何方法都应满足的模型不确定性的五个重要的逃亡者。但是，我们发现，建立的基准通常无法可靠地捕获其中一些逃避者，即使是贝叶斯理论要求的基准。为了解决这个问题，我们介绍了一种新方法来捕获NNS的模型不确定性，我们称之为基于神经优化的模型不确定性（NOMU）。 NOMU的主要思想是设计一个由两个连接的子NN组成的网络体系结构，一个用于模型预测，一个用于模型不确定性，并使用精心设计的损耗函数进行训练。重要的是，我们的设计执行NOMU满足我们的五个Desiderata。由于其模块化体系结构，NOMU可以为任何给定（先前训练）NN提供模型不确定性，如果访问其培训数据。我们在各种回归任务和无嘈杂的贝叶斯优化（BO）中评估NOMU，并具有昂贵的评估。在回归中，NOMU至少和最先进的方法。在BO中，Nomu甚至胜过所有考虑的基准。

translated by 谷歌翻译

Distributional Gaussian Processes Layers for Out-of-Distribution Detection

Sebastian G. Popescu , David J. Sharp , James H. Cole , Konstantinos Kamnitsas , Ben Glocker

分类：计算机视觉 | 机器学习 | (统计)机器学习

2022-06-27

部署在医学成像任务上的机器学习模型必须配备分布外检测功能，以避免错误的预测。不确定依赖于深神经网络的分布外检测模型是否适合检测医学成像中的域移位。高斯流程可以通过其数学结构可靠地与分布数据点可靠地分开分发数据点。因此，我们为分层卷积高斯工艺提出了一个参数有效的贝叶斯层，该过程融合了在Wasserstein-2空间中运行的高斯过程，以可靠地传播不确定性。这直接用远距离的仿射操作员在分布中直接取代了高斯流程。我们对脑组织分割的实验表明，所得的架构接近了确定性分割算法（U-NET）的性能，而先前的层次高斯过程尚未实现。此外，通过将相同的分割模型应用于分布外数据（即具有病理学（例如脑肿瘤）的图像），我们表明我们的不确定性估计导致分布外检测，以优于以前的贝叶斯网络和以前的贝叶斯网络的功能基于重建的方法学习规范分布。为了促进未来的工作，我们的代码公开可用。

translated by 谷歌翻译

Deep Classifiers with Label Noise Modeling and Distance Awareness

Vincent Fortuin , Mark Collier , Florian Wenzel , James Allingham , Jeremiah Liu , Dustin Tran , Balaji Lakshminarayanan , Jesse Berent , Rodolphe Jenatton , Effrosyni Kokiopoulou

分类： (统计)机器学习 | 机器学习

2021-10-06

最近，深度学习中的不确定性估计已成为提高安全至关重要应用的可靠性和鲁棒性的关键领域。尽管有许多提出的方法要么关注距离感知模型的不确定性，要么是分布式检测的不确定性，要么是针对分布校准的输入依赖性标签不确定性，但这两种类型的不确定性通常都是必要的。在这项工作中，我们提出了用于共同建模模型和数据不确定性的HETSNGP方法。我们表明，我们提出的模型在这两种类型的不确定性之间提供了有利的组合，因此在包括CIFAR-100C，ImagEnet-C和Imagenet-A在内的一些具有挑战性的分发数据集上优于基线方法。此外，我们提出了HETSNGP Ensemble，这是我们方法的结合版本，该版本还对网络参数的不确定性进行建模，并优于其他集合基线。

translated by 谷歌翻译

Pre-trained Gaussian processes for Bayesian optimization

Zi Wang , George E. Dahl , Kevin Swersky , Chansoo Lee , Zelda Mariet , Zachary Nado , Justin Gilmer , Jasper Snoek , Zoubin Ghahramani

分类：机器学习 | (统计)机器学习

2021-09-16

贝叶斯优化（BO）已成为许多昂贵现实世界功能的全球优化的流行策略。与普遍认为BO适合优化黑框功能的信念相反，它实际上需要有关这些功能特征的域知识才能成功部署BO。这样的领域知识通常表现在高斯流程先验中，这些先验指定了有关功能的初始信念。但是，即使有专家知识，选择先验也不是一件容易的事。对于复杂的机器学习模型上的超参数调谐问题尤其如此，在这种模型中，调整目标的景观通常很难理解。我们寻求一种设定这些功能性先验的替代实践。特别是，我们考虑了从类似功能的数据中，使我们可以先验地进行更紧密的分布。从理论上讲，我们与预先训练的先验表示对BO的遗憾。为了验证我们在现实的模型培训设置中的方法，我们通过训练在流行图像和文本数据集上的数以万计的近状态模型配置来收集了大型多任务超参数调谐数据集，以及蛋白质序列数据集。我们的结果表明，平均而言，我们的方法能够比最佳竞争方法更有效地定位良好的超参数。

translated by 谷歌翻译

Stein Variational Gradient Descent: A General Purpose Bayesian Inference Algorithm

Qiang Liu , Dilin Wang

分类：

2016-08-16

We propose a general purpose variational inference algorithm that forms a natural counterpart of gradient descent for optimization. Our method iteratively transports a set of particles to match the target distribution, by applying a form of functional gradient descent that minimizes the KL divergence. Empirical studies are performed on various real world models and datasets, on which our method is competitive with existing state-of-the-art methods. The derivation of our method is based on a new theoretical result that connects the derivative of KL divergence under smooth transforms with Stein's identity and a recently proposed kernelized Stein discrepancy, which is of independent interest.

translated by 谷歌翻译

Revisiting Active Sets for Gaussian Process Decoders

Pablo Moreno-Muñoz , Cilie W Feldager , Søren Hauberg

分类： (统计)机器学习 | 机器学习

2022-09-10

基于高斯工艺（GP）建立的解码器由于非线性函数空间的边缘化而诱人。这样的模型（也称为GP-LVM）通常很昂贵且众所周知，在实践中训练，但可以使用变异推理和诱导点来缩放。在本文中，我们重新访问主动集近似值。我们基于最近发现的交叉验证链接来开发对数 - 边界可能性的新随机估计，并提出了其计算有效近似。我们证明，所得的随机活动集（SAS）近似显着提高了GP解码器训练的鲁棒性，同时降低了计算成本。SAS-GP在潜在空间中获得更多的结构，比例为许多数据点，并且比变异自动编码器更好地表示表示，这对于GP解码器来说很少是这种情况。

translated by 谷歌翻译

An Empirical Analysis of the Laplace and Neural Tangent Kernels

Ronaldas Paulius Lencevicius

分类： (统计)机器学习 | 机器学习

2022-08-07

神经切线核是根据无限宽度神经网络的参数分布定义的内核函数。尽管该极限不切实际，但神经切线内核允许对神经网络进行更直接的研究，并凝视着黑匣子的面纱。最近，从理论上讲，Laplace内核和神经切线内核在$ \ Mathbb {S}}^{D-1} $中共享相同的复制核Hilbert空间，暗示了它们的等价。在这项工作中，我们分析了两个内核的实际等效性。我们首先是通过与核的准确匹配，然后通过与高斯过程的后代匹配来进行匹配。此外，我们分析了$ \ mathbb {r}^d $中的内核，并在回归任务中进行实验。

translated by 谷歌翻译

Fast emulation of density functional theory simulations using approximate Gaussian processes

Steven Stetzler , Michael Grosskopf , Earl Lawrence

分类： (统计)机器学习 | 机器学习

2022-08-24

使用马尔可夫链蒙特卡洛（Monte Carlo）以贝叶斯方式将理论模型拟合到实验数据中，通常需要一个评估数千（或数百万）型的型号。当模型是慢速到计算的物理模拟时，贝叶斯模型拟合就变得不可行。为了解决这个问题，可以使用模拟输出的第二个统计模型，该模型可以用来代替模型拟合期间的完整仿真。选择的典型仿真器是高斯过程（GP），这是一种灵活的非线性模型，在每个输入点提供了预测均值和方差。高斯流程回归对少量培训数据（$ n <10^3 $）非常有效，但是当数据集大小变大时，训练和用于预测的速度慢。可以使用各种方法来加快中高级数据集制度（$ n> 10^5 $）的加快高斯流程，从而使人们的预测准确性大大降低了。这项工作研究了几种近似高斯过程模型的准确度折叠 - 稀疏的变异GP，随机变异GP和深内核学习的GP - 在模拟密度功能理论（DFT）模型的预测时。此外，我们使用模拟器以贝叶斯的方式校准DFT模型参数，使用观察到的数据，解决数据集大小所施加的计算屏障，并将校准结果与先前的工作进行比较。这些校准的DFT模型的实用性是根据观察到的数据对实验意义的核素的性质进行预测，例如超重核。

translated by 谷歌翻译

A similarity-based Bayesian mixture-of-experts model

Tianfang Zhang , Rasmus Bokrantz , Jimmy Olsson

分类： (统计)机器学习 | 机器学习

2020-12-03

我们提出了一种新的非参数混合物模型，用于多变量回归问题，灵感来自概率K-Nearthimest邻居算法。使用有条件指定的模型，对样本外输入的预测基于与每个观察到的数据点的相似性，从而产生高斯混合物表示的预测分布。在混合物组件的参数以及距离度量标准的参数上，使用平均场变化贝叶斯算法进行后推断，并具有基于随机梯度的优化过程。在与数据大小相比，输入 - 输出关系很复杂，预测分布可能偏向或多模式的情况下，输入相对较高的尺寸，该方法尤其有利。对五个数据集进行的计算研究，其中两个是合成生成的，这说明了我们的高维输入的专家混合物方法的明显优势，在验证指标和视觉检查方面都优于竞争者模型。

translated by 谷歌翻译