内核选择在确定高斯过程(GP)模型中的性能方面发挥着核心作用,因为所选择的内核在之前的GP下确定了电感偏差和在GP下的功能的先前支持。这项工作解决了为高维GP回归模型构建自定义内核功能的挑战。从最近的深度学习进步中汲取灵感,我们介绍了一个名为Kitt的新方法:通过变压器识别内核识别。 KITT利用基于变压器的架构,以在0.1秒内生成内核建议,这比传统的内核搜索算法快几个数量级。我们使用从已知内核的词汇表中从前线生成的合成数据训练我们的模型。通过利用自我关注机制的性质,KITT能够处理具有任意尺寸的输入的数据集。我们证明,KITT选择的内核会在各种回归基准集合中产生强烈的表现。
translated by 谷歌翻译
高斯流程提供了一个优雅的框架,用于在功能上指定先验和后验分布。但是,它们在计算上也很昂贵,并且受其协方差函数的表达性限制。我们提出了基于扩散模型的新方法神经扩散过程(NDP),该方法学会了从功能上分布中采样。使用新颖的注意力块,我们可以将随机过程(例如交换性)的属性直接融合到NDP的体系结构中。我们从经验上表明,NDP能够捕获与高斯过程的真正贝叶斯后部接近的功能分布。这可以实现各种下游任务,包括高参数边缘化和贝叶斯优化。
translated by 谷歌翻译
高斯工艺(GPS)模型是具有由内核功能控制的电感偏差的功能丰富的分布。通过使用边际似然作为目标优化内核超参数来实现学习。这种称为II类型最大似然(ML-II)的经典方法产生了高参数的点估计,并继续成为培训GPS的默认方法。然而,这种方法在低估预测不确定性并且易于在有许多近似数目时易于过度拟合。此外,基于梯度的优化使ML-II点估计高度易受局部最小值的存在。这项工作提出了一种替代的学习过程,其中核心函数的超参数使用嵌套采样(NS)被边缘化,这是一种非常适合于复杂的多模态分布来采样的技术。我们专注于具有频谱混合物(SM)粒子的回归任务,并发现定量模型不确定性的原则方法导致在一系列合成和基准数据集中的预测性能中的大量收益。在这种情况下,还发现嵌套的抽样在汉密尔顿蒙特卡罗(HMC)上提供了速度优势,广泛认为是基于MCMC推断的金标准。
translated by 谷歌翻译
Future surveys such as the Legacy Survey of Space and Time (LSST) of the Vera C. Rubin Observatory will observe an order of magnitude more astrophysical transient events than any previous survey before. With this deluge of photometric data, it will be impossible for all such events to be classified by humans alone. Recent efforts have sought to leverage machine learning methods to tackle the challenge of astronomical transient classification, with ever improving success. Transformers are a recently developed deep learning architecture, first proposed for natural language processing, that have shown a great deal of recent success. In this work we develop a new transformer architecture, which uses multi-head self attention at its core, for general multi-variate time-series data. Furthermore, the proposed time-series transformer architecture supports the inclusion of an arbitrary number of additional features, while also offering interpretability. We apply the time-series transformer to the task of photometric classification, minimising the reliance of expert domain knowledge for feature selection, while achieving results comparable to state-of-the-art photometric classification methods. We achieve a logarithmic-loss of 0.507 on imbalanced data in a representative setting using data from the Photometric LSST Astronomical Time-Series Classification Challenge (PLAsTiCC). Moreover, we achieve a micro-averaged receiver operating characteristic area under curve of 0.98 and micro-averaged precision-recall area under curve of 0.87.
translated by 谷歌翻译
我们为在多个置换不变的集合上学习功能提出了一个一般的深度体系结构。我们还展示了如何通过维度等值的任何维度元素概括到任何维度元素的集合。我们证明了我们的体系结构是这些功能的通用近似值,并显示了有关各种任务的现有方法的卓越结果,包括计数任务,对齐任务,可区分性任务和统计距离测量。最后的任务在机器学习中非常重要。尽管我们的方法非常笼统,但我们证明它可以产生KL差异和相互信息的近似估计值,这些信息比以前专门设计以近似这些统计距离的技术更准确。
translated by 谷歌翻译
在2015年和2019年之间,地平线的成员2020年资助的创新培训网络名为“Amva4newphysics”,研究了高能量物理问题的先进多变量分析方法和统计学习工具的定制和应用,并开发了完全新的。其中许多方法已成功地用于提高Cern大型Hadron撞机的地图集和CMS实验所执行的数据分析的敏感性;其他几个人,仍然在测试阶段,承诺进一步提高基本物理参数测量的精确度以及新现象的搜索范围。在本文中,在研究和开发的那些中,最相关的新工具以及对其性能的评估。
translated by 谷歌翻译
Pre-publication draft of a book to be published byMorgan & Claypool publishers. Unedited version released with permission. All relevant copyrights held by the author and publisher extend to this pre-publication draft.
translated by 谷歌翻译
We introduce scalable deep kernels, which combine the structural properties of deep learning architectures with the non-parametric flexibility of kernel methods. Specifically, we transform the inputs of a spectral mixture base kernel with a deep architecture, using local kernel interpolation, inducing points, and structure exploiting (Kronecker and Toeplitz) algebra for a scalable kernel representation. These closed-form kernels can be used as drop-in replacements for standard kernels, with benefits in expressive power and scalability. We jointly learn the properties of these kernels through the marginal likelihood of a Gaussian process. Inference and learning cost O(n) for n training points, and predictions cost O(1) per test point. On a large and diverse collection of applications, including a dataset with 2 million examples, we show improved performance over scalable Gaussian processes with flexible kernel learning models, and stand-alone deep architectures.
translated by 谷歌翻译
高斯流程(GPS)实际应用的主要挑战是选择适当的协方差函数。 GPS的移动平均值或过程卷积的构建可以提供一些额外的灵活性,但仍需要选择合适的平滑核,这是非平凡的。以前的方法通过在平滑内核上使用GP先验,并通过扩展协方差来构建协方差函数,以绕过预先指定它的需求。但是,这样的模型在几种方面受到限制:它们仅限于单维输入,例如时间;它们仅允许对单个输出进行建模,并且由于推理并不简单,因此不会扩展到大型数据集。在本文中,我们引入了GPS的非参数过程卷积公式,该公式通过使用基于Matheron规则的功能采样方法来减轻这些弱点,以使用诱导变量的间域间采样进行快速采样。此外,我们提出了这些非参数卷积的组成,可作为经典深度GP模型的替代方案,并允许从数据中推断中间层的协方差函数。我们测试了单个输出GP,多个输出GPS和DEEP GPS在基准测试上的模型性能,并发现在许多情况下,我们的方法可以提供比标准GP模型的改进。
translated by 谷歌翻译
时间变化数量的估计是医疗保健和金融等领域决策的基本组成部分。但是,此类估计值的实际实用性受到它们量化预测不确定性的准确程度的限制。在这项工作中,我们解决了估计高维多元时间序列的联合预测分布的问题。我们提出了一种基于变压器体系结构的多功能方法,该方法使用基于注意力的解码器估算关节分布,该解码器可被学会模仿非参数Copulas的性质。最终的模型具有多种理想的属性:它可以扩展到数百个时间序列,支持预测和插值,可以处理不规则和不均匀的采样数据,并且可以在训练过程中无缝地适应丢失的数据。我们从经验上证明了这些属性,并表明我们的模型在多个现实世界数据集上产生了最新的预测。
translated by 谷歌翻译
Many machine learning tasks such as multiple instance learning, 3D shape recognition and fewshot image classification are defined on sets of instances. Since solutions to such problems do not depend on the order of elements of the set, models used to address them should be permutation invariant. We present an attention-based neural network module, the Set Transformer, specifically designed to model interactions among elements in the input set. The model consists of an encoder and a decoder, both of which rely on attention mechanisms. In an effort to reduce computational complexity, we introduce an attention scheme inspired by inducing point methods from sparse Gaussian process literature. It reduces computation time of self-attention from quadratic to linear in the number of elements in the set. We show that our model is theoretically attractive and we evaluate it on a range of tasks, demonstrating increased performance compared to recent methods for set-structured data.
translated by 谷歌翻译
现代对高斯工艺的近似适合“高数据”,其成本在观测值的数量中缩放,但在``宽数据''上表现不佳,在输入功能的数量方面缩小了很差。也就是说,随着输入功能的数量的增长,良好的预测性能需要汇总变量及其相关成本的数量才能快速增长。我们引入了一个内核,该内核允许汇总变量的数量通过输入功能的数量成倍增长,但在观测数和输入功能的数量中仅需要线性成本。通过引入B \'ezier Buttress来实现此缩放,该块允许在无需计算矩阵倒置或决定因素的情况下进行近似推断。我们表明,我们的内核与高斯流程回归中一些最常用的内核具有非常相似的相似之处,并从经验上证明了内核可以扩展到高大和宽的数据集的能力。
translated by 谷歌翻译
目前,难以获得贝叶斯方法深入学习的好处,这允许明确的知识规范,准确地捕获模型不确定性。我们呈现先前数据拟合网络(PFN)。 PFN利用大规模机器学习技术来近似一组一组后索。 PFN唯一要求工作的要求是能够从先前分配通过监督的学习任务(或函数)来采样。我们的方法将后近似的目标重新定为具有带有值的输入的监督分类问题:它反复从先前绘制任务(或功能),从中绘制一组数据点及其标签,掩盖其中一个标签并学习基于其余数据点的设定值输入对其进行概率预测。呈现来自新的监督学习任务的一组样本作为输入,PFNS在单个前向传播中对任意其他数据点进行概率预测,从而学习到近似贝叶斯推断。我们展示了PFN可以接近完全模仿高斯过程,并且还可以实现高效的贝叶斯推理对难以处理的问题,与当前方法相比,多个设置中有超过200倍的加速。我们在非常多样化的地区获得强烈的结果,如高斯过程回归,贝叶斯神经网络,小型表格数据集的分类,以及少量图像分类,展示了PFN的一般性。代码和培训的PFN在https://github.com/automl/transformerscandobayesianinference发布。
translated by 谷歌翻译
用于估计模型不确定性的线性拉普拉斯方法在贝叶斯深度学习社区中引起了人们的重新关注。该方法提供了可靠的误差线,并接受模型证据的封闭式表达式,从而可以选择模型超参数。在这项工作中,我们检查了这种方法背后的假设,尤其是与模型选择结合在一起。我们表明,这些与一些深度学习的标准工具(构成近似方法和归一化层)相互作用,并为如何更好地适应这种经典方法对现代环境提出建议。我们为我们的建议提供理论支持,并在MLP,经典CNN,具有正常化层,生成性自动编码器和变压器的剩余网络上进行经验验证它们。
translated by 谷歌翻译
收购用于监督学习的标签可能很昂贵。为了提高神经网络回归的样本效率,我们研究了活跃的学习方法,这些方法可以适应地选择未标记的数据进行标记。我们提出了一个框架,用于从(与网络相关的)基础内核,内核转换和选择方法中构造此类方法。我们的框架涵盖了许多基于神经网络的高斯过程近似以及非乘式方法的现有贝叶斯方法。此外,我们建议用草图的有限宽度神经切线核代替常用的最后层特征,并将它们与一种新型的聚类方法结合在一起。为了评估不同的方法,我们引入了一个由15个大型表格回归数据集组成的开源基准。我们所提出的方法的表现优于我们的基准测试上的最新方法,缩放到大数据集,并在不调整网络体系结构或培训代码的情况下开箱即用。我们提供开源代码,包括所有内核,内核转换和选择方法的有效实现,并可用于复制我们的结果。
translated by 谷歌翻译
神经过程(NP)是一种流行的元学习方法。与高斯工艺(GPS)类似,NPS将分布定义在功能上,并可以估计其预测中的不确定性。但是,与GPS不同,NP及其变体遭受不足的折磨,并且通常具有棘手的可能性,这限制了其在顺序决策中的应用。我们提出了变形金刚神经过程(TNP),这是NP家族的新成员,将不确定性感知的元学习作为序列建模问题。我们通过基于自回旋的可能性目标学习TNP,并通过新颖的基于变压器的建筑实例化。该模型架构尊重问题结构固有的归纳偏差,例如对观察到的数据点的不变性以及与未观察到的点的等效性。我们进一步研究了TNP框架内的旋钮,以额外的计算来折衷解码分布的表达。从经验上讲,我们表明TNP在各种基准问题上实现最新性能,在元回归,图像完成,上下文多武器匪徒和贝叶斯优化方面表现优于所有先前的NP变体。
translated by 谷歌翻译
Accurate uncertainty quantification is a major challenge in deep learning, as neural networks can make overconfident errors and assign high confidence predictions to out-of-distribution (OOD) inputs. The most popular approaches to estimate predictive uncertainty in deep learning are methods that combine predictions from multiple neural networks, such as Bayesian neural networks (BNNs) and deep ensembles. However their practicality in real-time, industrial-scale applications are limited due to the high memory and computational cost. Furthermore, ensembles and BNNs do not necessarily fix all the issues with the underlying member networks. In this work, we study principled approaches to improve uncertainty property of a single network, based on a single, deterministic representation. By formalizing the uncertainty quantification as a minimax learning problem, we first identify distance awareness, i.e., the model's ability to quantify the distance of a testing example from the training data, as a necessary condition for a DNN to achieve high-quality (i.e., minimax optimal) uncertainty estimation. We then propose Spectral-normalized Neural Gaussian Process (SNGP), a simple method that improves the distance-awareness ability of modern DNNs with two simple changes: (1) applying spectral normalization to hidden weights to enforce bi-Lipschitz smoothness in representations and (2) replacing the last output layer with a Gaussian process layer. On a suite of vision and language understanding benchmarks, SNGP outperforms other single-model approaches in prediction, calibration and out-of-domain detection. Furthermore, SNGP provides complementary benefits to popular techniques such as deep ensembles and data augmentation, making it a simple and scalable building block for probabilistic deep learning. Code is open-sourced at https://github.com/google/uncertainty-baselines
translated by 谷歌翻译
神经网络的经典发展主要集中在有限维欧基德空间或有限组之间的学习映射。我们提出了神经网络的概括,以学习映射无限尺寸函数空间之间的运算符。我们通过一类线性积分运算符和非线性激活函数的组成制定运营商的近似,使得组合的操作员可以近似复杂的非线性运算符。我们证明了我们建筑的普遍近似定理。此外,我们介绍了四类运算符参数化:基于图形的运算符,低秩运算符,基于多极图形的运算符和傅里叶运算符,并描述了每个用于用每个计算的高效算法。所提出的神经运营商是决议不变的:它们在底层函数空间的不同离散化之间共享相同的网络参数,并且可以用于零击超分辨率。在数值上,与现有的基于机器学习的方法,达西流程和Navier-Stokes方程相比,所提出的模型显示出卓越的性能,而与传统的PDE求解器相比,与现有的基于机器学习的方法有关的基于机器学习的方法。
translated by 谷歌翻译
Transformers-based models, such as BERT, have been one of the most successful deep learning models for NLP. Unfortunately, one of their core limitations is the quadratic dependency (mainly in terms of memory) on the sequence length due to their full attention mechanism. To remedy this, we propose, BIGBIRD, a sparse attention mechanism that reduces this quadratic dependency to linear. We show that BIGBIRD is a universal approximator of sequence functions and is Turing complete, thereby preserving these properties of the quadratic, full attention model. Along the way, our theoretical analysis reveals some of the benefits of having O(1) global tokens (such as CLS), that attend to the entire sequence as part of the sparse attention mechanism. The proposed sparse attention can handle sequences of length up to 8x of what was previously possible using similar hardware. As a consequence of the capability to handle longer context, BIGBIRD drastically improves performance on various NLP tasks such as question answering and summarization. We also propose novel applications to genomics data.
translated by 谷歌翻译
条件神经过程(CNP; Garnelo等,2018a)是元学习模型,它利用深度学习的灵活性来产生良好的预测,并自然处理网格和缺失的数据。 CNPS缩放到大型数据集并轻松训练。由于这些功能,CNP似乎非常适合来自环境科学或医疗保健的任务。不幸的是,CNP不会产生相关的预测,从而使它们从根本上不适合许多估计和决策任务。例如,预测热浪或洪水需要在时间和空间中对温度或降水的依赖性进行建模。建模输出依赖性的现有方法,例如神经过程(NPS; Garnelo等,2018b)或FullConvgNP(Bruinsma等,2021),要么是复杂的训练或过于昂贵的。需要的是一种提供依赖预测的方法,但可以易于训练和计算障碍。在这项工作中,我们提出了一类新的神经过程模型,这些模型可以简单且可扩展,从而提供相关的预测并支持确切的最大似然训练。我们通过使用可逆输出转换来扩展提出的模型,以捕获非高斯输出分布。我们的模型可以用于需要相关功能样本的下游估计任务中。通过考虑输出依赖性,我们的模型在合成和真实数据的一系列实验上显示出改进的预测性能。
translated by 谷歌翻译