本文提出了一个贝叶斯框架,用于构建非线性,简约的浅层模型,用于多任务回归。提出的框架依赖于这样一个事实,即随机傅立叶特征(RFF)可以通过极端学习机器将RBF内核近似,其隐藏层由RFF形成。主要思想是将同一模型的两个双重视图结合在单个贝叶斯公式下,将稀疏的贝叶斯极限学习机器扩展到多任务问题。从内核方法的角度来看,提出的公式有助于通过RBF内核参数引入先前的域知识。从极端的学习机的角度来看,新的配方有助于控制过度拟合并实现简约的总体模型(服务每个任务的模型共享联合贝叶斯优化中选择的相同的RFF集合)。实验结果表明,在同一框架内将内核方法和极端学习机器的优势相结合可能会导致这两个范式中的每一个范式独立地取得的性能显着改善。
translated by 谷歌翻译
In this paper we introduce deep Gaussian process (GP) models. Deep GPs are a deep belief network based on Gaussian process mappings. The data is modeled as the output of a multivariate GP. The inputs to that Gaussian process are then governed by another GP. A single layer model is equivalent to a standard GP or the GP latent variable model (GP-LVM). We perform inference in the model by approximate variational marginalization. This results in a strict lower bound on the marginal likelihood of the model which we use for model selection (number of layers and nodes per layer). Deep belief networks are typically applied to relatively large data sets using stochastic gradient descent for optimization. Our fully Bayesian treatment allows for the application of deep models even when data is scarce. Model selection by our variational bound shows that a five layer hierarchy is justified even when modelling a digit data set containing only 150 examples.
translated by 谷歌翻译
高斯流程(GPS)实际应用的主要挑战是选择适当的协方差函数。 GPS的移动平均值或过程卷积的构建可以提供一些额外的灵活性,但仍需要选择合适的平滑核,这是非平凡的。以前的方法通过在平滑内核上使用GP先验,并通过扩展协方差来构建协方差函数,以绕过预先指定它的需求。但是,这样的模型在几种方面受到限制:它们仅限于单维输入,例如时间;它们仅允许对单个输出进行建模,并且由于推理并不简单,因此不会扩展到大型数据集。在本文中,我们引入了GPS的非参数过程卷积公式,该公式通过使用基于Matheron规则的功能采样方法来减轻这些弱点,以使用诱导变量的间域间采样进行快速采样。此外,我们提出了这些非参数卷积的组成,可作为经典深度GP模型的替代方案,并允许从数据中推断中间层的协方差函数。我们测试了单个输出GP,多个输出GPS和DEEP GPS在基准测试上的模型性能,并发现在许多情况下,我们的方法可以提供比标准GP模型的改进。
translated by 谷歌翻译
我们提出了一种新的非参数混合物模型,用于多变量回归问题,灵感来自概率K-Nearthimest邻居算法。使用有条件指定的模型,对样本外输入的预测基于与每个观察到的数据点的相似性,从而产生高斯混合物表示的预测分布。在混合物组件的参数以及距离度量标准的参数上,使用平均场变化贝叶斯算法进行后推断,并具有基于随机梯度的优化过程。在与数据大小相比,输入 - 输出关系很复杂,预测分布可能偏向或多模式的情况下,输入相对较高的尺寸,该方法尤其有利。对五个数据集进行的计算研究,其中两个是合成生成的,这说明了我们的高维输入的专家混合物方法的明显优势,在验证指标和视觉检查方面都优于竞争者模型。
translated by 谷歌翻译
贝叶斯拉索是在线性回归框架中构建的,并应用了吉布斯采样以估计回归参数。本文开发了一种新的稀疏学习模型,称为贝叶斯套索稀疏(BLS)模型,该模型采用了贝叶斯拉索的层次模型公式。与原始贝叶斯套索的主要区别在于估计程序;BLS方法使用基于II类型最大似然过程的学习算法。与贝叶斯拉索相反,BLS提供了回归参数的稀疏估计值。BLS方法还通过引入内核功能来得出非线性监督学习问题。我们将BLS模型与众所周知的相关矢量机,快速拉普拉斯法,再见套索和套索在模拟和真实数据上进行了比较。数值结果表明,BLS稀疏而精确,尤其是在处理嘈杂和不规则数据集时。
translated by 谷歌翻译
多任务高斯流程(MTGP)是高斯流程(GP)框架的多输出回归问题的解决方案,其中在观察值的情况下,回归器的$ T $元素不能被认为是有条件独立的。标准MTGP模型假设同时存在多任务协方差矩阵,该矩阵是插入式矩阵的函数和噪声协方差矩阵。这些矩阵需要通过订单$ p $的低级简化来近似,以减少从$ t^2 $到$ tp $学习的参数数量。在这里,我们介绍了一种新颖的方法,该方法通过将其减少到一组条件的单变量GP来简化了多任务学习,而无需任何低级近似值,因此完全消除了为超参数$ p $选择足够值的要求。同时,通过使用层次结构和近似模型扩展此方法,提出的扩展可以在仅学习$ 2T $参数后能够恢复多任务协方差和噪声矩阵,从而避免对任何模型超参数的验证并减少整体的验证模型的复杂性以及过度拟合的风险。关于合成和实际问题的实验结果证实了这种推论方法在其准确恢复原始噪声和信号矩阵的能力方面的优势,以及与其他最先进的MTGP方法相比,实现的性能提高。我们还将该模型与标准GP工具箱集成在一起,表明它具有与最先进的选项的计算竞争。
translated by 谷歌翻译
随机过程提供了数学上优雅的方式模型复杂数据。从理论上讲,它们为可以编码广泛有趣的假设的功能类提供了灵活的先验。但是,实际上,难以通过优化或边缘化来有效推断,这一问题进一步加剧了大数据和高维输入空间。我们提出了一种新颖的变性自动编码器(VAE),称为先前的编码变量自动编码器($ \ pi $ vae)。 $ \ pi $ vae是有限的交换且Kolmogorov一致的,因此是一个连续的随机过程。我们使用$ \ pi $ vae学习功能类的低维嵌入。我们表明,我们的框架可以准确地学习表达功能类,例如高斯流程,也可以学习函数的属性以启用统计推断(例如log高斯过程的积分)。对于流行的任务,例如空间插值,$ \ pi $ vae在准确性和计算效率方面都达到了最先进的性能。也许最有用的是,我们证明了所学的低维独立分布的潜在空间表示提供了一种优雅,可扩展的方法,可以在概率编程语言(例如Stan)中对随机过程进行贝叶斯推断。
translated by 谷歌翻译
贝叶斯优化(BO)已成为许多昂贵现实世界功能的全球优化的流行策略。与普遍认为BO适合优化黑框功能的信念相反,它实际上需要有关这些功能特征的域知识才能成功部署BO。这样的领域知识通常表现在高斯流程先验中,这些先验指定了有关功能的初始信念。但是,即使有专家知识,选择先验也不是一件容易的事。对于复杂的机器学习模型上的超参数调谐问题尤其如此,在这种模型中,调整目标的景观通常很难理解。我们寻求一种设定这些功能性先验的替代实践。特别是,我们考虑了从类似功能的数据中,使我们可以先验地进行更紧密的分布。从理论上讲,我们与预先训练的先验表示对BO的遗憾。为了验证我们在现实的模型培训设置中的方法,我们通过训练在流行图像和文本数据集上的数以万计的近状态模型配置来收集了大型多任务超参数调谐数据集,以及蛋白质序列数据集。我们的结果表明,平均而言,我们的方法能够比最佳竞争方法更有效地定位良好的超参数。
translated by 谷歌翻译
机器学习技术通常应用于痴呆症预测缺乏其能力,共同学习多个任务,处理时间相关的异构数据和缺失值。在本文中,我们建议使用最近呈现的SShiba模型提出了一个框架,用于在缺失值的纵向数据上联合学习不同的任务。该方法使用贝叶斯变分推理来赋予缺失值并组合多个视图的信息。这样,我们可以将不同的数据视图与共同的潜在空间中的不同时间点相结合,并在同时建模和预测若干输出变量的同时学习每个时间点之间的关系。我们应用此模型以预测痴呆症中的诊断,心室体积和临床评分。结果表明,SSHIBA能够学习缺失值的良好归因,同时预测三个不同任务的同时表现出基线。
translated by 谷歌翻译
这是一门专门针对STEM学生开发的介绍性机器学习课程。我们的目标是为有兴趣的读者提供基础知识,以在自己的项目中使用机器学习,并将自己熟悉术语作为进一步阅读相关文献的基础。在这些讲义中,我们讨论受监督,无监督和强化学习。注释从没有神经网络的机器学习方法的说明开始,例如原理分析,T-SNE,聚类以及线性回归和线性分类器。我们继续介绍基本和先进的神经网络结构,例如密集的进料和常规神经网络,经常性的神经网络,受限的玻尔兹曼机器,(变性)自动编码器,生成的对抗性网络。讨论了潜在空间表示的解释性问题,并使用梦和对抗性攻击的例子。最后一部分致力于加强学习,我们在其中介绍了价值功能和政策学习的基本概念。
translated by 谷歌翻译
由于能够处理一般结构化数据,因此在图形上的机器学习方法在许多应用程序中被证明是有用的。高斯马尔可夫随机字段(GMRF)的框架提供了一种原则性的方法,可以通过利用其稀疏结构来定义图表上的高斯模型。我们为基于深GMRF的多层结构而建立的一般图表提出了一个灵活的GMRF模型,该模型最初仅针对晶格图。通过设计新类型的图层,我们使模型可以扩展到大图。该层的构建是为了使用图形神经网络的变异推理和现有软件框架进行有效的训练。对于高斯的可能性,潜在领域接近确切的贝叶斯推理。这可以通过随附的不确定性估计做出预测。通过对许多合成和现实世界数据集的实验来验证所提出的模型的有用性,在该数据集中,它与其他贝叶斯和深度学习方法进行了比较。
translated by 谷歌翻译
我们研究了回归中神经网络(NNS)的模型不确定性的方法。为了隔离模型不确定性的效果,我们专注于稀缺训练数据的无噪声环境。我们介绍了关于任何方法都应满足的模型不确定性的五个重要的逃亡者。但是,我们发现,建立的基准通常无法可靠地捕获其中一些逃避者,即使是贝叶斯理论要求的基准。为了解决这个问题,我们介绍了一种新方法来捕获NNS的模型不确定性,我们称之为基于神经优化的模型不确定性(NOMU)。 NOMU的主要思想是设计一个由两个连接的子NN组成的网络体系结构,一个用于模型预测,一个用于模型不确定性,并使用精心设计的损耗函数进行训练。重要的是,我们的设计执行NOMU满足我们的五个Desiderata。由于其模块化体系结构,NOMU可以为任何给定(先前训练)NN提供模型不确定性,如果访问其培训数据。我们在各种回归任务和无嘈杂的贝叶斯优化(BO)中评估NOMU,并具有昂贵的评估。在回归中,NOMU至少和最先进的方法。在BO中,Nomu甚至胜过所有考虑的基准。
translated by 谷歌翻译
收购用于监督学习的标签可能很昂贵。为了提高神经网络回归的样本效率,我们研究了活跃的学习方法,这些方法可以适应地选择未标记的数据进行标记。我们提出了一个框架,用于从(与网络相关的)基础内核,内核转换和选择方法中构造此类方法。我们的框架涵盖了许多基于神经网络的高斯过程近似以及非乘式方法的现有贝叶斯方法。此外,我们建议用草图的有限宽度神经切线核代替常用的最后层特征,并将它们与一种新型的聚类方法结合在一起。为了评估不同的方法,我们引入了一个由15个大型表格回归数据集组成的开源基准。我们所提出的方法的表现优于我们的基准测试上的最新方法,缩放到大数据集,并在不调整网络体系结构或培训代码的情况下开箱即用。我们提供开源代码,包括所有内核,内核转换和选择方法的有效实现,并可用于复制我们的结果。
translated by 谷歌翻译
功率曲线捕获风速与特定风力涡轮机的输出功率之间的关系。这种功能的准确回归模型在监控,维护,设计和规划方面证明是有用的。然而,在实践中,测量并不总是对应于理想曲线:电源缩减将显示为(附加)功能组件。这种多值关系不能通过常规回归建模,并且在预处理期间通常去除相关数据。目前的工作表明了一种替代方法,可以在缩减电力数据中推断多值关系。使用基于人群的方法,将概率回归模型的重叠混合应用于从操作风电场内的涡轮机记录的信号。示出了模型,以便在整个人口中提供精确的实际功率数据表示。
translated by 谷歌翻译
贝叶斯神经网络和深度集合代表了深入学习中不确定性量化的两种现代范式。然而,这些方法主要因内存低效率问题而争取,因为它们需要比其确定性对应物高出几倍的参数储存。为了解决这个问题,我们使用少量诱导重量增强每层的重量矩阵,从而将不确定性定量突出到这种低尺寸空间中。我们进一步扩展了Matheron的有条件高斯采样规则,以实现快速的重量采样,这使得我们的推理方法能够与合并相比保持合理的运行时间。重要的是,我们的方法在具有完全连接的神经网络和RESNET的预测和不确定性估算任务中实现了竞争性能,同时将参数大小减少到$单辆$ \ LEQ 24.3 \%$的参数大小神经网络。
translated by 谷歌翻译
This paper presents a tutorial introduction to the use of variational methods for inference and learning in graphical models (Bayesian networks and Markov random fields). We present a number of examples of graphical models, including the QMR-DT database, the sigmoid belief network, the Boltzmann machine, and several variants of hidden Markov models, in which it is infeasible to run exact inference algorithms. We then introduce variational methods, which exploit laws of large numbers to transform the original graphical model into a simplified graphical model in which inference is efficient. Inference in the simpified model provides bounds on probabilities of interest in the original model. We describe a general framework for generating variational transformations based on convex duality. Finally we return to the examples and demonstrate how variational algorithms can be formulated in each case.
translated by 谷歌翻译
基于高斯工艺(GP)建立的解码器由于非线性函数空间的边缘化而诱人。这样的模型(也称为GP-LVM)通常很昂贵且众所周知,在实践中训练,但可以使用变异推理和诱导点来缩放。在本文中,我们重新访问主动集近似值。我们基于最近发现的交叉验证链接来开发对数 - 边界可能性的新随机估计,并提出了其计算有效近似。我们证明,所得的随机活动集(SAS)近似显着提高了GP解码器训练的鲁棒性,同时降低了计算成本。SAS-GP在潜在空间中获得更多的结构,比例为许多数据点,并且比变异自动编码器更好地表示表示,这对于GP解码器来说很少是这种情况。
translated by 谷歌翻译
大量的数据和创新算法使数据驱动的建模成为现代行业的流行技术。在各种数据驱动方法中,潜在变量模型(LVM)及其对应物占主要份额,并在许多工业建模领域中起着至关重要的作用。 LVM通常可以分为基于统计学习的经典LVM和基于神经网络的深层LVM(DLVM)。我们首先讨论经典LVM的定义,理论和应用,该定义和应用既是综合教程,又是对经典LVM的简短申请调查。然后,我们对当前主流DLVM进行了彻底的介绍,重点是其理论和模型体系结构,此后不久就提供了有关DLVM的工业应用的详细调查。上述两种类型的LVM具有明显的优势和缺点。具体而言,经典的LVM具有简洁的原理和良好的解释性,但是它们的模型能力无法解决复杂的任务。基于神经网络的DLVM具有足够的模型能力,可以在复杂的场景中实现令人满意的性能,但它以模型的解释性和效率为例。旨在结合美德并减轻这两种类型的LVM的缺点,并探索非神经网络的举止以建立深层模型,我们提出了一个新颖的概念,称为“轻量级Deep LVM(LDLVM)”。在提出了这个新想法之后,该文章首先阐述了LDLVM的动机和内涵,然后提供了两个新颖的LDLVM,并详尽地描述了其原理,建筑和优点。最后,讨论了前景和机会,包括重要的开放问题和可能的研究方向。
translated by 谷歌翻译
替代模型用于减轻工程任务中的计算负担,这些计算负担需要重复评估计算要求的物理系统模型,例如不确定性的有效传播。对于显示出非常非线性依赖其输入参数的模型,标准的替代技术(例如多项式混沌膨胀)不足以获得原始模型响应的准确表示。通过应用有理近似,对于通过有理函数准确描述的模型可以有效地降低近似误差。具体而言,我们的目标是近似复杂值模型。获得替代系数的一种常见方法是最小化模型和替代物之间的基于样本的误差,从最小二乘意义上讲。为了获得原始模型的准确表示并避免过度拟合,样品集的量是扩展中多项式项数的两到三倍。对于需要高多项式程度或在其输入参数方面具有高维度的模型,该数字通常超过负担得起的计算成本。为了克服这个问题,我们将稀疏的贝叶斯学习方法应用于理性近似。通过特定的先前分布结构,在替代模型的系数中诱导稀疏性。分母的多项式系数以及问题的超参数是通过类型-II-Maximim-Maximim类似方法来确定的。我们应用了准牛顿梯度散发算法,以找到最佳的分母系数,并通过应用$ \ mathbb {cr} $ -Colculus来得出所需的梯度。
translated by 谷歌翻译
高斯过程中的变量选择(GPS)通常通过阈值平衡“自动相关性确定”内核的逆宽度,但在高维数据集中,这种方法可能是不可靠的。更概率的原则性的替代方案是使用尖峰和平板前沿并推断可变包裹物的后验概率。但是,GPS中的现有实现是以高维和大量$ N $数据集运行的昂贵,或者对于大多数内核都是棘手的。因此,我们为具有任意微分内核的秒杀和平板GP开发了一种快速且可扩展的变分推理算法。我们提高了算法通过贝叶斯模型对普遍存在的模型进行平均来适应相关变量的稀疏性的能力,并使用零温度后部限制,辍学灌注和最近的邻米匹配来实现大量速度UPS。在实验中,我们的方法始终如一地优于Vanilla和稀疏变分的GPS,同时保留类似的运行时间(即使是N = 10 ^ 6美元),并且使用MCMC使用Spike和Slab GP竞争地执行,但速度最高可达1000美元。
translated by 谷歌翻译