Default implementations of Bayesian Additive Regression Trees (BART) represent categorical predictors using several binary indicators, one for each level of each categorical predictor. Regression trees built with these indicators partition the levels using a ``remove one a time strategy.'' Unfortunately, the vast majority of partitions of the levels cannot be built with this strategy, severely limiting BART's ability to ``borrow strength'' across groups of levels. We overcome this limitation with a new class of regression tree and a new decision rule prior that can assign multiple levels to both the left and right child of a decision node. Motivated by spatial applications with areal data, we introduce a further decision rule prior that partitions the areas into spatially contiguous regions by deleting edges from random spanning trees of a suitably defined network. We implemented our new regression tree priors in the flexBART package, which, compared to existing implementations, often yields improved out-of-sample predictive performance without much additional computational burden. We demonstrate the efficacy of flexBART using examples from baseball and the spatiotemporal modeling of crime.
translated by 谷歌翻译
The Bayesian additive regression trees (BART) model is an ensemble method extensively and successfully used in regression tasks due to its consistently strong predictive performance and its ability to quantify uncertainty. BART combines "weak" tree models through a set of shrinkage priors, whereby each tree explains a small portion of the variability in the data. However, the lack of smoothness and the absence of a covariance structure over the observations in standard BART can yield poor performance in cases where such assumptions would be necessary. We propose Gaussian processes Bayesian additive regression trees (GP-BART) as an extension of BART which assumes Gaussian process (GP) priors for the predictions of each terminal node among all trees. We illustrate our model on simulated and real data and compare its performance to traditional modelling approaches, outperforming them in many scenarios. An implementation of our method is available in the R package rGPBART available at: https://github.com/MateusMaiaDS/gpbart
translated by 谷歌翻译
本文开发了贝叶斯因果林的稀疏诱导版本,最近提出的非参数因果回归模型采用贝叶斯添加剂回归树,专门设计用于使用观察数据来估计异质治疗效果。我们介绍的稀疏诱导组件是通过实证研究的动机,其中不是所有可用的协变量相关的,导致在估计个体治疗效果的兴趣表面底层的不同程度。在这项工作中提供的扩展版本,我们命名贝叶斯因果森林,配备了一对允许模型通过树集合中的相应数量的分裂调节每个协变量的重量。这些前瞻改善了模型对稀疏数据产生过程的适应性,并且允许在治疗效果估计的框架中进行完全贝叶斯特征缩收,从而揭示推动异质性的调节因子。此外,该方法允许先前了解相关的混杂协变量和对模型中掺入结果的影响的相对幅度。我们说明了我们在模拟研究中的方法的表现,与贝叶斯因果林和其他最先进的模型相比,展示如何与越来越多的协变量以及其如何处理强烈混淆的情景。最后,我们还提供了使用真实数据的应用程序的示例。
translated by 谷歌翻译
确定对特定干预措施(医疗或政策)响应特别好(或不良)的亚组,需要专门针对因果推理量身定制的新监督学习方法。贝叶斯因果森林(BCF)是一种最近的方法,已被记录在数据生成过程中,具有强烈混杂的方法,这种方法在许多应用中都具有合理的方式。本文开发了一种用于拟合BCF模型的新型算法,该算法比先前可用的Gibbs采样器更有效。新算法可用于初始化现有Gibbs采样器的独立链,从而使模拟研究中相关间隔估计值的后验探索和覆盖率更好。通过模拟研究和经验分析将新算法与相关方法进行比较。
translated by 谷歌翻译
儿童健康研究支持孕产妇环境暴露与儿童的出生结果之间的联系。一个共同的目标是确定敏感性的关键窗口 - 妊娠期间与孕产妇暴露与未来结果之间的关联增加的妊娠期。关键窗户的时间和关联的大小可能在不同级别的个体,家庭和邻里特征之间是异质的。使用行政科罗拉多州出生队列,我们​​估计妊娠和出生体重期间每周暴露于细颗粒物(PM2.5)之间的个性化关系。为了实现这一目标,我们提出了一种统计学习方法,将分布式滞后模型和贝叶斯添加剂回归树结合在一起,以估算单个级别的关键窗口,并确定从一组高维的潜在修改因素集中诱导异质性的特征。我们发现PM2.5出生体重关系中异质性的证据,一些母子二元组显示出3倍的出生体重下降3倍,IQR的暴露量增加(5.9至8.5 $ \ MU G/m^3 $ PM2 .5)与人口平均水平相比。具体而言,我们发现对年轻的非西班牙裔母亲的敏感性增加,体重指数更高或受教育程度较低。我们的案例研究是关键窗口的首次精确健康研究。
translated by 谷歌翻译
大型观察数据越来越多地提供健康,经济和社会科学等学科,研究人员对因果问题而不是预测感兴趣。在本文中,从旨在调查参与学校膳食计划对健康指标的实证研究,研究了使用非参数回归的方法估算异质治疗效果的问题。首先,我们介绍了与观察或非完全随机数据进行因果推断相关的设置和相关的问题,以及如何在统计学习工具的帮助下解决这些问题。然后,我们审查并制定现有最先进的框架的统一分类,允许通过非参数回归模型来估算单个治疗效果。在介绍模型选择问题的简要概述后,我们说明了一些关于三种不同模拟研究的方法的性能。我们通过展示一些关于学校膳食计划数据的实证分析的一些方法的使用来结束。
translated by 谷歌翻译
贝叶斯正交(BQ)是一种解决贝叶斯方式中数值集成问题的方法,允许用户量化其对解决方案的不确定性。 BQ的标准方法基于Intains的高斯过程(GP)近似。结果,BQ本质上仅限于可以以有效的方式完成GP近似的情况,因此通常禁止非常高维或非平滑的目标功能。本文提出使用基于贝叶斯添加剂回归树(BART)前锋的新的贝叶斯数值集成算法来解决这个问题,我们调用Bart-Int。 BART Priors易于调整,适合不连续的功能。我们证明它们在顺序设计环境中,它们也会自然地借给自己,并且可以在各种设置中获得显式收敛速率。这种新方法的优点和缺点在包括Genz功能的一组基准测试和贝叶斯调查设计问题上突出显示。
translated by 谷歌翻译
这篇综述的目的是将读者介绍到图表内,以将其应用于化学信息学中的分类问题。图内核是使我们能够推断分子的化学特性的功能,可以帮助您完成诸如寻找适合药物设计的化合物等任务。内核方法的使用只是一种特殊的两种方式量化了图之间的相似性。我们将讨论限制在这种方法上,尽管近年来已经出现了流行的替代方法,但最著名的是图形神经网络。
translated by 谷歌翻译
即使机器学习算法已经在数据科学中发挥了重要作用,但许多当前方法对输入数据提出了不现实的假设。由于不兼容的数据格式,或数据集中的异质,分层或完全缺少的数据片段,因此很难应用此类方法。作为解决方案,我们提出了一个用于样本表示,模型定义和培训的多功能,统一的框架,称为“ Hmill”。我们深入审查框架构建和扩展的机器学习的多个范围范式。从理论上讲,为HMILL的关键组件的设计合理,我们将通用近似定理的扩展显示到框架中实现的模型所实现的所有功能的集合。本文还包含有关我们实施中技术和绩效改进的详细讨论,该讨论将在MIT许可下发布供下载。该框架的主要资产是其灵活性,它可以通过相同的工具对不同的现实世界数据源进行建模。除了单独观察到每个对象的一组属性的标准设置外,我们解释了如何在框架中实现表示整个对象系统的图表中的消息推断。为了支持我们的主张,我们使用框架解决了网络安全域的三个不同问题。第一种用例涉及来自原始网络观察结果的IoT设备识别。在第二个问题中,我们研究了如何使用以有向图表示的操作系统的快照可以对恶意二进制文件进行分类。最后提供的示例是通过网络中实体之间建模域黑名单扩展的任务。在所有三个问题中,基于建议的框架的解决方案可实现与专业方法相当的性能。
translated by 谷歌翻译
决策森林(森林),尤其是随机森林和梯度促进树木,与许多监督学习场景中的其他方法相比,已经证明了最先进的准确性。尤其是,森林在表格数据中占主导地位,即当特征空间非结构化时,因此信号是特征指数置换的不变性。然而,在存在于多种多样(例如图像,文本和语音)深网(网络)(特别是卷积深网(Convnets))上的结构化数据中,倾向于优于森林。我们猜想至少部分原因是网络的输入不仅仅是特征幅度,也是其索引。相反,天真的森林实施未能明确考虑特征指数。最近提出的森林方法表明,对于每个节点,森林从某些特定分布中隐式采样一个随机矩阵。这些森林像某些类别的网络一样,通过将特征空间划分为对应于线性函数的凸多物体来学习。我们以这种方法为基础,并表明人们可以以多种感知方式选择分布来纳入特征区域。我们在数据上活在三个不同的流形上的数据上证明了经验性能:圆环,图像和时间序列。此外,我们证明了其在多元模拟环境中的强度,并且在预测癫痫患者的手术结果方面也表现出了优越性,并从非运动脑区域的原始立体定向EEG数据中预测运动方向。在所有模拟和真实数据中,歧管随机森林(MORF)算法的表现优于忽略特征空间结构并挑战Convnets的性能。此外,MORF运行迅速,并保持解释性和理论上的理由。
translated by 谷歌翻译
Many scientific and engineering challenges-ranging from personalized medicine to customized marketing recommendations-require an understanding of treatment effect heterogeneity. In this paper, we develop a non-parametric causal forest for estimating heterogeneous treatment effects that extends Breiman's widely used random forest algorithm. In the potential outcomes framework with unconfoundedness, we show that causal forests are pointwise consistent for the true treatment effect, and have an asymptotically Gaussian and centered sampling distribution. We also discuss a practical method for constructing asymptotic confidence intervals for the true treatment effect that are centered at the causal forest estimates. Our theoretical results rely on a generic Gaussian theory for a large family of random forest algorithms. To our knowledge, this is the first set of results that allows any type of random forest, including classification and regression forests, to be used for provably valid statistical inference. In experiments, we find causal forests to be substantially more powerful than classical methods based on nearest-neighbor matching, especially in the presence of irrelevant covariates.
translated by 谷歌翻译
数据复杂性的持续增长需要充分解释非平凡结构的方法和模型,因为任何简化都可能导致信息丢失。已经引入了许多分析工具以使用其原始形式的复杂数据对象,但是这种工具通常只能处理单类变量。在这项工作中,我们建议能量树作为回归和分类任务的模型,其中协变量可能是结构化和不同类型的模型。能量树结合了能量统计来概括条件树,它们从中继承了统计上可靠的基础,可解释性,规模不变性和缺乏分配假设。我们将重点放在函数和图形上,作为结构化的协变量,并展示了如何轻松适应几乎所有其他类型的变量。通过一项广泛的仿真研究,我们从可变选择和鲁棒性过度拟合的角度强调了提案的良好表现。最后,我们通过使用人类生物学数据的两个经验分析来验证模型的预测能力。
translated by 谷歌翻译
潜在位置网络模型是网络科学的多功能工具;应用程序包括集群实体,控制因果混淆,并在未观察的图形上定义前提。估计每个节点的潜在位置通常是贝叶斯推理问题的群体,吉布斯内的大都市是最流行的近似后分布的工具。然而,众所周知,GIBBS内的大都市对于大型网络而言是低效;接受比计算成本昂贵,并且所得到的后绘高度相关。在本文中,我们提出了一个替代的马尔可夫链蒙特卡罗战略 - 使用分裂哈密顿蒙特卡罗和萤火虫蒙特卡罗的组合定义 - 利用后部分布的功能形式进行更有效的后退计算。我们展示了这些战略在吉布斯和综合网络上的其他算法中优于大都市,以及学区的教师和工作人员的真正信息共享网络。
translated by 谷歌翻译
开发了一种使用多个辅助变量的非静止空间建模算法。它将Geodatistics与Simitile随机林结合起来,以提供一种新的插值和随机仿真算法。本文介绍了该方法,并表明它具有与施加地统计学建模和定量随机森林的那些相似的一致性结果。该方法允许嵌入更简单的插值技术,例如Kriging,以进一步调节模型。该算法通过估计每个目标位置处的目标变量的条件分布来工作。这种分布的家庭称为目标变量的包络。由此,可以获得空间估计,定量和不确定性。还开发了一种从包络产生条件模拟的算法。随着它们从信封中的样本,因此通过相对变化的次要变量,趋势和可变性的相对变化局部地影响。
translated by 谷歌翻译
回归模型用于各种应用,为来自不同领域的研究人员提供强大的科学工具。线性或简单的参数,模型通常不足以描述输入变量与响应之间的复杂关系。通过诸如神经网络的灵活方法可以更好地描述这种关系,但这导致不太可解释的模型和潜在的过度装备。或者,可以使用特定的参数非线性函数,但是这种功能的规范通常是复杂的。在本文中,我们介绍了一种灵活的施工方法,高度灵活的非线性参数回归模型。非线性特征是分层的,类似于深度学习,但对要考虑的可能类型的功能具有额外的灵活性。这种灵活性,与变量选择相结合,使我们能够找到一小部分重要特征,从而可以更具可解释的模型。在可能的功能的空间内,考虑了贝叶斯方法,基于它们的复杂性引入功能的前沿。采用遗传修改模式跳跃马尔可夫链蒙特卡罗算法来执行贝叶斯推理和估计模型平均的后验概率。在各种应用中,我们说明了我们的方法如何用于获得有意义的非线性模型。此外,我们将其预测性能与多个机器学习算法进行比较。
translated by 谷歌翻译
我们提出了一种无监督的树,用于推断I.I.D的基础采样分布。基于拟合添加树的样本,以类似于监督的树木增强的时尚。算法的积分是概率分布的“添加”的新概念,该概率分布导致“残差”的连贯概念,即从观察值中减去概率分布,从后者的采样分布中去除分布结构。我们表明,由于单变量CDF的几种“类似”特性,这些概念通过累积分布函数(CDF)转换和组成自然出现。尽管传统的多元CDF不能保留这些属性,但多元CDF的新定义可以恢复这些属性,从而允许为多元设置制定“添加”和“残差”的概念。然后,这产生了基于添加树合奏的前阶段拟合的无监督算法,从而依次降低了kullback-leibler的差异。该算法允许对拟合密度进行分析评估,并输出可以轻松从中采样的生成模型。我们通过依赖比例的收缩和两阶段的策略来增强算法,该策略分别适合边缘和copula。然后,该算法在多个基准数据集的多元密度估计中竞争性地进行了最新的深度学习方法。
translated by 谷歌翻译
Monte Carlo Tree Search (MCTS) is a recently proposed search method that combines the precision of tree search with the generality of random sampling. It has received considerable interest due to its spectacular success in the difficult problem of computer Go, but has also proved beneficial in a range of other domains. This paper is a survey of the literature to date, intended to provide a snapshot of the state of the art after the first five years of MCTS research. We outline the core algorithm's derivation, impart some structure on the many variations and enhancements that have been proposed, and summarise the results from the key game and non-game domains to which MCTS methods have been applied. A number of open research questions indicate that the field is ripe for future work.
translated by 谷歌翻译
Many scientific problems require identifying a small set of covariates that are associated with a target response and estimating their effects. Often, these effects are nonlinear and include interactions, so linear and additive methods can lead to poor estimation and variable selection. Unfortunately, methods that simultaneously express sparsity, nonlinearity, and interactions are computationally intractable -- with runtime at least quadratic in the number of covariates, and often worse. In the present work, we solve this computational bottleneck. We show that suitable interaction models have a kernel representation, namely there exists a "kernel trick" to perform variable selection and estimation in $O$(# covariates) time. Our resulting fit corresponds to a sparse orthogonal decomposition of the regression function in a Hilbert space (i.e., a functional ANOVA decomposition), where interaction effects represent all variation that cannot be explained by lower-order effects. On a variety of synthetic and real data sets, our approach outperforms existing methods used for large, high-dimensional data sets while remaining competitive (or being orders of magnitude faster) in runtime.
translated by 谷歌翻译
我们提出了一种基于配对构造的模型组件的广义添加剂模型,并以预测为主要目的。该模型组件的设计使我们的模型可以捕获响应协变量之间关系中潜在的复杂相互作用效应。此外,我们的模型不需要连续协变量的离散化,因此适用于许多此类协变量的问题。此外,我们设计了一种受梯度增强启发的拟合算法,以及通过对模型空间和近似值的限制来加快时间对比计算的限制,用于模型选择和模型选择的有效程序。除了我们的模型在更高维度中成为现实的选择绝对必要外,这些技术还可以作为设计有效模型选择算法的其他类型的Copula回归模型的基础。我们已经在模拟研究中探索了我们方法的特征,特别是将其与自然替代方案进行比较,例如逻辑回归,经典增强模型和受到惩罚的逻辑回归。我们还展示了我们在威斯康星州乳腺癌数据集和波士顿住房数据集上的方法。结果表明,即使离散协变量的比例很高,我们的方法的预测性能要么比其他方法更好或可比其他方法媲美。
translated by 谷歌翻译
在过去十年中,图形内核引起了很多关注,并在结构化数据上发展成为一种快速发展的学习分支。在过去的20年中,该领域发生的相当大的研究活动导致开发数十个图形内核,每个图形内核都对焦于图形的特定结构性质。图形内核已成功地成功地在广泛的域中,从社交网络到生物信息学。本调查的目标是提供图形内核的文献的统一视图。特别是,我们概述了各种图形内核。此外,我们对公共数据集的几个内核进行了实验评估,并提供了比较研究。最后,我们讨论图形内核的关键应用,并概述了一些仍有待解决的挑战。
translated by 谷歌翻译