在机器学习(ML)社区中,低阶功能方差分析(FAROVA)模型以固有的可解释的机器学习为幌子。可解释的提升机或EBM(Lou等人,2013年)和Gami-Net(Yang等,2021)是最近提出的两种用于拟合功能性主要效应和二阶相互作用的ML算法。我们提出了一种称为Gami-Tree的新算法,类似于EBM,但具有许多可带来更好性能的功能。它使用基于模型的树作为基础学习者,并结合了一种新的交互过滤方法,可以更好地捕获基础交互。此外,我们的迭代训练方法会收敛到具有更好的预测性能的模型,并且嵌入式纯化确保相互作用在层次上是正交的,与主要效应是正交的。该算法不需要广泛的调整,我们的实施是快速有效的。我们使用模拟和真实数据集比较Gami-Tree与EBM和GAMI-NET的性能和解释性。
translated by 谷歌翻译
Function estimation/approximation is viewed from the perspective of numerical optimization in function space, rather than parameter space. A connection is made between stagewise additive expansions and steepestdescent minimization. A general gradient descent "boosting" paradigm is developed for additive expansions based on any fitting criterion. Specific algorithms are presented for least-squares, least absolute deviation, and Huber-M loss functions for regression, and multiclass logistic likelihood for classification. Special enhancements are derived for the particular case where the individual additive components are regression trees, and tools for interpreting such "TreeBoost" models are presented. Gradient boosting of regression trees produces competitive, highly robust, interpretable procedures for both regression and classification, especially appropriate for mining less than clean data. Connections between this approach and the boosting methods of Freund and Shapire and Friedman, Hastie and Tibshirani are discussed.
translated by 谷歌翻译
由于其理想的特性,与Shapley相关的技术已成为全球和局部解释工具的关注。但是,他们使用条件期望的计算在计算上是昂贵的。文献中建议的近似方法有局限性。本文提出了基于条件期望的基于替代模型的树来计算沙普利和塑造值。仿真研究表明,拟议的算法可提供准确性的提高,统一全球沙普利和外形解释,而阈值方法为折衷运行时间和准确性提供了一种方法。
translated by 谷歌翻译
机器学习渗透到许多行业,这为公司带来了新的利益来源。然而,在人寿保险行业中,机器学习在实践中并未被广泛使用,因为在过去几年中,统计模型表明了它们的风险评估效率。因此,保险公司可能面临评估人工智能价值的困难。随着时间的流逝,专注于人寿保险行业的修改突出了将机器学习用于保险公司的利益以及通过释放数据价值带来的利益。本文回顾了传统的生存建模方法论,并通过机器学习技术扩展了它们。它指出了与常规机器学习模型的差异,并强调了特定实现在与机器学习模型家族中面对审查数据的重要性。在本文的补充中,已经开发了Python库。已经调整了不同的开源机器学习算法,以适应人寿保险数据的特殊性,即检查和截断。此类模型可以轻松地从该SCOR库中应用,以准确地模拟人寿保险风险。
translated by 谷歌翻译
我们提出了一种基于配对构造的模型组件的广义添加剂模型,并以预测为主要目的。该模型组件的设计使我们的模型可以捕获响应协变量之间关系中潜在的复杂相互作用效应。此外,我们的模型不需要连续协变量的离散化,因此适用于许多此类协变量的问题。此外,我们设计了一种受梯度增强启发的拟合算法,以及通过对模型空间和近似值的限制来加快时间对比计算的限制,用于模型选择和模型选择的有效程序。除了我们的模型在更高维度中成为现实的选择绝对必要外,这些技术还可以作为设计有效模型选择算法的其他类型的Copula回归模型的基础。我们已经在模拟研究中探索了我们方法的特征,特别是将其与自然替代方案进行比较,例如逻辑回归,经典增强模型和受到惩罚的逻辑回归。我们还展示了我们在威斯康星州乳腺癌数据集和波士顿住房数据集上的方法。结果表明,即使离散协变量的比例很高,我们的方法的预测性能要么比其他方法更好或可比其他方法媲美。
translated by 谷歌翻译
Using a comprehensive sample of 2,585 bankruptcies from 1990 to 2019, we benchmark the performance of various machine learning models in predicting financial distress of publicly traded U.S. firms. We find that gradient boosted trees outperform other models in one-year-ahead forecasts. Variable permutation tests show that excess stock returns, idiosyncratic risk, and relative size are the more important variables for predictions. Textual features derived from corporate filings do not improve performance materially. In a credit competition model that accounts for the asymmetric cost of default misclassification, the survival random forest is able to capture large dollar profits.
translated by 谷歌翻译
大多数机器学习算法由一个或多个超参数配置,必须仔细选择并且通常会影响性能。为避免耗时和不可递销的手动试验和错误过程来查找性能良好的超参数配置,可以采用各种自动超参数优化(HPO)方法,例如,基于监督机器学习的重新采样误差估计。本文介绍了HPO后,本文审查了重要的HPO方法,如网格或随机搜索,进化算法,贝叶斯优化,超带和赛车。它给出了关于进行HPO的重要选择的实用建议,包括HPO算法本身,性能评估,如何将HPO与ML管道,运行时改进和并行化结合起来。这项工作伴随着附录,其中包含关于R和Python的特定软件包的信息,以及用于特定学习算法的信息和推荐的超参数搜索空间。我们还提供笔记本电脑,这些笔记本展示了这项工作的概念作为补充文件。
translated by 谷歌翻译
我们引入了一种新颖的方式,将增强功能与高斯工艺和混合效应模型相结合。首先,在高斯过程中先前的平均函数的零或线性假设可以放松,并以灵活的非参数方式分组随机效应模型,其次,第二个在大多数增强算法中做出的独立性假设。前者有利于预测准确性和避免模型错误。后者对于有效学习固定效应预测函数和获得概率预测很重要。我们提出的算法也是用于处理培养树木中高心电图分类变量的新颖解决方案。此外,我们提出了一个扩展名,该扩展是使用维奇亚近似为高斯工艺模型缩放到大数据的,该模型依靠新的结果进行协方差参数推断。与几个模拟和现实世界数据集的现有方法相比,我们获得了提高的预测准确性。
translated by 谷歌翻译
梯度增强的树木是竞争获奖,通用,非参数回归器,它们利用顺序模型拟合和梯度下降以最大程度地减少特定的损失函数。最受欢迎的实现是针对单变量回归和分类任务量身定制的,排除了捕获多变量目标互相关并将结构性惩罚应用于预测的可能性。在本文中,我们提出了一种用于拟合多元增强树的计算有效算法。我们表明,当预测相关时,多元树可以胜过单变量。此外,该算法允许任意规范预测,以便可以实施平滑度,一致性和功能关系之类的属性。我们提出了与预测和控制有关的应用程序和数值结果。
translated by 谷歌翻译
Many scientific problems require identifying a small set of covariates that are associated with a target response and estimating their effects. Often, these effects are nonlinear and include interactions, so linear and additive methods can lead to poor estimation and variable selection. Unfortunately, methods that simultaneously express sparsity, nonlinearity, and interactions are computationally intractable -- with runtime at least quadratic in the number of covariates, and often worse. In the present work, we solve this computational bottleneck. We show that suitable interaction models have a kernel representation, namely there exists a "kernel trick" to perform variable selection and estimation in $O$(# covariates) time. Our resulting fit corresponds to a sparse orthogonal decomposition of the regression function in a Hilbert space (i.e., a functional ANOVA decomposition), where interaction effects represent all variation that cannot be explained by lower-order effects. On a variety of synthetic and real data sets, our approach outperforms existing methods used for large, high-dimensional data sets while remaining competitive (or being orders of magnitude faster) in runtime.
translated by 谷歌翻译
即使有效,模型的使用也必须伴随着转换数据的各个级别的理解(上游和下游)。因此,需求增加以定义单个数据与算法可以根据其分析可以做出的选择(例如,一种产品或一种促销报价的建议,或代表风险的保险费率)。模型用户必须确保模型不会区分,并且也可以解释其结果。本文介绍了模型解释的重要性,并解决了模型透明度的概念。在保险环境中,它专门说明了如何使用某些工具来强制执行当今可以利用机器学习的精算模型的控制。在一个简单的汽车保险中损失频率估计的示例中,我们展示了一些解释性方法的兴趣,以适应目标受众的解释。
translated by 谷歌翻译
预测经济的短期动态 - 对经济代理商决策过程的重要意见 - 经常在线性模型中使用滞后指标。这通常在正常时期就足够了,但在危机期间可能不足。本文旨在证明,在非线性机器学习方法的帮助下,非传统和及时的数据(例如零售和批发付款)可以为决策者提供复杂的模型,以准确地估算几乎实时的关键宏观经济指标。此外,我们提供了一组计量经济学工具,以减轻机器学习模型中的过度拟合和解释性挑战,以提高其政策使用的有效性。我们的模型具有付款数据,非线性方法和量身定制的交叉验证方法,有助于提高宏观经济的启示准确性高达40 \% - 在COVID-19期间的增长较高。我们观察到,付款数据对经济预测的贡献很小,在低和正常增长期间是线性的。但是,在强年或正增长期间,付款数据的贡献很大,不对称和非线性。
translated by 谷歌翻译
在真正的高风险环境中部署机器学习模型(例如医疗保健)通常不仅取决于模型的准确性,而且还取决于其公平性,鲁棒性和可解释性。广义添加剂模型(Gams)是一类具有悠久的可解释模型,这些模型在这些高风险域中使用了悠久的使用,但它们缺乏深度学习的理想特征,例如可分利用和可扩展性。在这项工作中,我们提出了一个神经游戏(Node-Gam)和神经GA $ ^ 2 $ m(node-ga $ ^ 2 $ m),比展出良好,而不是大型数据集上的其他gam更好,同时剩下可解释其他集合和深层学习模式。我们展示了我们的模型在数据中找到了有趣的模式。最后,我们表明我们通过自我监督的预培训提高了模型准确性,这是不可分辨性的游戏不可能的改进。
translated by 谷歌翻译
内核正规化最小二乘(KRLS)是一种流行的方法,用于灵活估算可能在变量之间具有复杂关系的模型。但是,其对许多研究人员的有用性受到限制,原因有两个。首先,现有的方法不灵活,不允许KRL与理论动机的扩展(例如固定效应或非线性结果)结合使用。其次,对于甚至适度尺寸的数据集,估计在计算上是非常强大的。我们的论文通过引入广义KRL(GKRL)来解决这两种问题。我们注意到,可以将KRLS重新构造为层次模型,从而允许轻松推理和模块化模型构建。在计算上,我们还实施随机草图以显着加速估计,同时估计质量的罚款有限。我们证明,GKRL可以在一分钟内进行数万观察到的数据集中。此外,可以迅速估计需要在十二次(例如元学习者)中安装模型的最新技术。
translated by 谷歌翻译
对极端事件的风险评估需要准确估算超出历史观察范围的高分位数。当风险取决于观察到的预测因子的值时,回归技术用于在预测器空间中插值。我们提出的EQRN模型将来自神经网络和极值理论的工具结合到能够在存在复杂预测依赖性的情况下外推的方法中。神经网络自然可以在数据中融合其他结构。我们开发了EQRN的经常性版本,该版本能够在时间序列中捕获复杂的顺序依赖性。我们将这种方法应用于瑞士AARE集水区中洪水风险的预测。它利用从时空和时间上的多个协变量中利用信息,以提供对回报水平和超出概率的一日预测。该输出从传统的极值分析中补充了静态返回水平,并且预测能够适应不断变化的气候中经历的分配变化。我们的模型可以帮助当局更有效地管理洪水,并通过预警系统最大程度地减少其灾难性影响。
translated by 谷歌翻译
在存在分组的协变量的情况下,我们提出了一个增强框架,以允许在组内和之间实施稀疏性。通过使用调整后的自由度同时使用组件和小组梯度提升,可以通过增强来拟合具有与稀疏组套索相似的模型。我们表明,组内和组间稀疏性可以通过混合参数来控制,并讨论稀疏组套索中混合参数的相似性和差异。通过模拟,基因数据以及农业数据,我们显示了该估计器的有效性和预测性竞争力。数据和模拟表明,在存在分组变量的情况下,稀疏组增强的使用与偏差的变量选择较少,并且与组件的增强相比,可预测性较小。此外,我们提出了一种减少偏见通过自由程度来提高组件的偏见的方法。
translated by 谷歌翻译
本文开发了贝叶斯因果林的稀疏诱导版本,最近提出的非参数因果回归模型采用贝叶斯添加剂回归树,专门设计用于使用观察数据来估计异质治疗效果。我们介绍的稀疏诱导组件是通过实证研究的动机,其中不是所有可用的协变量相关的,导致在估计个体治疗效果的兴趣表面底层的不同程度。在这项工作中提供的扩展版本,我们命名贝叶斯因果森林,配备了一对允许模型通过树集合中的相应数量的分裂调节每个协变量的重量。这些前瞻改善了模型对稀疏数据产生过程的适应性,并且允许在治疗效果估计的框架中进行完全贝叶斯特征缩收,从而揭示推动异质性的调节因子。此外,该方法允许先前了解相关的混杂协变量和对模型中掺入结果的影响的相对幅度。我们说明了我们在模拟研究中的方法的表现,与贝叶斯因果林和其他最先进的模型相比,展示如何与越来越多的协变量以及其如何处理强烈混淆的情景。最后,我们还提供了使用真实数据的应用程序的示例。
translated by 谷歌翻译
我们提出了一种估计具有标称分类数据的高维线性模型的方法。我们的估算器,称为范围,通过使其相应的系数完全相等来融合水平。这是通过对分类变量的系数的阶数统计之间的差异之间的差异来实现这一点,从而聚类系数。我们提供了一种算法,用于精确和有效地计算在具有潜在许多级别的单个变量的情况下的总体上的最小值的全局最小值,并且在多变量情况下在块坐标血管下降过程中使用它。我们表明,利用未知级别融合的Oracle最小二乘解决方案是具有高概率的坐标血缘的极限点,只要真正的级别具有一定的最小分离;已知这些条件在单变量案例中最小。我们展示了在一系列实际和模拟数据集中的范围的有利性能。 R包的R包Catreg实现线性模型的范围,也可以在CRAN上提供逻辑回归的版本。
translated by 谷歌翻译
从操作的角度来看,对调查响应率的准确预测至关重要。美国人口普查局的著名漫游应用程序使用了在美国人口普查计划数据库数据中培训的原则统计模型来识别难以调查的领域。较早的众包竞赛表明,一组回归树木在预测调查率方面取得了最佳性能。但是,由于有限的解释性,无法针对预期应用程序采用相应的模型。在本文中,我们提出了新的可解释的统计方法,以高精度地预测调查中的响应率。我们研究通过$ \ ell_0 $ regularization以及提供层次结构化的变体的稀疏非参数添加剂模型,可提供增强的解释性。尽管有强大的方法论基础,这种模型在计算上可能具有挑战性 - 我们提出了学习这些模型的新可扩展算法。我们还为所提出的估计量建立了新的非反应误差界。基于美国人口普查计划数据库的实验表明,我们的方法导致高质量的预测模型,可为不同人群的不同部分可行。有趣的是,我们的方法在基于梯度增强和前馈神经网络的最先进的黑盒机器学习方法中提供了可解释性的显着提高,而不会失去预测性能。我们在Python中实现的代码实现可在https://github.com/shibalibrahim/addived-models-with-sonstructred-interactions上获得。
translated by 谷歌翻译
关于日益增长的直播媒介的一种普遍信念是,其价值在于其“实时”组成部分。我们通过比较实时事件需求的价格弹性如何在直播中和之后的生活中进行了比较,从而研究了这种信念。我们使用来自大型直播平台的独特且丰富的数据来做到这一点,该数据使消费者可以在流中期后购买录制版本的直播版本。在我们背景下的一个挑战是,存在高维混杂因素,其与治疗政策(即价格)和兴趣结果(即需求)的关系是复杂的,并且仅部分知道。我们通过使用广义正交随机森林框架来解决这一挑战,以进行异质治疗效果估计。我们发现在整个事件生命周期中,需求价格弹性的时间弹性都显着。具体而言,随着时间的流逝,需求变得越来越敏感,直到直播一天,那天就变成了无弹性。在生活后的时期,对录制版本的需求仍然对价格敏感,但远低于在播放前的时期。我们进一步表明,价格弹性的这种时间变化是由此类事件固有的质量不确定性以及在直播过程中与内容创建者进行实时互动的机会所驱动的。
translated by 谷歌翻译