随机森林(RF)是一种流行的机器学习方法,用于分类和回归问题。它涉及对决策树模型的行李申请。随机森林模型的主要优点之一是预测的方差降低。在具有数百万个数据点和数百个功能的模型的大规模应用中,拟合对象的大小可能会变得很大,并取决于生产设置中可用空间的限制,具体取决于树木的数量和深度。当需要按需下载训练有素的型号到具有有限内存的小型设备时,这可能尤其具有挑战性。有必要近似训练有素的RF模型,以显着降低模型大小而不会失去过多的预测准确性。在这个项目中,我们研究了使用数据点对叶子的多项式分配,该方法在随机森林模型中近似于每个拟合的树。具体而言,我们首先研究拟合多项式逻辑回归(随后将广义添加剂模型(GAM)扩展)拟合到每棵树的输出中是否有助于降低尺寸,同时保留预测质量。
translated by 谷歌翻译
我们提出了一种基于配对构造的模型组件的广义添加剂模型,并以预测为主要目的。该模型组件的设计使我们的模型可以捕获响应协变量之间关系中潜在的复杂相互作用效应。此外,我们的模型不需要连续协变量的离散化,因此适用于许多此类协变量的问题。此外,我们设计了一种受梯度增强启发的拟合算法,以及通过对模型空间和近似值的限制来加快时间对比计算的限制,用于模型选择和模型选择的有效程序。除了我们的模型在更高维度中成为现实的选择绝对必要外,这些技术还可以作为设计有效模型选择算法的其他类型的Copula回归模型的基础。我们已经在模拟研究中探索了我们方法的特征,特别是将其与自然替代方案进行比较,例如逻辑回归,经典增强模型和受到惩罚的逻辑回归。我们还展示了我们在威斯康星州乳腺癌数据集和波士顿住房数据集上的方法。结果表明,即使离散协变量的比例很高,我们的方法的预测性能要么比其他方法更好或可比其他方法媲美。
translated by 谷歌翻译
Precision Medicine根据患者的特征为患者提供定制的治疗方法,是提高治疗效率的一种有希望的方法。大规模的OMICS数据对于患者表征很有用,但是它们的测量经常会随着时间而变化,从而导致纵向数据。随机森林是用于构建预测模型的最先进的机器学习方法之一,并且可以在精密医学中发挥关键作用。在本文中,我们回顾了标准随机森林方法的扩展,以进行纵向数据分析。扩展方法根据其设计的数据结构进行分类。我们考虑单变量和多变量响应,并根据时间效应是否相关,进一步对重复测量进行分类。还提供了审查扩展程序的可用软件实现信息。最后,我们讨论了我们审查的局限性和一些未来的研究指示。
translated by 谷歌翻译
黑盒机器学习模型被批评为缺乏可解释性,尽管它们往往具有良好的预测准确性。知识蒸馏(KD)是一种新兴工具,可以通过将知识提炼成透明模型来解释黑框模型。具有众所周知的解释优势,决策树是透明模型的竞争候选者。但是,对KD过程产生的决策树的理论或经验理解是有限的。在本文中,我们将这种决策树命名为蒸馏决策树(DDT),并为树结构稳定性的理论基础奠定了决定DDT解释的有效性的理论基础。我们证明,在某些温和的假设下,DDT的结构可以实现稳定(收敛性)。同时,我们开发了用于稳定DDT诱导的算法,提出了提高算法的计算效率的并行策略,并引入了一种边缘主体组件分析方法来克服采样中维度的诅咒。模拟和真实的数据研究证明了我们的理论结果,验证算法的疗效,并证明DDT可以在模型的预测准确性和可解释性之间取得良好的平衡。
translated by 谷歌翻译
在当前的股票市场中,计算机科学和技术越来越广泛地用于分析股票。与大多数相关的机器学习股票价格预测工作不同,这项工作研究了公司年度报告披露后第二天的股票价格趋势。我们使用各种不同的模型,包括决策树,逻辑回归,随机森林,神经网络,原型网络。我们使用两组财务指标(密钥和扩展)进行实验,这些财务指标是从公司披露的Eastmoney网站获得的,最后我们发现这些模型的行为不佳来预测趋势。此外,我们还过滤了ROE大于0.15的库存,净现金比大于0.9。我们得出的结论是,根据基于公司刚发布的年度报告的财务指标,披露后第二天股票价格变动的可预测性较弱,最高准确性约为59.6%,我们的测试中的最高精度约为0.56。由随机森林分类器设置,库存过滤并不能改善性能。在所有这些模型中,随机森林总体上表现最好,这些模型符合某些工作的发现。
translated by 谷歌翻译
电池性能数据集通常是非正常和多色性的。推断出用于模型预测的这些数据集需要注意这些特性。本研究探讨了数据正常性对建筑机械学习模型的影响。在这项工作中,基于树的回归模型和多元线性回归模型每个都是由具有多卷曲性的高度偏斜的非正常数据集构建。有几种技术是必要的,例如数据转换,以实现具有此数据集的良好多个线性回归模型;讨论了最有用的技术。利用这些技术,最佳的多元线性回归模型达到了R ^ 2 = 81.23%,并且没有对本研究中使用的数据集没有多种性效应。基于树的模型在此数据集上执行更好,因为它们是非参数,能够在变量之间处理复杂关系而不受彩细量的影响。我们在使用随机森林时,我们展示了袋装,减少了过度装备。我们最佳的基于树的模型实现了R ^ 2 = 97.73%的准确性。本研究解释了为什么基于树的回归应该作为非正常分布式多元图数据的机器学习模型。
translated by 谷歌翻译
洪水是大自然最灾难性的灾难之一,对人类生活,农业,基础设施和社会经济系统造成了不可逆转和巨大的破坏。已经进行了几项有关洪水灾难管理和洪水预测系统的研究。实时对洪水的发作和进展的准确预测是具有挑战性的。为了估计大面积的水位和速度,有必要将数据与计算要求的洪水传播模型相结合。本文旨在减少这种自然灾害的极端风险,并通过使用不同的机器学习模型为洪水提供预测来促进政策建议。这项研究将使用二进制逻辑回归,K-Nearest邻居(KNN),支持向量分类器(SVC)和决策树分类器来提供准确的预测。通过结果,将进行比较分析,以了解哪种模型具有更好的准确性。
translated by 谷歌翻译
为了进一步开发异构治疗效果的统计推理问题,本文在Breiman(2001)随机林树(RFT)和Wager等人的情况下建立了使用古典的优秀统计属性来参数化非参数问题的(2018)因果树。oLs和基于协变量分数的局部线性间隔的划分,同时保留随机林树木,具有可构造的置信区间和渐近常数特性的优势[athey和Imbens(2016),efron(2014),赌第等(2014年)\ citep {wagert2014Asymptotic},我们根据固定规则提出了一个决策树,根据固定规则与本地样本的多项式估计相结合,我们称之为临时局部线性因果树(QLPRT)和林(QLPRF)。
translated by 谷歌翻译
我们提出了一种估计具有标称分类数据的高维线性模型的方法。我们的估算器,称为范围,通过使其相应的系数完全相等来融合水平。这是通过对分类变量的系数的阶数统计之间的差异之间的差异来实现这一点,从而聚类系数。我们提供了一种算法,用于精确和有效地计算在具有潜在许多级别的单个变量的情况下的总体上的最小值的全局最小值,并且在多变量情况下在块坐标血管下降过程中使用它。我们表明,利用未知级别融合的Oracle最小二乘解决方案是具有高概率的坐标血缘的极限点,只要真正的级别具有一定的最小分离;已知这些条件在单变量案例中最小。我们展示了在一系列实际和模拟数据集中的范围的有利性能。 R包的R包Catreg实现线性模型的范围,也可以在CRAN上提供逻辑回归的版本。
translated by 谷歌翻译
我们提供了三种基于二进制和多项式数据集的基于进化符号回归的分类算法:GpleArnClf,CartesianClf和Clasyco。测试了超过162个数据集,并与三种最先进的机器学习算法进行了比较 - XGBOOST,LIGHTGBM和一个深神经网络 - 我们发现我们的算法具有竞争力。此外,我们通过使用最先进的超参数优化器来演示如何自动找到数据集的最佳方法。
translated by 谷歌翻译
隆升建模是一种因果学习技术,可估计亚组级别的治疗效果。它通常在行业和其他地方用于定位广告等任务。在典型的设置中,Ruplift模型可以将数千个功能作为输入,这是昂贵的,并且导致了诸如过度拟合和模型可解释性差的问题。因此,需要选择建模最重要的功能的子集。但是,进行功能选择的传统方法不适合该任务,因为它们是为标准的机器学习模型而设计的,其目标与隆升模型重要。为了解决这个问题,我们介绍了一组针对提升建模的特征选择方法,从统计和信息理论中汲取灵感。我们对公开可用数据集的拟议方法进行了经验评估,证明了与传统特征选择相比,提出的方法的优势。我们将建议的方法公开作为Causalml开源软件包的一部分。
translated by 谷歌翻译
最近,在气象学中使用机器学习大大增加了。尽管许多机器学习方法并不是什么新鲜事物,但有关机器学习的大学课程在很大程度上是气象学专业的学生,​​不需要成为气象学家。缺乏正式的教学导致人们认为机器学习方法是“黑匣子”,因此最终用户不愿在每天的工作流程中应用机器学习方法。为了减少机器学习方法的不透明性,并降低了对气象学中机器学习的犹豫,本文对一些最常见的机器学习方法进行了调查。一个熟悉的气象示例用于将机器学习方法背景化,同时还使用普通语言讨论机器学习主题。证明了以下机器学习方法:线性回归;逻辑回归;决策树;随机森林;梯度增强了决策树;天真的贝叶斯;并支持向量机。除了讨论不同的方法外,本文还包含有关通用机器学习过程的讨论以及最佳实践,以使读者能够将机器学习应用于自己的数据集。此外,所有代码(以Jupyter笔记本电脑和Google Colaboratory Notebooks的形式)用于在论文中进行示例,以促进气象学中的机器学习使用。
translated by 谷歌翻译
In this paper, we strengthen the previous weak consistency proof method of random forest variants into a strong consistency proof method, and strengthen the data-driven degree of RF variants, so as to obtain better theoretical properties and experimental performance. In addition, we also propose a data-driven multinomial random forest (DMRF) based on the multinomial random forest (MRF), which meets the strong consistency and has lower complexity than MRF, and the effect is equal to or better than MRF. As far as we know, DMRF algorithm is a variant of RF with low algorithm complexity and excellent performance.
translated by 谷歌翻译
如今机器学习(ML)技术在许多社交敏感的系统中广泛采用,因此需要仔细研究这些系统所采取的决策的公平性。已经提出了许多方法来解决,并确保没有针对个人或特定群体的偏见,这可能来自偏置训练数据集或算法设计。在这方面,我们提出了一种称为eifffel的公平强化方法:通过翻转叶片来强制森林中的公平,该叶片剥夺了基于树木的或基于叶片的后处理策略来重新制作给定森林的选定决策树的叶子。实验结果表明,我们的方法实现了用户定义的群体公平程度,而不会失去大量的准确性。
translated by 谷歌翻译
本文研究了与可解释的AI(XAI)实践有关的两个不同但相关的问题。机器学习(ML)在金融服务中越来越重要,例如预批准,信用承销,投资以及各种前端和后端活动。机器学习可以自动检测培训数据中的非线性和相互作用,从而促进更快,更准确的信用决策。但是,机器学习模型是不透明的,难以解释,这是建立可靠技术所需的关键要素。该研究比较了各种机器学习模型,包括单个分类器(逻辑回归,决策树,LDA,QDA),异质集合(Adaboost,随机森林)和顺序神经网络。结果表明,整体分类器和神经网络的表现优于表现。此外,使用基于美国P2P贷款平台Lending Club提供的开放式访问数据集评估了两种先进的事后不可解释能力 - 石灰和外形来评估基于ML的信用评分模型。对于这项研究,我们还使用机器学习算法来开发新的投资模型,并探索可以最大化盈利能力同时最大程度地降低风险的投资组合策略。
translated by 谷歌翻译
在整个宇宙学模拟中,初始条件中的物质密度场的性质对今天形成的结构的特征具有决定性的影响。在本文中,我们使用随机森林分类算法来推断暗物质颗粒是否追溯到初始条件,最终将在肿块上高于一些阈值的暗物质卤素。该问题可能被构成为二进制分类任务,其中物质密度字段的初始条件映射到由光环发现者程序提供的分类标签。我们的研究结果表明,随机森林是有效的工具,无法在不运行完整过程的情况下预测宇宙学模拟的输出。在将来可能使用这些技术来降低计算时间并更有效地探索不同暗物质/暗能候选对宇宙结构的形成的影响。
translated by 谷歌翻译
机器学习渗透到许多行业,这为公司带来了新的利益来源。然而,在人寿保险行业中,机器学习在实践中并未被广泛使用,因为在过去几年中,统计模型表明了它们的风险评估效率。因此,保险公司可能面临评估人工智能价值的困难。随着时间的流逝,专注于人寿保险行业的修改突出了将机器学习用于保险公司的利益以及通过释放数据价值带来的利益。本文回顾了传统的生存建模方法论,并通过机器学习技术扩展了它们。它指出了与常规机器学习模型的差异,并强调了特定实现在与机器学习模型家族中面对审查数据的重要性。在本文的补充中,已经开发了Python库。已经调整了不同的开源机器学习算法,以适应人寿保险数据的特殊性,即检查和截断。此类模型可以轻松地从该SCOR库中应用,以准确地模拟人寿保险风险。
translated by 谷歌翻译
天然气管道中的泄漏检测是石油和天然气行业的一个重要且持续的问题。这尤其重要,因为管道是运输天然气的最常见方法。这项研究旨在研究数据驱动的智能模型使用基本操作参数检测天然气管道的小泄漏的能力,然后使用现有的性能指标比较智能模型。该项目应用观察者设计技术,使用回归分类层次模型来检测天然气管道中的泄漏,其中智能模型充当回归器,并且修改后的逻辑回归模型充当分类器。该项目使用四个星期的管道数据流研究了五个智能模型(梯度提升,决策树,随机森林,支持向量机和人工神经网络)。结果表明,虽然支持向量机和人工神经网络比其他网络更好,但由于其内部复杂性和所使用的数据量,它们并未提供最佳的泄漏检测结果。随机森林和决策树模型是最敏感的,因为它们可以在大约2小时内检测到标称流量的0.1%的泄漏。所有智能模型在测试阶段中具有高可靠性,错误警报率为零。将所有智能模型泄漏检测的平均时间与文献中的实时短暂模型进行了比较。结果表明,智能模型在泄漏检测问题中的表现相对较好。该结果表明,可以与实时瞬态模型一起使用智能模型,以显着改善泄漏检测结果。
translated by 谷歌翻译
随着机器学习(ML)模型越来越多地用于做出结果决定,人们对开发可以为受影响个人提供求助的技术越来越兴趣。这些技术中的大多数提供了追索权,假设受影响的个体将实施规定的recourses \ emph {prirent}。但是,由于各种原因,要求将薪水提高\ $ 500的人可能会获得嘈杂和不一致的方式实施,这可能会获得晋升,而增加了505美元。在此激励的情况下,我们研究了面对嘈杂的人类反应时追索性无效的问题。更具体地说,我们从理论上和经验上分析了最新算法的行为,并证明这些算法产生的记录很可能是无效的(即,如果对它们做出的小变化,则可能导致负面结果) 。我们进一步提出了一个新颖的框架,期望嘈杂的响应(\ texttt {Expect}),该框架通过在嘈杂的响应中明确最大程度地减少追索性无效的可能性来解决上述问题。我们的框架可以确保最多$ r \%$的最多$ r $作为最终用户请求追索权的输入。通过这样做,我们的框架为最终用户提供了更大的控制权,可以在追索性成本和稳定性之间的稳定性之间进行权衡。具有多个现实世界数据集的实验评估证明了所提出的框架的功效,并验证了我们的理论发现。
translated by 谷歌翻译
显着的波高预测是海洋数据分析中的关键问题。预测明显的波高对于估计波的能量产生至关重要。此外,及时对大浪的预测对于确保海上行动的安全至关重要,例如船只的通道。我们将预测显着波高的极端值作为超出概率预测问题的任务进行了框架。因此,我们旨在估计显着波高将超过预定义阈值的概率。通常使用概率二进制分类模型来解决此任务。相反,我们提出了一种基于预测模型的新方法。该方法利用了即将到来的观测值的预测来根据累积分布函数估算超出概率。我们使用来自加拿大哈利法克斯海岸的浮标的数据进行了实验。结果表明,提出的方法比最先进的方法要好于超出概率预测。
translated by 谷歌翻译