We study the problem of sharing as many branching conditions of a given forest classifier or regressor as possible while keeping classification performance. As a constraint for preventing from accuracy degradation, we first consider the one that the decision paths of all the given feature vectors must not change. For a branching condition that a value of a certain feature is at most a given threshold, the set of values satisfying such constraint can be represented as an interval. Thus, the problem is reduced to the problem of finding the minimum set intersecting all the constraint-satisfying intervals for each set of branching conditions on the same feature. We propose an algorithm for the original problem using an algorithm solving this problem efficiently. The constraint is relaxed later to promote further sharing of branching conditions by allowing decision path change of a certain ratio of the given feature vectors or allowing a certain number of non-intersected constraint-satisfying intervals. We also extended our algorithm for both the relaxations. The effectiveness of our method is demonstrated through comprehensive experiments using 21 datasets (13 classification and 8 regression datasets in UCI machine learning repository) and 4 classifiers/regressors (random forest, extremely randomized trees, AdaBoost and gradient boosting).
translated by 谷歌翻译
稀疏决策树优化是AI自成立以来的最基本问题之一,并且是可解释机器学习核心的挑战。稀疏的决策树优化是计算地的艰难,尽管自1960年代以来稳定的努力,但在过去几年中才突破问题,主要是在找到最佳稀疏决策树的问题上。然而,目前最先进的算法通常需要不切实际的计算时间和内存,以找到一些真实世界数据集的最佳或近最优树,特别是那些具有多个连续值的那些。鉴于这些决策树优化问题的搜索空间是大规模的,我们可以实际上希望找到一个稀疏的决策树,用黑盒机学习模型的准确性竞争吗?我们通过智能猜测策略来解决这个问题,可以应用于基于任何最优分支和绑定的决策树算法。我们表明,通过使用这些猜测,我们可以通过多个数量级来减少运行时间,同时提供所得树木可以偏离黑匣子的准确性和表现力的界限。我们的方法可以猜测如何在最佳决策树错误的持续功能,树的大小和下限上进行换算。我们的实验表明,在许多情况下,我们可以迅速构建符合黑匣子型号精度的稀疏决策树。总结:当您在优化时遇到困难时,就猜测。
translated by 谷歌翻译
决策树学习是机器学习中广泛使用的方法,在需要简洁明了的模型的应用中受到青睐。传统上,启发式方法用于快速生产具有相当高准确性的模型。然而,一个普遍的批评是,从精度和大小方面,所产生的树可能不一定是数据的最佳表示。近年来,这激发了最佳分类树算法的发展,这些算法与执行一系列本地最佳决策的启发式方法相比,在全球范围内优化决策树。我们遵循这一工作线,并提供了一种基于动态编程和搜索的最佳分类树的新颖算法。我们的算法支持对树的深度和节点数量的约束。我们方法的成功归因于一系列专门技术,这些技术利用了分类树独有的属性。传统上,最佳分类树的算法受到了高运行时的困扰和有限的可伸缩性,但我们在一项详细的实验研究中表明,我们的方法仅使用最先进的时间所需的时间,并且可以处理数十个数据集的数据集在数千个实例中,提供了几个数量级的改进,并特别有助于实现最佳决策树的实现。
translated by 谷歌翻译
决策森林(森林),尤其是随机森林和梯度促进树木,与许多监督学习场景中的其他方法相比,已经证明了最先进的准确性。尤其是,森林在表格数据中占主导地位,即当特征空间非结构化时,因此信号是特征指数置换的不变性。然而,在存在于多种多样(例如图像,文本和语音)深网(网络)(特别是卷积深网(Convnets))上的结构化数据中,倾向于优于森林。我们猜想至少部分原因是网络的输入不仅仅是特征幅度,也是其索引。相反,天真的森林实施未能明确考虑特征指数。最近提出的森林方法表明,对于每个节点,森林从某些特定分布中隐式采样一个随机矩阵。这些森林像某些类别的网络一样,通过将特征空间划分为对应于线性函数的凸多物体来学习。我们以这种方法为基础,并表明人们可以以多种感知方式选择分布来纳入特征区域。我们在数据上活在三个不同的流形上的数据上证明了经验性能:圆环,图像和时间序列。此外,我们证明了其在多元模拟环境中的强度,并且在预测癫痫患者的手术结果方面也表现出了优越性,并从非运动脑区域的原始立体定向EEG数据中预测运动方向。在所有模拟和真实数据中,歧管随机森林(MORF)算法的表现优于忽略特征空间结构并挑战Convnets的性能。此外,MORF运行迅速,并保持解释性和理论上的理由。
translated by 谷歌翻译
决策树是机器学习工具箱中最有用和最受欢迎的方法之一。在本文中,我们考虑了学习最佳决策树的问题,这是一个组合优化问题,该问题具有挑战性。文献中的一种常见方法是使用贪婪的启发式方法,这可能不是最佳的。最近,人们对使用各种方法(例如,基于整数编程,动态编程)学习最佳决策树已经引起了重大兴趣 - 为了实现计算可伸缩性,这些方法中的大多数都集中在具有二进制功能的分类任务上。在本文中,我们提出了一种基于分支机构(BNB)的新离散优化方法,以获得最佳决策树。与现有的定制方法不同,我们考虑具有连续功能的回归和分类任务。我们方法基础的基本思想是基于特征分布的分位数来拆分搜索空间 - 导致沿BNB迭代的基础优化问题的上限和下限。与现有的各种真实数据集中的浅最佳树相比,我们提出的算法Quant-BNB显示出显着的加速。
translated by 谷歌翻译
In this paper, we strengthen the previous weak consistency proof method of random forest variants into a strong consistency proof method, and strengthen the data-driven degree of RF variants, so as to obtain better theoretical properties and experimental performance. In addition, we also propose a data-driven multinomial random forest (DMRF) based on the multinomial random forest (MRF), which meets the strong consistency and has lower complexity than MRF, and the effect is equal to or better than MRF. As far as we know, DMRF algorithm is a variant of RF with low algorithm complexity and excellent performance.
translated by 谷歌翻译
决策树的集合被称为随机森林。如Breiman所提出的,不稳定学习者的实力和它们之间的多样性是集合模型的核心力量。在本文中,我们提出了两种用于生成双随机森林的合奏方法。在第一种方法中,我们提出了一种基于双随机森林的旋转组合。在基于旋转的双随机林,在每个节点处产生特征空间的转换或旋转。在每个节点上选择不同随机特征子空间进行评估,因此每个节点处的变换是不同的。不同的转变导致基本学习者之间更好的多样性,因此,更好的泛化性能。随着双随机森林作为基础学习者,每个节点的数据通过两个不同的变换转换,即主成分分析和线性判别分析。在第二种方法中,我们提出了双随机森林的倾斜组合。在随机林和双随机森林中的决策树是单变量的,这导致轴并行分裂的产生,这不能捕获数据的几何结构。此外,标准随机森林可能不会产生足够大的决策树,从而导致次优的性能。为了捕获几何属性并生长足够深度的决策树,我们提出了双随机森林的倾斜集合。双随机森林模型的倾斜集合是多元决策树。在每个非叶节点上,多面近端支持向量机产生最佳平面以获得更好的泛化性能。此外,不同的正则化技术(Tikhonov正则化和轴并行分裂正则化)用于解决双随机林的倾斜组合决策树中的小样本大小问题。
translated by 谷歌翻译
随机森林(RFS)是机器学习中最先进的,并且具有近零参数调整的优异性能。值得注意的是,即使他们的基本构建块被众所周知,RFS似乎不受限制地过度装修。最近,广泛接受的研究认为,RF呈现所谓的双下降曲线:首先,模型将数据过于U形曲线中的数据,然后,一旦达到某种模型复杂性,它就突然改善了其性能。在本文中,我们挑战模型能力是解释RF成功的正确工具的概念,并争辩说该模型的算法比以前认为更重要的作用。我们表明RF没有表现出双重曲线,而是单个下降。因此,在经典意义上没有过度装备。我们进一步提出了RF变化,尽管其决策边界近似于过度啮合的DT。类似,我们表明,近似于RF的决策边界的DT仍将过度装备。最后,我们研究了整体的多样性作为估计其性能的工具。为此,我们引入负相关森林(NClest),允许精确控制集合中的多样性。我们表明,多样性和偏差确实对RF的性能产生了至关重要的影响。具有太小的多样性将RF的性能坍塌到一棵树中,而具有太多的多样性意味着大多数树木不会再产生正确的输出。然而,在这两个极端之间,我们发现了大量不同的权衡,具有大致相等的性能。因此,只要算法达到这种良好的权衡制度,偏差和多样性之间的特定权衡并不重要。
translated by 谷歌翻译
天然气管道中的泄漏检测是石油和天然气行业的一个重要且持续的问题。这尤其重要,因为管道是运输天然气的最常见方法。这项研究旨在研究数据驱动的智能模型使用基本操作参数检测天然气管道的小泄漏的能力,然后使用现有的性能指标比较智能模型。该项目应用观察者设计技术,使用回归分类层次模型来检测天然气管道中的泄漏,其中智能模型充当回归器,并且修改后的逻辑回归模型充当分类器。该项目使用四个星期的管道数据流研究了五个智能模型(梯度提升,决策树,随机森林,支持向量机和人工神经网络)。结果表明,虽然支持向量机和人工神经网络比其他网络更好,但由于其内部复杂性和所使用的数据量,它们并未提供最佳的泄漏检测结果。随机森林和决策树模型是最敏感的,因为它们可以在大约2小时内检测到标称流量的0.1%的泄漏。所有智能模型在测试阶段中具有高可靠性,错误警报率为零。将所有智能模型泄漏检测的平均时间与文献中的实时短暂模型进行了比较。结果表明,智能模型在泄漏检测问题中的表现相对较好。该结果表明,可以与实时瞬态模型一起使用智能模型,以显着改善泄漏检测结果。
translated by 谷歌翻译
半监督学习(SSL)是使用不仅标记的示例,而且是未标记的示例学习预测模型的常见方法。尽管用于分类和回归的简单任务的SSL受到了研究社区的广泛关注,但对于具有结构依赖变量的复杂预测任务,这尚未得到适当的研究。这种情况是多标签分类和分层多标签分类任务,可能需要其他信息,可能来自未标记示例提供的描述性空间中的基础分布,以更好地面对同时预测多个类别标签的挑战性任务。在本文中,我们研究了这一方面,并​​提出了一种基于对预测性聚类树的半监督学习的(分层)多标签分类方法。我们还扩展了整体学习的方法,并提出了一种基于随机森林方法的方法。在23个数据集上进行的广泛实验评估显示了该方法的显着优势及其在其监督对应物方面的扩展。此外,该方法可保留可解释性并降低基于经典树模型的时间复杂性。
translated by 谷歌翻译
Decision forests, including random forests and gradient boosting trees, remain the leading machine learning methods for many real-world data problems, specifically on tabular data. However, current standard implementations only operate in batch mode, and therefore cannot incrementally update when more data arrive. Several previous works developed streaming trees and ensembles to overcome this limitation. Nonetheless, we found that those state-of-the-art algorithms suffer from a number of drawbacks, including poor performance on some problems and high memory usage on others. We therefore developed the simplest possible extension of decision trees we could think of: given new data, simply update existing trees by continuing to grow them, and replace some old trees with new ones to control the total number of trees. On three standard datasets, we illustrate that our approach, Stream Decision Forest (SDF), does not suffer from either of the aforementioned limitations. In a benchmark suite containing 72 classification problems (the OpenML-CC18 data suite), we illustrate that our approach often performs as well, and sometimes better even, than the batch mode decision forest algorithm. Thus, SDFs establish a simple standard for streaming trees and forests that could readily be applied to many real-world problems, including those with distribution drift and continual learning.
translated by 谷歌翻译
We introduce a new rule-based optimization method for classification with constraints. The proposed method takes advantage of linear programming and column generation, and hence, is scalable to large datasets. Moreover, the method returns a set of rules along with their optimal weights indicating the importance of each rule for learning. Through assigning cost coefficients to the rules and introducing additional constraints, we show that one can also consider interpretability and fairness of the results. We test the performance of the proposed method on a collection of datasets and present two case studies to elaborate its different aspects. Our results show that a good compromise between interpretability and fairness on the one side, and accuracy on the other side, can be obtained by the proposed rule-based learning method.
translated by 谷歌翻译
Regression trees are one of the oldest forms of AI models, and their predictions can be made without a calculator, which makes them broadly useful, particularly for high-stakes applications. Within the large literature on regression trees, there has been little effort towards full provable optimization, mainly due to the computational hardness of the problem. This work proposes a dynamic-programming-with-bounds approach to the construction of provably-optimal sparse regression trees. We leverage a novel lower bound based on an optimal solution to the k-Means clustering algorithm in 1-dimension over the set of labels. We are often able to find optimal sparse trees in seconds, even for challenging datasets that involve large numbers of samples and highly-correlated features.
translated by 谷歌翻译
在本文中,我们介绍了一种基于数学的数学优化的方法来构建多种单件实例的树形分类规则。我们的方法包括构建分类树,除了叶节点之外,暂时遗漏标签并通过SVM分离超平面分为两个类。我们提供了一个混合整数非线性编程配方,用于问题,并报告电池的扩展电池的结果,以评估我们关于其他基准分类方法的提案的性能。
translated by 谷歌翻译
分类链是一种用于在多标签分类中建模标签依赖性的有效技术。但是,该方法需要标签的固定静态顺序。虽然理论上,任何顺序都足够了,实际上,该订单对最终预测的质量具有大量影响。动态分类链表示每个实例对分类的想法,可以动态选择预测标签的顺序。这种方法的天真实现的复杂性是禁止的,因为它需要训练一系列分类器,以满足标签的每种可能置换。为了有效地解决这个问题,我们提出了一种基于随机决策树的新方法,该方法可以动态地选择每个预测的标签排序。我们凭经验展示了下一个标签的动态选择,通过在否则不变的随机决策树模型下使用静态排序。 %和实验环境。此外,我们还展示了基于极端梯度提升树的替代方法,其允许更具目标的动态分级链训练。我们的结果表明,该变体优于随机决策树和其他基于树的多标签分类方法。更重要的是,动态选择策略允许大大加速培训和预测。
translated by 谷歌翻译
树合奏是广泛使用的强大模型。但是,它们容易受到对抗性示例的影响,这些例子是故意构建的,以引起该模型的错误预测。这可以降低性能并侵蚀用户对模型的信任。通常,方法试图通过验证学习合奏或鲁棒性学习过程来缓解这个问题。我们采用另一种方法,并试图在剥离后环境中检测对抗性示例。我们为此任务提供了一种新颖的方法,该方法是通过分析看不见的示例的输出配置来工作的,这是整体组成树做出的一组预测。我们的方法与任何添加树的合奏一起使用,不需要训练单独的型号。我们在三个不同的树合奏学习者上评估我们的方法。我们从经验上表明,我们的方法目前是树形合奏的最佳对抗检测方法。
translated by 谷歌翻译
Counterfactual Explanations are becoming a de-facto standard in post-hoc interpretable machine learning. For a given classifier and an instance classified in an undesired class, its counterfactual explanation corresponds to small perturbations of that instance that allows changing the classification outcome. This work aims to leverage Counterfactual Explanations to detect the important decision boundaries of a pre-trained black-box model. This information is used to build a supervised discretization of the features in the dataset with a tunable granularity. Using the discretized dataset, a smaller, therefore more interpretable Decision Tree can be trained, which, in addition, enhances the stability and robustness of the baseline Decision Tree. Numerical results on real-world datasets show the effectiveness of the approach in terms of accuracy and sparsity compared to the baseline Decision Tree.
translated by 谷歌翻译
Bootstrap aggregating (Bagging) and boosting are two popular ensemble learning approaches, which combine multiple base learners to generate a composite model for more accurate and more reliable performance. They have been widely used in biology, engineering, healthcare, etc. This paper proposes BoostForest, which is an ensemble learning approach using BoostTree as base learners and can be used for both classification and regression. BoostTree constructs a tree model by gradient boosting. It increases the randomness (diversity) by drawing the cut-points randomly at node splitting. BoostForest further increases the randomness by bootstrapping the training data in constructing different BoostTrees. BoostForest generally outperformed four classical ensemble learning approaches (Random Forest, Extra-Trees, XGBoost and LightGBM) on 35 classification and regression datasets. Remarkably, BoostForest tunes its parameters by simply sampling them randomly from a parameter pool, which can be easily specified, and its ensemble learning framework can also be used to combine many other base learners.
translated by 谷歌翻译
在任何给定的机器学习问题中,可能有许多模型可以很好地解释数据。但是,大多数学习算法仅返回这些模型中的一种,使从业者没有实用的方法来探索替代模型,这些模型可能具有超出损失函数中可以表达的内容的理想属性。 Rashomon集是所有这些几乎最佳模型的集合。 Rashomon集可能非常复杂,尤其是对于高度非线性功能类,允许复杂的交互项,例如决策树。我们提供了第一种完全列举稀疏决策树的Rashomon设置的技术;实际上,我们的工作提供了针对高度非线性离散功能类别的非平凡问题的所有Rashomon设置的首次列举。这使用户可以在所有近似同样好的模型中对模型选择的前所未有的控制水平。我们在专门的数据结构中表示Rashomon集,该数据结构支持有效的查询和采样。我们显示了Rashomon集的三个应用:1)它可用于研究一组几乎最佳树的重要性(与一棵树相对),2)Rashomon设置的精确度使Rashomon集可以枚举Rashomon集合。平衡的精度和F1得分,以及3)完整数据集的Rashomon集可以用于生产仅使用数据集的子集构建的Rashomon集。因此,我们能够检查新镜头问题的Rashomon集合,使用户能够选择模型,而不是受到仅产生单个模型的算法的摆布。
translated by 谷歌翻译
决策树是流行的分类模型,提供了很高的准确性和直观的解释。但是,随着树大小的生长,模型的解释性会恶化。传统的树木诱导算法(例如C4.5和推车)依赖于减少杂质的功能,这些功能可以促进每次分裂的判别能力。因此,尽管这些传统方法在实践中是准确的,但没有理论上保证它们会生产小树。在本文中,我们通过证明简单的增强能够为它们提供复杂性保证的情况,证明使用了普通杂质功能的普通家族,包括熵和Gini Index的流行功能。我们考虑一个通用设置,其中要分类的对象是从任意概率分布中绘制的,分类可以是二进制或多类,并且分裂测试与非均匀成本相关联。作为树木复杂性的衡量标准,我们采用了预期的成本来分类从输入分布中得出的对象,在统一成本的情况下,该对象是预期的测试数量。我们提出了一种树诱导算法,该算法在树复杂性上提供对数近似保证。在温和的假设下,该近似因素紧密到恒定因子。该算法递归选择了一个测试,该测试最大化贪婪的标准定义为三个组件的加权总和。前两个组件鼓励选择分别提高树木平衡和成本效益的测试,而第三个杂质减少组件则鼓励选择更具判别性的测试。如我们的经验评估所示,与原始的启发式方法相比,增强算法在预测准确性和树木复杂性之间取得了良好的平衡。
translated by 谷歌翻译