决策树是流行的分类模型,提供了很高的准确性和直观的解释。但是,随着树大小的生长,模型的解释性会恶化。传统的树木诱导算法(例如C4.5和推车)依赖于减少杂质的功能,这些功能可以促进每次分裂的判别能力。因此,尽管这些传统方法在实践中是准确的,但没有理论上保证它们会生产小树。在本文中,我们通过证明简单的增强能够为它们提供复杂性保证的情况,证明使用了普通杂质功能的普通家族,包括熵和Gini Index的流行功能。我们考虑一个通用设置,其中要分类的对象是从任意概率分布中绘制的,分类可以是二进制或多类,并且分裂测试与非均匀成本相关联。作为树木复杂性的衡量标准,我们采用了预期的成本来分类从输入分布中得出的对象,在统一成本的情况下,该对象是预期的测试数量。我们提出了一种树诱导算法,该算法在树复杂性上提供对数近似保证。在温和的假设下,该近似因素紧密到恒定因子。该算法递归选择了一个测试,该测试最大化贪婪的标准定义为三个组件的加权总和。前两个组件鼓励选择分别提高树木平衡和成本效益的测试,而第三个杂质减少组件则鼓励选择更具判别性的测试。如我们的经验评估所示,与原始的启发式方法相比,增强算法在预测准确性和树木复杂性之间取得了良好的平衡。
translated by 谷歌翻译
稀疏决策树优化是AI自成立以来的最基本问题之一,并且是可解释机器学习核心的挑战。稀疏的决策树优化是计算地的艰难,尽管自1960年代以来稳定的努力,但在过去几年中才突破问题,主要是在找到最佳稀疏决策树的问题上。然而,目前最先进的算法通常需要不切实际的计算时间和内存,以找到一些真实世界数据集的最佳或近最优树,特别是那些具有多个连续值的那些。鉴于这些决策树优化问题的搜索空间是大规模的,我们可以实际上希望找到一个稀疏的决策树,用黑盒机学习模型的准确性竞争吗?我们通过智能猜测策略来解决这个问题,可以应用于基于任何最优分支和绑定的决策树算法。我们表明,通过使用这些猜测,我们可以通过多个数量级来减少运行时间,同时提供所得树木可以偏离黑匣子的准确性和表现力的界限。我们的方法可以猜测如何在最佳决策树错误的持续功能,树的大小和下限上进行换算。我们的实验表明,在许多情况下,我们可以迅速构建符合黑匣子型号精度的稀疏决策树。总结:当您在优化时遇到困难时,就猜测。
translated by 谷歌翻译
决策树学习是机器学习中广泛使用的方法,在需要简洁明了的模型的应用中受到青睐。传统上,启发式方法用于快速生产具有相当高准确性的模型。然而,一个普遍的批评是,从精度和大小方面,所产生的树可能不一定是数据的最佳表示。近年来,这激发了最佳分类树算法的发展,这些算法与执行一系列本地最佳决策的启发式方法相比,在全球范围内优化决策树。我们遵循这一工作线,并提供了一种基于动态编程和搜索的最佳分类树的新颖算法。我们的算法支持对树的深度和节点数量的约束。我们方法的成功归因于一系列专门技术,这些技术利用了分类树独有的属性。传统上,最佳分类树的算法受到了高运行时的困扰和有限的可伸缩性,但我们在一项详细的实验研究中表明,我们的方法仅使用最先进的时间所需的时间,并且可以处理数十个数据集的数据集在数千个实例中,提供了几个数量级的改进,并特别有助于实现最佳决策树的实现。
translated by 谷歌翻译
分层聚类研究将数据集的递归分区设置为连续较小尺寸的簇,并且是数据分析中的基本问题。在这项工作中,我们研究了Dasgupta引入的分层聚类的成本函数,并呈现了两个多项式时间近似算法:我们的第一个结果是高度电导率图的$ O(1)$ - 近似算法。我们简单的建筑绕过了在文献中已知的稀疏切割的复杂递归常规。我们的第二个和主要结果是一个US(1)$ - 用于展示群集明确结构的宽族图形的近似算法。该结果推出了以前的最先进的,该现有技术仅适用于从随机模型产生的图表。通过对合成和现实世界数据集的实证分析,我们所呈现的算法的实证分析表明了我们的工作的重要性,以其具有明确定义的集群结构的先前所提出的图表算法。
translated by 谷歌翻译
我们将聚类的距离转移到决策树的构建过程中,并因此扩展了经典的ID3算法,以根据树与地面真理的全球距离进行修改,而不是考虑单一叶子。接下来,我们将这个想法与原始版本相比,并讨论发生的问题,还要讨论全球方法的优势。在此基础上,我们通过确定全球评估值得的其他方案来结束。
translated by 谷歌翻译
我们在盒子值上相关的分布中重新审视经典的潘多拉盒(PB)问题。 ARXIV的最新工作:1911.01632获得了限制性类别的策略量持续近似算法,该策略以固定顺序访问框。在这项工作中,我们研究了近似最佳策略的复杂性,该策略可以根据迄今为止所看到的值适应下一步访问哪个框。我们的主要结果确定了PB的近似值等效性与研究良好的统一决策树(UDT)问题,从随机优化和Min-Sum Set封面的变体($ \ MATHCAL {MSSC} _F $)问题。对于支持$ M $的分布,UDT承认$ \ log M $近似值,而多项式时间的恒定因子近似是一个长期的开放问题,但在次指数时间内可以实现恒定的因子近似值(ARXIV:1906.11385)。我们的主要结果意味着PB和$ \ MATHCAL {MSSC} _F $具有相同的属性。我们还研究了一个案例,使价值分布更简洁地作为$ m $产品分布的混合物。这个问题再次与最佳决策树的嘈杂变体有关,该变体更具挑战性。我们给出一个恒定的因子近似值,该近似时间$ n^{\ tilde o(m^2/\ varepsilon^2)} $当每个盒子上的混合组件在电视距离中相同或通过$ \ varepsilon $在电视距离中相同或分开。
translated by 谷歌翻译
决策树是机器学习工具箱中最有用和最受欢迎的方法之一。在本文中,我们考虑了学习最佳决策树的问题,这是一个组合优化问题,该问题具有挑战性。文献中的一种常见方法是使用贪婪的启发式方法,这可能不是最佳的。最近,人们对使用各种方法(例如,基于整数编程,动态编程)学习最佳决策树已经引起了重大兴趣 - 为了实现计算可伸缩性,这些方法中的大多数都集中在具有二进制功能的分类任务上。在本文中,我们提出了一种基于分支机构(BNB)的新离散优化方法,以获得最佳决策树。与现有的定制方法不同,我们考虑具有连续功能的回归和分类任务。我们方法基础的基本思想是基于特征分布的分位数来拆分搜索空间 - 导致沿BNB迭代的基础优化问题的上限和下限。与现有的各种真实数据集中的浅最佳树相比,我们提出的算法Quant-BNB显示出显着的加速。
translated by 谷歌翻译
在本文中,我们介绍了一种基于数学的数学优化的方法来构建多种单件实例的树形分类规则。我们的方法包括构建分类树,除了叶节点之外,暂时遗漏标签并通过SVM分离超平面分为两个类。我们提供了一个混合整数非线性编程配方,用于问题,并报告电池的扩展电池的结果,以评估我们关于其他基准分类方法的提案的性能。
translated by 谷歌翻译
We develop the first fully dynamic algorithm that maintains a decision tree over an arbitrary sequence of insertions and deletions of labeled examples. Given $\epsilon > 0$ our algorithm guarantees that, at every point in time, every node of the decision tree uses a split with Gini gain within an additive $\epsilon$ of the optimum. For real-valued features the algorithm has an amortized running time per insertion/deletion of $O\big(\frac{d \log^3 n}{\epsilon^2}\big)$, which improves to $O\big(\frac{d \log^2 n}{\epsilon}\big)$ for binary or categorical features, while it uses space $O(n d)$, where $n$ is the maximum number of examples at any point in time and $d$ is the number of features. Our algorithm is nearly optimal, as we show that any algorithm with similar guarantees uses amortized running time $\Omega(d)$ and space $\tilde{\Omega} (n d)$. We complement our theoretical results with an extensive experimental evaluation on real-world data, showing the effectiveness of our algorithm.
translated by 谷歌翻译
决策树是分类和回归的强大工具,吸引了许多在机器学习新兴领域工作的研究人员。决策树比其他方法的优点之一是它们的解释性,通常比其他相对无法解释的更高精度方法更喜欢。二进制分类树具有两种类型的顶点:(i)分支顶点,这些顶点恰好有两个孩子,并且在一组离散功能上评估了数据点; (ii)为数据点的叶顶点提供了离散的预测。可以通过求解旨在(i)最大化正确分类数据的数量的生物目标优化问题来获得最佳的二进制分类树,并(ii)最小化分支顶点的数量。在本文中,我们提出了四个用于设计最佳二进制分类树的混合整数线性优化(MILO)公式:两种基于流动的配方和基于两切的配方。我们在提议的配方与Aghaei等人的最强Milo配方之间提供了理论比较。 (2021)。我们对13个公开数据集进行了实验,以显示模型的扩展能力以及使用Pareto前沿的生物原始方法的强度。我们的代码和数据可在GitHub上找到。
translated by 谷歌翻译
最近的一些作品已经采用了决策树,以建造可解释的分区,旨在最大限度地减少$ k $ -means成本函数。然而,这些作品在很大程度上忽略了与所得到的树中叶子的深度相关的度量,这考虑到决策树的解释性如何取决于这些深度,这可能令人惊讶。为了填补文献中的这种差距,我们提出了一种有效的算法,它考虑了这些指标。在7个数据集上的实验中,我们的算法产生的结果比决策树聚类算法,例如\ Cite {dasgupta2020explainplainable},\ cite {frost2020exkmc},\ cite {laber2021price}和\ cite {dblp:conf / icml / Makarychevs21}通常以相当浅的树木实现较低或等同的成本。我们还通过简单适应现有技术来表明,用k $ -means成本函数的二叉树引起的可解释的分区的问题不承认多项式时间中的$(1+ \ epsilon)$ - 近似$ p = np $,证明Questies Quest attmation算法和/或启发式。
translated by 谷歌翻译
Originally, tangles were invented as an abstract tool in mathematical graph theory to prove the famous graph minor theorem. In this paper, we showcase the practical potential of tangles in machine learning applications. Given a collection of cuts of any dataset, tangles aggregate these cuts to point in the direction of a dense structure. As a result, a cluster is softly characterized by a set of consistent pointers. This highly flexible approach can solve clustering problems in various setups, ranging from questionnaires over community detection in graphs to clustering points in metric spaces. The output of our proposed framework is hierarchical and induces the notion of a soft dendrogram, which can help explore the cluster structure of a dataset. The computational complexity of aggregating the cuts is linear in the number of data points. Thus the bottleneck of the tangle approach is to generate the cuts, for which simple and fast algorithms form a sufficient basis. In our paper we construct the algorithmic framework for clustering with tangles, prove theoretical guarantees in various settings, and provide extensive simulations and use cases. Python code is available on github.
translated by 谷歌翻译
本文考虑了在分解正常形式(DNF,ANDS的DNF,ANDS,相当于判定规则集)或联合正常形式(CNF,ORS)作为分类模型的联合正常形式的学习。为规则简化,将整数程序配制成最佳贸易分类准确性。我们还考虑公平设定,并扩大制定,以包括对两种不同分类措施的明确限制:机会平等和均等的赔率。列生成(CG)用于有效地搜索候选条款(连词或剖钉)的指数数量,而不需要启发式规则挖掘。此方法还会绑定所选规则集之间的间隙和培训数据上的最佳规则集。要处理大型数据集,我们建议使用随机化的近似CG算法。与三个最近提出的替代方案相比,CG算法主导了16个数据集中的8个中的精度简单折衷。当最大限度地提高精度时,CG与为此目的设计的规则学习者具有竞争力,有时发现明显更简单的解决方案,这些解决方案不太准确。与其他公平和可解释的分类器相比,我们的方法能够找到符合较严格的公平概念的规则集,以适度的折衷准确性。
translated by 谷歌翻译
在本文中,我们提出了一个自然的单个偏好(IP)稳定性的概念,该概念要求每个数据点平均更接近其自身集群中的点,而不是其他群集中的点。我们的概念可以从几个角度的动机,包括游戏理论和算法公平。我们研究了与我们提出的概念有关的几个问题。我们首先表明,确定给定数据集通常允许进行IP稳定的聚类通常是NP-HARD。结果,我们探索了在某些受限度量空间中查找IP稳定聚类的有效算法的设计。我们提出了一种poly Time算法,以在实际线路上找到满足精确IP稳定性的聚类,并有效地算法来找到针对树度量的IP稳定2聚类。我们还考虑放松稳定性约束,即,与其他任何集群相比,每个数据点都不应太远。在这种情况下,我们提供具有不同保证的多时间算法。我们在实际数据集上评估了一些算法和几种标准聚类方法。
translated by 谷歌翻译
即使机器学习算法已经在数据科学中发挥了重要作用,但许多当前方法对输入数据提出了不现实的假设。由于不兼容的数据格式,或数据集中的异质,分层或完全缺少的数据片段,因此很难应用此类方法。作为解决方案,我们提出了一个用于样本表示,模型定义和培训的多功能,统一的框架,称为“ Hmill”。我们深入审查框架构建和扩展的机器学习的多个范围范式。从理论上讲,为HMILL的关键组件的设计合理,我们将通用近似定理的扩展显示到框架中实现的模型所实现的所有功能的集合。本文还包含有关我们实施中技术和绩效改进的详细讨论,该讨论将在MIT许可下发布供下载。该框架的主要资产是其灵活性,它可以通过相同的工具对不同的现实世界数据源进行建模。除了单独观察到每个对象的一组属性的标准设置外,我们解释了如何在框架中实现表示整个对象系统的图表中的消息推断。为了支持我们的主张,我们使用框架解决了网络安全域的三个不同问题。第一种用例涉及来自原始网络观察结果的IoT设备识别。在第二个问题中,我们研究了如何使用以有向图表示的操作系统的快照可以对恶意二进制文件进行分类。最后提供的示例是通过网络中实体之间建模域黑名单扩展的任务。在所有三个问题中,基于建议的框架的解决方案可实现与专业方法相当的性能。
translated by 谷歌翻译
决策森林(森林),尤其是随机森林和梯度促进树木,与许多监督学习场景中的其他方法相比,已经证明了最先进的准确性。尤其是,森林在表格数据中占主导地位,即当特征空间非结构化时,因此信号是特征指数置换的不变性。然而,在存在于多种多样(例如图像,文本和语音)深网(网络)(特别是卷积深网(Convnets))上的结构化数据中,倾向于优于森林。我们猜想至少部分原因是网络的输入不仅仅是特征幅度,也是其索引。相反,天真的森林实施未能明确考虑特征指数。最近提出的森林方法表明,对于每个节点,森林从某些特定分布中隐式采样一个随机矩阵。这些森林像某些类别的网络一样,通过将特征空间划分为对应于线性函数的凸多物体来学习。我们以这种方法为基础,并表明人们可以以多种感知方式选择分布来纳入特征区域。我们在数据上活在三个不同的流形上的数据上证明了经验性能:圆环,图像和时间序列。此外,我们证明了其在多元模拟环境中的强度,并且在预测癫痫患者的手术结果方面也表现出了优越性,并从非运动脑区域的原始立体定向EEG数据中预测运动方向。在所有模拟和真实数据中,歧管随机森林(MORF)算法的表现优于忽略特征空间结构并挑战Convnets的性能。此外,MORF运行迅速,并保持解释性和理论上的理由。
translated by 谷歌翻译
Multi-label classification is becoming increasingly ubiquitous, but not much attention has been paid to interpretability. In this paper, we develop a multi-label classifier that can be represented as a concise set of simple "if-then" rules, and thus, it offers better interpretability compared to black-box models. Notably, our method is able to find a small set of relevant patterns that lead to accurate multi-label classification, while existing rule-based classifiers are myopic and wasteful in searching rules,requiring a large number of rules to achieve high accuracy. In particular, we formulate the problem of choosing multi-label rules to maximize a target function, which considers not only discrimination ability with respect to labels, but also diversity. Accounting for diversity helps to avoid redundancy, and thus, to control the number of rules in the solution set. To tackle the said maximization problem we propose a 2-approximation algorithm, which relies on a novel technique to sample high-quality rules. In addition to our theoretical analysis, we provide a thorough experimental evaluation, which indicates that our approach offers a trade-off between predictive performance and interpretability that is unmatched in previous work.
translated by 谷歌翻译
我们介绍了强大的子组发现的问题,即,找到一个关于一个或多个目标属性的脱颖而出的子集的一组可解释的描述,2)是统计上的鲁棒,并且3)非冗余。许多尝试已经挖掘了局部强壮的子组或解决模式爆炸,但我们是第一个从全球建模角度同时解决这两个挑战的爆炸。首先,我们制定广泛的模型类别的子组列表,即订购的子组,可以组成的单次组和多变量目标,该目标可以由标称或数字变量组成,并且包括其定义中的传统Top-1子组发现。这种新颖的模型类允许我们使用最小描述长度(MDL)原理来形式地形化最佳强大的子组发现,在那里我们分别为标称和数字目标的最佳归一化最大可能性和贝叶斯编码而度假。其次,正如查找最佳子组列表都是NP-Hard,我们提出了SSD ++,一个贪婪的启发式,找到了很好的子组列表,并保证了根据MDL标准的最重要的子组在每次迭代中添加,这被显示为等同于贝叶斯一个样本比例,多项式或子组之间的多项式或T检验,以及数据集边际目标分布以及多假设检测罚款。我们经验上显示了54个数据集,即SSD ++优于先前的子组设置发现方法和子组列表大小。
translated by 谷歌翻译
In recent years there has been growing attention to interpretable machine learning models which can give explanatory insights on their behavior. Thanks to their interpretability, decision trees have been intensively studied for classification tasks, and due to the remarkable advances in mixed-integer programming (MIP), various approaches have been proposed to formulate the problem of training an Optimal Classification Tree (OCT) as a MIP model. We present a novel mixed-integer quadratic formulation for the OCT problem, which exploits the generalization capabilities of Support Vector Machines for binary classification. Our model, denoted as Margin Optimal Classification Tree (MARGOT), encompasses the use of maximum margin multivariate hyperplanes nested in a binary tree structure. To enhance the interpretability of our approach, we analyse two alternative versions of MARGOT, which include feature selection constraints inducing local sparsity of the hyperplanes. First, MARGOT has been tested on non-linearly separable synthetic datasets in 2-dimensional feature space to provide a graphical representation of the maximum margin approach. Finally, the proposed models have been tested on benchmark datasets from the UCI repository. The MARGOT formulation turns out to be easier to solve than other OCT approaches, and the generated tree better generalizes on new observations. The two interpretable versions are effective in selecting the most relevant features and maintaining good prediction quality.
translated by 谷歌翻译
我们研究了基于消费者的决策积极学习非参数选择模型的问题。我们提出一个负面结果,表明这种选择模型可能无法识别。为了克服可识别性问题,我们介绍了选择模型的有向无环图(DAG)表示,从某种意义上说,该模型可以捕获有关选择模型的更多信息,从而可以从理论上识别信息。然后,我们考虑在主动学习环境中学习与此DAG表示的近似的问题。我们设计了一种有效的主动学习算法,以估计非参数选择模型的DAG表示,该模型在多项式时间内运行时,当随机均匀地绘制频繁排名。我们的算法通过主动和反复提供各种项目并观察所选项目来了解最受欢迎的频繁偏好项目的分布。我们表明,与相应的非活动学习估计算法相比,我们的算法可以更好地恢复有关消费者偏好的合成和公开数据集的一组频繁偏好。这证明了我们的算法和主动学习方法的价值。
translated by 谷歌翻译