智能论文笔记

Optimal Sparse Regression Trees

Rui Zhang , Rui Xin , Margo Seltzer , Cynthia Rudin

分类：机器学习

2022-11-28

Regression trees are one of the oldest forms of AI models, and their predictions can be made without a calculator, which makes them broadly useful, particularly for high-stakes applications. Within the large literature on regression trees, there has been little effort towards full provable optimization, mainly due to the computational hardness of the problem. This work proposes a dynamic-programming-with-bounds approach to the construction of provably-optimal sparse regression trees. We leverage a novel lower bound based on an optimal solution to the k-Means clustering algorithm in 1-dimension over the set of labels. We are often able to find optimal sparse trees in seconds, even for challenging datasets that involve large numbers of samples and highly-correlated features.

translated by 谷歌翻译

How Smart Guessing Strategies Can Yield Massive Scalability Improvements for Sparse Decision Tree Optimization

Hayden McTavish , Chudi Zhong , Reto Achermann , Ilias Karimalis , Jacques Chen , Cynthia Rudin , Margo Seltzer

分类：机器学习 | 人工智能

2021-12-01

稀疏决策树优化是AI自成立以来的最基本问题之一，并且是可解释机器学习核心的挑战。稀疏的决策树优化是计算地的艰难，尽管自1960年代以来稳定的努力，但在过去几年中才突破问题，主要是在找到最佳稀疏决策树的问题上。然而，目前最先进的算法通常需要不切实际的计算时间和内存，以找到一些真实世界数据集的最佳或近最优树，特别是那些具有多个连续值的那些。鉴于这些决策树优化问题的搜索空间是大规模的，我们可以实际上希望找到一个稀疏的决策树，用黑盒机学习模型的准确性竞争吗？我们通过智能猜测策略来解决这个问题，可以应用于基于任何最优分支和绑定的决策树算法。我们表明，通过使用这些猜测，我们可以通过多个数量级来减少运行时间，同时提供所得树木可以偏离黑匣子的准确性和表现力的界限。我们的方法可以猜测如何在最佳决策树错误的持续功能，树的大小和下限上进行换算。我们的实验表明，在许多情况下，我们可以迅速构建符合黑匣子型号精度的稀疏决策树。总结：当您在优化时遇到困难时，就猜测。

translated by 谷歌翻译

Exploring the Whole Rashomon Set of Sparse Decision Trees

Rui Xin , Chudi Zhong , Zhi Chen , Takuya Takagi , Margo Seltzer , Cynthia Rudin

分类：机器学习 | 人工智能

2022-09-16

在任何给定的机器学习问题中，可能有许多模型可以很好地解释数据。但是，大多数学习算法仅返回这些模型中的一种，使从业者没有实用的方法来探索替代模型，这些模型可能具有超出损失函数中可以表达的内容的理想属性。 Rashomon集是所有这些几乎最佳模型的集合。 Rashomon集可能非常复杂，尤其是对于高度非线性功能类，允许复杂的交互项，例如决策树。我们提供了第一种完全列举稀疏决策树的Rashomon设置的技术；实际上，我们的工作提供了针对高度非线性离散功能类别的非平凡问题的所有Rashomon设置的首次列举。这使用户可以在所有近似同样好的模型中对模型选择的前所未有的控制水平。我们在专门的数据结构中表示Rashomon集，该数据结构支持有效的查询和采样。我们显示了Rashomon集的三个应用：1）它可用于研究一组几乎最佳树的重要性（与一棵树相对），2）Rashomon设置的精确度使Rashomon集可以枚举Rashomon集合。平衡的精度和F1得分，以及3）完整数据集的Rashomon集可以用于生产仅使用数据集的子集构建的Rashomon集。因此，我们能够检查新镜头问题的Rashomon集合，使用户能够选择模型，而不是受到仅产生单个模型的算法的摆布。

translated by 谷歌翻译

MurTree: Optimal Classification Trees via Dynamic Programming and Search

Emir Demirović , Anna Lukina , Emmanuel Hebrard , Jeffrey Chan , James Bailey , Christopher Leckie , Kotagiri Ramamohanarao , Peter J. Stuckey

分类：机器学习 | 人工智能 | (统计)机器学习

2020-07-24

决策树学习是机器学习中广泛使用的方法，在需要简洁明了的模型的应用中受到青睐。传统上，启发式方法用于快速生产具有相当高准确性的模型。然而，一个普遍的批评是，从精度和大小方面，所产生的树可能不一定是数据的最佳表示。近年来，这激发了最佳分类树算法的发展，这些算法与执行一系列本地最佳决策的启发式方法相比，在全球范围内优化决策树。我们遵循这一工作线，并提供了一种基于动态编程和搜索的最佳分类树的新颖算法。我们的算法支持对树的深度和节点数量的约束。我们方法的成功归因于一系列专门技术，这些技术利用了分类树独有的属性。传统上，最佳分类树的算法受到了高运行时的困扰和有限的可伸缩性，但我们在一项详细的实验研究中表明，我们的方法仅使用最先进的时间所需的时间，并且可以处理数十个数据集的数据集在数千个实例中，提供了几个数量级的改进，并特别有助于实现最佳决策树的实现。

translated by 谷歌翻译

Quant-BnB: A Scalable Branch-and-Bound Method for Optimal Decision Trees with Continuous Features

Rahul Mazumder , Xiang Meng , Haoyue Wang

分类：机器学习

2022-06-23

决策树是机器学习工具箱中最有用和最受欢迎的方法之一。在本文中，我们考虑了学习最佳决策树的问题，这是一个组合优化问题，该问题具有挑战性。文献中的一种常见方法是使用贪婪的启发式方法，这可能不是最佳的。最近，人们对使用各种方法（例如，基于整数编程，动态编程）学习最佳决策树已经引起了重大兴趣 - 为了实现计算可伸缩性，这些方法中的大多数都集中在具有二进制功能的分类任务上。在本文中，我们提出了一种基于分支机构（BNB）的新离散优化方法，以获得最佳决策树。与现有的定制方法不同，我们考虑具有连续功能的回归和分类任务。我们方法基础的基本思想是基于特征分布的分位数来拆分搜索空间 - 导致沿BNB迭代的基础优化问题的上限和下限。与现有的各种真实数据集中的浅最佳树相比，我们提出的算法Quant-BNB显示出显着的加速。

translated by 谷歌翻译

An Exact Algorithm for Semi-supervised Minimum Sum-of-Squares Clustering

Veronica Piccialli , Anna Russo Russo , Antonio M. Sudoso

分类：机器学习

2021-11-30

最小的平方和群集（MSSC）或K-Means型聚类，传统上被认为是无监督的学习任务。近年来，使用背景知识来提高集群质量，促进聚类过程的可解释性已成为数学优化和机器学习研究的热门研究课题。利用数据群集中的背景信息的问题称为半监督或约束群集。在本文中，我们为半监控MSSC提供了一种新的分支和绑定算法，其中背景知识被包含为成对必须 - 链接和无法链接约束。对于较低的界限，我们解决了MSSC离散优化模型的Semidefinite编程宽松，并使用了用于加强界限的纤维平面程序。相反，通过使用整数编程工具，我们提出了将K-Means算法适应受约束的情况。这是第一次，所提出的全局优化算法有效地管理，以解决现实世界的情况，最高可达800个数据点，具有必要的必须 - 链接和无法链接约束以及通用数量的功能。这个问题大小大约比最先进的精确算法解决的实例大约四倍。

translated by 谷歌翻译

Mixed integer linear optimization formulations for learning optimal binary classification trees

Brandon Alston , Hamidreza Validi , Illya V. Hicks

分类：机器学习

2022-06-10

决策树是分类和回归的强大工具，吸引了许多在机器学习新兴领域工作的研究人员。决策树比其他方法的优点之一是它们的解释性，通常比其他相对无法解释的更高精度方法更喜欢。二进制分类树具有两种类型的顶点：（i）分支顶点，这些顶点恰好有两个孩子，并且在一组离散功能上评估了数据点；（ii）为数据点的叶顶点提供了离散的预测。可以通过求解旨在（i）最大化正确分类数据的数量的生物目标优化问题来获得最佳的二进制分类树，并（ii）最小化分支顶点的数量。在本文中，我们提出了四个用于设计最佳二进制分类树的混合整数线性优化（MILO）公式：两种基于流动的配方和基于两切的配方。我们在提议的配方与Aghaei等人的最强Milo配方之间提供了理论比较。（2021）。我们对13个公开数据集进行了实验，以显示模型的扩展能力以及使用Pareto前沿的生物原始方法的强度。我们的代码和数据可在GitHub上找到。

translated by 谷歌翻译

Margin Optimal Classification Trees

Federico D'Onofrio , Giorgio Grani , Marta Monaci , Laura Palagi

分类：机器学习

2022-10-19

In recent years there has been growing attention to interpretable machine learning models which can give explanatory insights on their behavior. Thanks to their interpretability, decision trees have been intensively studied for classification tasks, and due to the remarkable advances in mixed-integer programming (MIP), various approaches have been proposed to formulate the problem of training an Optimal Classification Tree (OCT) as a MIP model. We present a novel mixed-integer quadratic formulation for the OCT problem, which exploits the generalization capabilities of Support Vector Machines for binary classification. Our model, denoted as Margin Optimal Classification Tree (MARGOT), encompasses the use of maximum margin multivariate hyperplanes nested in a binary tree structure. To enhance the interpretability of our approach, we analyse two alternative versions of MARGOT, which include feature selection constraints inducing local sparsity of the hyperplanes. First, MARGOT has been tested on non-linearly separable synthetic datasets in 2-dimensional feature space to provide a graphical representation of the maximum margin approach. Finally, the proposed models have been tested on benchmark datasets from the UCI repository. The MARGOT formulation turns out to be easier to solve than other OCT approaches, and the generated tree better generalizes on new observations. The two interpretable versions are effective in selecting the most relevant features and maintaining good prediction quality.

translated by 谷歌翻译

Individual Preference Stability for Clustering

Saba Ahmadi , Pranjal Awasthi , Samir Khuller , Matthäus Kleindessner , Jamie Morgenstern , Pattara Sukprasert , Ali Vakilian

分类：机器学习

2022-07-07

在本文中，我们提出了一个自然的单个偏好（IP）稳定性的概念，该概念要求每个数据点平均更接近其自身集群中的点，而不是其他群集中的点。我们的概念可以从几个角度的动机，包括游戏理论和算法公平。我们研究了与我们提出的概念有关的几个问题。我们首先表明，确定给定数据集通常允许进行IP稳定的聚类通常是NP-HARD。结果，我们探索了在某些受限度量空间中查找IP稳定聚类的有效算法的设计。我们提出了一种poly Time算法，以在实际线路上找到满足精确IP稳定性的聚类，并有效地算法来找到针对树度量的IP稳定2聚类。我们还考虑放松稳定性约束，即，与其他任何集群相比，每个数据点都不应太远。在这种情况下，我们提供具有不同保证的多时间算法。我们在实际数据集上评估了一些算法和几种标准聚类方法。

translated by 谷歌翻译

A Study of Learning Search Approximation in Mixed Integer Branch and Bound: Node Selection in SCIP

Kaan Yilmaz , Neil Yorke-Smith

分类：神经与进化计算

2020-07-08

符合使用机器学习的不断增长的趋势，帮助解决组合优化问题，一个有希望的想法是通过使用学习的策略来改善混合整数编程（MIP）分支和绑定树内的节点选择。以前使用模仿学习的工作指示通过学习自适应节点搜索顺序来获取节点选择策略的可行性。相比之下，我们的模仿学习策略仅专注于学习节点的孩子中的哪一个选择。我们介绍了一个脱机方法，用于在两个设置中学习这样的策略：一个通过致力于修剪节点的启发式;一个是从叶子精确和背溯以保证找到最佳整数解决方案的备用。前一个设置对应于困扰期间的儿童选择器，而后者则类似于潜水启发式。我们在热情和确切的设置中将策略应用于流行的开源求解器SCIP。五个MIP数据集的经验结果表明，我们的节点选择策略比文献中最先进的先例更快地导致解决方案。虽然我们在精确解决方案的时间内没有击败高度优化的SCIP状态基准节点选择器，但如果预测模型的准确性足够，我们的启发式政策比所有基线都具有始终如一的最佳最优性差距。此外，结果还表明，当应用时间限制时，我们的启发式方法发现比测试大多数问题中所有基线的更好的解决方案。我们通过表明学习的政策模仿了SCIP基线来解释结果，但没有后者早期的暴跌中止。我们的建议是，尽管对文献的清晰改进，但这种MIP儿童选择器在更广泛的方法中更好地使用MIP分支和束缚树决策。

translated by 谷歌翻译

Discrete Tree Flows via Tree-Structured Permutations

Mai Elkady , Jim Lim , David I. Inouye

分类：机器学习 | 人工智能

2022-07-04

尽管对连续数据的归一流流进行了广泛的研究，但直到最近才探索了离散数据的流量。然而，这些先前的模型遭受了与连续流的局限性。最值得注意的是，由于离散函数的梯度不确定或零，因此不能直接优化基于流动的模型。先前的作品近似离散功能的伪级，但不能在基本层面上解决该问题。除此之外，与替代离散算法（例如决策树算法）相比，反向传播可能是计算繁重的。我们的方法旨在减轻计算负担，并通过基于决策树开发离散流程来消除对伪级的需求，这是基于有效的基于树的基于有效的树的方法进行分类和回归的离散数据。我们首先定义了树结构化置换（TSP），该置换量（TSP）紧凑地编码离散数据的排列，其中逆向易于计算；因此，我们可以有效地计算密度值并采样新数据。然后，我们提出了一种决策树算法来构建TSP，该TSP通过新标准在每个节点上学习树结构和排列。我们从经验上证明了我们在多个数据集上方法的可行性。

translated by 谷歌翻译

Multiclass Optimal Classification Trees with SVM-splits

Víctor Blanco , Alberto Japón , Justo Puerto

分类：机器学习

2021-11-16

在本文中，我们介绍了一种基于数学的数学优化的方法来构建多种单件实例的树形分类规则。我们的方法包括构建分类树，除了叶节点之外，暂时遗漏标签并通过SVM分离超平面分为两个类。我们提供了一个混合整数非线性编程配方，用于问题，并报告电池的扩展电池的结果，以评估我们关于其他基准分类方法的提案的性能。

translated by 谷歌翻译

Interpretable Clustering via Multi-Polytope Machines

Connor Lawless , Jayant Kalagnanam , Lam M. Nguyen , Dzung Phan , Chandra Reddy

分类：机器学习

2021-12-10

聚类是一个流行的无监督学习工具，通常用于发现较大的人口中的群体，例如客户段或患者亚型。但是，尽管它用作子组发现的工具和描述 - 很少有最先进的算法提供了发现的群集后面的任何理由或描述。我们提出了一种用于可解释聚类的新方法，即群集数据点和构建在被发现的集群周围的多个群体来解释它们。我们的框架允许在多台上进行额外的约束 - 包括确保构建多托的超平面是轴平行的或稀疏，具有整数系数。我们制定通过多拓构造群集作为混合整数非线性程序（MINLP）的问题。要解决我们的配方，我们提出了一种两相方法，我们首先使用交替的最小化初始化群集和多核酸，然后使用坐标下降来提升聚类性能。我们在一套综合和真实的世界聚类问题上基准测试方法，其中我们的算法优于艺术可解释和不可解释的聚类算法的状态。

translated by 谷歌翻译

Interpretable and Fair Boolean Rule Sets via Column Generation

Connor Lawless , Sanjeeb Dash , Oktay Gunluk , Dennis Wei

分类：机器学习 | 人工智能

2021-11-16

本文考虑了在分解正常形式（DNF，ANDS的DNF，ANDS，相当于判定规则集）或联合正常形式（CNF，ORS）作为分类模型的联合正常形式的学习。为规则简化，将整数程序配制成最佳贸易分类准确性。我们还考虑公平设定，并扩大制定，以包括对两种不同分类措施的明确限制：机会平等和均等的赔率。列生成（CG）用于有效地搜索候选条款（连词或剖钉）的指数数量，而不需要启发式规则挖掘。此方法还会绑定所选规则集之间的间隙和培训数据上的最佳规则集。要处理大型数据集，我们建议使用随机化的近似CG算法。与三个最近提出的替代方案相比，CG算法主导了16个数据集中的8个中的精度简单折衷。当最大限度地提高精度时，CG与为此目的设计的规则学习者具有竞争力，有时发现明显更简单的解决方案，这些解决方案不太准确。与其他公平和可解释的分类器相比，我们的方法能够找到符合较严格的公平概念的规则集，以适度的折衷准确性。

translated by 谷歌翻译

On multivariate randomized classification trees: $l_0$-based sparsity, VC~dimension and decomposition methods

Edoardo Amaldi , Antonio Consolo , Andrea Manno

分类：机器学习

2021-12-09

决策树是广泛使用的分类和回归模型，因为它们的解释性和良好的准确性。诸如购物车的经典方法基于贪婪的方法，但最近致力于最佳决策树的关注。我们研究了BlanQuero等人提出的非线性连续优化制剂。（EJOR，Vol.284,2020; Cor，Vol.132,2021）（稀疏）最佳随机分类树。不仅适用于特征选择，还非常重要，而且还可以提高解释性。我们首先考虑基于$ l_ {0} $'norm“的凹形近似的替代方法来缩小这样的树木。与$ l_1 $和$ l _ {\ infty} $ scalalization，在24个数据集中获得了有希望的结果。然后，我们在多变量随机分类树的VC维度上获得界限。最后，由于培训是对大型数据集的计算挑战，我们提出了一般的分解方案和它的有效版本。在较大数据集上的实验表明，所提出的分解方法能够为了显着降低培训时间而不影响精度。

translated by 谷歌翻译

How to Find a Good Explanation for Clustering?

Sayan Bandyapadhyay , Fedor Fomin , Petr Golovach , William Lochet , Nidhi Purohit , Kirill Simonov

分类：机器学习

2021-12-13

$ k $ -means和$ k $ -median集群是强大的无监督机器学习技术。但是，由于对所有功能的复杂依赖性，解释生成的群集分配是挑战性的。 Moshkovitz，Dasgupta，Rashtchian和Frost [ICML 2020]提出了一个优雅的可解释$ K $ -means和$ K $ -Median聚类型号。在此模型中，具有$ k $叶子的决策树提供了集群中的数据的直接表征。我们研究了关于可解释的聚类的两个自然算法问题。（1）对于给定的群集，如何通过使用$ k $叶的决策树找到“最佳解释”？（2）对于一套给定的点，如何找到一个以美元的决策树，最小化$ k $ -means / median目标的可解释的聚类？要解决第一个问题，我们介绍了一个新的可解释群集模型。我们的型号受到强大统计数据的异常值概念的启发，是以下情况。我们正在寻求少数积分（异常值），其删除使现有的聚类良好可解释。为了解决第二个问题，我们开始研究Moshkovitz等人的模型。从多元复杂性的角度来看。我们严格的算法分析揭示了参数的影响，如数据的输入大小，尺寸，异常值的数量，簇数，近似比，呈现可解释的聚类的计算复杂度。

translated by 谷歌翻译

Interpretable Decision Trees Through MaxSAT

Josep Alos , Carlos Ansotegui , Eduard Torres

分类：人工智能 | 机器学习

2021-10-26

我们提出了一种改善机器学习（ML）决策树（DTS）的准确性拦截权衡的方法。特别是，我们将最大的满足技术应用于计算最低纯DTS（MPDT）。我们提高了先前方法的运行时，并证明这些MPDT可以优于ML Framework Sklearn生成的DTS的准确性。

translated by 谷歌翻译

Clustering with Tangles: Algorithmic Framework and Theoretical Guarantees

Solveig Klepper , Christian Elbracht , Diego Fioravanti , Jakob Kneip , Luca Rendsburg , Maximilian Teegen , Ulrike von Luxburg

分类：机器学习 | (统计)机器学习

2020-06-25

Originally, tangles were invented as an abstract tool in mathematical graph theory to prove the famous graph minor theorem. In this paper, we showcase the practical potential of tangles in machine learning applications. Given a collection of cuts of any dataset, tangles aggregate these cuts to point in the direction of a dense structure. As a result, a cluster is softly characterized by a set of consistent pointers. This highly flexible approach can solve clustering problems in various setups, ranging from questionnaires over community detection in graphs to clustering points in metric spaces. The output of our proposed framework is hierarchical and induces the notion of a soft dendrogram, which can help explore the cluster structure of a dataset. The computational complexity of aggregating the cuts is linear in the number of data points. Thus the bottleneck of the tangle approach is to generate the cuts, for which simple and fast algorithms form a sufficient basis. In our paper we construct the algorithmic framework for clustering with tangles, prove theoretical guarantees in various settings, and provide extensive simulations and use cases. Python code is available on github.

translated by 谷歌翻译

Mixed-Integer Optimization with Constraint Learning

Donato Maragno , Holly Wiberg , Dimitris Bertsimas , S. Ilker Birbil , Dick den Hertog , Adejuyigbe Fajemisin

分类：机器学习 | (统计)机器学习

2021-11-04

我们为学习限制建立了混合整数优化的广泛方法论基础。我们提出了一种用于数据驱动决策的端到端管道，其中使用机器学习直接从数据中学习限制和目标，并且培训的模型嵌入在优化配方中。我们利用许多机器学习方法的混合整数优化 - 焦点，包括线性模型，决策树，集合和多层的感知。对多种方法的考虑允许我们捕获决策，上下文变量和结果之间的各种潜在关系。我们还使用观察结果的凸船体来表征决策信任区域，以确保可信的建议并避免推断。我们有效地使用列生成和聚类来纳入这个表示。结合域驱动的约束和客观术语，嵌入式模型和信任区域定义了处方生成的混合整数优化问题。我们将此框架实施为从业者的Python包（OptiCl）。我们展示了化疗优化和世界食物计划规划中的方法。案例研究说明了在生成高质量处方的框架中的框架，由信任区域添加的值，加入多个机器学习方法以及包含多个学习约束的框架。

translated by 谷歌翻译

Machine Learning for K-adaptability in Two-stage Robust Optimization

Esther Julien , Krzysztof Postek , Ş. İlker Birbil

分类：机器学习

2022-10-20

Two-stage robust optimization problems constitute one of the hardest optimization problem classes. One of the solution approaches to this class of problems is K-adaptability. This approach simultaneously seeks the best partitioning of the uncertainty set of scenarios into K subsets, and optimizes decisions corresponding to each of these subsets. In general case, it is solved using the K-adaptability branch-and-bound algorithm, which requires exploration of exponentially-growing solution trees. To accelerate finding high-quality solutions in such trees, we propose a machine learning-based node selection strategy. In particular, we construct a feature engineering scheme based on general two-stage robust optimization insights that allows us to train our machine learning tool on a database of resolved B&B trees, and to apply it as-is to problems of different sizes and/or types. We experimentally show that using our learned node selection strategy outperforms a vanilla, random node selection strategy when tested on problems of the same type as the training problems, also in case the K-value or the problem size differs from the training ones.

translated by 谷歌翻译