我们提出了分析分层聚类的方法,这些聚类完全使用了树木图提供的多分辨率结构。具体地,我们提出了在聚类方法之间选择的损失,特征重要性分数和用于可视化树木图中的特征分割的图形工具。这些任务的当前方法导致信息丢失,因为它们要求用户通过在指定级别切割树木图来生成本实例的单个分区。我们提出的方法使用了树木图的全结构。所提出的方法背后的关键洞察是将树形图视为系统发育。该类比允许通过祖先状态重建向树的每个内部节点分配特征值。真实和模拟数据集提供了证据表明我们所提出的框架具有理想的结果。我们提供了实现我们方法的R包。
translated by 谷歌翻译
We review clustering as an analysis tool and the underlying concepts from an introductory perspective. What is clustering and how can clusterings be realised programmatically? How can data be represented and prepared for a clustering task? And how can clustering results be validated? Connectivity-based versus prototype-based approaches are reflected in the context of several popular methods: single-linkage, spectral embedding, k-means, and Gaussian mixtures are discussed as well as the density-based protocols (H)DBSCAN, Jarvis-Patrick, CommonNN, and density-peaks.
translated by 谷歌翻译
群集分析需要许多决定:聚类方法和隐含的参考模型,群集数,通常,几个超参数和算法调整。在实践中,一个分区产生多个分区,基于验证或选择标准选择最终的分区。存在丰富的验证方法,即隐式或明确地假设某个聚类概念。此外,它们通常仅限于从特定方法获得的分区上操作。在本文中,我们专注于可以通过二次或线性边界分开的群体。参考集群概念通过二次判别符号函数和描述集群大小,中心和分散的参数定义。我们开发了两个名为二次分数的群集质量标准。我们表明这些标准与从一般类椭圆对称分布产生的组一致。对这种类型的组追求在应用程序中是常见的。研究了与混合模型和模型的聚类的似然理论的连接。基于Bootstrap重新采样的二次分数,我们提出了一个选择规则,允许在许多聚类解决方案中选择。所提出的方法具有独特的优点,即它可以比较不能与其他最先进的方法进行比较的分区。广泛的数值实验和实际数据的分析表明,即使某些竞争方法在某些设置中出现优越,所提出的方法也实现了更好的整体性能。
translated by 谷歌翻译
自动劝说系统(APS)旨在说服用户通过进入交换参数和反向的对话来相信某事。为了最大化APS成功地说服用户的概率,它可以识别一个全局策略,该策略将允许它选择对话的每个阶段的最佳参数,无论用户提供的任何参数是什么参数。然而,在真实的应用程序中,例如医疗保健,对话结果的效用将是相同的,或者对AP和用户的完全相同。为了处理这种情况,在双党决策理论中采用了扩展表格的奥运会。这将打开我们在本文中地址的新问题:(1)我们如何使用机器学习(ML)方法来预测用于用户不同群体的实用功能? (2)我们如何识别新用户,从我们学到的那些中获得最佳实用程序功能?在这种程度上,我们开发了两种ML方法,EAI和EDS,利用来自用户来预测其实用程序的信息。 EAI仅限于固定数量的信息,而EDS可以选择最能检测到用户的子步骤的信息。我们在模拟环境中评估EAI和EDS,并在有关健康饮食习惯的实际案例研究中。结果在这两种情况下都具有很大,但EDS在预测有用的实用功能方面更有效。
translated by 谷歌翻译
Co-clustering is a class of unsupervised data analysis techniques that extract the existing underlying dependency structure between the instances and variables of a data table as homogeneous blocks. Most of those techniques are limited to variables of the same type. In this paper, we propose a mixed data co-clustering method based on a two-step methodology. In the first step, all the variables are binarized according to a number of bins chosen by the analyst, by equal frequency discretization in the numerical case, or keeping the most frequent values in the categorical case. The second step applies a co-clustering to the instances and the binary variables, leading to groups of instances and groups of variable parts. We apply this methodology on several data sets and compare with the results of a Multiple Correspondence Analysis applied to the same data.
translated by 谷歌翻译
从大量嘈杂的候选人中选择一小部分信息功能是一个充满挑战的问题,即机器学习和近似贝叶斯计算中的许多应用程序。在实践中,还需要考虑计算信息丰富功能的成本。这对于网络尤为重要,因为单个功能的计算成本可以跨越几个数量级。我们使用两种方法解决了网络模型选择问题的问题。首先,我们调整了九种功能选择方法来说明功能成本。我们为两类网络模型显示,可以通过两个数量级降低成本,而不会极大地影响分类精度(正确识别的模型的比例)。其次,我们使用具有较小网络的Pilot模拟选择了功能。这种方法将计算成本降低了50倍,而不会影响分类精度。为了证明我们的方法的实用性,我们将其应用于三个不同的酵母蛋白相互作用网络,并确定了最合适的重复差异模型。
translated by 谷歌翻译
分类链是一种用于在多标签分类中建模标签依赖性的有效技术。但是,该方法需要标签的固定静态顺序。虽然理论上,任何顺序都足够了,实际上,该订单对最终预测的质量具有大量影响。动态分类链表示每个实例对分类的想法,可以动态选择预测标签的顺序。这种方法的天真实现的复杂性是禁止的,因为它需要训练一系列分类器,以满足标签的每种可能置换。为了有效地解决这个问题,我们提出了一种基于随机决策树的新方法,该方法可以动态地选择每个预测的标签排序。我们凭经验展示了下一个标签的动态选择,通过在否则不变的随机决策树模型下使用静态排序。 %和实验环境。此外,我们还展示了基于极端梯度提升树的替代方法,其允许更具目标的动态分级链训练。我们的结果表明,该变体优于随机决策树和其他基于树的多标签分类方法。更重要的是,动态选择策略允许大大加速培训和预测。
translated by 谷歌翻译
本文提出了一种基于图形的正则化回归估计器 - 分层特征回归(HFR) - 从机器学习和图论域名的洞察力调动洞察力,以估算线性回归的鲁棒参数。估计器构造一个监督的特征图,该监督特征图沿其边缘分解参数,首先调整常见变化并连续地将特殊性模式结合到拟合过程中。图形结构具有对组靶标的参数收缩的影响,其中收缩程度由肝异常的控制,并且基团组合物以及收缩靶数是内源性的。该方法提供了丰富的资源,以便在数据中的潜在效果结构的视觉探索,并与一系列经验和模拟回归任务的常用正则化技术面板相比,展示了良好的预测精度和多功能性。
translated by 谷歌翻译
大多数维度降低方法采用频域表示,从基质对角线化获得,并且对于具有较高固有维度的大型数据集可能不会有效。为了应对这一挑战,相关的聚类和投影(CCP)提供了一种新的数据域策略,不需要解决任何矩阵。CCP将高维特征分配到相关的群集中,然后根据样本相关性将每个集群中的特征分为一个一维表示。引入了残留相似性(R-S)分数和索引,Riemannian歧管中的数据形状以及基于代数拓扑的持久性Laplacian进行可视化和分析。建议的方法通过与各种机器学习算法相关的基准数据集验证。
translated by 谷歌翻译
半监督学习(SSL)是使用不仅标记的示例,而且是未标记的示例学习预测模型的常见方法。尽管用于分类和回归的简单任务的SSL受到了研究社区的广泛关注,但对于具有结构依赖变量的复杂预测任务,这尚未得到适当的研究。这种情况是多标签分类和分层多标签分类任务,可能需要其他信息,可能来自未标记示例提供的描述性空间中的基础分布,以更好地面对同时预测多个类别标签的挑战性任务。在本文中,我们研究了这一方面,并​​提出了一种基于对预测性聚类树的半监督学习的(分层)多标签分类方法。我们还扩展了整体学习的方法,并提出了一种基于随机森林方法的方法。在23个数据集上进行的广泛实验评估显示了该方法的显着优势及其在其监督对应物方面的扩展。此外,该方法可保留可解释性并降低基于经典树模型的时间复杂性。
translated by 谷歌翻译
Explainability of a classification model is crucial when deployed in real-world decision support systems. Explanations make predictions actionable to the user and should inform about the capabilities and limitations of the system. Existing explanation methods, however, typically only provide explanations for individual predictions. Information about conditions under which the classifier is able to support the decision maker is not available, while for instance information about when the system is not able to differentiate classes can be very helpful. In the development phase it can support the search for new features or combining models, and in the operational phase it supports decision makers in deciding e.g. not to use the system. This paper presents a method to explain the qualities of a trained base classifier, called PERFormance EXplainer (PERFEX). Our method consists of a meta tree learning algorithm that is able to predict and explain under which conditions the base classifier has a high or low error or any other classification performance metric. We evaluate PERFEX using several classifiers and datasets, including a case study with urban mobility data. It turns out that PERFEX typically has high meta prediction performance even if the base classifier is hardly able to differentiate classes, while giving compact performance explanations.
translated by 谷歌翻译
在现实世界数据集中,结果标记歧义和主观性是无处不在的。尽管从业者通常以临时方式将所有数据点(实例)的模棱两可的结果标签结合在一起,以提高多级分类的准确性,但缺乏通过任何最佳标准来指导所有数据点标签组合的原则方法。为了解决这个问题,我们提出了信息理论分类准确性(ITCA),该标准可以在预测准确性(预测标签与实际标签一致)和分类分辨率(可预测的标签)(可预测的标签)之间进行平衡,这是平衡的。指导从业者如何结合模棱两可的结果标签。为了找到ITCA指示的最佳标签组合,我们提出了两种搜索策略:贪婪的搜索和广度优先搜索。值得注意的是,ITCA和两种搜索策略适应所有机器学习分类算法。再加上分类算法和搜索策略,ITCA有两个用途:提高预测准确性并识别模棱两可的标签。我们首先通过两种搜索策略来找到合成和真实数据的正确标签组合,首先验证ITCA是否可以实现高精度。然后,我们证明了ITCA在各种应用中的有效性,包括医学预后,癌症存活预测,用户人口统计预测和细胞类型分类。我们还通过研究Oracle和线性判别分析分类算法来提供对ITCA的理论见解。 Python软件包ITCA(可在https://github.com/jsb-ucla/itca上找到)ITCA和搜索策略。
translated by 谷歌翻译
由于传感器,社交媒体等,过去几十年来,数据流的分析已经受到相当大的关注。它旨在识别无序,无限和不断发展的观察流中的模式。聚类此类数据需要一些时间和内存的限制。本文介绍了一种新的数据流群集方法(IMOC流)。与其他聚类算法不同,这种方法使用两个不同的目标函数来捕获数据的不同方面。 IMOC流的目标是:1)通过使用空闲时间来减少计算时间以应用遗传操作并增强解决方案。 2)通过引入新的树概要来减少内存分配。 3)通过使用多目标框架查找任意形状的群集。我们对高维流数据集进行了实验研究,并将其与众所周知的流聚类技术进行了比较。实验表明我们的方法在优化时间和内存的同时在任意形状,紧凑且分开的群集中分区数据流的能力。我们的方法在NMI和Arand测量方面也表现出大部分流算法。
translated by 谷歌翻译
关于使用ML模型的一个基本问题涉及其对提高决策透明度的预测的解释。尽管已经出现了几种可解释性方法,但已经确定了有关其解释可靠性的一些差距。例如,大多数方法都是不稳定的(这意味着它们在数据中提供了截然不同的解释),并且不能很好地应对无关的功能(即与标签无关的功能)。本文介绍了两种新的可解释性方法,即Varimp和Supclus,它们通过使用局部回归拟合的加权距离来克服这些问题,以考虑可变重要性。 Varimp生成了每个实例的解释,可以应用于具有更复杂关系的数据集,而Supclus解释了具有类似说明的实例集群,并且可以应用于可以找到群集的较简单数据集。我们将我们的方法与最先进的方法进行了比较,并表明它可以根据几个指标产生更好的解释,尤其是在具有无关特征的高维问题中,以及特征与目标之间的关系是非线性的。
translated by 谷歌翻译
Standard agglomerative clustering suggests establishing a new reliable linkage at every step. However, in order to provide adaptive, density-consistent and flexible solutions, we study extracting all the reliable linkages at each step, instead of the smallest one. Such a strategy can be applied with all common criteria for agglomerative hierarchical clustering. We also study that this strategy with the single linkage criterion yields a minimum spanning tree algorithm. We perform experiments on several real-world datasets to demonstrate the performance of this strategy compared to the standard alternative.
translated by 谷歌翻译
装袋和升压是在机器学习(ml)中的两个流行的集合方法,产生许多单独的决策树。由于这些方法的固有组合特性,它们通常以预测性能更优于单决定树或其他ML模型。然而,为每个决策树生成许多决定路径,增加了模型的整体复杂性,并阻碍了其在需要值得信赖和可解释的决策的域中的域,例如金融,社会护理和保健。因此,随着决策的数量升高,袋装和升降算法(例如随机森林和自适应升压)的解释性降低。在本文中,我们提出了一种视觉分析工具,该工具旨在帮助用户通过彻底的视觉检查工作流程从这种ML模型中提取决策,包括选择一套鲁棒和不同的模型(源自不同的集合学习算法),选择重要的功能根据他们的全球贡献,决定哪些决定对于全球解释(或本地,具体案件)是必不可少的。结果是基于多个模型的协议和用户出口的探索手动决策的最终决定。最后,我们通过用例,使用场景和用户学习评估患者的适用性和有效性。
translated by 谷歌翻译
这项工作提出了一种名为形态学分类器(MC)的新型分类器。 MCS汇总数学形态学和监督学习的概念。该聚集的结果是可能在选择停止标准和结构元件的选择之外地保持类的形状特征的分类器。 MCS基本上基于集合理论,其分类模型可以是数学集本身。在当前的工作中提出了两种类型的形态分类剂,即形态学K-NN(MKNN)和形态扩张分类器(MDC),其证明了方法的可行性。这项工作提供了有关MCS的优势的证据,例如,非常快速的分类时间以及竞争精度率。使用P-Dimensional数据集测试MKNN和MDC的性能。在8个数据集中的5个中,MCS绑定或表现优于14种成熟的分类器。在所有场合,所获得的精度高于所有分类器获得的平均精度。此外,所提出的实施方式利用图形处理单元(GPU)的功率来加速处理。
translated by 谷歌翻译
Precision Medicine根据患者的特征为患者提供定制的治疗方法,是提高治疗效率的一种有希望的方法。大规模的OMICS数据对于患者表征很有用,但是它们的测量经常会随着时间而变化,从而导致纵向数据。随机森林是用于构建预测模型的最先进的机器学习方法之一,并且可以在精密医学中发挥关键作用。在本文中,我们回顾了标准随机森林方法的扩展,以进行纵向数据分析。扩展方法根据其设计的数据结构进行分类。我们考虑单变量和多变量响应,并根据时间效应是否相关,进一步对重复测量进行分类。还提供了审查扩展程序的可用软件实现信息。最后,我们讨论了我们审查的局限性和一些未来的研究指示。
translated by 谷歌翻译
在本文中,我们提出了DendroMap,这是一种新颖的方法,用于互动地探索用于机器学习的大规模图像数据集(ML)。 ML从业人员通常通过使用降低降低技术(例如T-SNE)生成图像的网格或将图像的高维表示分为2-D来探索图像数据集。但是,两种方法都没有有效地扩展到大型数据集,因为图像是无效组织的,并且相互作用不足。为了应对这些挑战,我们通过适应Treemaps(一种众所周知的可视化技术)来开发树突。树突图通过从图像的高维表示中提取层次群集结构来有效地组织图像。它使用户能够理解数据集的整体分布,并在多个抽象级别上进行交互放大到特定的兴趣领域。我们使用广泛使用的图像数据集进行深度学习的案例研究表明,用户可以通过检查图像的多样性,确定表现不佳的子组并分析分类错误,从而发现有关数据集和训练模型的见解。我们进行了一项用户研究,该研究通过将其与T-SNE的网状版本进行比较,评估了树突图在分组和搜索任务中的有效性,并发现参与者更喜欢DendroMap。 DendroMap可在https://div-lab.github.io/dendromap/上获得。
translated by 谷歌翻译
决策树(DT)由于其在众多应用中令人印象深刻的经验表现和解释性而引起了持续的研究注意。但是,传统但广泛使用的单变量决策树(UDTS)的增长非常耗时,因为它们需要穿越所有功能,以找到分裂值,并在每个内部节点处最大程度地减少杂质。在本文中,我们新设计一个分裂标准,以加快增长。该标准是从几何平均度量学习(GMML)诱导的,然后在其对角度公制矩阵约束下进行了优化,因此,可以立即获得特征判别能力的封闭形式等级,并且在每个节点上都可以在每个节点上获得最高的1个特征意图DT(称为DGMML-DT,其中D是对角度化的缩写)。我们评估了提出的方法的性能及其在基准数据集上的相应集合。该实验表明,与10倍平均加速的UDT相比,DGMML-DT获得可比或更好的分类结果。此外,DGMML-DT可以直接扩展到其多变量对应物(DGMML-MDT),而无需费力的操作。
translated by 谷歌翻译