可以通过在各种基准问题上运行聚类算法的评估,并将其输出与专家提供的参考,地面真实分组进行比较。不幸的是,许多研究论文和研究生论文仅考虑少数数据集。同样,很少有这样的事实,即可以考虑许多同样有效的方法来集中给定的问题集。为了克服这些局限性,我们开发了一个框架,其目的是引入一致的方法来测试聚类算法。此外,我们已经在整个机器学习和数据挖掘文献中汇总,抛光和标准化了许多聚集基准电池,其中包括不同维度,尺寸和群集类型的新数据集。交互式数据集资源管理器,Python API的文档,对与其他编程语言(例如R或MATLAB)互动的方式的描述,以及其他详细信息,以及其他详细信息,都在https://clustering-benchmarks.gagolewski.com上提供。
translated by 谷歌翻译
没有,也不会有单一的最佳聚类算法,但是我们仍然希望能够确定那些在某些任务类型上表现出色并过滤掉系统令人失望的人。传统上,使用内部或外部有效性度量评估聚类算法。内部度量量化了所获得的分区的不同方面,例如簇紧凑性或点可分离性的平均程度。然而,他们的有效性是值得怀疑的,因为他们促进的聚类有时可能毫无意义。另一方面,外部措施将算法的输出与专家提供的基础真相分组进行了比较。常规的经典分区相似性分数,例如归一化的互信息,福克斯 - 马洛或调整后的兰德指数,可能没有所有期望的特性,例如,它们无法正确识别病理边缘病例。此外,它们不能很好地解释:很难说出0.8的分数。它的行为也可能随着真实簇的数量的变化而有所不同。这使得在许多基准数据集中比较聚类算法变得困难。为了解决这个问题,我们提出并分析了一种新措施:最佳设置匹配精度的不对称版本。它可以纠正机会和集群大小的不平衡性。
translated by 谷歌翻译
内部群集有效性度量(例如Calinski-Harabasz,Dunn或Davies-Bouldin指数)经常用于选择适当数量的分区数量,应将数据集分为二。在本文中,我们考虑如果将这些索引视为无监督学习活动中的客观功能会发生什么。关于轮廓指数的最佳分组是否真的有意义?事实证明,许多群集有效性指数促进了聚类,这些聚类与专家知识相匹配。我们还引入了邓恩指数的一个新的,表现出色的变体,该变体是建立在OWA操作员和接近邻居图的基础上的,因此,无论其形状如何,都可以更好地相互分离。
translated by 谷歌翻译
应用分层聚类算法所需的时间最常由成对差异度量的计算数量主导。对于较大的数据集,这种约束使所有经典链接标准的使用都处于不利地位。但是,众所周知,单个连锁聚类算法对离群值非常敏感,产生高度偏斜的树状图,因此通常不会反映出真正的潜在数据结构 - 除非簇分离良好。为了克服其局限性,我们提出了一个名为Genie的新的分层聚类链接标准。也就是说,我们的算法将两个簇链接在一起,以至于选择的经济不平等度量(例如,gini-或bonferroni index)的群集大小不会大大增加超过给定阈值。提出的基准表明引入的方法具有很高的实际实用性:它通常优于病房或平均链接的聚类质量,同时保持单个连锁的速度。 Genie算法很容易平行,因此可以在多个线程上运行以进一步加快其执行。它的内存开销很小:无需预先计算完整的距离矩阵即可执行计算以获得所需的群集。它可以应用于配备有差异度量的任意空间,例如,在实际矢量,DNA或蛋白质序列,图像,排名,信息图数据等上。有关R。另请参见https://genieclust.gagolewski.com有关新的实施(GenieClust) - 可用于R和Python。
translated by 谷歌翻译
聚类算法的全面基准是困难的两个关键因素:(i)〜这种无监督的学习方法的独特数学定义和(ii)〜某些聚类算法采用的生成模型或群集标准之间的依赖性的依赖性内部集群验证。因此,对严格基准测试的最佳做法没有达成共识,以及是否有可能在给定申请的背景之外。在这里,我们认为合成数据集必须继续在群集算法的评估中发挥重要作用,但这需要构建适当地涵盖影响聚类算法性能的各种属性集的基准。通过我们的框架,我们展示了重要的角色进化算法,以支持灵活的这种基准,允许简单的修改和扩展。我们说明了我们框架的两种可能用途:(i)〜基准数据的演变与一组手派生属性和(ii)〜生成梳理给定对算法之间的性能差异的数据集。我们的作品对设计集群基准的设计具有足够挑战广泛算法的集群基准,并进一步了解特定方法的优势和弱点。
translated by 谷歌翻译
We review clustering as an analysis tool and the underlying concepts from an introductory perspective. What is clustering and how can clusterings be realised programmatically? How can data be represented and prepared for a clustering task? And how can clustering results be validated? Connectivity-based versus prototype-based approaches are reflected in the context of several popular methods: single-linkage, spectral embedding, k-means, and Gaussian mixtures are discussed as well as the density-based protocols (H)DBSCAN, Jarvis-Patrick, CommonNN, and density-peaks.
translated by 谷歌翻译
引入了用于集群内部评估的新索引。该索引定义为两个子指标的混合物。第一个子指数$ i_a $称为模棱两可的索引;第二个子指数$ i_s $称为相似性索引。两个子指数的计算基于对数据分区的每个群集的密度估计。进行了一项实验以测试新指数的性能,并与三个流行的内部聚类评估指数(Calinski-Harabasz索引,Silhouette系数和Davies-Bouldin索引)相比,在145个数据集中进行了比较。结果表明,新指数将三个流行指数提高了59 \%,34 \%和74 \%。
translated by 谷歌翻译
我们解决了基于标签数据集基准群集技术的可靠性。外部聚类验证中的标准方案是基于每个类形成一个单一的,明显分离的群集的假设,将类标签用作地面真实群集。但是,由于这种集群标签匹配(CLM)的假设经常破坏,因此缺乏对基准数据集CLM的理智检查对外部验证的有效性产生怀疑。尽管如此,评估CLM的程度还是具有挑战性的。例如,内部聚类验证措施可用于量化同一数据集中的CLM以评估其不同的聚类,但并非旨在比较不同数据集的聚类。在这项工作中,我们提出了一种原则性的方法来生成数据集中的内部度量,以使CLM在数据集中进行比较。我们首先确定了数据集内措施之间的四个公理,并补充了Ackerman和Ben-David的数据库内公理。然后,我们提出了概括内部措施以实现这些新公理的过程,并使用它们扩展了广泛使用的Calinski-Harabasz索引,以进行数据库CLM之间的评估。通过定量实验,我们(1)验证了概括过程的有效性和必要性,(2)表明,所提出的数据与calinski-Harabasz索引索引准确地评估了整个数据集的CLM。最后,我们证明了在进行外部验证之前评估基准数据集的CLM的重要性。
translated by 谷歌翻译
接收器操作特性(ROC)曲线下的区域称为AUC,是监督学习域中众所周知的性能措施。由于其引人注目的功能,它已在许多研究中使用,以评估和比较不同分类器的性能。在这项工作中,我们在集群分析的背景下更具体地,我们将AUC作为无监督学习域中的性能措施。特别是,我们详细说明了AUC作为聚类质量的内部/相对测量,我们将其称为聚类曲线下的区域(AUCC)。我们表明给定候选聚类解决方案的AUCC在随机聚类解决方案的空模型下具有预期值,无论数据集的大小如何,更重要的是,无论在评估下的群集的数量或(IM)平衡如何。此外,我们详细阐述了在我们考虑的内部/相对聚类验证的背景下,AUCC实际上是Baker和Hubert(1975)的伽玛标准的线性转换,我们也正式得出了理论预期机会群集的价值。我们还讨论了这些标准的计算复杂性,并表明,对于集群分析的大多数真实应用,伽玛的普通实施可能是计算令人望而不容的,但对于大多数真实应用,其与AUCC的等价实际上推出了更有效的算法过程。我们的理论发现得到了实验结果的支持。这些结果表明,除了由AUCC提供的有效和稳健的定量评估之外,ROC曲线本身的目视检查对于进一步评估来自更广泛的,定性的透视的候选聚类解决方案也是有用的。
translated by 谷歌翻译
高斯混合物模型(GMM)提供了一个简单而原则的框架,具有适用于统计推断的属性。在本文中,我们提出了一种新的基于模型的聚类算法,称为EGMM(证据GMM),在信念函数的理论框架中,以更好地表征集群成员的不确定性。通过代表每个对象的群集成员的质量函数,提出了由所需群集的功率组组成的组件组成的证据高斯混合物分布来对整个数据集进行建模。 EGMM中的参数通过特殊设计的预期最大化(EM)算法估算。还提供了允许自动确定正确数量簇的有效性指数。所提出的EGMM与经典GMM一样简单,但可以为所考虑的数据集生成更有信息的证据分区。合成和真实数据集实验表明,所提出的EGMM的性能比其他代表性聚类算法更好。此外,通过应用多模式脑图像分割的应用也证明了其优势。
translated by 谷歌翻译
几十年来,多维数据集中的模式发现是研究的主题。存在可用于此目的的广泛的聚类算法。但是,它们的实际应用共有普遍的聚类阶段,涉及基于专家的解释和对获得的结果分析。我们认为这可以是该过程的瓶颈,特别是在聚类之前存在域知识的情况下。这种情况不仅需要对自动发现的集群进行适当的分析,而且还需要与现有知识的一致性检查。在这项工作中,我们展示了知识增强聚类(KNAC),主要目标是通过自动聚类来协调基于专家的标签,以便更新和精炼前者。我们的解决方案不依赖于任何准备好的聚类算法,也不介绍一个。相反,KNAC可以用作任意聚类算法的增强,使得该方法具有鲁棒和模型不可知。我们展示了我们在人工,可重复的例子和真实用途案例场景中的方法的可行性。
translated by 谷歌翻译
Originally, tangles were invented as an abstract tool in mathematical graph theory to prove the famous graph minor theorem. In this paper, we showcase the practical potential of tangles in machine learning applications. Given a collection of cuts of any dataset, tangles aggregate these cuts to point in the direction of a dense structure. As a result, a cluster is softly characterized by a set of consistent pointers. This highly flexible approach can solve clustering problems in various setups, ranging from questionnaires over community detection in graphs to clustering points in metric spaces. The output of our proposed framework is hierarchical and induces the notion of a soft dendrogram, which can help explore the cluster structure of a dataset. The computational complexity of aggregating the cuts is linear in the number of data points. Thus the bottleneck of the tangle approach is to generate the cuts, for which simple and fast algorithms form a sufficient basis. In our paper we construct the algorithmic framework for clustering with tangles, prove theoretical guarantees in various settings, and provide extensive simulations and use cases. Python code is available on github.
translated by 谷歌翻译
无监督的学习,更具体地聚类,遭受了现场专业知识的需求。研究人员必须在哪些算法上进行仔细和了解的决定,用于给定数据集的哪一组超参数。此外,研究人员可能需要确定数据集中的群集数,这是对大多数聚类算法的输入。所有这一切都在开始实际主题的工作之前。在量化算法和超参数选择的影响之后,我们提出了一个合奏聚类框架,可以利用最小输入来利用。It can be used to determine both the number of clusters in the dataset and a suitable choice of algorithm to use for a given dataset.结论中包含代码库以易于集成。
translated by 谷歌翻译
智能流量系统的进步(其)通过自动数据收集提供了大量的交通数据。该数据的大部分存储为移动车辆和道路用户的轨迹。通过最小的人类监督对该数据的自动分析将降低成本并消除分析的主观性。轨迹群集是一个无人监督的任务。在本文中,我们使用来自七个交叉点的轨迹数据进行相似度测量,聚类算法和评估措施的全面比较。我们还提出了一种基于其原点和目的地自动生成轨迹参考集群的方法,以用于基于标签的评估措施。因此,整个过程在聚类和评估水平中仍然无监督。最后,我们使用评估措施的组合来找到每个交叉点的最高执行相似度测量和聚类算法。结果表明,没有单一的距离和聚类算法组合,始终是前十个聚类设置中的距离和聚类算法。
translated by 谷歌翻译
机器学习研究取决于客观解释,可比和可重复的算法基准。我们倡导使用策划,全面套房的机器学习任务,以标准化基准的设置,执行和报告。我们通过帮助创建和利用这些基准套件的软件工具来实现这一目标。这些无缝集成到OpenML平台中,并通过Python,Java和R. OpenML基准套件(A)的接口访问,易于使用标准化的数据格式,API和客户端库; (b)附带的数据集具有广泛的元信息; (c)允许在未来的研究中共享和重复使用基准。然后,我们为分类提供了一个仔细的策划和实用的基准测试套件:OpenML策划分类基准测试套件2018(OpenML-CC18)。最后,我们讨论了使用案例和应用程序,这些案例和应用程序尤其展示了OpenML基准套件和OpenML-CC18的有用性。
translated by 谷歌翻译
基于云的软件具有许多优势。当服务分为许多独立组件时,它们更容易更新。同样,在高峰需求期间,扩展云服务(只需雇用更多CPU)就更容易。因此,许多组织正在将其整体企业应用程序分为基于云的微服务。最近,使用机器学习来简化此分区任务,已经进行了很多工作。尽管进行了很多研究,但不建议通常使用单个分区方法。更具体地说,这些先前的解决方案是“脆弱”。即,如果它们在一个数据集中的一种目标中效果很好,那么如果应用于许多数据集和多个目标,则可以是最佳选择。为了找到一种通常有用的分区方法,我们深入提出。该新算法通过(a)具有新颖的损失函数和(b)一些超参数优化的算法扩展了Co-GCN深度学习分区生成器。如我们的实验所示,在多个数据集和目标上,通常胜过先前的工作(包括Co-GCN等)。据我们所知,这是SE中这种稳定的超参数优化的第一份报告。为了帮助重复使用这项工作,可以在https://bit.ly/2whfflb上在线提供。
translated by 谷歌翻译
最小的平方和群集(MSSC)或K-Means型聚类,传统上被认为是无监督的学习任务。近年来,使用背景知识来提高集群质量,促进聚类过程的可解释性已成为数学优化和机器学习研究的热门研究课题。利用数据群集中的背景信息的问题称为半监督或约束群集。在本文中,我们为半监控MSSC提供了一种新的分支和绑定算法,其中背景知识被包含为成对必须 - 链接和无法链接约束。对于较低的界限,我们解决了MSSC离散优化模型的Semidefinite编程宽松,并使用了用于加强界限的纤维平面程序。相反,通过使用整数编程工具,我们提出了将K-Means算法适应受约束的情况。这是第一次,所提出的全局优化算法有效地管理,以解决现实世界的情况,最高可达800个数据点,具有必要的必须 - 链接和无法链接约束以及通用数量的功能。这个问题大小大约比最先进的精确算法解决的实例大约四倍。
translated by 谷歌翻译
最近的一些作品已经采用了决策树,以建造可解释的分区,旨在最大限度地减少$ k $ -means成本函数。然而,这些作品在很大程度上忽略了与所得到的树中叶子的深度相关的度量,这考虑到决策树的解释性如何取决于这些深度,这可能令人惊讶。为了填补文献中的这种差距,我们提出了一种有效的算法,它考虑了这些指标。在7个数据集上的实验中,我们的算法产生的结果比决策树聚类算法,例如\ Cite {dasgupta2020explainplainable},\ cite {frost2020exkmc},\ cite {laber2021price}和\ cite {dblp:conf / icml / Makarychevs21}通常以相当浅的树木实现较低或等同的成本。我们还通过简单适应现有技术来表明,用k $ -means成本函数的二叉树引起的可解释的分区的问题不承认多项式时间中的$(1+ \ epsilon)$ - 近似$ p = np $,证明Questies Quest attmation算法和/或启发式。
translated by 谷歌翻译
高维空间中的大约最近的邻居搜索(ANN)对于许多现实生活应用程序(例如电子商务,Web,多媒体等)至关重要。在本文中,我们提出了一个端到端的学习框架,该框架将分区(ANN的一个关键步骤)和使用自定义损失函数进行学习进行搜索步骤。我们提出的解决方案的关键优势是,它不需要对数据集进行任何昂贵的预处理,这是最新方法的关键局限性之一。我们通过制定不需要地面真实标签来量化数据空间分区的质量的多目标自定义损失函数来实现上述边缘,从而完全不受监督。我们还通过在损失功能中添加不同的输入权重来训练模型集合以增强搜索质量来提出一种结合技术。在几个标准的ANN标准基准上,我们表明我们的方法击败了最新的空间分区方法和无处不在的K-均值聚类方法,同时使用较少的参数和较短的离线训练时间。在没有一般性的情况下,我们的无监督分区方法被证明是许多广泛使用的聚类方法(例如K-均值聚类和DBSCAN)的有希望的替代方法。
translated by 谷歌翻译
图形嵌入是图形节点到一组向量的转换。良好的嵌入应捕获图形拓扑,节点与节点的关系以及有关图,其子图和节点的其他相关信息。如果实现了这些目标,则嵌入是网络中有意义的,可理解的,可理解的压缩表示形式,可用于其他机器学习工具,例如节点分类,社区检测或链接预测。主要的挑战是,需要确保嵌入很好地描述图形的属性。结果,选择最佳嵌入是一项具有挑战性的任务,并且通常需要领域专家。在本文中,我们在现实世界网络和人为生成的网络上进行了一系列广泛的实验,并使用选定的图嵌入算法进行了一系列的实验。根据这些实验,我们制定了两个一般结论。首先,如果需要在运行实验之前选择一种嵌入算法,则Node2Vec是最佳选择,因为它在我们的测试中表现最好。话虽如此,在所有测试中都没有单一的赢家,此外,大多数嵌入算法都具有应该调整并随机分配的超参数。因此,如果可能的话,我们对从业者的主要建议是生成几个问题的嵌入,然后使用一个通用框架,该框架为无监督的图形嵌入比较提供了工具。该框架(最近在文献中引入并在GitHub存储库中很容易获得)将分歧分数分配给嵌入,以帮助区分好的分数和不良的分数。
translated by 谷歌翻译