引入了用于集群内部评估的新索引。该索引定义为两个子指标的混合物。第一个子指数$ i_a $称为模棱两可的索引;第二个子指数$ i_s $称为相似性索引。两个子指数的计算基于对数据分区的每个群集的密度估计。进行了一项实验以测试新指数的性能,并与三个流行的内部聚类评估指数(Calinski-Harabasz索引,Silhouette系数和Davies-Bouldin索引)相比,在145个数据集中进行了比较。结果表明,新指数将三个流行指数提高了59 \%,34 \%和74 \%。
translated by 谷歌翻译
A new model called Clustering with Neural Network and Index (CNNI) is introduced. CNNI uses a Neural Network to cluster data points. Training of the Neural Network mimics supervised learning, with an internal clustering evaluation index acting as the loss function. An experiment is conducted to test the feasibility of the new model, and compared with results of other clustering models like K-means and Gaussian Mixture Model (GMM).
translated by 谷歌翻译
用于评估聚类结果的各种集群有效性指数。使用这些指数的主要目标之一是寻求最佳的未知数簇。一些索引对于具有不同密度,大小和形状的簇很好。然而,这些有效性指数的共同弱点是它们通常只提供一个最佳数量的簇。在现实世界中,该数字未知,并且可能有多个可能的选择。我们基于一对数据点之间的实际距离与两个点占据的群集的质心距离之间的相关性开发了一个新的群集有效性指数。我们提出的指数不断产生几个局部峰,并克服了先前所述的弱点。在不同方案(包括UCI现实世界数据集)的不同实验中,已经进行了将所提出的有效性指数与几个知名的实验进行比较。与此新索引相关的R软件包可在https://github.com/nwirosri/ncvalid上找到。
translated by 谷歌翻译
高斯混合物模型(GMM)提供了一个简单而原则的框架,具有适用于统计推断的属性。在本文中,我们提出了一种新的基于模型的聚类算法,称为EGMM(证据GMM),在信念函数的理论框架中,以更好地表征集群成员的不确定性。通过代表每个对象的群集成员的质量函数,提出了由所需群集的功率组组成的组件组成的证据高斯混合物分布来对整个数据集进行建模。 EGMM中的参数通过特殊设计的预期最大化(EM)算法估算。还提供了允许自动确定正确数量簇的有效性指数。所提出的EGMM与经典GMM一样简单,但可以为所考虑的数据集生成更有信息的证据分区。合成和真实数据集实验表明,所提出的EGMM的性能比其他代表性聚类算法更好。此外,通过应用多模式脑图像分割的应用也证明了其优势。
translated by 谷歌翻译
内部群集有效性度量(例如Calinski-Harabasz,Dunn或Davies-Bouldin指数)经常用于选择适当数量的分区数量,应将数据集分为二。在本文中,我们考虑如果将这些索引视为无监督学习活动中的客观功能会发生什么。关于轮廓指数的最佳分组是否真的有意义?事实证明,许多群集有效性指数促进了聚类,这些聚类与专家知识相匹配。我们还引入了邓恩指数的一个新的,表现出色的变体,该变体是建立在OWA操作员和接近邻居图的基础上的,因此,无论其形状如何,都可以更好地相互分离。
translated by 谷歌翻译
我们解决了基于标签数据集基准群集技术的可靠性。外部聚类验证中的标准方案是基于每个类形成一个单一的,明显分离的群集的假设,将类标签用作地面真实群集。但是,由于这种集群标签匹配(CLM)的假设经常破坏,因此缺乏对基准数据集CLM的理智检查对外部验证的有效性产生怀疑。尽管如此,评估CLM的程度还是具有挑战性的。例如,内部聚类验证措施可用于量化同一数据集中的CLM以评估其不同的聚类,但并非旨在比较不同数据集的聚类。在这项工作中,我们提出了一种原则性的方法来生成数据集中的内部度量,以使CLM在数据集中进行比较。我们首先确定了数据集内措施之间的四个公理,并补充了Ackerman和Ben-David的数据库内公理。然后,我们提出了概括内部措施以实现这些新公理的过程,并使用它们扩展了广泛使用的Calinski-Harabasz索引,以进行数据库CLM之间的评估。通过定量实验,我们(1)验证了概括过程的有效性和必要性,(2)表明,所提出的数据与calinski-Harabasz索引索引准确地评估了整个数据集的CLM。最后,我们证明了在进行外部验证之前评估基准数据集的CLM的重要性。
translated by 谷歌翻译
群集分析需要许多决定:聚类方法和隐含的参考模型,群集数,通常,几个超参数和算法调整。在实践中,一个分区产生多个分区,基于验证或选择标准选择最终的分区。存在丰富的验证方法,即隐式或明确地假设某个聚类概念。此外,它们通常仅限于从特定方法获得的分区上操作。在本文中,我们专注于可以通过二次或线性边界分开的群体。参考集群概念通过二次判别符号函数和描述集群大小,中心和分散的参数定义。我们开发了两个名为二次分数的群集质量标准。我们表明这些标准与从一般类椭圆对称分布产生的组一致。对这种类型的组追求在应用程序中是常见的。研究了与混合模型和模型的聚类的似然理论的连接。基于Bootstrap重新采样的二次分数,我们提出了一个选择规则,允许在许多聚类解决方案中选择。所提出的方法具有独特的优点,即它可以比较不能与其他最先进的方法进行比较的分区。广泛的数值实验和实际数据的分析表明,即使某些竞争方法在某些设置中出现优越,所提出的方法也实现了更好的整体性能。
translated by 谷歌翻译
没有,也不会有单一的最佳聚类算法,但是我们仍然希望能够确定那些在某些任务类型上表现出色并过滤掉系统令人失望的人。传统上,使用内部或外部有效性度量评估聚类算法。内部度量量化了所获得的分区的不同方面,例如簇紧凑性或点可分离性的平均程度。然而,他们的有效性是值得怀疑的,因为他们促进的聚类有时可能毫无意义。另一方面,外部措施将算法的输出与专家提供的基础真相分组进行了比较。常规的经典分区相似性分数,例如归一化的互信息,福克斯 - 马洛或调整后的兰德指数,可能没有所有期望的特性,例如,它们无法正确识别病理边缘病例。此外,它们不能很好地解释:很难说出0.8的分数。它的行为也可能随着真实簇的数量的变化而有所不同。这使得在许多基准数据集中比较聚类算法变得困难。为了解决这个问题,我们提出并分析了一种新措施:最佳设置匹配精度的不对称版本。它可以纠正机会和集群大小的不平衡性。
translated by 谷歌翻译
智能流量系统的进步(其)通过自动数据收集提供了大量的交通数据。该数据的大部分存储为移动车辆和道路用户的轨迹。通过最小的人类监督对该数据的自动分析将降低成本并消除分析的主观性。轨迹群集是一个无人监督的任务。在本文中,我们使用来自七个交叉点的轨迹数据进行相似度测量,聚类算法和评估措施的全面比较。我们还提出了一种基于其原点和目的地自动生成轨迹参考集群的方法,以用于基于标签的评估措施。因此,整个过程在聚类和评估水平中仍然无监督。最后,我们使用评估措施的组合来找到每个交叉点的最高执行相似度测量和聚类算法。结果表明,没有单一的距离和聚类算法组合,始终是前十个聚类设置中的距离和聚类算法。
translated by 谷歌翻译
已经开发了各种方法来结合多组结果的推理,以在集合和共识聚类文献中进行无监督的聚类。从几个候选聚类模型中的一个“最佳”模型报告结果的方法通常忽略了由模型选择产生的不确定性,并且导致对所选择的特定模型和参数敏感的推论,以及制作的假设,尤其是在小样本中所做的假设。尺寸或小簇尺寸。贝叶斯模型平均(BMA)是一种在多种模型中结合结果的流行方法,这些模型在这种情况下提供了一些有吸引力的好处,包括对组合集群结构的概率解释和基于模型的不确定性的量化。在这项工作中,我们介绍了ClusterBMA,该方法可以通过多种无监督聚类算法进行加权模型平均。我们将聚类内部验证标准的组合用作后验模型概率的新近似值,以加权每个模型的结果。从代表跨模型的聚类溶液的加权平均值的组合后相似性矩阵,我们应用对称的单纯形矩阵分解来计算最终的概率群集分配。此方法在随附的R软件包中实现。我们通过案例研究探索这种方法的性能,该案例研究旨在根据脑电图(EEG)数据识别个体的概率簇。我们还使用仿真数据集探索所提出的技术识别稳健的集成簇具有不同级别的集成簇,并在子组之间的分离水平变化,并且模型之间的簇数量变化。
translated by 谷歌翻译
分层群集的主要挑战之一是如何适当地识别群集树较低级别的代表点,这些点将被用作群集树的较高级别的根源以进行进一步的聚合。然而,传统的分层聚类方法采用了一些简单的技巧来选择可能不像代表的“代表”点。因此,构造的簇树在其稳健性和可靠性较弱的方面不太吸引。针对这个问题,我们提出了一种新的分层聚类算法,其中,在构建聚类树形图的同时,我们可以有效地检测基于对每个子最小跨越树中的互易读数的互动最近数据点进行评分的代表点。 UCI数据集的广泛实验表明,所提出的算法比其他基准更准确。同时,在我们的分析下,所提出的算法具有O(nlogn)时间复杂度和O(logn)空间复杂度,表明它具有在处理具有更少时间和存储消​​耗的大规模数据方面具有可扩展性。
translated by 谷歌翻译
We review clustering as an analysis tool and the underlying concepts from an introductory perspective. What is clustering and how can clusterings be realised programmatically? How can data be represented and prepared for a clustering task? And how can clustering results be validated? Connectivity-based versus prototype-based approaches are reflected in the context of several popular methods: single-linkage, spectral embedding, k-means, and Gaussian mixtures are discussed as well as the density-based protocols (H)DBSCAN, Jarvis-Patrick, CommonNN, and density-peaks.
translated by 谷歌翻译
在进化多目标聚类方法(EMOC)中,已将各种聚类标准应用于目标函数。但是,大多数EMOC并未提供有关目标功能的选择和使用的详细分析。旨在支持eMOC中目标的更好的选择和定义,本文提出了通过检查搜索方向及其在寻找最佳结果的潜力来分析进化优化中聚类标准的可采性的分析。结果,我们证明了目标函数的可接受性如何影响优化。此外,我们还提供有关eMOC中聚类标准的组合和使用的见解。
translated by 谷歌翻译
无监督的离散化是许多知识发现任务中的关键步骤。使用最小描述长度(MDL)原理局部自适应直方图的一维数据的最先进方法,但研究多维情况的研究要少得多:当前方法一次考虑一个尺寸(如果不是独立的),这导致基于自适应大小的矩形细胞的离散化。不幸的是,这种方法无法充分表征维度之间的依赖性和/或结果,包括由更多的单元(或垃圾箱)组成的离散化。为了解决这个问题,我们提出了一个表达模型类,该类别允许对二维数据进行更灵活的分区。我们扩展了一维情况的艺术状态,以基于归一化最大似然的形式获得模型选择问题。由于我们的模型类的灵活性是以巨大的搜索空间为代价的,因此我们引入了一种名为Palm的启发式算法,该算法将每个维度交替划分,然后使用MDL原理合并相邻区域。合成数据的实验表明,棕榈1)准确地揭示了模型类(即搜索空间)内的地面真相分区,给定的样本量足够大; 2)近似模型类外的各种分区; 3)收敛,与最先进的多元离散方法IPD相比。最后,我们将算法应用于三个空间数据集,我们证明,与内核密度估计(KDE)相比,我们的算法不仅揭示了更详细的密度变化,而且还可以更好地拟合看不见的数据,如日志流利性。
translated by 谷歌翻译
可以通过在各种基准问题上运行聚类算法的评估,并将其输出与专家提供的参考,地面真实分组进行比较。不幸的是,许多研究论文和研究生论文仅考虑少数数据集。同样,很少有这样的事实,即可以考虑许多同样有效的方法来集中给定的问题集。为了克服这些局限性,我们开发了一个框架,其目的是引入一致的方法来测试聚类算法。此外,我们已经在整个机器学习和数据挖掘文献中汇总,抛光和标准化了许多聚集基准电池,其中包括不同维度,尺寸和群集类型的新数据集。交互式数据集资源管理器,Python API的文档,对与其他编程语言(例如R或MATLAB)互动的方式的描述,以及其他详细信息,以及其他详细信息,都在https://clustering-benchmarks.gagolewski.com上提供。
translated by 谷歌翻译
通过物理群体概念的启发,提出了一种称为语义质量(SCOM)的延伸,并用于发现文档的抽象“主题”。该概念在一个名为Mep Map监督主题模型(UM-S-TM)的框架模型下。UM-S-TM的设计目标是让文档内容和语义网络 - 具体地,了解地图 - 在解释文档的含义时发挥作用。根据不同的理由,设计了三种可能的方法来发现文档的SCOM。进行了一些关于人工文件和理解地图的实验以测试其结果。此外,测试了其传感器和捕获顺序信息的矢量化能力。我们还将UM-S-TM与潜在的Dirichlet分配(LDA)和概率潜在语义分析(PLSA)等概率主题模型进行了比较了概率主题模型。
translated by 谷歌翻译
本文提出了一种聚类技术,该技术通过学习和聚类数据分布,然后将数据分配给其分布的群集,并在此过程中降低噪声对群集结果的影响,从而降低了数据噪声的易感性。此方法涉及在分布之间引入新的距离,即期望距离(表示,编辑),它超出了最佳质量运输的最新分配距离(表示为$ W_2 $,价格为$ 2 $ -WASSERSTEIN):后者本质上仅取决于边际分布,而前者还采用了有关联合分布的信息。使用ED,该论文将经典的$ K $ -MEANS和$ K $ -MEDOIDS聚集到数据分布(而不是原始数据),并使用$ W_2 $引入$ K $ -MEDOIDS。本文还介绍了不确定性为高斯时的情况的ED距离度量的闭合表达式。还提出了拟议的ED的实现结果以及$ W_2 $距离的距离量度,用于集群现实世界中的天气数据,其中涉及以均值和方差的形式有效提取和使用潜在的不确定性信息(例如,这足以满足表征高斯分布)。结果表明,与原始数据的经典聚类相对于经典聚类的表现有惊人的性能,并且ED实现了更高的精度。这是因为虽然$ w_2 $仅采用边际分布忽略了相关性,但拟议的ED还使用将相关性考虑到距离度量的联合分布。
translated by 谷歌翻译
We present a novel clustering algorithm, visClust, that is based on lower dimensional data representations and visual interpretation. Thereto, we design a transformation that allows the data to be represented by a binary integer array enabling the further use of image processing methods to select a partition. Qualitative and quantitative analyses show that the algorithm obtains high accuracy (measured with an adjusted one-sided Rand-Index) and requires low runtime and RAM. We compare the results to 6 state-of-the-art algorithms, confirming the quality of visClust by outperforming in most experiments. Moreover, the algorithm asks for just one obligatory input parameter while allowing optimization via optional parameters. The code is made available on GitHub.
translated by 谷歌翻译
聚类分析是机器学习中的关键任务之一。传统上,聚类一直是一项独立的任务,与异常检测分开。由于离群值可以大大侵蚀聚类的性能,因此,少数算法尝试在聚类过程中掺入离群值检测。但是,大多数这些算法基于基于无监督的分区算法,例如K-均值。鉴于这些算法的性质,它们通常无法处理复杂的非凸形簇。为了应对这一挑战,我们提出了SSDBCODI,这是一种半监督密度的算法。 SSDBCODI结合了基于密度的算法的优势,这些算法能够处理复杂形状的簇,以及半监督元素,该元素具有灵活性,可以根据一些用户标签调整聚类结果。我们还将离群检测组件与聚类过程合并。根据过程中产生的三个分数检测到潜在离群值:(1)达到性得分,该得分衡量了一个点的密度可至关重要是对标记的正常物体的测量值,(2)局部密度得分,该局部密度得分,它测量了相邻密度的密度数据对象和(3)相似性得分,该分数测量了一个点与其最近标记的异常值的接近度。然后,在下一步中,在用于训练分类器以进一步群集和离群值检测之前,基于这三个分数为每个数据实例生成实例权重。为了增强对拟议算法的理解,为了进行评估,我们已经针对多个数据集上的某些最新方法运行了拟议的算法,并分别列出了除聚类外检测的结果。我们的结果表明,我们的算法可以通过少量标签获得优异的结果。
translated by 谷歌翻译
群集集群或共识群集已成为一种强大的工具,用于提高各种聚类方法的鲁棒性和结果的稳定性。加权聚类集群自然地从集群集群中产生。加权群集集合的参数之一是聚类集群中的元素(群集或集群)具有不同的质量,或者对象或特征具有不同意义的重要性。但是,不可能直接将加权机制从分类(监督)域中应用于群集(无监督)域,因为群集本质上是一个不存在的问题。本文通过讨论不同类型的权重,确定重量值的主要方法以及将加权聚类集合与复杂数据的应用程序的主要方法概述了加权集群集群集合概述。本文提出的统一框架将有助于聚类从业者为自己的问题选择最合适的加权机制。
translated by 谷歌翻译