本文提出了一种基于凸集集(POC)方法的投影(POC)方法的新型聚类技术,称为基于POCS的聚类算法。提出的基于POCS的聚类算法利用POC的并行投影方法在特征空间中找到适当的簇原型。该算法将每个数据点视为凸集,并将群集原型投射到成员数据点。将投影结合在一起,以最大程度地减少目标群集目的的目标函数。通过对各种合成数据集的实验来验证所提出的基于POCS的聚类算法的性能。实验结果表明,与其他常规聚类方法(包括模糊C-Means(FCM)和K-Means群集聚类算法)相比,提出的基于POCS的聚类算法在聚类误差和执行速度方面具有竞争力和有效性。
translated by 谷歌翻译
The $k$-means algorithm is a very prevalent clustering method because of its simplicity, effectiveness, and speed, but its main disadvantage is its high sensitivity to the initial positions of the cluster centers. The global $k$-means is a deterministic algorithm proposed to tackle the random initialization problem of k-means but requires high computational cost. It partitions the data to $K$ clusters by solving all $k$-means sub-problems incrementally for $k=1,\ldots, K$. For each $k$ cluster problem, the method executes the $k$-means algorithm $N$ times, where $N$ is the number of data points. In this paper, we propose the global $k$-means$++$ clustering algorithm, which is an effective way of acquiring quality clustering solutions akin to those of global $k$-means with a reduced computational load. This is achieved by exploiting the center section probability that is used in the effective $k$-means$++$ algorithm. The proposed method has been tested and compared in various well-known real and synthetic datasets yielding very satisfactory results in terms of clustering quality and execution speed.
translated by 谷歌翻译
由于传感器,社交媒体等,过去几十年来,数据流的分析已经受到相当大的关注。它旨在识别无序,无限和不断发展的观察流中的模式。聚类此类数据需要一些时间和内存的限制。本文介绍了一种新的数据流群集方法(IMOC流)。与其他聚类算法不同,这种方法使用两个不同的目标函数来捕获数据的不同方面。 IMOC流的目标是:1)通过使用空闲时间来减少计算时间以应用遗传操作并增强解决方案。 2)通过引入新的树概要来减少内存分配。 3)通过使用多目标框架查找任意形状的群集。我们对高维流数据集进行了实验研究,并将其与众所周知的流聚类技术进行了比较。实验表明我们的方法在优化时间和内存的同时在任意形状,紧凑且分开的群集中分区数据流的能力。我们的方法在NMI和Arand测量方面也表现出大部分流算法。
translated by 谷歌翻译
聚类数据是无监督的机器学习领域的流行功能。大多数算法旨在找到提取一致数据簇的最佳方法,但其中很少有打算聚集在两个或更多功能之间共享相同相交的数据。本文提出了一种方法。这种新颖方法的主要思想是使用模糊C均值(FCM)算法生成模糊的数据簇。第二部分涉及应用一个选择最低和最大成员价值范围的过滤器,从而强调边框数据。 {\ mu}参数定义了此范围的幅度。它最终使用FCM生成的成员价值应用K均值算法。自然,具有相似会员价值的数据将在新的脆皮集群中重新组合。该算法还能够根据Silhouette索引(SI)给出的簇的一致性找到FCM和K-均值算法的最佳簇数。结果是一个数据和簇的列表,该列表重组数据共享相同的交叉点,与两个或更多功能相交。 CK均值允许提取自然而然地属于同一群集而是在两个或更多簇的相交的非常相似的数据。该算法也总是发现自己是簇的最佳数量。
translated by 谷歌翻译
在进化多目标聚类方法(EMOC)中,已将各种聚类标准应用于目标函数。但是,大多数EMOC并未提供有关目标功能的选择和使用的详细分析。旨在支持eMOC中目标的更好的选择和定义,本文提出了通过检查搜索方向及其在寻找最佳结果的潜力来分析进化优化中聚类标准的可采性的分析。结果,我们证明了目标函数的可接受性如何影响优化。此外,我们还提供有关eMOC中聚类标准的组合和使用的见解。
translated by 谷歌翻译
我们使用成本函数的梯度提出了一种基于距离的聚类的通用方法,该梯度可以测量相对于群集分配和聚类中心位置的聚类质量。该方法是迭代两步过程(在群集分配和群集中心更新之间交替),并且适用于广泛的功能,满足了一些温和的假设。提出的方法的主要优点是简单且计算廉价的更新规则。与以前专门针对聚类问题的特定表述的方法不同,我们的方法适用于广泛的成本,包括基于Huber损失的非BREGMAN聚类方法。我们分析了提出的算法的收敛性,并表明它在任意中心初始化下将其收敛到适当定义的固定点的集合。在布雷格曼成本函数的特殊情况下,算法收敛到质心伏罗尼亚分区集,这与先前的工作一致。关于实际数据的数值实验证明了该方法的有效性。
translated by 谷歌翻译
This paper presents an algorithm to solve the Soft k-Means problem globally. Unlike Fuzzy c-Means, Soft k-Means (SkM) has a matrix factorization-type objective and has been shown to have a close relation with the popular probability decomposition-type clustering methods, e.g., Left Stochastic Clustering (LSC). Though some work has been done for solving the Soft k-Means problem, they usually use an alternating minimization scheme or the projected gradient descent method, which cannot guarantee global optimality since the non-convexity of SkM. In this paper, we present a sufficient condition for a feasible solution of Soft k-Means problem to be globally optimal and show the output of the proposed algorithm satisfies it. Moreover, for the Soft k-Means problem, we provide interesting discussions on stability, solutions non-uniqueness, and connection with LSC. Then, a new model, named Minimal Volume Soft k-Means (MVSkM), is proposed to address the solutions non-uniqueness issue. Finally, experimental results support our theoretical results.
translated by 谷歌翻译
FCM和PCM聚类方法都被广泛应用于模式识别和数据聚类。尽管如此,FCM对噪声和PCM偶尔会产生一致的簇。 PFCM是通过组合FCM和PCM的PCM模型的扩展,但这种方法仍然遭受PCM和FCM的弱点。在目前的纸张中,校正了PFCM算法的弱点,并提出了增强的可能性模糊C-MATIOM(EPFCM)聚类算法。 EPFCM仍然对噪音敏感。因此,我们通过利用模糊成员资格和两个fuzzifers $({\ theta} _1,{\ theta} _2 )$的可能性典型。我们的计算结果表明,与文献中的几种最先进的技术相比,拟议方法的优势。最后,实施了所提出的方法,用于分析微阵列基因表达数据。
translated by 谷歌翻译
我们重新审视了Chierichetti等人首先引入的公平聚类问题,该问题要求每个受保护的属性在每个集群中具有近似平等的表示。即,余额财产。现有的公平聚类解决方案要么是不可扩展的,要么无法在聚类目标和公平之间实现最佳权衡。在本文中,我们提出了一种新的公平概念,我们称之为$ tau $ $ $ - fair公平,严格概括了余额财产,并实现了良好的效率与公平折衷。此外,我们表明,简单的基于贪婪的圆形算法有效地实现了这一权衡。在更一般的多价受保护属性的设置下,我们严格地分析了算法的理论特性。我们的实验结果表明,所提出的解决方案的表现优于所有最新算法,即使对于大量簇,也可以很好地工作。
translated by 谷歌翻译
这项工作提出了一种基于形态重建和启发式方法的聚集算法,称为K-Morphological集合(K-MS)。在最坏情况下,K-MS比CPU并行K-均值快,并且可以增强数据集的可视化以及非常不同的聚类。它也比对密度和形状(例如有丝分裂和三升)敏感的类似聚类方法更快。另外,K-MS是确定性的,具有最大簇的内在含义,可以为给定的输入样本和输入参数创建,与K-均值和其他聚类算法不同。换句话说,给定恒定的k,一个结构元素和数据集,k-ms会在不使用随机/伪随机函数的情况下产生K或更少的簇。最后,所提出的算法还提供了一种简单的手段,可以从图像或数据集中删除噪声。
translated by 谷歌翻译
由于其简单性和实用性,密度峰值聚类已成为聚类算法的NOVA。但是,这是一个主要的缺点:由于其高计算复杂性,这是耗时的。在此,开发了稀疏搜索和K-D树的密度峰聚类算法来解决此问题。首先,通过使用k-d树来替换原始的全等级距离矩阵来计算稀疏距离矩阵,以加速局部密度的计算。其次,提出了一种稀疏的搜索策略,以加快与$ k $最近邻居的集合与由数据点组成的集合之间的相互分离的计算。此外,采用了决策值的二阶差异方法来自适应确定群集中心。最后,通过与其他六种最先进的聚类算法进行比较,在具有不同分布特性的数据集上进行实验。事实证明,该算法可以有效地将原始DPC的计算复杂性从$ O(n^2k)$降低到$ O(n(n^{1-1/k}+k))$。特别是对于较大的数据集,效率更加明显地提高。此外,聚类精度也在一定程度上提高了。因此,可以得出结论,新提出的算法的总体性能非常好。
translated by 谷歌翻译
聚类分析是机器学习中的关键任务之一。传统上,聚类一直是一项独立的任务,与异常检测分开。由于离群值可以大大侵蚀聚类的性能,因此,少数算法尝试在聚类过程中掺入离群值检测。但是,大多数这些算法基于基于无监督的分区算法,例如K-均值。鉴于这些算法的性质,它们通常无法处理复杂的非凸形簇。为了应对这一挑战,我们提出了SSDBCODI,这是一种半监督密度的算法。 SSDBCODI结合了基于密度的算法的优势,这些算法能够处理复杂形状的簇,以及半监督元素,该元素具有灵活性,可以根据一些用户标签调整聚类结果。我们还将离群检测组件与聚类过程合并。根据过程中产生的三个分数检测到潜在离群值:(1)达到性得分,该得分衡量了一个点的密度可至关重要是对标记的正常物体的测量值,(2)局部密度得分,该局部密度得分,它测量了相邻密度的密度数据对象和(3)相似性得分,该分数测量了一个点与其最近标记的异常值的接近度。然后,在下一步中,在用于训练分类器以进一步群集和离群值检测之前,基于这三个分数为每个数据实例生成实例权重。为了增强对拟议算法的理解,为了进行评估,我们已经针对多个数据集上的某些最新方法运行了拟议的算法,并分别列出了除聚类外检测的结果。我们的结果表明,我们的算法可以通过少量标签获得优异的结果。
translated by 谷歌翻译
聚类是一个流行的无监督学习工具,通常用于发现较大的人口中的群体,例如客户段或患者亚型。但是,尽管它用作子组发现的工具和描述 - 很少有最先进的算法提供了发现的群集后面的任何理由或描述。我们提出了一种用于可解释聚类的新方法,即群集数据点和构建在被发现的集群周围的多个群体来解释它们。我们的框架允许在多台上进行额外的约束 - 包括确保构建多托的超平面是轴平行的或稀疏,具有整数系数。我们制定通过多拓构造群集作为混合整数非线性程序(MINLP)的问题。要解决我们的配方,我们提出了一种两相方法,我们首先使用交替的最小化初始化群集和多核酸,然后使用坐标下降来提升聚类性能。我们在一套综合和真实的世界聚类问题上基准测试方法,其中我们的算法优于艺术可解释和不可解释的聚类算法的状态。
translated by 谷歌翻译
高斯混合还原(GMR)是通过较低订单近似高阶高斯混合物的问题。它广泛用于隐藏马尔可夫模型中的密度估计,递归跟踪和信念传播。在这项工作中,我们表明GMR可以作为优化问题,最小化两个混合物之间的复合输送分流(CTD)。优化问题可以通过易于实现的大多数 - 最小化(MM)算法来解决。我们表明MM算法在一般条件下收敛。 GMR的一种流行的计算有效方法是基于聚类的迭代算法。然而,这些算法缺乏理论保证它们是否在他们何时收敛或获得一些最佳目标。我们表明,现有的基于聚类的算法是我们MM算法的特殊情况,因此可以建立其理论属性。我们进一步示出了通过在CTD中选择各种成本函数,可以进一步提高基于聚类的算法的性能。进行数值实验以说明我们所提出的延伸的有效性。
translated by 谷歌翻译
We review clustering as an analysis tool and the underlying concepts from an introductory perspective. What is clustering and how can clusterings be realised programmatically? How can data be represented and prepared for a clustering task? And how can clustering results be validated? Connectivity-based versus prototype-based approaches are reflected in the context of several popular methods: single-linkage, spectral embedding, k-means, and Gaussian mixtures are discussed as well as the density-based protocols (H)DBSCAN, Jarvis-Patrick, CommonNN, and density-peaks.
translated by 谷歌翻译
聚类是一种无监督的机器学习方法,其中未标记的元素/对象被分组在一起,旨在构建成熟的群集,以根据其相似性对其元素进行分类。该过程的目的是向研究人员提供有用的帮助,以帮助她/他确定数据中的模式。在处理大型数据库时,如果没有聚类算法的贡献,这种模式可能无法轻易检测到。本文对最广泛使用的聚类方法进行了深入的描述,并伴随着有关合适的参数选择和初始化的有用演示。同时,本文不仅代表了一篇评论,该评论突出了所检查的聚类技术的主要要素,而且强调了这些算法基于3个数据集的聚类效率的比较,从而在对抗性和复杂性中揭示了其现有的弱点和能力,在持续的离散和持续的离散和离散和持续的差异。观察。产生的结果有助于我们根据数据集的大小提取有关检查聚类技术的适当性的宝贵结论。
translated by 谷歌翻译
广泛应用的密度峰聚类(DPC)算法使得直观的群集形成假设假设集群中心通常被具有较低局部密度的数据点包围,远离具有较高局部密度的其他数据点。然而,这种假设遭受一个限制,即在识别具有较低密度的簇时通常有问题,因为它们可以容易地合并到具有更高密度的其他簇中。结果,DPC可能无法识别具有变分密度的簇。为了解决这个问题,我们提出了一种变分浓度峰值聚类(VDPC)算法,该算法旨在系统地和自主地在具有各种类型的密度分布的数据集上执行聚类任务。具体而言,我们首先提出了一种新的方法,以确定所有数据点中的代表,并根据所确定的代表构建初始集群,以进一步分析集群财产。此外,我们根据其本地密度将所有数据点划分为不同的级别,并通过组合DPC和DBSCAN的优点来提出统一的聚类框架。因此,系统地处理跨越不同密度水平跨越不同密度水平的所有识别的初始簇以形成最终簇。为了评估所提出的VDPC算法的有效性,我们使用20个数据集进行广泛的实验,包括八个合成,六个现实世界和六个图像数据集。实验结果表明,VDPC优于两个经典算法(即,DPC和DBSCAN)和四种最先进的扩展DPC算法。
translated by 谷歌翻译
由于机器学习和数据挖掘领域的不平衡数据集的分类问题,但学习的不平衡学习是重要的并且具有挑战性。提出采样方法来解决这个问题,而基于群集的过采样方法表现出很大的潜力,因为它们的目标是同时解决课堂和级别的不平衡问题。但是,所有现有的聚类方法都基于一次性方法。由于缺乏先验知识,通常存在的群集数量不当设置,这导致集群性能不佳。此外,现有方法可能会产生嘈杂的情况。为了解决这些问题,本文提出了一种基于模糊C-MATION(MLFCM)的基于深度外观信封网络的不平衡学习算法,以及基于最大均值(MINMD)的最小中间层间差异机制。在没有先前知识的情况下,该算法可以使用深度实例包络网络来保证高质量的平衡实例。在实验部分中,三十三个流行的公共数据集用于验证,并且超过十个代表性算法用于比较。实验结果表明,该方法显着优于其他流行的方法。
translated by 谷歌翻译
群集集群或共识群集已成为一种强大的工具,用于提高各种聚类方法的鲁棒性和结果的稳定性。加权聚类集群自然地从集群集群中产生。加权群集集合的参数之一是聚类集群中的元素(群集或集群)具有不同的质量,或者对象或特征具有不同意义的重要性。但是,不可能直接将加权机制从分类(监督)域中应用于群集(无监督)域,因为群集本质上是一个不存在的问题。本文通过讨论不同类型的权重,确定重量值的主要方法以及将加权聚类集合与复杂数据的应用程序的主要方法概述了加权集群集群集合概述。本文提出的统一框架将有助于聚类从业者为自己的问题选择最合适的加权机制。
translated by 谷歌翻译
给定数据点之间的一组差异测量值,确定哪种度量表示与输入测量最“一致”或最能捕获数据相关几何特征的度量是许多机器学习算法的关键步骤。现有方法仅限于特定类型的指标或小问题大小,因为在此类问题中有大量的度量约束。在本文中,我们提供了一种活跃的集合算法,即项目和忘记,该算法使用Bregman的预测,以解决许多(可能是指数)不平等约束的度量约束问题。我们提供了\ textsc {project and Hoses}的理论分析,并证明我们的算法会收敛到全局最佳解决方案,并以指数速率渐近地渐近地衰减了当前迭代的$ L_2 $距离。我们证明,使用我们的方法,我们可以解决三种类型的度量约束问题的大型问题实例:一般体重相关聚类,度量近距离和度量学习;在每种情况下,就CPU时间和问题尺寸而言,超越了艺术方法的表现。
translated by 谷歌翻译