Among many clustering algorithms, the K-means clustering algorithm is widely used because of its simple algorithm and fast convergence. However, this algorithm suffers from incomplete data, where some samples have missed some of their attributes. To solve this problem, we mainly apply MM principles to restore the symmetry of the data, so that K-means could work well. We give the pseudo-code of the algorithm and use the standard datasets for experimental verification. The source code for the experiments is publicly available in the following link: \url{https://github.com/AliBeikmohammadi/MM-Optimization/blob/main/mini-project/MM%20K-means.ipynb}.
translated by 谷歌翻译
本文提出了一种聚类技术,该技术通过学习和聚类数据分布,然后将数据分配给其分布的群集,并在此过程中降低噪声对群集结果的影响,从而降低了数据噪声的易感性。此方法涉及在分布之间引入新的距离,即期望距离(表示,编辑),它超出了最佳质量运输的最新分配距离(表示为$ W_2 $,价格为$ 2 $ -WASSERSTEIN):后者本质上仅取决于边际分布,而前者还采用了有关联合分布的信息。使用ED,该论文将经典的$ K $ -MEANS和$ K $ -MEDOIDS聚集到数据分布(而不是原始数据),并使用$ W_2 $引入$ K $ -MEDOIDS。本文还介绍了不确定性为高斯时的情况的ED距离度量的闭合表达式。还提出了拟议的ED的实现结果以及$ W_2 $距离的距离量度,用于集群现实世界中的天气数据,其中涉及以均值和方差的形式有效提取和使用潜在的不确定性信息(例如,这足以满足表征高斯分布)。结果表明,与原始数据的经典聚类相对于经典聚类的表现有惊人的性能,并且ED实现了更高的精度。这是因为虽然$ w_2 $仅采用边际分布忽略了相关性,但拟议的ED还使用将相关性考虑到距离度量的联合分布。
translated by 谷歌翻译
聚类是一种无监督的机器学习方法,其中未标记的元素/对象被分组在一起,旨在构建成熟的群集,以根据其相似性对其元素进行分类。该过程的目的是向研究人员提供有用的帮助,以帮助她/他确定数据中的模式。在处理大型数据库时,如果没有聚类算法的贡献,这种模式可能无法轻易检测到。本文对最广泛使用的聚类方法进行了深入的描述,并伴随着有关合适的参数选择和初始化的有用演示。同时,本文不仅代表了一篇评论,该评论突出了所检查的聚类技术的主要要素,而且强调了这些算法基于3个数据集的聚类效率的比较,从而在对抗性和复杂性中揭示了其现有的弱点和能力,在持续的离散和持续的离散和离散和持续的差异。观察。产生的结果有助于我们根据数据集的大小提取有关检查聚类技术的适当性的宝贵结论。
translated by 谷歌翻译
We review clustering as an analysis tool and the underlying concepts from an introductory perspective. What is clustering and how can clusterings be realised programmatically? How can data be represented and prepared for a clustering task? And how can clustering results be validated? Connectivity-based versus prototype-based approaches are reflected in the context of several popular methods: single-linkage, spectral embedding, k-means, and Gaussian mixtures are discussed as well as the density-based protocols (H)DBSCAN, Jarvis-Patrick, CommonNN, and density-peaks.
translated by 谷歌翻译
We consider a semi-supervised $k$-clustering problem where information is available on whether pairs of objects are in the same or in different clusters. This information is either available with certainty or with a limited level of confidence. We introduce the PCCC algorithm, which iteratively assigns objects to clusters while accounting for the information provided on the pairs of objects. Our algorithm can include relationships as hard constraints that are guaranteed to be satisfied or as soft constraints that can be violated subject to a penalty. This flexibility distinguishes our algorithm from the state-of-the-art in which all pairwise constraints are either considered hard, or all are considered soft. Unlike existing algorithms, our algorithm scales to large-scale instances with up to 60,000 objects, 100 clusters, and millions of cannot-link constraints (which are the most challenging constraints to incorporate). We compare the PCCC algorithm with state-of-the-art approaches in an extensive computational study. Even though the PCCC algorithm is more general than the state-of-the-art approaches in its applicability, it outperforms the state-of-the-art approaches on instances with all hard constraints or all soft constraints both in terms of running time and various metrics of solution quality. The source code of the PCCC algorithm is publicly available on GitHub.
translated by 谷歌翻译
FCM和PCM聚类方法都被广泛应用于模式识别和数据聚类。尽管如此,FCM对噪声和PCM偶尔会产生一致的簇。 PFCM是通过组合FCM和PCM的PCM模型的扩展,但这种方法仍然遭受PCM和FCM的弱点。在目前的纸张中,校正了PFCM算法的弱点,并提出了增强的可能性模糊C-MATIOM(EPFCM)聚类算法。 EPFCM仍然对噪音敏感。因此,我们通过利用模糊成员资格和两个fuzzifers $({\ theta} _1,{\ theta} _2 )$的可能性典型。我们的计算结果表明,与文献中的几种最先进的技术相比,拟议方法的优势。最后,实施了所提出的方法,用于分析微阵列基因表达数据。
translated by 谷歌翻译
最小的平方和群集(MSSC)或K-Means型聚类,传统上被认为是无监督的学习任务。近年来,使用背景知识来提高集群质量,促进聚类过程的可解释性已成为数学优化和机器学习研究的热门研究课题。利用数据群集中的背景信息的问题称为半监督或约束群集。在本文中,我们为半监控MSSC提供了一种新的分支和绑定算法,其中背景知识被包含为成对必须 - 链接和无法链接约束。对于较低的界限,我们解决了MSSC离散优化模型的Semidefinite编程宽松,并使用了用于加强界限的纤维平面程序。相反,通过使用整数编程工具,我们提出了将K-Means算法适应受约束的情况。这是第一次,所提出的全局优化算法有效地管理,以解决现实世界的情况,最高可达800个数据点,具有必要的必须 - 链接和无法链接约束以及通用数量的功能。这个问题大小大约比最先进的精确算法解决的实例大约四倍。
translated by 谷歌翻译
我们使用成本函数的梯度提出了一种基于距离的聚类的通用方法,该梯度可以测量相对于群集分配和聚类中心位置的聚类质量。该方法是迭代两步过程(在群集分配和群集中心更新之间交替),并且适用于广泛的功能,满足了一些温和的假设。提出的方法的主要优点是简单且计算廉价的更新规则。与以前专门针对聚类问题的特定表述的方法不同,我们的方法适用于广泛的成本,包括基于Huber损失的非BREGMAN聚类方法。我们分析了提出的算法的收敛性,并表明它在任意中心初始化下将其收敛到适当定义的固定点的集合。在布雷格曼成本函数的特殊情况下,算法收敛到质心伏罗尼亚分区集,这与先前的工作一致。关于实际数据的数值实验证明了该方法的有效性。
translated by 谷歌翻译
K-Medoids算法是K-均值算法的流行变体,广泛用于模式识别和机器学习。 K-Medoids算法的主要缺点是它可以被困在局部Optima中。最近提出了改进的K-Medoids算法(INCKM)来克服这一缺点,基于使用参数选择过程构建候选Medoid子集,但在处理不平衡数据集时可能会失败。在本文中,我们提出了一种新型的增量K-Medoids算法(INCKPP),该算法通过非参数和随机K-M-M-M-M-M-M-M-M-M-M-M-M-M-M-M-M-MEANS ++搜索程序,将簇数从2动态增加到K的数量。我们的算法可以在改进的K-Medoids算法中克服参数选择问题,改善聚类性能,并很好地处理不平衡数据集。但是我们的算法在计算效率方面具有弱点。为了解决此问题,我们提出了一种快速的Inckpp算法(称为Inckpp $ _ {sample} $),该算法可保留具有改进的聚类性能的简单和快速K-Medoids算法的计算效率。将所提出的算法与三种最新算法进行比较:改进的K-Medoids算法(INCKM),简单和快速的K-Medoids算法(FKM)和K-Means +++算法(KPP)。包括不平衡数据集在内的合成和现实世界数据集的广泛实验说明了所提出的算法的有效性。
translated by 谷歌翻译
The $k$-means algorithm is a very prevalent clustering method because of its simplicity, effectiveness, and speed, but its main disadvantage is its high sensitivity to the initial positions of the cluster centers. The global $k$-means is a deterministic algorithm proposed to tackle the random initialization problem of k-means but requires high computational cost. It partitions the data to $K$ clusters by solving all $k$-means sub-problems incrementally for $k=1,\ldots, K$. For each $k$ cluster problem, the method executes the $k$-means algorithm $N$ times, where $N$ is the number of data points. In this paper, we propose the global $k$-means$++$ clustering algorithm, which is an effective way of acquiring quality clustering solutions akin to those of global $k$-means with a reduced computational load. This is achieved by exploiting the center section probability that is used in the effective $k$-means$++$ algorithm. The proposed method has been tested and compared in various well-known real and synthetic datasets yielding very satisfactory results in terms of clustering quality and execution speed.
translated by 谷歌翻译
聚类结果的评估很困难,高度依赖于评估的数据集和情人的观点。有许多不同的聚类质量度量,试图提供一般度量以验证聚类结果。一个非常流行的措施是轮廓。我们讨论轮廓的有效基于MEDOI的变体,对其性质进行理论分析,并为直接优化提供两个快速版本。我们将原始轮廓中的想法与著名的PAM算法及其最新改进的想法相结合。其中一个版本保证了与原始变体相等的结果,并提供了$ O(k^2)$的运行加速。在有关30000个样品和$ k $ = 100的真实数据实验中,我们观察到10464 $ \ times $速度与原始的Pammedsil算法相比。
translated by 谷歌翻译
Several clustering methods (e.g., Normalized Cut and Ratio Cut) divide the Min Cut cost function by a cluster dependent factor (e.g., the size or the degree of the clusters), in order to yield a more balanced partitioning. We, instead, investigate adding such regularizations to the original cost function. We first consider the case where the regularization term is the sum of the squared size of the clusters, and then generalize it to adaptive regularization of the pairwise similarities. This leads to shifting (adaptively) the pairwise similarities which might make some of them negative. We then study the connection of this method to Correlation Clustering and then propose an efficient local search optimization algorithm with fast theoretical convergence rate to solve the new clustering problem. In the following, we investigate the shift of pairwise similarities on some common clustering methods, and finally, we demonstrate the superior performance of the method by extensive experiments on different datasets.
translated by 谷歌翻译
Quantum computing is a promising paradigm based on quantum theory for performing fast computations. Quantum algorithms are expected to surpass their classical counterparts in terms of computational complexity for certain tasks, including machine learning. In this paper, we design, implement, and evaluate three hybrid quantum k-Means algorithms, exploiting different degree of parallelism. Indeed, each algorithm incrementally leverages quantum parallelism to reduce the complexity of the cluster assignment step up to a constant cost. In particular, we exploit quantum phenomena to speed up the computation of distances. The core idea is that the computation of distances between records and centroids can be executed simultaneously, thus saving time, especially for big datasets. We show that our hybrid quantum k-Means algorithms can be more efficient than the classical version, still obtaining comparable clustering results.
translated by 谷歌翻译
智能流量系统的进步(其)通过自动数据收集提供了大量的交通数据。该数据的大部分存储为移动车辆和道路用户的轨迹。通过最小的人类监督对该数据的自动分析将降低成本并消除分析的主观性。轨迹群集是一个无人监督的任务。在本文中,我们使用来自七个交叉点的轨迹数据进行相似度测量,聚类算法和评估措施的全面比较。我们还提出了一种基于其原点和目的地自动生成轨迹参考集群的方法,以用于基于标签的评估措施。因此,整个过程在聚类和评估水平中仍然无监督。最后,我们使用评估措施的组合来找到每个交叉点的最高执行相似度测量和聚类算法。结果表明,没有单一的距离和聚类算法组合,始终是前十个聚类设置中的距离和聚类算法。
translated by 谷歌翻译
分层群集的主要挑战之一是如何适当地识别群集树较低级别的代表点,这些点将被用作群集树的较高级别的根源以进行进一步的聚合。然而,传统的分层聚类方法采用了一些简单的技巧来选择可能不像代表的“代表”点。因此,构造的簇树在其稳健性和可靠性较弱的方面不太吸引。针对这个问题,我们提出了一种新的分层聚类算法,其中,在构建聚类树形图的同时,我们可以有效地检测基于对每个子最小跨越树中的互易读数的互动最近数据点进行评分的代表点。 UCI数据集的广泛实验表明,所提出的算法比其他基准更准确。同时,在我们的分析下,所提出的算法具有O(nlogn)时间复杂度和O(logn)空间复杂度,表明它具有在处理具有更少时间和存储消​​耗的大规模数据方面具有可扩展性。
translated by 谷歌翻译
聚类尝试将数据实例分为几个独特的组,而属于共同分区的数据之间的相似性可以保留。此外,在许多Realworld应用中经常发生不完整数据,并对模式分析产生不良影响。结果,开发了数据插补和处理的特定解决方案是为了进行数据的缺失值,而知识开发的独立阶段被吸收以了解信息理解。在这项工作中,提出了一种新颖的方法,用于群集的不完整数据(称为可浸出的成分聚类)。所提出的方法不是现有方法,而是处理贝叶斯对齐的数据插补,并收集理论中的丢失模式。由于方程式的简单数字计算,在保持计算效率的同时,提出的方法可以学习优化分区。几个人工不完整数据集的实验表明,与其他最先进的算法相比,所提出的方法能够呈现出色的性能。
translated by 谷歌翻译
我们考虑了一种新的聚类问题,其中簇不必彼此独立,而是可以与其他簇有组成关系(例如,数据集包含矩形,圆形图像和两者图像的图像)。这项任务是由最新的作品进行的几个工作和嵌入模型的动机,这些模型被优化,以区分分配给示例的标签集,而不仅仅是各个标签。为了解决这个聚类问题,我们提出了三种新算法:组成亲和力传播(CAP),组成K-均值(CKM)和贪婪的成分重新分配(GCR)。这些新方法都可以将示例均分为一致组,并自动推断组之间的组成结构。与流行的算法(例如高斯混合物,模糊的C均值和聚集聚类)相比,我们显示出令人鼓舞的结果,这些算法在Omniglot和Librispeech数据集上被广泛用于几次学习研究。我们的工作具有开放世界的多对象图像识别和扬声器诊断的应用,并同时发表了来自多个演讲者的语音。
translated by 谷歌翻译
通过快速搜索并发现密度峰(DPC)(自2014年以来)的聚类已被证明是一种有希望的聚类方法,可以通过找到密度峰来有效地发现簇中心。 DPC的准确性取决于截止距离($ d_c $),群集号($ K $)和簇中心的选择。此外,最终分配策略是敏感的,容错的容量差。上面的缺点使该算法对参数敏感,仅适用于某些特定数据集。为了克服DPC的局限性,本文提出了基于天然最近邻域(DPC-PPPNNN)的密度峰值聚类的概率传播算法的提高。通过引入自然邻域和概率传播的想法,DPC-PPNNN实现了非参数聚类过程,并使该算法适用于更复杂的数据集。在几个数据集的实验中,DPC-PPNNN显示出优于DPC,K-均值和DBSCAN的表现。
translated by 谷歌翻译
由于其简单性和实用性,密度峰值聚类已成为聚类算法的NOVA。但是,这是一个主要的缺点:由于其高计算复杂性,这是耗时的。在此,开发了稀疏搜索和K-D树的密度峰聚类算法来解决此问题。首先,通过使用k-d树来替换原始的全等级距离矩阵来计算稀疏距离矩阵,以加速局部密度的计算。其次,提出了一种稀疏的搜索策略,以加快与$ k $最近邻居的集合与由数据点组成的集合之间的相互分离的计算。此外,采用了决策值的二阶差异方法来自适应确定群集中心。最后,通过与其他六种最先进的聚类算法进行比较,在具有不同分布特性的数据集上进行实验。事实证明,该算法可以有效地将原始DPC的计算复杂性从$ O(n^2k)$降低到$ O(n(n^{1-1/k}+k))$。特别是对于较大的数据集,效率更加明显地提高。此外,聚类精度也在一定程度上提高了。因此,可以得出结论,新提出的算法的总体性能非常好。
translated by 谷歌翻译
本报告探讨了机器学习技术在短时间内基因表达数据中的应用。虽然标准机器学习算法在更长的时间系列中工作良好,但它们通常无法从更少的时间点中找到有意义的见解。在本报告中,我们探索基于模型的群集技术。我们将流行无监督的学习技术相结合,如K-means,高斯混合模型,贝叶斯网络,隐藏的马尔可夫模型,具有众所周知的期望最大化算法。K-means和高斯混合模型是相当标准的,而隐藏的马尔可夫模型和贝叶斯网络聚类是更加新颖的想法,适合时间序列基因表达数据。
translated by 谷歌翻译