FCM和PCM聚类方法都被广泛应用于模式识别和数据聚类。尽管如此,FCM对噪声和PCM偶尔会产生一致的簇。 PFCM是通过组合FCM和PCM的PCM模型的扩展,但这种方法仍然遭受PCM和FCM的弱点。在目前的纸张中,校正了PFCM算法的弱点,并提出了增强的可能性模糊C-MATIOM(EPFCM)聚类算法。 EPFCM仍然对噪音敏感。因此,我们通过利用模糊成员资格和两个fuzzifers $({\ theta} _1,{\ theta} _2 )$的可能性典型。我们的计算结果表明,与文献中的几种最先进的技术相比,拟议方法的优势。最后,实施了所提出的方法,用于分析微阵列基因表达数据。
translated by 谷歌翻译
群集广泛用于文本分析,自然语言处理,图像分割和其他数据挖掘字段。作为一个有前途的聚类算法,通过允许对象属于几个类别的若干类来提供对数据的更深层次的识别,这延长了硬,模糊和可能性聚类。但是,由于需要估计比其他基于经典分区的算法更多的参数,因此当可用数据充足并且质量良好时,它才能很好地运行。为了克服这些缺点,本文通过引入转移学习策略来提出转移证据C-Mean(TECM)算法。 TECM的目标函数是通过基于ECM的目标函数在源域中引入源域中的重心而获得的目标函数,并且使用迭代优化策略来解决客观函数。另外,TECM可以适应源域和目标域中的簇数不同的情况。所提出的算法已在合成和现实世界数据集上验证。实验结果证明了与原始ECM的TECM的有效性以及其他代表多任务或转移聚类算法。
translated by 谷歌翻译
最小的平方和群集(MSSC)或K-Means型聚类,传统上被认为是无监督的学习任务。近年来,使用背景知识来提高集群质量,促进聚类过程的可解释性已成为数学优化和机器学习研究的热门研究课题。利用数据群集中的背景信息的问题称为半监督或约束群集。在本文中,我们为半监控MSSC提供了一种新的分支和绑定算法,其中背景知识被包含为成对必须 - 链接和无法链接约束。对于较低的界限,我们解决了MSSC离散优化模型的Semidefinite编程宽松,并使用了用于加强界限的纤维平面程序。相反,通过使用整数编程工具,我们提出了将K-Means算法适应受约束的情况。这是第一次,所提出的全局优化算法有效地管理,以解决现实世界的情况,最高可达800个数据点,具有必要的必须 - 链接和无法链接约束以及通用数量的功能。这个问题大小大约比最先进的精确算法解决的实例大约四倍。
translated by 谷歌翻译
高斯混合物模型(GMM)提供了一个简单而原则的框架,具有适用于统计推断的属性。在本文中,我们提出了一种新的基于模型的聚类算法,称为EGMM(证据GMM),在信念函数的理论框架中,以更好地表征集群成员的不确定性。通过代表每个对象的群集成员的质量函数,提出了由所需群集的功率组组成的组件组成的证据高斯混合物分布来对整个数据集进行建模。 EGMM中的参数通过特殊设计的预期最大化(EM)算法估算。还提供了允许自动确定正确数量簇的有效性指数。所提出的EGMM与经典GMM一样简单,但可以为所考虑的数据集生成更有信息的证据分区。合成和真实数据集实验表明,所提出的EGMM的性能比其他代表性聚类算法更好。此外,通过应用多模式脑图像分割的应用也证明了其优势。
translated by 谷歌翻译
用于评估聚类结果的各种集群有效性指数。使用这些指数的主要目标之一是寻求最佳的未知数簇。一些索引对于具有不同密度,大小和形状的簇很好。然而,这些有效性指数的共同弱点是它们通常只提供一个最佳数量的簇。在现实世界中,该数字未知,并且可能有多个可能的选择。我们基于一对数据点之间的实际距离与两个点占据的群集的质心距离之间的相关性开发了一个新的群集有效性指数。我们提出的指数不断产生几个局部峰,并克服了先前所述的弱点。在不同方案(包括UCI现实世界数据集)的不同实验中,已经进行了将所提出的有效性指数与几个知名的实验进行比较。与此新索引相关的R软件包可在https://github.com/nwirosri/ncvalid上找到。
translated by 谷歌翻译
模糊或柔软$ k $ -means目标是众所周知的$ k $ -means问题的流行泛化,将$ k $ -means扩展到不确定,模糊和否则难以群集的数据集的聚类能力。在本文中,我们提出了一个半监督的主动聚类框架,其中允许学习者与Oracle(域专家)进行交互,询问一组所选项目之间的相似性。我们研究了本框架中的聚类查询和计算复杂性。我们证明具有一些这样的相似性查询使得一个人能够将多项式时间近似算法获得到另外的辅助NP难题。特别是,我们提供了在此设置中的模糊聚类的算法,该算法询问$ O(\ mathsf {poly}(k)\ log n)$相似查询并使用多项式 - 时间复杂度运行,其中$ n $是项目的数量。模糊$ k $ -means目标是非渗透,$ k $ -means作为一个特殊情况,相当于一些其他通用非核解问题,如非负矩阵分解。普遍存在的LLOYD型算法(或交替的最小化算法)可以以局部最小粘在一起。我们的结果表明,通过制作一些相似性查询,问题变得更加易于解决。最后,我们通过现实世界数据集测试我们的算法,展示了其在现实世界应用中的有效性。
translated by 谷歌翻译
We consider a semi-supervised $k$-clustering problem where information is available on whether pairs of objects are in the same or in different clusters. This information is either available with certainty or with a limited level of confidence. We introduce the PCCC algorithm, which iteratively assigns objects to clusters while accounting for the information provided on the pairs of objects. Our algorithm can include relationships as hard constraints that are guaranteed to be satisfied or as soft constraints that can be violated subject to a penalty. This flexibility distinguishes our algorithm from the state-of-the-art in which all pairwise constraints are either considered hard, or all are considered soft. Unlike existing algorithms, our algorithm scales to large-scale instances with up to 60,000 objects, 100 clusters, and millions of cannot-link constraints (which are the most challenging constraints to incorporate). We compare the PCCC algorithm with state-of-the-art approaches in an extensive computational study. Even though the PCCC algorithm is more general than the state-of-the-art approaches in its applicability, it outperforms the state-of-the-art approaches on instances with all hard constraints or all soft constraints both in terms of running time and various metrics of solution quality. The source code of the PCCC algorithm is publicly available on GitHub.
translated by 谷歌翻译
分层群集的主要挑战之一是如何适当地识别群集树较低级别的代表点,这些点将被用作群集树的较高级别的根源以进行进一步的聚合。然而,传统的分层聚类方法采用了一些简单的技巧来选择可能不像代表的“代表”点。因此,构造的簇树在其稳健性和可靠性较弱的方面不太吸引。针对这个问题,我们提出了一种新的分层聚类算法,其中,在构建聚类树形图的同时,我们可以有效地检测基于对每个子最小跨越树中的互易读数的互动最近数据点进行评分的代表点。 UCI数据集的广泛实验表明,所提出的算法比其他基准更准确。同时,在我们的分析下,所提出的算法具有O(nlogn)时间复杂度和O(logn)空间复杂度,表明它具有在处理具有更少时间和存储消​​耗的大规模数据方面具有可扩展性。
translated by 谷歌翻译
我们讨论集群分析的拓扑方面,并表明在聚类之前推断数据集的拓扑结构可以大大增强群集检测:理论论证和经验证据表明,聚类嵌入向量,代表数据歧管的结构,而不是观察到的特征矢量他们自己是非常有益的。为了证明,我们将流形学习方法与基于密度的聚类方法DBSCAN结合了歧管学习方法UMAP。合成和真实数据结果表明,这既简化和改善了多种低维问题,包括密度变化和/或纠缠形状的群集。我们的方法简化了聚类,因为拓扑预处理始终降低DBSCAN的参数灵敏度。然后,用dbscan聚类所得的嵌入可以超过诸如spectacl和clustergan之类的复杂方法。最后,我们的调查表明,聚类中的关键问题似乎不是数据的标称维度或其中包含多少不相关的功能,而是\ textIt {可分离}群集在环境观察空间中的\ textit {可分离},它们嵌入了它们中。 ,通常是数据特征定义的(高维)欧几里得空间。我们的方法之所以成功,是因为我们将数据投影到更合适的空间后,从某种意义上说,我们执行了群集分析。
translated by 谷歌翻译
在时间序列预测的各种软计算方法中,模糊认知地图(FCM)已经显示出显着的结果作为模拟和分析复杂系统动态的工具。 FCM具有与经常性神经网络的相似之处,可以被分类为神经模糊方法。换句话说,FCMS是模糊逻辑,神经网络和专家系统方面的混合,它作为模拟和研究复杂系统的动态行为的强大工具。最有趣的特征是知识解释性,动态特征和学习能力。本调查纸的目标主要是在文献中提出的最相关和最近的基于FCCM的时间序列预测模型概述。此外,本文认为介绍FCM模型和学习方法的基础。此外,该调查提供了一些旨在提高FCM的能力的一些想法,以便在处理非稳定性数据和可扩展性问题等现实实验中涵盖一些挑战。此外,具有快速学习算法的FCMS是该领域的主要问题之一。
translated by 谷歌翻译
本文介绍了一种能够构建具有自适应形状的不可分离模糊规则的新间隔-2模糊神经网络。为了反映不确定性,模糊集的形状被认为是不确定的。因此,提出了一种基于能够构造不同形状(包括三角形,钟形,梯形)的通用高斯模型的新形式的间隔类型-2模糊组。要考虑输入变量之间的相互作用,输入向量将转换为新的特征空间,具有用于定义每个模糊规则的不相关变量。接下来,使用具有自适应形状的所提出的间隔类型-2模糊组来馈送到模糊化层。因此,考虑变量和不确定性的局部相互作用,因此形成具有适当形状的间隔类型-2不可分离的模糊规则。对于缩短的缩小,每个模糊规则的上部和下射击强度的贡献自适应地单独选择。为了培训网络的不同参数,利用Levenberg-Marquadt优化方法。在清洁和嘈杂的数据集上调查了所提出的方法的性能,以表明考虑不确定性的能力。此外,所提出的范式,成功地应用于现实世界的时间序列预测,回归问题和非线性系统识别。根据实验结果,我们提出的模型的性能优于具有更加规模的结构的其他方法。
translated by 谷歌翻译
聚类数据是无监督的机器学习领域的流行功能。大多数算法旨在找到提取一致数据簇的最佳方法,但其中很少有打算聚集在两个或更多功能之间共享相同相交的数据。本文提出了一种方法。这种新颖方法的主要思想是使用模糊C均值(FCM)算法生成模糊的数据簇。第二部分涉及应用一个选择最低和最大成员价值范围的过滤器,从而强调边框数据。 {\ mu}参数定义了此范围的幅度。它最终使用FCM生成的成员价值应用K均值算法。自然,具有相似会员价值的数据将在新的脆皮集群中重新组合。该算法还能够根据Silhouette索引(SI)给出的簇的一致性找到FCM和K-均值算法的最佳簇数。结果是一个数据和簇的列表,该列表重组数据共享相同的交叉点,与两个或更多功能相交。 CK均值允许提取自然而然地属于同一群集而是在两个或更多簇的相交的非常相似的数据。该算法也总是发现自己是簇的最佳数量。
translated by 谷歌翻译
我们提出了一种使用平滑数值方法来构建大型数据集的模糊簇的新方法。通常会放宽方面的标准,因此在连续的空间上进行了良好的模糊分区的搜索,而不是像经典方法\ cite {hartigan}那样的组合空间。平滑性可以通过使用无限类别的可区分函数,从强烈的非差异问题转换为优化的可区别子问题。为了实现算法,我们使用了统计软件$ r $,并将获得的结果与Bezdek提出的传统模糊$ C $ - 表示方法进行了比较。
translated by 谷歌翻译
驾驶方式总结了反映车辆运动的不同驾驶行为。这些行为可能表明倾向于执行更风险的操作,消耗更多的燃料或能源,打破交通规则或仔细驾驶。因此,本文使用Interval-2类型模糊推理系统提出了驾驶风格的识别,并具有多个专家决策,以将驾驶员分类为平静,中等和激进。该系统接收到输入具有车辆运动的纵向和侧向运动参数。处理噪声数据时,类型2模糊集比Type-1模糊集更强大,因为它们的成员资格功能也是模糊集。此外,在构建模糊的规则基础时,多种专家方法可以减少偏见和不精确,该模糊规则基金会存储模糊系统的知识。使用描述性统计分析评估了所提出的方法,并将其与聚类算法和1型模糊推理系统进行了比较。结果表明,与其他算法相比,与2型模糊推理系统分类的驾驶方式相关的较低运动学概况的趋势与其他算法相比,这与专家意见的汇总采用了更保守的方法。
translated by 谷歌翻译
We review clustering as an analysis tool and the underlying concepts from an introductory perspective. What is clustering and how can clusterings be realised programmatically? How can data be represented and prepared for a clustering task? And how can clustering results be validated? Connectivity-based versus prototype-based approaches are reflected in the context of several popular methods: single-linkage, spectral embedding, k-means, and Gaussian mixtures are discussed as well as the density-based protocols (H)DBSCAN, Jarvis-Patrick, CommonNN, and density-peaks.
translated by 谷歌翻译
K-Medoids算法是K-均值算法的流行变体,广泛用于模式识别和机器学习。 K-Medoids算法的主要缺点是它可以被困在局部Optima中。最近提出了改进的K-Medoids算法(INCKM)来克服这一缺点,基于使用参数选择过程构建候选Medoid子集,但在处理不平衡数据集时可能会失败。在本文中,我们提出了一种新型的增量K-Medoids算法(INCKPP),该算法通过非参数和随机K-M-M-M-M-M-M-M-M-M-M-M-M-M-M-M-M-MEANS ++搜索程序,将簇数从2动态增加到K的数量。我们的算法可以在改进的K-Medoids算法中克服参数选择问题,改善聚类性能,并很好地处理不平衡数据集。但是我们的算法在计算效率方面具有弱点。为了解决此问题,我们提出了一种快速的Inckpp算法(称为Inckpp $ _ {sample} $),该算法可保留具有改进的聚类性能的简单和快速K-Medoids算法的计算效率。将所提出的算法与三种最新算法进行比较:改进的K-Medoids算法(INCKM),简单和快速的K-Medoids算法(FKM)和K-Means +++算法(KPP)。包括不平衡数据集在内的合成和现实世界数据集的广泛实验说明了所提出的算法的有效性。
translated by 谷歌翻译
非线性维度降低可以通过\纺织{歧管学习}方法来执行,例如随机邻居嵌入(SNE),局部线性嵌入(LLE)和等距特征映射(ISOMAP)。这些方法旨在产生两个或三个潜在嵌入的嵌入,主要用于可视化可理解的表示数据。此稿件提出了学生的T分布式SNE(T-SNE),LLE和ISOMAP的扩展,以实现多维数量和多视图数据的可视化。多视图数据是指从相同样本生成的多种类型的数据。与通过单独可视化所获得的数据,所提出的多视图方法提供了比较通过可视化所获得的多个数据的更可理解的预测。通常可视化用于识别样本内的底层模式。通过将获得的低维嵌入从多视图歧管中的方法结合到K-Means聚类算法中,示出了准确地识别出样品的簇。通过对实际和合成数据的分析,发现所提出的多SNE方法具有最佳性能。我们进一步说明了多SNE方法对分析多OMICS单细胞数据的适用性,目的是在与健康和疾病相关的生物组织中可视化和识别细胞异质性和细胞类型。
translated by 谷歌翻译
本文提出了一种聚类技术,该技术通过学习和聚类数据分布,然后将数据分配给其分布的群集,并在此过程中降低噪声对群集结果的影响,从而降低了数据噪声的易感性。此方法涉及在分布之间引入新的距离,即期望距离(表示,编辑),它超出了最佳质量运输的最新分配距离(表示为$ W_2 $,价格为$ 2 $ -WASSERSTEIN):后者本质上仅取决于边际分布,而前者还采用了有关联合分布的信息。使用ED,该论文将经典的$ K $ -MEANS和$ K $ -MEDOIDS聚集到数据分布(而不是原始数据),并使用$ W_2 $引入$ K $ -MEDOIDS。本文还介绍了不确定性为高斯时的情况的ED距离度量的闭合表达式。还提出了拟议的ED的实现结果以及$ W_2 $距离的距离量度,用于集群现实世界中的天气数据,其中涉及以均值和方差的形式有效提取和使用潜在的不确定性信息(例如,这足以满足表征高斯分布)。结果表明,与原始数据的经典聚类相对于经典聚类的表现有惊人的性能,并且ED实现了更高的精度。这是因为虽然$ w_2 $仅采用边际分布忽略了相关性,但拟议的ED还使用将相关性考虑到距离度量的联合分布。
translated by 谷歌翻译
时间序列加工是风力涡轮机健康监测的重要方面。尽管在这一领域进展,但新方法仍有空间来提高建模质量。在本文中,我们提出了两种新方法来分析风力涡轮机健康。这两种方法都基于抽象概念,使用模糊集实现,概述并汇总了底层的原始数据。通过观察概念的变化,我们推断涡轮机健康的变化。分析分别进行不同的外部条件(风速和温度)。我们提取代表相对低,中等和高功率生产的概念。第一种方法旨在评估相对较高和低功率生产的降低或增加。使用回归式模型执行此任务。第二种方法评估提取的概念的整体漂移。大漂移表明电力生产过程及时经历波动。使用语言标签标记概念,从而用改善的解释性功能配备了我们的模型。我们应用了提出的方法来处理描述四种风力涡轮机的公开数据。仿真结果表明,所有风力涡轮机的老化过程在所有风力涡轮机中都不均匀。
translated by 谷歌翻译
The $k$-means algorithm is a very prevalent clustering method because of its simplicity, effectiveness, and speed, but its main disadvantage is its high sensitivity to the initial positions of the cluster centers. The global $k$-means is a deterministic algorithm proposed to tackle the random initialization problem of k-means but requires high computational cost. It partitions the data to $K$ clusters by solving all $k$-means sub-problems incrementally for $k=1,\ldots, K$. For each $k$ cluster problem, the method executes the $k$-means algorithm $N$ times, where $N$ is the number of data points. In this paper, we propose the global $k$-means$++$ clustering algorithm, which is an effective way of acquiring quality clustering solutions akin to those of global $k$-means with a reduced computational load. This is achieved by exploiting the center section probability that is used in the effective $k$-means$++$ algorithm. The proposed method has been tested and compared in various well-known real and synthetic datasets yielding very satisfactory results in terms of clustering quality and execution speed.
translated by 谷歌翻译