在进化多目标聚类方法(EMOC)中,已将各种聚类标准应用于目标函数。但是,大多数EMOC并未提供有关目标功能的选择和使用的详细分析。旨在支持eMOC中目标的更好的选择和定义,本文提出了通过检查搜索方向及其在寻找最佳结果的潜力来分析进化优化中聚类标准的可采性的分析。结果,我们证明了目标函数的可接受性如何影响优化。此外,我们还提供有关eMOC中聚类标准的组合和使用的见解。
translated by 谷歌翻译
由于传感器,社交媒体等,过去几十年来,数据流的分析已经受到相当大的关注。它旨在识别无序,无限和不断发展的观察流中的模式。聚类此类数据需要一些时间和内存的限制。本文介绍了一种新的数据流群集方法(IMOC流)。与其他聚类算法不同,这种方法使用两个不同的目标函数来捕获数据的不同方面。 IMOC流的目标是:1)通过使用空闲时间来减少计算时间以应用遗传操作并增强解决方案。 2)通过引入新的树概要来减少内存分配。 3)通过使用多目标框架查找任意形状的群集。我们对高维流数据集进行了实验研究,并将其与众所周知的流聚类技术进行了比较。实验表明我们的方法在优化时间和内存的同时在任意形状,紧凑且分开的群集中分区数据流的能力。我们的方法在NMI和Arand测量方面也表现出大部分流算法。
translated by 谷歌翻译
聚类算法的全面基准是困难的两个关键因素:(i)〜这种无监督的学习方法的独特数学定义和(ii)〜某些聚类算法采用的生成模型或群集标准之间的依赖性的依赖性内部集群验证。因此,对严格基准测试的最佳做法没有达成共识,以及是否有可能在给定申请的背景之外。在这里,我们认为合成数据集必须继续在群集算法的评估中发挥重要作用,但这需要构建适当地涵盖影响聚类算法性能的各种属性集的基准。通过我们的框架,我们展示了重要的角色进化算法,以支持灵活的这种基准,允许简单的修改和扩展。我们说明了我们框架的两种可能用途:(i)〜基准数据的演变与一组手派生属性和(ii)〜生成梳理给定对算法之间的性能差异的数据集。我们的作品对设计集群基准的设计具有足够挑战广泛算法的集群基准,并进一步了解特定方法的优势和弱点。
translated by 谷歌翻译
内部群集有效性度量(例如Calinski-Harabasz,Dunn或Davies-Bouldin指数)经常用于选择适当数量的分区数量,应将数据集分为二。在本文中,我们考虑如果将这些索引视为无监督学习活动中的客观功能会发生什么。关于轮廓指数的最佳分组是否真的有意义?事实证明,许多群集有效性指数促进了聚类,这些聚类与专家知识相匹配。我们还引入了邓恩指数的一个新的,表现出色的变体,该变体是建立在OWA操作员和接近邻居图的基础上的,因此,无论其形状如何,都可以更好地相互分离。
translated by 谷歌翻译
We review clustering as an analysis tool and the underlying concepts from an introductory perspective. What is clustering and how can clusterings be realised programmatically? How can data be represented and prepared for a clustering task? And how can clustering results be validated? Connectivity-based versus prototype-based approaches are reflected in the context of several popular methods: single-linkage, spectral embedding, k-means, and Gaussian mixtures are discussed as well as the density-based protocols (H)DBSCAN, Jarvis-Patrick, CommonNN, and density-peaks.
translated by 谷歌翻译
群集集群或共识群集已成为一种强大的工具,用于提高各种聚类方法的鲁棒性和结果的稳定性。加权聚类集群自然地从集群集群中产生。加权群集集合的参数之一是聚类集群中的元素(群集或集群)具有不同的质量,或者对象或特征具有不同意义的重要性。但是,不可能直接将加权机制从分类(监督)域中应用于群集(无监督)域,因为群集本质上是一个不存在的问题。本文通过讨论不同类型的权重,确定重量值的主要方法以及将加权聚类集合与复杂数据的应用程序的主要方法概述了加权集群集群集合概述。本文提出的统一框架将有助于聚类从业者为自己的问题选择最合适的加权机制。
translated by 谷歌翻译
Standard agglomerative clustering suggests establishing a new reliable linkage at every step. However, in order to provide adaptive, density-consistent and flexible solutions, we study extracting all the reliable linkages at each step, instead of the smallest one. Such a strategy can be applied with all common criteria for agglomerative hierarchical clustering. We also study that this strategy with the single linkage criterion yields a minimum spanning tree algorithm. We perform experiments on several real-world datasets to demonstrate the performance of this strategy compared to the standard alternative.
translated by 谷歌翻译
聚类是一种无监督的机器学习方法,其中未标记的元素/对象被分组在一起,旨在构建成熟的群集,以根据其相似性对其元素进行分类。该过程的目的是向研究人员提供有用的帮助,以帮助她/他确定数据中的模式。在处理大型数据库时,如果没有聚类算法的贡献,这种模式可能无法轻易检测到。本文对最广泛使用的聚类方法进行了深入的描述,并伴随着有关合适的参数选择和初始化的有用演示。同时,本文不仅代表了一篇评论,该评论突出了所检查的聚类技术的主要要素,而且强调了这些算法基于3个数据集的聚类效率的比较,从而在对抗性和复杂性中揭示了其现有的弱点和能力,在持续的离散和持续的离散和离散和持续的差异。观察。产生的结果有助于我们根据数据集的大小提取有关检查聚类技术的适当性的宝贵结论。
translated by 谷歌翻译
可以将多任务学习(MTL)范例追溯到Caruana(1997)的早期纸张中,其中表示可以使用来自多个任务的数据,其目的是在独立地学习每个任务的旨在获得更好的性能。 MTL与相互矛盾的目标的解决方案需要在它们中进行折衷,这通常超出了直线组合可以实现的。理论上原则和计算有效的策略正在寻找不受他人主导的解决方案,因为它在帕累托分析中解决了它。多任务学习环境中产生的多目标优化问题具有特定的功能,需要adhoc方法。对这些特征的分析和新的计算方法的提议代表了这项工作的重点。多目标进化算法(MOEAS)可以容易地包括优势的概念,因此可以分析。 MOEAS的主要缺点是关于功能评估的低样本效率。此缺点的关键原因是大多数进化方法不使用模型来近似于目标函数。贝叶斯优化采用基于代理模型的完全不同的方法,例如高斯过程。在本文中,输入空间中的解决方案表示为封装功能评估中包含的知识的概率分布。在这种概率分布的空间中,赋予由Wassersein距离给出的度量,可以设计一种新的算法MOEA / WST,其中模型不直接在目标函数上,而是在输入空间中的对象的中间信息空间中被映射成直方图。计算结果表明,MoEA / WST提供的样品效率和帕累托集的质量明显优于标准MoEa。
translated by 谷歌翻译
群集分析需要许多决定:聚类方法和隐含的参考模型,群集数,通常,几个超参数和算法调整。在实践中,一个分区产生多个分区,基于验证或选择标准选择最终的分区。存在丰富的验证方法,即隐式或明确地假设某个聚类概念。此外,它们通常仅限于从特定方法获得的分区上操作。在本文中,我们专注于可以通过二次或线性边界分开的群体。参考集群概念通过二次判别符号函数和描述集群大小,中心和分散的参数定义。我们开发了两个名为二次分数的群集质量标准。我们表明这些标准与从一般类椭圆对称分布产生的组一致。对这种类型的组追求在应用程序中是常见的。研究了与混合模型和模型的聚类的似然理论的连接。基于Bootstrap重新采样的二次分数,我们提出了一个选择规则,允许在许多聚类解决方案中选择。所提出的方法具有独特的优点,即它可以比较不能与其他最先进的方法进行比较的分区。广泛的数值实验和实际数据的分析表明,即使某些竞争方法在某些设置中出现优越,所提出的方法也实现了更好的整体性能。
translated by 谷歌翻译
最小的平方和群集(MSSC)或K-Means型聚类,传统上被认为是无监督的学习任务。近年来,使用背景知识来提高集群质量,促进聚类过程的可解释性已成为数学优化和机器学习研究的热门研究课题。利用数据群集中的背景信息的问题称为半监督或约束群集。在本文中,我们为半监控MSSC提供了一种新的分支和绑定算法,其中背景知识被包含为成对必须 - 链接和无法链接约束。对于较低的界限,我们解决了MSSC离散优化模型的Semidefinite编程宽松,并使用了用于加强界限的纤维平面程序。相反,通过使用整数编程工具,我们提出了将K-Means算法适应受约束的情况。这是第一次,所提出的全局优化算法有效地管理,以解决现实世界的情况,最高可达800个数据点,具有必要的必须 - 链接和无法链接约束以及通用数量的功能。这个问题大小大约比最先进的精确算法解决的实例大约四倍。
translated by 谷歌翻译
空间优化问题(SOP)的特征是管理决策变量,目标和/或约束功能的空间关系。在本文中,我们关注一种称为空间分区的特定类型的SOP,这是一个组合问题,这是由于存在离散空间单元。精确的优化方法不会随着问题的大小而扩展,尤其是在可行的时间限制内。这促使我们开发基于人群的元启发式学来解决此类SOP。但是,这些基于人群的方法采用的搜索操作员主要是为实参与者连续优化问题而设计的。为了使这些方法适应SOP,我们将域知识应用于设计空间感知的搜索操作员,以在保留空间约束的同时有效地通过离散搜索空间进行有效搜索。为此,我们提出了一种简单而有效的算法,称为基于群的空间模因算法(空间),并在学校(RE)区域问题上进行测试。对现实世界数据集进行了详细的实验研究,以评估空间的性能。此外,进行消融研究以了解空间各个组成部分的作用。此外,我们讨论空间〜如何在现实生活计划过程及其对不同方案的适用性并激发未来的研究方向有帮助。
translated by 谷歌翻译
We consider a semi-supervised $k$-clustering problem where information is available on whether pairs of objects are in the same or in different clusters. This information is either available with certainty or with a limited level of confidence. We introduce the PCCC algorithm, which iteratively assigns objects to clusters while accounting for the information provided on the pairs of objects. Our algorithm can include relationships as hard constraints that are guaranteed to be satisfied or as soft constraints that can be violated subject to a penalty. This flexibility distinguishes our algorithm from the state-of-the-art in which all pairwise constraints are either considered hard, or all are considered soft. Unlike existing algorithms, our algorithm scales to large-scale instances with up to 60,000 objects, 100 clusters, and millions of cannot-link constraints (which are the most challenging constraints to incorporate). We compare the PCCC algorithm with state-of-the-art approaches in an extensive computational study. Even though the PCCC algorithm is more general than the state-of-the-art approaches in its applicability, it outperforms the state-of-the-art approaches on instances with all hard constraints or all soft constraints both in terms of running time and various metrics of solution quality. The source code of the PCCC algorithm is publicly available on GitHub.
translated by 谷歌翻译
在工程应用程序数据集中找到有意义的概念,这些数据集可以在许多情况下进行明智的设计分组。它允许确定具有相似属性的不同设计组,并在工程决策过程中提供有用的知识。此外,它为进一步的特定设计候选者提供了一条路线,这些候选者表现出某些特征。在这项工作中,提出了一种在现有工程数据集中定义有意义且一致的概念的方法。数据集中的设计的特征是多种功能,例如设计参数,几何特性或设计的设计参数,以适应各种边界条件。在提议的方法中,将完整的功能集分为几个称为描述空间的子集。概念的定义尊重这种分区,这导致了确定概念的几个理想属性,这是通过最先进的聚类或概念识别方法无法实现的。提出了一种新颖的概念质量度量,该度量为数据集中的概念定义提供了客观价值。通过考虑一个由约2500个机翼轮廓组成的现实工程数据集,可以证明该度量的有用性,其中通过计算流体动力学模拟获得了三种不同操作条件的性能值(升力和阻力)。采用了一个数值优化过程,可最大程度地提高概念质量度量,并为描述空间的不同设置找到有意义的概念,同时还结合了用户偏好。已经证明了如何使用这些概念来选择数据集的原型代表,这些代表表现出每个概念的特征。
translated by 谷歌翻译
我们讨论集群分析的拓扑方面,并表明在聚类之前推断数据集的拓扑结构可以大大增强群集检测:理论论证和经验证据表明,聚类嵌入向量,代表数据歧管的结构,而不是观察到的特征矢量他们自己是非常有益的。为了证明,我们将流形学习方法与基于密度的聚类方法DBSCAN结合了歧管学习方法UMAP。合成和真实数据结果表明,这既简化和改善了多种低维问题,包括密度变化和/或纠缠形状的群集。我们的方法简化了聚类,因为拓扑预处理始终降低DBSCAN的参数灵敏度。然后,用dbscan聚类所得的嵌入可以超过诸如spectacl和clustergan之类的复杂方法。最后,我们的调查表明,聚类中的关键问题似乎不是数据的标称维度或其中包含多少不相关的功能,而是\ textIt {可分离}群集在环境观察空间中的\ textit {可分离},它们嵌入了它们中。 ,通常是数据特征定义的(高维)欧几里得空间。我们的方法之所以成功,是因为我们将数据投影到更合适的空间后,从某种意义上说,我们执行了群集分析。
translated by 谷歌翻译
尽管近年来对受约束的多目标优化的兴趣日益越来越大,但受约束的多目标优化问题(CMOPS)仍然不令人满意,理解和表征。因此,困难且缺乏正式背景的适当CMOPS的选择。我们通过扩展横向分析来解决该问题,以限制多目标优化。通过采用四种探索性景观分析技术,我们提出了29个景观特征(其中19个是新颖的)来表征CMOPS。然后,这些景观特征用于比较八个常用的人工测试套针对基于物理模型的现实世界问题的最近提出的套件。实验结果表明,人工测试问题未能充分代表一些现实特征,例如目标和约束之间的强负相关性。此外,我们的研究结果表明,所有学习的人工测试套件都具有优缺点,并且不存在“完美”套件。基准设计人员可以使用所获得的结果根据他们想要探索的特征来选择或生成适当的CMOP实例。
translated by 谷歌翻译
We propose unsupervised representation learning and feature extraction from dendrograms. The commonly used Minimax distance measures correspond to building a dendrogram with single linkage criterion, with defining specific forms of a level function and a distance function over that. Therefore, we extend this method to arbitrary dendrograms. We develop a generalized framework wherein different distance measures and representations can be inferred from different types of dendrograms, level functions and distance functions. Via an appropriate embedding, we compute a vector-based representation of the inferred distances, in order to enable many numerical machine learning algorithms to employ such distances. Then, to address the model selection problem, we study the aggregation of different dendrogram-based distances respectively in solution space and in representation space in the spirit of deep representations. In the first approach, for example for the clustering problem, we build a graph with positive and negative edge weights according to the consistency of the clustering labels of different objects among different solutions, in the context of ensemble methods. Then, we use an efficient variant of correlation clustering to produce the final clusters. In the second approach, we investigate the combination of different distances and features sequentially in the spirit of multi-layered architectures to obtain the final features. Finally, we demonstrate the effectiveness of our approach via several numerical studies.
translated by 谷歌翻译
近年来,在平衡(超级)图分配算法的设计和评估中取得了重大进展。我们调查了过去十年的实用算法的趋势,用于平衡(超级)图形分区以及未来的研究方向。我们的工作是对先前有关该主题的调查的更新。特别是,该调查还通过涵盖了超图形分区和流算法来扩展先前的调查,并额外关注并行算法。
translated by 谷歌翻译
应用分层聚类算法所需的时间最常由成对差异度量的计算数量主导。对于较大的数据集,这种约束使所有经典链接标准的使用都处于不利地位。但是,众所周知,单个连锁聚类算法对离群值非常敏感,产生高度偏斜的树状图,因此通常不会反映出真正的潜在数据结构 - 除非簇分离良好。为了克服其局限性,我们提出了一个名为Genie的新的分层聚类链接标准。也就是说,我们的算法将两个簇链接在一起,以至于选择的经济不平等度量(例如,gini-或bonferroni index)的群集大小不会大大增加超过给定阈值。提出的基准表明引入的方法具有很高的实际实用性:它通常优于病房或平均链接的聚类质量,同时保持单个连锁的速度。 Genie算法很容易平行,因此可以在多个线程上运行以进一步加快其执行。它的内存开销很小:无需预先计算完整的距离矩阵即可执行计算以获得所需的群集。它可以应用于配备有差异度量的任意空间,例如,在实际矢量,DNA或蛋白质序列,图像,排名,信息图数据等上。有关R。另请参见https://genieclust.gagolewski.com有关新的实施(GenieClust) - 可用于R和Python。
translated by 谷歌翻译
Network structure evolves with time in the real world, and the discovery of changing communities in dynamic networks is an important research topic that poses challenging tasks. Most existing methods assume that no significant change in the network occurs; namely, the difference between adjacent snapshots is slight. However, great change exists in the real world usually. The great change in the network will result in the community detection algorithms are difficulty obtaining valuable information from the previous snapshot, leading to negative transfer for the next time steps. This paper focuses on dynamic community detection with substantial changes by integrating higher-order knowledge from the previous snapshots to aid the subsequent snapshots. Moreover, to improve search efficiency, a higher-order knowledge transfer strategy is designed to determine first-order and higher-order knowledge by detecting the similarity of the adjacency matrix of snapshots. In this way, our proposal can better keep the advantages of previous community detection results and transfer them to the next task. We conduct the experiments on four real-world networks, including the networks with great or minor changes. Experimental results in the low-similarity datasets demonstrate that higher-order knowledge is more valuable than first-order knowledge when the network changes significantly and keeps the advantage even if handling the high-similarity datasets. Our proposal can also guide other dynamic optimization problems with great changes.
translated by 谷歌翻译