K-均值聚类算法是最常用的聚类算法之一,因为其简单性和效率。基于欧几里得距离的K-均值聚类算法仅注意样本之间的线性距离,但忽略了数据集的整体分布结构(即数据集的流体结构)。由于很难通过高维数据空间中的欧几里得距离来描述两个数据点的内部结构,因此我们提出了一个新的距离测量值,即观察距离,并将其应用于K-均值算法。在经典的歧管学习数据集,S-Curve和Swiss Roll数据集上,这种新距离不仅可以根据数据本身的结构聚集数据,而且类别之间的边界也是整齐的分界线。此外,我们还基于某些现实世界数据集的观察距离测试了K均值算法的分类精度和聚类效应。实验结果表明,在大多数数据集上,基于观看距离的K均值算法具有一定程度的分类精度和聚类效果。
translated by 谷歌翻译
大多数维度降低方法采用频域表示,从基质对角线化获得,并且对于具有较高固有维度的大型数据集可能不会有效。为了应对这一挑战,相关的聚类和投影(CCP)提供了一种新的数据域策略,不需要解决任何矩阵。CCP将高维特征分配到相关的群集中,然后根据样本相关性将每个集群中的特征分为一个一维表示。引入了残留相似性(R-S)分数和索引,Riemannian歧管中的数据形状以及基于代数拓扑的持久性Laplacian进行可视化和分析。建议的方法通过与各种机器学习算法相关的基准数据集验证。
translated by 谷歌翻译
本文中描述的模型属于专为数据表示和降低尺寸而设计的非负矩阵分解方法的家族。除了保留数据阳性属性外,它还旨在在矩阵分解过程中保留数据结构。这个想法是在NMF成本函数中添加一个惩罚术语,以在原始数据点和转换数据点的成对相似性矩阵之间实现比例关系。新模型的解决方案涉及为系数矩阵得出新的参数化更新方案,这使得在用于群集和分类时可以提高还原数据的质量。将所提出的聚类算法与某些现有的基于NMF的算法以及应用于某些现实生活数据集时的某些基于多种学习的算法进行了比较。获得的结果显示了所提出的算法的有效性。
translated by 谷歌翻译
非负矩阵分解(NMF)广泛用于聚类,具有强大的解释性。在一般的NMF问题中,对称NMF是一个特殊的问题,它在图形聚类中起着重要作用,其中每个元素都测量数据点之间的相似性。大多数现有的对称NMF算法都需要因子矩阵为非负数,并且仅着眼于最大程度地减少原始矩阵之间的差距及其进行聚类的近似值,而无需考虑其他潜在的正则化项,从而产生更好的聚类。在本文中,我们探索以分解不必不需要的对称矩阵,并具有带有正则化项的有效分解算法以提高聚类性能。此外,提出了一个更普遍的框架来解决对称矩阵的对称矩阵分解问题,并在因子矩阵上限制了不同。
translated by 谷歌翻译
Identifying high-dimensional data patterns without a priori knowledge is an important task of data science. This paper proposes a simple and efficient noparametric algorithm: Data Convert to Sequence Analysis, DCSA, which dynamically explore each point in the feature space without repetition, and a Directed Hamilton Path will be found. Based on the change point analysis theory, The sequence corresponding to the path is cut into several fragments to achieve clustering. The experiments on real-world datasets from different fields with dimensions ranging from 4 to 20531 confirm that the method in this work is robust and has visual interpretability in result analysis.
translated by 谷歌翻译
矩阵分解在机器学习中起重要作用,例如非负矩阵分解,主成分分析,字典学习等,但大多数研究旨在通过测量欧几里德距离来最小化损失,但在某些领域,角度距离已知对分析更为重要和至关重要。在本文中,我们通过向统一欧几里德和角度距离的因素添加限制来提出一种方法。但是,由于目标和约束的非凸起,优化的解决方案不容易获得。在本文中,我们提出了一般框架,以通过各种限制来系统地解决它的可提供的收敛保障。
translated by 谷歌翻译
这项工作研究了经典的光谱群集算法,该算法嵌入了某些图$ g =(v_g,e_g)$的顶点,使用$ g $的某些矩阵的$ k $ eigenVectors纳入$ \ m athbb {r}^k $k $ - 分区$ v_g $ to $ k $簇。我们的第一个结果是对光谱聚类的性能进行更严格的分析,并解释了为什么它在某些条件下的作用比文献中研究的弱点要弱得多。对于第二个结果,我们表明,通过应用少于$ k $的特征向量来构建嵌入,光谱群集能够在许多实际情况下产生更好的输出;该结果是光谱聚类中的第一个结果。除了其概念性和理论意义外,我们工作的实际影响还通过对合成和现实世界数据集的经验分析证明,其中光谱聚类会产生可比或更好的结果,而较少$ k $ k $ eigenVectors。
translated by 谷歌翻译
由于其简单性和实用性,密度峰值聚类已成为聚类算法的NOVA。但是,这是一个主要的缺点:由于其高计算复杂性,这是耗时的。在此,开发了稀疏搜索和K-D树的密度峰聚类算法来解决此问题。首先,通过使用k-d树来替换原始的全等级距离矩阵来计算稀疏距离矩阵,以加速局部密度的计算。其次,提出了一种稀疏的搜索策略,以加快与$ k $最近邻居的集合与由数据点组成的集合之间的相互分离的计算。此外,采用了决策值的二阶差异方法来自适应确定群集中心。最后,通过与其他六种最先进的聚类算法进行比较,在具有不同分布特性的数据集上进行实验。事实证明,该算法可以有效地将原始DPC的计算复杂性从$ O(n^2k)$降低到$ O(n(n^{1-1/k}+k))$。特别是对于较大的数据集,效率更加明显地提高。此外,聚类精度也在一定程度上提高了。因此,可以得出结论,新提出的算法的总体性能非常好。
translated by 谷歌翻译
在本文中,我们定义了一种新的非Archimedian度量标准结构,称为CopHenetic度量标准,对所有度的持久同源性等级。然后,我们将Zeroth持续同源与许多不同度量的核心度量和分层聚类算法一起,根据我们在不同的数据集上获得的实验结果,提供统计上可靠的相应拓扑信息。我们还观察到来自坐骨距离的所产生的集群在内部和外部评估措施(如轮廓分数和Rand指数)方面都能发光。此外,由于为所有同源度定义了CopHenetic度量,因此现在可以通过植根树显示所有度的持续同源类别的关系。
translated by 谷歌翻译
We review clustering as an analysis tool and the underlying concepts from an introductory perspective. What is clustering and how can clusterings be realised programmatically? How can data be represented and prepared for a clustering task? And how can clustering results be validated? Connectivity-based versus prototype-based approaches are reflected in the context of several popular methods: single-linkage, spectral embedding, k-means, and Gaussian mixtures are discussed as well as the density-based protocols (H)DBSCAN, Jarvis-Patrick, CommonNN, and density-peaks.
translated by 谷歌翻译
这是针对非线性维度和特征提取方法的教程和调查论文,该方法基于数据图的拉普拉斯语。我们首先介绍邻接矩阵,拉普拉斯矩阵的定义和拉普拉斯主义的解释。然后,我们涵盖图形和光谱聚类的切割,该谱图应用于数据子空间。解释了Laplacian征收及其样本外扩展的不同优化变体。此后,我们将保留投影的局部性及其内核变体作为拉普拉斯征本征的线性特殊案例。然后解释了图嵌入的版本,这些版本是Laplacian eigenmap和局部保留投影的广义版本。最后,引入了扩散图,这是基于数据图和随机步行的方法。
translated by 谷歌翻译
聚类是基于它们的相似性对组对象的重要探索性数据分析技术。广泛使用的$ k $ -MEANS聚类方法依赖于一些距离的概念将数据划分为较少数量的组。在欧几里得空间中,$ k $ -Means的基于质心和基于距离的公式相同。在现代机器学习应用中,数据通常是作为概率分布而出现的,并且可以使用最佳运输指标来处理测量值数据。由于瓦斯坦斯坦空间的非负亚历山德罗夫曲率,巴里中心遭受了规律性和非舒适性问题。 Wasserstein Barycenters的特殊行为可能使基于质心的配方无法代表集群内的数据点,而基于距离的$ K $ -MEANS方法及其半决赛计划(SDP)可以恢复真实的方法集群标签。在聚集高斯分布的特殊情况下,我们表明SDP放松的Wasserstein $ k $ - 金钱可以实现精确的恢复,因为这些集群按照$ 2 $ - WASSERSTEIN MERTRIC进行了良好的分离。我们的仿真和真实数据示例还表明,基于距离的$ K $ -Means可以比基于标准的基于质心的$ k $ -Means获得更好的分类性能,用于聚类概率分布和图像。
translated by 谷歌翻译
本文提出了一种聚类技术,该技术通过学习和聚类数据分布,然后将数据分配给其分布的群集,并在此过程中降低噪声对群集结果的影响,从而降低了数据噪声的易感性。此方法涉及在分布之间引入新的距离,即期望距离(表示,编辑),它超出了最佳质量运输的最新分配距离(表示为$ W_2 $,价格为$ 2 $ -WASSERSTEIN):后者本质上仅取决于边际分布,而前者还采用了有关联合分布的信息。使用ED,该论文将经典的$ K $ -MEANS和$ K $ -MEDOIDS聚集到数据分布(而不是原始数据),并使用$ W_2 $引入$ K $ -MEDOIDS。本文还介绍了不确定性为高斯时的情况的ED距离度量的闭合表达式。还提出了拟议的ED的实现结果以及$ W_2 $距离的距离量度,用于集群现实世界中的天气数据,其中涉及以均值和方差的形式有效提取和使用潜在的不确定性信息(例如,这足以满足表征高斯分布)。结果表明,与原始数据的经典聚类相对于经典聚类的表现有惊人的性能,并且ED实现了更高的精度。这是因为虽然$ w_2 $仅采用边际分布忽略了相关性,但拟议的ED还使用将相关性考虑到距离度量的联合分布。
translated by 谷歌翻译
Given a set of points in the Euclidean space $\mathbb{R}^\ell$ with $\ell>1$, the pairwise distances between the points are determined by their spatial location and the metric $d$ that we endow $\mathbb{R}^\ell$ with. Hence, the distance $d(\mathbf x,\mathbf y)=\delta$ between two points is fixed by the choice of $\mathbf x$ and $\mathbf y$ and $d$. We study the related problem of fixing the value $\delta$, and the points $\mathbf x,\mathbf y$, and ask if there is a topological metric $d$ that computes the desired distance $\delta$. We demonstrate this problem to be solvable by constructing a metric to simultaneously give desired pairwise distances between up to $O(\sqrt\ell)$ many points in $\mathbb{R}^\ell$. We then introduce the notion of an $\varepsilon$-semimetric $\tilde{d}$ to formulate our main result: for all $\varepsilon>0$, for all $m\geq 1$, for any choice of $m$ points $\mathbf y_1,\ldots,\mathbf y_m\in\mathbb{R}^\ell$, and all chosen sets of values $\{\delta_{ij}\geq 0: 1\leq i<j\leq m\}$, there exists an $\varepsilon$-semimetric $\tilde{\delta}:\mathbb{R}^\ell\times \mathbb{R}^\ell\to\mathbb{R}$ such that $\tilde{d}(\mathbf y_i,\mathbf y_j)=\delta_{ij}$, i.e., the desired distances are accomplished, irrespectively of the topology that the Euclidean or other norms would induce. We showcase our results by using them to attack unsupervised learning algorithms, specifically $k$-Means and density-based (DBSCAN) clustering algorithms. These have manifold applications in artificial intelligence, and letting them run with externally provided distance measures constructed in the way as shown here, can make clustering algorithms produce results that are pre-determined and hence malleable. This demonstrates that the results of clustering algorithms may not generally be trustworthy, unless there is a standardized and fixed prescription to use a specific distance function.
translated by 谷歌翻译
无监督的聚类算法可以有效降低高维未标记数据的维度,从而减少数据处理的时间和空间复杂性。然而,传统的聚类算法需要预先设置类别数量的上限,深入学习聚类算法将属于本地最佳问题。为了解决这些问题,提出了一种基于自律学习(SDL)模型的概率空间聚类算法。该算法基于向量之间的高斯概率分布,并使用概率刻度和概率空间距离的最大概率值作为距离测量判断,然后根据分布特性确定每个样本的类别数据集本身。该算法在实验室进行了智能和安全汽车(LISA)交通灯数据集的实验室,精度率为99.03%,召回率为91%,实现效果。
translated by 谷歌翻译
聚类是一个流行的无监督学习工具,通常用于发现较大的人口中的群体,例如客户段或患者亚型。但是,尽管它用作子组发现的工具和描述 - 很少有最先进的算法提供了发现的群集后面的任何理由或描述。我们提出了一种用于可解释聚类的新方法,即群集数据点和构建在被发现的集群周围的多个群体来解释它们。我们的框架允许在多台上进行额外的约束 - 包括确保构建多托的超平面是轴平行的或稀疏,具有整数系数。我们制定通过多拓构造群集作为混合整数非线性程序(MINLP)的问题。要解决我们的配方,我们提出了一种两相方法,我们首先使用交替的最小化初始化群集和多核酸,然后使用坐标下降来提升聚类性能。我们在一套综合和真实的世界聚类问题上基准测试方法,其中我们的算法优于艺术可解释和不可解释的聚类算法的状态。
translated by 谷歌翻译
有限维概率单纯x中的聚类分类分布是处理归一化直方图的许多应用中的基本任务。传统上,概率单位的差分几何结构已经通过(i)将Riemannian公制矩阵设定为分类分布的Fisher信息矩阵,或(ii)定义由平滑异化性引起的二元信息 - 几何结构衡量标准,kullback-leibler发散。在这项工作中,我们介绍了群集任务一种新颖的计算型友好框架,用于在几何上建模概率单纯x:{\ em hilbert simplex几何}。在Hilbert Simplex几何形状中,距离是不可分离的Hilbert公制距离,其满足与多光镜边界描述的距离水平集功能的信息单调性的特性。我们表明,Aitchison和Hilbert Simplex的距离分别是关于$ \ ell_2 $和变化规范的标准化对数表示的距离。我们讨论了这些不同的统计建模的利弊,并通过基于基于中心的$ k $ -means和$ k $ -center聚类的基准这些不同的几何形状。此外,由于可以在欧几里德空间的任何有界凸形子集上定义规范希尔伯特距离,因此我们还考虑了与FR \“Obenius和Log-Det分歧相比的相关矩阵的椭圆形的几何形状并研究其聚类性能。
translated by 谷歌翻译
在本文中,我们提出了一种新方法来检测具有归因顶点的无向图中的簇。目的是将不仅在结构连接性方面,而且在属性值方面相似的顶点分组。我们通过创建[6,38]中提出的其他顶点和边缘,将顶点之间的结构和属性相似。然后将增强图嵌入到与其拉普拉斯式相关的欧几里得空间中,在该空间中,应用了修改的K-均值算法以识别簇。修改后的k均值依赖于矢量距离度量,根据每个原始顶点,我们分配了合适的矢量值坐标集,这取决于结构连接性和属性相似性,因此每个原始图顶点都被认为是$ M+1的代表增强图的$顶点,如果$ m $是顶点属性的数量。为了定义坐标矢量,我们基于自适应AMG(代数多机)方法采用了我们最近提出的算法,该方法识别了嵌入欧几里得空间中的坐标方向,以代数平滑的矢量相对于我们的增强图Laplacian,从而扩展了laplacian,从而扩展了坐标。没有属性的图形的先前结果。我们通过与一些知名方法进行比较,分析了我们提出的聚类方法的有效性,这些方法可以免费获得软件实现,并与文献中报告的结果相比,在两种不同类型的广泛使用的合成图上以及在某些现实世界中的图形上。
translated by 谷歌翻译
Machine learning and deep learning classification models are data-driven, and the model and the data jointly determine their classification performance. It is biased to evaluate the model's performance only based on the classifier accuracy while ignoring the data separability. Sometimes, the model exhibits excellent accuracy, which might be attributed to its testing on highly separable data. Most of the current studies on data separability measures are defined based on the distance between sample points, but this has been demonstrated to fail in several circumstances. In this paper, we propose a new separability measure--the rate of separability (RS), which is based on the data coding rate. We validate its effectiveness as a supplement to the separability measure by comparing it to four other distance-based measures on synthetic datasets. Then, we demonstrate the positive correlation between the proposed measure and recognition accuracy in a multi-task scenario constructed from a real dataset. Finally, we discuss the methods for evaluating the classification performance of machine learning and deep learning models considering data separability.
translated by 谷歌翻译
In this paper, we propose Wasserstein Isometric Mapping (Wassmap), a nonlinear dimensionality reduction technique that provides solutions to some drawbacks in existing global nonlinear dimensionality reduction algorithms in imaging applications. Wassmap represents images via probability measures in Wasserstein space, then uses pairwise Wasserstein distances between the associated measures to produce a low-dimensional, approximately isometric embedding. We show that the algorithm is able to exactly recover parameters of some image manifolds including those generated by translations or dilations of a fixed generating measure. Additionally, we show that a discrete version of the algorithm retrieves parameters from manifolds generated from discrete measures by providing a theoretical bridge to transfer recovery results from functional data to discrete data. Testing of the proposed algorithms on various image data manifolds show that Wassmap yields good embeddings compared with other global and local techniques.
translated by 谷歌翻译