多个内核聚类(MKC)致力于从一组基础内核中实现最佳信息融合。事实证明,构建精确和局部核矩阵在应用中具有至关重要的意义,因为不可靠的远距离相似性估计将降低群集的每种形式。尽管与全球设计的竞争者相比,现有的局部MKC算法表现出改善的性能,但其中大多数通过考虑{\ tau} - 最终的邻居来定位内核矩阵来定位内核矩阵。但是,这种粗糙的方式遵循了一种不合理的策略,即不同邻居的排名重要性是相等的,这在应用程序中是不切实际的。为了减轻此类问题,本文提出了一种新型的本地样品加权多核聚类(LSWMKC)模型。我们首先在内核空间中构建共识判别亲和力图,从而揭示潜在的局部结构。此外,学习亲和力图的最佳邻域内核具有自然稀疏特性和清晰的块对角结构。此外,LSWMKC立即优化了具有相应样品的不同邻居的适应性权重。实验结果表明,我们的LSWMKC具有更好的局部流形表示,并且优于现有内核或基于图的聚类算法算法。可以从https://github.com/liliangnudt/lswmkc公开访问LSWMKC的源代码。
translated by 谷歌翻译
聚类是一种代表性的无监督方法,广泛应用于多模式和多视图方案。多个内核聚类(MKC)旨在通过集成基础内核的互补信息来分组数据。作为代表,后期的Fusion MKC首先将内核分解为正交分区矩阵,然后从他们那里学习共识,最近实现了有希望的表现。但是,这些方法无法考虑分区矩阵内部的噪声,从而阻止了聚类性能的进一步改善。我们发现噪声可以分解为可分离的双部分,即n-noise和c-noise(空空间噪声和柱空间噪声)。在本文中,我们严格地定义了双噪声,并通过最小化新颖的无参数MKC算法提出了新颖的MKC算法。为了解决最终的优化问题,我们设计了有效的两步迭代策略。据我们所知,这是第一次研究内核空间中分区中的双重噪声。我们观察到双重噪声会污染对角线结构并产生聚类性能的变性,而C-Noise比N-Noise表现出更大的破坏。由于我们的有效机制可以最大程度地减少双重噪声,因此所提出的算法超过了最新的方法。
translated by 谷歌翻译
多视图聚类(MVC)最佳地集成了来自不同视图的互补信息,以提高聚类性能。尽管在各种应用中证明了有希望的性能,但大多数现有方法都直接融合了多个预先指定的相似性,以学习聚类的最佳相似性矩阵,这可能会导致过度复杂的优化和密集的计算成本。在本文中,我们通过对齐方式最大化提出了晚期Fusion MVC,以解决这些问题。为此,我们首先揭示了现有K-均值聚类的理论联系以及基本分区和共识之一之间的对齐。基于此观察结果,我们提出了一种简单但有效的多视算法,称为LF-MVC-GAM。它可以从每个单独的视图中最佳地将多个源信息融合到分区级别,并最大程度地将共识分区与这些加权基础分区保持一致。这种对齐方式有助于整合分区级别信息,并通过充分简化优化过程来大大降低计算复杂性。然后,我们设计了另一个变体LF-MVC-LAM,以通过在多个分区空间之间保留局部内在结构来进一步提高聚类性能。之后,我们开发了两种三步迭代算法,以通过理论上保证的收敛来解决最终的优化问题。此外,我们提供了所提出算法的概括误差约束分析。对十八个多视图基准数据集进行了广泛的实验,证明了拟议的LF-MVC-GAM和LF-MVC-LAM的有效性和效率,范围从小到大型数据项不等。拟议算法的代码可在https://github.com/wangsiwei2010/latefusionalignment上公开获得。
translated by 谷歌翻译
多视图子空间聚类传统上专注于集成异构特征描述以捕获更高维度信息。一种流行的策略是从不同视图生成常见的子空间,然后应用基于图形的方法来处理群集。但是,这些方法的性能仍然受到两个限制,即多视图融合模式以及融合过程与聚类任务之间的连接。为了解决这些问题,我们通过细粒度图形学习提出了一种新的多视图子空间聚类框架,可以在不同视图之间讲述本地结构之间的一致性,并比以前的重量规则更精细地集成所有视图。与文献中的其他模型不同,引入了点级图正规化和频谱聚类的重新介绍,以执行图形融合并将共享集群结构一起学习在一起。在五个真实数据集上进行了广泛的实验,表明该框架对SOTA算法具有可比性。
translated by 谷歌翻译
多视图无监督的特征选择(MUF)已被证明是一种有效的技术,可降低多视图未标记数据的维度。现有方法假定所有视图都已完成。但是,多视图数据通常不完整,即,某些视图中显示了一部分实例,但并非所有视图。此外,学习完整的相似性图,作为现有MUFS方法中重要的有前途的技术,由于缺少的观点而无法实现。在本文中,我们提出了一个基于互补的和共识学习的不完整的多视图无监督的特征选择方法(C $^{2} $ IMUFS),以解决上述问题。具体而言,c $^{2} $ imufs将功能选择集成到扩展的加权非负矩阵分解模型中,配备了自适应学习视图和稀疏的$ \ ell_ {2,p} $ - norm-norm,它可以提供更好的提供适应性和灵活性。通过从不同视图得出的多个相似性矩阵的稀疏线性组合,介绍了互补学习引导的相似性矩阵重建模型,以在每个视图中获得完整的相似性图。此外,c $^{2} $ imufs学习了跨不同视图的共识聚类指示器矩阵,并将其嵌入光谱图术语中以保留本地几何结构。现实世界数据集的全面实验结果证明了与最新方法相比,C $^{2} $ IMUF的有效性。
translated by 谷歌翻译
尽管以前基于图的多视图聚类算法已经取得了重大进展,但其中大多数仍面临三个限制。首先,他们经常遭受高计算复杂性的困扰,这限制了他们在大规模场景中的应用。其次,他们通常在单视图级别或视图传感级别上执行图形学习,但经常忽略单视图和共识图的联合学习的可能性。第三,其中许多人依靠$ k $ - 表示光谱嵌入的离散化,这些嵌入缺乏直接使用离散群集结构直接学习图形的能力。鉴于此,本文通过统一和离散的两部分图(UDBGL)提出了一种有效的多视图聚类方法。具体而言,基于锚的子空间学习被合并为从多个视图中学习特定的二分化图,并利用双方图融合来学习具有自适应重量学习的视图 - 谐镜双分歧图。此外,施加Laplacian等级约束以确保融合的两分图具有离散的群集结构(具有特定数量的连接组件)。通过同时制定特定视图的两分图学习,视图 - 共表的两分图学习以及离散的群集结构学习到统一的目标函数中,然后设计有效的最小化算法来解决此优化问题,并直接实现离散的聚类解决方案解决方案解决方案解决方案解决方案。不需要其他分区,这特别是数据大小的线性时间复杂性。各种多视图数据集的实验证明了我们的UDBGL方法的鲁棒性和效率。
translated by 谷歌翻译
多视图聚类已进行了广泛的研究,以利用多源信息来提高聚类性能。通常,大多数现有作品通常通过某些相似性/距离指标(例如欧几里得距离)或学习的表示形式来计算N * n亲和力图,并探索跨视图的成对相关性。但是不幸的是,通常需要二次甚至立方复杂性,这使得在聚集largescale数据集方面遇到了困难。最近,通过选择具有K-均值的视图锚表演或通过对原始观测值进行直接矩阵分解来捕获多个视图中的数据分布。尽管取得了巨大的成功,但很少有人考虑了视图不足问题,因此隐含地认为,每个单独的观点都足以恢复群集结构。此外,无法同时发现潜在积分空间以及来自多个视图的共享群集结构。鉴于这一点,我们为快速多视图聚类(AIMC)提出了一个具有几乎线性复杂性的快速多视图聚类(AIMC)。具体而言,视图生成模型旨在重建来自潜在积分空间的视图观测值,并具有不同的适应性贡献。同时,具有正交性约束和群集分区的质心表示无缝构造以近似潜在的积分空间。开发了一种替代最小化算法来解决优化问题,事实证明,该问题具有线性时间复杂性W.R.T.样本量。与最新方法相比,在几个Realworld数据集上进行的广泛实验证实了所提出的AIMC方法的优越性。
translated by 谷歌翻译
旨在解决不完整的多视图数据中缺少部分视图的聚类问题的不完整的多视图聚类,近年来受到了越来越多的关注。尽管已经开发了许多方法,但大多数方法要么无法灵活地处理不完整的多视图数据,因此使用任意丢失的视图,或者不考虑视图之间信息失衡的负面因素。此外,某些方法并未完全探索所有不完整视图的局部结构。为了解决这些问题,本文提出了一种简单但有效的方法,称为局部稀疏不完整的多视图聚类(LSIMVC)。与现有方法不同,LSIMVC打算通过优化一个稀疏的正则化和新颖的图形嵌入式多视图矩阵分数模型来从不完整的多视图数据中学习稀疏和结构化的潜在表示。具体而言,在基于矩阵分解的这种新型模型中,引入了基于L1规范的稀疏约束,以获得稀疏的低维单个表示和稀疏共识表示。此外,引入了新的本地图嵌入项以学习结构化共识表示。与现有作品不同,我们的本地图嵌入术语汇总了图形嵌入任务和共识表示任务中的简洁术语。此外,为了减少多视图学习的不平衡因素,将自适应加权学习方案引入LSIMVC。最后,给出了有效的优化策略来解决我们提出的模型的优化问题。在六个不完整的多视图数据库上执行的全面实验结果证明,我们的LSIMVC的性能优于最新的IMC方法。该代码可在https://github.com/justsmart/lsimvc中找到。
translated by 谷歌翻译
由于巨大的未标记数据的出现,现在已经增加了更加关注无监督的功能选择。需要考虑使用更有效的顺序使用样品训练学习方法的样本和潜在效果的分布,以提高该方法的鲁棒性。自定步学习是考虑样本培训顺序的有效方法。在本研究中,通过整合自花枢学习和子空间学习框架来提出无监督的特征选择。此外,保留了局部歧管结构,并且特征的冗余受到两个正则化术语的约束。 $ l_ {2,1 / 2} $ - norm应用于投影矩阵,旨在保留歧视特征,并进一步缓解数据中噪声的影响。然后,提出了一种迭代方法来解决优化问题。理论上和实验证明了该方法的收敛性。将所提出的方法与九个现实世界数据集上的其他技术的算法进行比较。实验结果表明,该方法可以提高聚类方法的性能,优于其他比较算法。
translated by 谷歌翻译
大多数现有的半监督基于图的聚类方法通过完善亲和力矩阵或直接限制数据点的低维表示来利用监督信息。亲和力矩阵代表图形结构,对于半监督基于图的聚类的性能至关重要。但是,现有方法采用静态亲和力矩阵来学习数据点的低维表示,并且在学习过程中不会优化亲和力矩阵。在本文中,我们提出了一种新型的动态图结构学习方法,用于半监督聚类。在这种方法中,我们通过利用给定的成对约束来同时优化数据点的亲和力矩阵和低维表示。此外,我们提出了一种交替的最小化方法,并通过可靠的收敛来解决提出的非凸模型。在迭代过程中,我们的方法周期性地更新数据点的低维表示并完善了亲和力矩阵,从而导致动态亲和力矩阵(图结构)。具体而言,为了更新亲和力矩阵,我们强制使用具有明显不同的低维表示的数据点具有相关值为0。点。在不同设置下的八个基准数据集上的实验结果显示了所提出方法的优势。
translated by 谷歌翻译
常规的多视图聚类试图基于所有观点的假设,以完全观察到所有观点的假设。但是,在诸如疾病诊断,多媒体分析和建议系统之类的实际应用中,常见的是,在许多情况下,并非所有样品的观点都可以使用,这导致常规多视图聚类方法的失败。在此不完整的多视图数据上的聚类称为不完整的多视图聚类。鉴于有前途的应用前景,近年来对不完整的多视图聚类的研究取得了明显的进步。但是,没有调查可以总结当前的进展并指出未来的研究方向。为此,我们回顾了最新的关于多视图聚类的研究。重要的是,我们提供一些框架来统一相应的不完整的多视图聚类方法,并从理论和实验角度对某些代表性方法进行深入的比较分析。最后,为研究人员提供了不完整的多视图聚类领域中的一些开放问题。
translated by 谷歌翻译
Multi-view unsupervised feature selection has been proven to be efficient in reducing the dimensionality of multi-view unlabeled data with high dimensions. The previous methods assume all of the views are complete. However, in real applications, the multi-view data are often incomplete, i.e., some views of instances are missing, which will result in the failure of these methods. Besides, while the data arrive in form of streams, these existing methods will suffer the issues of high storage cost and expensive computation time. To address these issues, we propose an Incremental Incomplete Multi-view Unsupervised Feature Selection method (I$^2$MUFS) on incomplete multi-view streaming data. By jointly considering the consistent and complementary information across different views, I$^2$MUFS embeds the unsupervised feature selection into an extended weighted non-negative matrix factorization model, which can learn a consensus clustering indicator matrix and fuse different latent feature matrices with adaptive view weights. Furthermore, we introduce the incremental leaning mechanisms to develop an alternative iterative algorithm, where the feature selection matrix is incrementally updated, rather than recomputing on the entire updated data from scratch. A series of experiments are conducted to verify the effectiveness of the proposed method by comparing with several state-of-the-art methods. The experimental results demonstrate the effectiveness and efficiency of the proposed method in terms of the clustering metrics and the computational cost.
translated by 谷歌翻译
Data-driven neighborhood definitions and graph constructions are often used in machine learning and signal processing applications. k-nearest neighbor~(kNN) and $\epsilon$-neighborhood methods are among the most common methods used for neighborhood selection, due to their computational simplicity. However, the choice of parameters associated with these methods, such as k and $\epsilon$, is still ad hoc. We make two main contributions in this paper. First, we present an alternative view of neighborhood selection, where we show that neighborhood construction is equivalent to a sparse signal approximation problem. Second, we propose an algorithm, non-negative kernel regression~(NNK), for obtaining neighborhoods that lead to better sparse representation. NNK draws similarities to the orthogonal matching pursuit approach to signal representation and possesses desirable geometric and theoretical properties. Experiments demonstrate (i) the robustness of the NNK algorithm for neighborhood and graph construction, (ii) its ability to adapt the number of neighbors to the data properties, and (iii) its superior performance in local neighborhood and graph-based machine learning tasks.
translated by 谷歌翻译
基于图形的多视图聚类,旨在跨多种视图获取数据分区,近年来接受了相当大的关注。虽然已经为基于图形的多视图群集进行了巨大努力,但它对各种视图融合特征仍然是一个挑战,以学习聚类的常见表示。在本文中,我们提出了一种新的一致多曲线图嵌入聚类框架(CMGEC)。具体地,设计了一种多图自动编码器(M-GAE),用于使用多图注意融合编码器灵活地编码多视图数据的互补信息。为了引导所学过的公共表示维护每个视图中相邻特征的相似性,引入了多视图相互信息最大化模块(MMIM)。此外,设计了一个图形融合网络(GFN),以探讨来自不同视图的图表之间的关系,并提供M-GAE所需的常见共识图。通过联合训练这些模型,可以获得共同的潜在表示,其从多个视图中编码更多互补信息,并更全面地描绘数据。三种类型的多视图数据集的实验表明CMGEC优于最先进的聚类方法。
translated by 谷歌翻译
基于图形的多视图聚类比大多数非格拉普方法都取得了更好的性能。但是,在许多实际情况下,没有给出数据的图结构,或者初始图的质量很差。此外,现有方法在很大程度上忽略了表征复杂固有相互作用的高阶邻域信息。为了解决这些问题,我们引入了一种称为高阶多视图聚类(HMVC)的方法,以探索通用数据的拓扑结构信息。首先,将图形过滤应用于编码结构信息,该信息将单个框架中的属性图数据和非图形数据统一处理。其次,利用到无限顺序的固有关系来丰富学习的图。第三,为了探索各种视图的一致和互补信息,提出了一种自适应图融合机制来实现共识图。关于非图形和归因图数据的全面实验结果表明,我们方法在各种最新技术方面的出色性能,包括一些深度学习方法。
translated by 谷歌翻译
光谱型子空间聚类算法成功的关键点是寻求重建系数矩阵,这些矩阵可以忠实地揭示数据集的子空间结构。理想的重建系数矩阵应该具有两个属性:1)它是块对角线,每个块指示一个子空间; 2)每个块完全连接。尽管已经提出了各种光谱类型子空间聚类算法,但这些算法构建的重建系数矩阵中仍然存在一些缺陷。我们发现,归一化成员矩阵自然满足上述两个条件。因此,在本文中,我们设计了一种基本表示(IDR)算法来追求近似归一化成员矩阵的重建系数矩阵。 IDR设计了重建系数矩阵的新的IDEMTOTENT约束。通过将双随机约束结合在一起,可以直接实现与归一化构件矩阵封闭的系数矩阵。我们提出了用于解决IDR问题的优化算法,并分析其计算负担和收敛性。 IDR和相关算法之间的比较显示IDR的优势。对合成和现实世界数据集进行的大量实验证明,IDR是一种有效而有效的子空间聚类算法。
translated by 谷歌翻译
Spectral clustering is an effective methodology for unsupervised learning. Most traditional spectral clustering algorithms involve a separate two-step procedure and apply the transformed new representations for the final clustering results. Recently, much progress has been made to utilize the non-negative feature property in real-world data and to jointly learn the representation and clustering results. However, to our knowledge, no previous work considers a unified model that incorporates the important multi-view information with those properties, which severely limits the performance of existing methods. In this paper, we formulate a novel clustering model, which exploits the non-negative feature property and, more importantly, incorporates the multi-view information into a unified joint learning framework: the unified multi-view orthonormal non-negative graph based clustering framework (Umv-ONGC). Then, we derive an effective three-stage iterative solution for the proposed model and provide analytic solutions for the three sub-problems from the three stages. We also explore, for the first time, the multi-model non-negative graph-based approach to clustering data based on deep features. Extensive experiments on three benchmark data sets demonstrate the effectiveness of the proposed method.
translated by 谷歌翻译
多视图光谱聚类(MVSC)由于多样化的数据源而引起了越来越多的关注。但是,大多数现有作品在样本外预测中被禁止,并且忽略了模型的解释性和聚类结果的探索。在本文中,通过限制内核机框架通过共享潜在空间提出了一种新的MVSC方法。通过偶联特征双重性的镜头,我们为MVSC施加了加权内核主成分分析问题,并开发了修改的加权共轭特征二重性以制定二元变量。在我们的方法中,双重变量扮演着隐藏特征的角色,所有视图都共享了构造一个常见的潜在空间,并通过从特定的空间中学习预测来耦合视图。这种潜在空间可促进分离的簇,并提供直接的数据探索,促进可视化和解释。我们的方法只需要一个单一的特征分类,其维度独立于视图数量。为了提高高阶相关性,引入了基于张量的建模而不增加计算复杂性。我们的方法可以通过样本外扩展灵活地应用,从而极大地提高了具有固定尺寸内核方案的大规模数据的效率。数值实验验证了我们的方法在准确性,效率和可解释性方面有效,显示出明显的特征值衰减和不同的潜在变量分布。
translated by 谷歌翻译
随着数据采集技术的发展,多视图学习已成为一个热门话题。一些多视图学习方法假设多视图数据已经完成,这意味着所有实例都存在,但这太理想了。某些用于传递不完整多视图数据的基于张量的方法已经出现并取得了更好的结果。但是,仍然存在一些问题,例如使用传统的张量规范,这使计算高且无法处理样本外。为了解决这两个问题,我们提出了一种新的不完整的多视图学习方法。定义了一个新的张量规范来实现图形张量数据恢复。然后将恢复的图定于样品的一致的低维表示。此外,自适应权重配备了每种视图,以调整不同视图的重要性。与现有方法相比,我们的方法也不仅仅探讨视图之间的一致性,但也通过使用学习的投影矩阵获得了新样本的低维表示。基于不精确的增强Lagrange乘数(ALM)方法的有效算法旨在解决模型,并证明了收敛性。四个数据集的实验结果显示了我们方法的有效性。
translated by 谷歌翻译
本文提出了FLGC,这是一个简单但有效的全线性图形卷积网络,用于半监督和无人监督的学习。基于计算具有解耦步骤的全局最优闭合液解决方案而不是使用梯度下降,而不是使用梯度下降。我们展示(1)FLGC强大的是处理图形结构化数据和常规数据,(2)具有闭合形式解决方案的训练图卷积模型提高了计算效率而不会降低性能,而(3)FLGC作为自然概括非欧几里德域的经典线性模型,例如Ridge回归和子空间聚类。此外,我们通过引入初始剩余策略来实现半监督的FLGC和无监督的FLGC,使FLGC能够聚集长距离邻域并减轻过平滑。我们将我们的半监督和无人监督的FLGC与各种分类和聚类基准的许多最先进的方法进行比较,表明建议的FLGC模型在准确性,鲁棒性和学习效率方面始终如一地优于先前的方法。我们的FLGC的核心代码在https://github.com/angrycai/flgc下发布。
translated by 谷歌翻译