非负矩阵分解(NMF)已广泛用于降低机器学习的尺寸。但是,传统的NMF无法正确处理异常值,因此对噪声敏感。为了提高NMF的鲁棒性,本文提出了一种自适应加权NMF,它引入了权重,以强调每个数据点的不同重要性,因此降低了对噪声数据的算法敏感性。它与使用缓慢生长相似性度量的现有强大NMF大不相同。具体而言,提出了两种实现这一目标的策略:模糊加权技术和熵加权技术,两者都导致具有简单形式的迭代解决方案。实验结果表明,新方法在具有噪声的几个真实数据集上具有更健壮的特征表示,而不是进行噪声。
translated by 谷歌翻译
非负矩阵分解(NMF)已被广泛用于学习数据的低维表示。但是,NMF对数据点的所有属性都同样关注,这不可避免地导致不准确的代表性。例如,在人面数据集中,如果图像在头上包含帽子,则应删除帽子,或者在矩阵分组期间应减少其对应属性的重要性。本文提出了一种名为熵权的NMF(EWNMF)的新型NMF,其为每个数据点的每个属性使用可优化的权重,以强调它们的重要性。通过向成本函数添加熵规范器来实现此过程,然后使用拉格朗日乘法器方法来解决问题。具有若干数据集的实验结果证明了该方法的可行性和有效性。我们在https://github.com/poisson-em/entropy-weighted-nmf提供我们的代码。
translated by 谷歌翻译
Nonnegative Tucker Factorization (NTF) minimizes the euclidean distance or Kullback-Leibler divergence between the original data and its low-rank approximation which often suffers from grossly corruptions or outliers and the neglect of manifold structures of data. In particular, NTF suffers from rotational ambiguity, whose solutions with and without rotation transformations are equally in the sense of yielding the maximum likelihood. In this paper, we propose three Robust Manifold NTF algorithms to handle outliers by incorporating structural knowledge about the outliers. They first applies a half-quadratic optimization algorithm to transform the problem into a general weighted NTF where the weights are influenced by the outliers. Then, we introduce the correntropy induced metric, Huber function and Cauchy function for weights respectively, to handle the outliers. Finally, we introduce a manifold regularization to overcome the rotational ambiguity of NTF. We have compared the proposed method with a number of representative references covering major branches of NTF on a variety of real-world image databases. Experimental results illustrate the effectiveness of the proposed method under two evaluation metrics (accuracy and nmi).
translated by 谷歌翻译
迭代加权收缩阈值算法(IWSTA)已经显示出优于经典的未加权迭代收缩 - 阈值算法(ISTA),用于解决线性逆问题,其不同地解决属性。本文提出了一种新的熵正则化IWSTA(ERIWSTA),该IWSTA(ERIWSTA)为成本函数增加了成本函数以衡量权重的不确定性,以刺激参与问题解决的属性。然后,用拉格朗日乘法器方法解决权重,以获得简单的迭代更新。可以解释权重作为问题解决方案的贡献的概率。CT图像恢复的实验结果表明,该方法在收敛速度和恢复精度方面具有比现有方法更好的性能。
translated by 谷歌翻译
由于巨大的未标记数据的出现,现在已经增加了更加关注无监督的功能选择。需要考虑使用更有效的顺序使用样品训练学习方法的样本和潜在效果的分布,以提高该方法的鲁棒性。自定步学习是考虑样本培训顺序的有效方法。在本研究中,通过整合自花枢学习和子空间学习框架来提出无监督的特征选择。此外,保留了局部歧管结构,并且特征的冗余受到两个正则化术语的约束。 $ l_ {2,1 / 2} $ - norm应用于投影矩阵,旨在保留歧视特征,并进一步缓解数据中噪声的影响。然后,提出了一种迭代方法来解决优化问题。理论上和实验证明了该方法的收敛性。将所提出的方法与九个现实世界数据集上的其他技术的算法进行比较。实验结果表明,该方法可以提高聚类方法的性能,优于其他比较算法。
translated by 谷歌翻译
Multi-view unsupervised feature selection has been proven to be efficient in reducing the dimensionality of multi-view unlabeled data with high dimensions. The previous methods assume all of the views are complete. However, in real applications, the multi-view data are often incomplete, i.e., some views of instances are missing, which will result in the failure of these methods. Besides, while the data arrive in form of streams, these existing methods will suffer the issues of high storage cost and expensive computation time. To address these issues, we propose an Incremental Incomplete Multi-view Unsupervised Feature Selection method (I$^2$MUFS) on incomplete multi-view streaming data. By jointly considering the consistent and complementary information across different views, I$^2$MUFS embeds the unsupervised feature selection into an extended weighted non-negative matrix factorization model, which can learn a consensus clustering indicator matrix and fuse different latent feature matrices with adaptive view weights. Furthermore, we introduce the incremental leaning mechanisms to develop an alternative iterative algorithm, where the feature selection matrix is incrementally updated, rather than recomputing on the entire updated data from scratch. A series of experiments are conducted to verify the effectiveness of the proposed method by comparing with several state-of-the-art methods. The experimental results demonstrate the effectiveness and efficiency of the proposed method in terms of the clustering metrics and the computational cost.
translated by 谷歌翻译
FCM和PCM聚类方法都被广泛应用于模式识别和数据聚类。尽管如此,FCM对噪声和PCM偶尔会产生一致的簇。 PFCM是通过组合FCM和PCM的PCM模型的扩展,但这种方法仍然遭受PCM和FCM的弱点。在目前的纸张中,校正了PFCM算法的弱点,并提出了增强的可能性模糊C-MATIOM(EPFCM)聚类算法。 EPFCM仍然对噪音敏感。因此,我们通过利用模糊成员资格和两个fuzzifers $({\ theta} _1,{\ theta} _2 )$的可能性典型。我们的计算结果表明,与文献中的几种最先进的技术相比,拟议方法的优势。最后,实施了所提出的方法,用于分析微阵列基因表达数据。
translated by 谷歌翻译
多视图子空间聚类传统上专注于集成异构特征描述以捕获更高维度信息。一种流行的策略是从不同视图生成常见的子空间,然后应用基于图形的方法来处理群集。但是,这些方法的性能仍然受到两个限制,即多视图融合模式以及融合过程与聚类任务之间的连接。为了解决这些问题,我们通过细粒度图形学习提出了一种新的多视图子空间聚类框架,可以在不同视图之间讲述本地结构之间的一致性,并比以前的重量规则更精细地集成所有视图。与文献中的其他模型不同,引入了点级图正规化和频谱聚类的重新介绍,以执行图形融合并将共享集群结构一起学习在一起。在五个真实数据集上进行了广泛的实验,表明该框架对SOTA算法具有可比性。
translated by 谷歌翻译
旨在解决不完整的多视图数据中缺少部分视图的聚类问题的不完整的多视图聚类,近年来受到了越来越多的关注。尽管已经开发了许多方法,但大多数方法要么无法灵活地处理不完整的多视图数据,因此使用任意丢失的视图,或者不考虑视图之间信息失衡的负面因素。此外,某些方法并未完全探索所有不完整视图的局部结构。为了解决这些问题,本文提出了一种简单但有效的方法,称为局部稀疏不完整的多视图聚类(LSIMVC)。与现有方法不同,LSIMVC打算通过优化一个稀疏的正则化和新颖的图形嵌入式多视图矩阵分数模型来从不完整的多视图数据中学习稀疏和结构化的潜在表示。具体而言,在基于矩阵分解的这种新型模型中,引入了基于L1规范的稀疏约束,以获得稀疏的低维单个表示和稀疏共识表示。此外,引入了新的本地图嵌入项以学习结构化共识表示。与现有作品不同,我们的本地图嵌入术语汇总了图形嵌入任务和共识表示任务中的简洁术语。此外,为了减少多视图学习的不平衡因素,将自适应加权学习方案引入LSIMVC。最后,给出了有效的优化策略来解决我们提出的模型的优化问题。在六个不完整的多视图数据库上执行的全面实验结果证明,我们的LSIMVC的性能优于最新的IMC方法。该代码可在https://github.com/justsmart/lsimvc中找到。
translated by 谷歌翻译
多视图聚类(MVC)最佳地集成了来自不同视图的互补信息,以提高聚类性能。尽管在各种应用中证明了有希望的性能,但大多数现有方法都直接融合了多个预先指定的相似性,以学习聚类的最佳相似性矩阵,这可能会导致过度复杂的优化和密集的计算成本。在本文中,我们通过对齐方式最大化提出了晚期Fusion MVC,以解决这些问题。为此,我们首先揭示了现有K-均值聚类的理论联系以及基本分区和共识之一之间的对齐。基于此观察结果,我们提出了一种简单但有效的多视算法,称为LF-MVC-GAM。它可以从每个单独的视图中最佳地将多个源信息融合到分区级别,并最大程度地将共识分区与这些加权基础分区保持一致。这种对齐方式有助于整合分区级别信息,并通过充分简化优化过程来大大降低计算复杂性。然后,我们设计了另一个变体LF-MVC-LAM,以通过在多个分区空间之间保留局部内在结构来进一步提高聚类性能。之后,我们开发了两种三步迭代算法,以通过理论上保证的收敛来解决最终的优化问题。此外,我们提供了所提出算法的概括误差约束分析。对十八个多视图基准数据集进行了广泛的实验,证明了拟议的LF-MVC-GAM和LF-MVC-LAM的有效性和效率,范围从小到大型数据项不等。拟议算法的代码可在https://github.com/wangsiwei2010/latefusionalignment上公开获得。
translated by 谷歌翻译
多视图数据通常在数据挖掘应用程序中遇到。从多视图数据中有效提取信息需要特定的聚类方法设计,以适应具有多种视图的数据,这是非平凡且具有挑战性的。在本文中,我们通过利用不同观点的常见和特定信息的双重表示,提出了一种新颖的一步多视图聚类方法。动机源于以下理由:多视图数据不仅包含视图之间的一致知识,还包含每个视图的独特知识。同时,为了使表示学习更具体地针对聚类任务,提出了一个单步学习框架,以整体整合表示表示和聚类分区。在此框架中,表示形式学习和聚类分区相互受益,从而有效地改善了聚类性能。在基准多视图数据集上进行的广泛实验的结果清楚地证明了该方法的优越性。
translated by 谷歌翻译
Non-negative matrix factorisation (NMF) has been widely used to address the problem of corrupted data in images. The standard NMF algorithm minimises the Euclidean distance between the data matrix and the factorised approximation. Although this method has demonstrated good results, because it employs the squared error of each data point, the standard NMF algorithm is sensitive to outliers. In this paper, we theoretically analyse the robustness of the standard NMF, HCNMF and L2,1-NMF algorithms, and implement sets of experiments to show the robustness on real datasets, namely ORL and Extended YaleB. Our work demonstrates that different amounts of iterations are required for each algorithm to converge. Given the high computational complexity of these algorithms, our final models such as HCNMF and L2,1-NMF model do not successfully converge within the iteration parameters of this paper. Nevertheless, the experimental results still demonstrate the robustness of the aforementioned algorithms to some extent.
translated by 谷歌翻译
本文中描述的模型属于专为数据表示和降低尺寸而设计的非负矩阵分解方法的家族。除了保留数据阳性属性外,它还旨在在矩阵分解过程中保留数据结构。这个想法是在NMF成本函数中添加一个惩罚术语,以在原始数据点和转换数据点的成对相似性矩阵之间实现比例关系。新模型的解决方案涉及为系数矩阵得出新的参数化更新方案,这使得在用于群集和分类时可以提高还原数据的质量。将所提出的聚类算法与某些现有的基于NMF的算法以及应用于某些现实生活数据集时的某些基于多种学习的算法进行了比较。获得的结果显示了所提出的算法的有效性。
translated by 谷歌翻译
由于机器学习和数据挖掘领域的不平衡数据集的分类问题,但学习的不平衡学习是重要的并且具有挑战性。提出采样方法来解决这个问题,而基于群集的过采样方法表现出很大的潜力,因为它们的目标是同时解决课堂和级别的不平衡问题。但是,所有现有的聚类方法都基于一次性方法。由于缺乏先验知识,通常存在的群集数量不当设置,这导致集群性能不佳。此外,现有方法可能会产生嘈杂的情况。为了解决这些问题,本文提出了一种基于模糊C-MATION(MLFCM)的基于深度外观信封网络的不平衡学习算法,以及基于最大均值(MINMD)的最小中间层间差异机制。在没有先前知识的情况下,该算法可以使用深度实例包络网络来保证高质量的平衡实例。在实验部分中,三十三个流行的公共数据集用于验证,并且超过十个代表性算法用于比较。实验结果表明,该方法显着优于其他流行的方法。
translated by 谷歌翻译
多视图无监督的特征选择(MUF)已被证明是一种有效的技术,可降低多视图未标记数据的维度。现有方法假定所有视图都已完成。但是,多视图数据通常不完整,即,某些视图中显示了一部分实例,但并非所有视图。此外,学习完整的相似性图,作为现有MUFS方法中重要的有前途的技术,由于缺少的观点而无法实现。在本文中,我们提出了一个基于互补的和共识学习的不完整的多视图无监督的特征选择方法(C $^{2} $ IMUFS),以解决上述问题。具体而言,c $^{2} $ imufs将功能选择集成到扩展的加权非负矩阵分解模型中,配备了自适应学习视图和稀疏的$ \ ell_ {2,p} $ - norm-norm,它可以提供更好的提供适应性和灵活性。通过从不同视图得出的多个相似性矩阵的稀疏线性组合,介绍了互补学习引导的相似性矩阵重建模型,以在每个视图中获得完整的相似性图。此外,c $^{2} $ imufs学习了跨不同视图的共识聚类指示器矩阵,并将其嵌入光谱图术语中以保留本地几何结构。现实世界数据集的全面实验结果证明了与最新方法相比,C $^{2} $ IMUF的有效性。
translated by 谷歌翻译
We study a multi-factor block model for variable clustering and connect it to the regularized subspace clustering by formulating a distributionally robust version of the nodewise regression. To solve the latter problem, we derive a convex relaxation, provide guidance on selecting the size of the robust region, and hence the regularization weighting parameter, based on the data, and propose an ADMM algorithm for implementation. We validate our method in an extensive simulation study. Finally, we propose and apply a variant of our method to stock return data, obtain interpretable clusters that facilitate portfolio selection and compare its out-of-sample performance with other clustering methods in an empirical study.
translated by 谷歌翻译
众所周知,无监督的非线性维度减少和聚类对超公共表的选择敏感,特别是对于基于深度学习的方法,这阻碍了其实际使用。如何选择可能在不同应用程序中可能大致不同的网络结构是深度模型的艰难问题,因为少于对数据的知识很少。在本文中,我们探索了用于自动确定深层模型的最佳网络结构的集合学习和选择技术,命名为多层举屏网络(MBN)。具体地,我们首先提出了一种MBN集合(MBN-E)算法,它将具有不同网络结构的MBN基础模型集的稀疏输出连接到新的表示中。由于培训MBN的集合很昂贵,所以我们提出了一种快速版本的MBN-E(FMBN-E),其通过重新采样来替换MBN-E中的随机数据重新采样的步骤。从理论上讲,FMBN-E甚至比单个标准MBN更快。然后,我们采用MBN-E产生的新表示作为选择最佳MBN基础模型的参考。应用了两种集合选择标准,命名为优化选择标准和分配分配标准。重要的是,MBN-E及其集合选择技术维持基于第一邻邻学习的MBN的简单配方,并在没有手动超公共数据计调谐的情况下达到最先进的性能。 FMBN-E凭经验甚至比MBN-e快于MBN-E的数百次,而不会遭受性能下降。源代码可在http://www.xiaolei-zhang.net/mbn-e.htm上获得。
translated by 谷歌翻译
群集集群或共识群集已成为一种强大的工具,用于提高各种聚类方法的鲁棒性和结果的稳定性。加权聚类集群自然地从集群集群中产生。加权群集集合的参数之一是聚类集群中的元素(群集或集群)具有不同的质量,或者对象或特征具有不同意义的重要性。但是,不可能直接将加权机制从分类(监督)域中应用于群集(无监督)域,因为群集本质上是一个不存在的问题。本文通过讨论不同类型的权重,确定重量值的主要方法以及将加权聚类集合与复杂数据的应用程序的主要方法概述了加权集群集群集合概述。本文提出的统一框架将有助于聚类从业者为自己的问题选择最合适的加权机制。
translated by 谷歌翻译
张量分解是学习多通道结构和来自高维数据的异质特征的有效工具,例如多视图图像和多通道脑电图(EEG)信号,通常由张量表示。但是,大多数张量分解方法是线性特征提取技术,它们无法在高维数据中揭示非线性结构。为了解决此类问题,已经提出了许多算法,以同时执行线性和非线性特征提取。代表性算法是用于图像群集的图形正则非负矩阵分解(GNMF)。但是,正常的2阶图只能模拟对象的成对相似性,该对象无法充分利用样品的复杂结构。因此,我们提出了一种新型方法,称为HyperGraph Narodarized非负张量分解(HyperNTF),该方法利用超图来编码样品之间的复杂连接,并采用了与最终的典型多形(CP)分解模式相对应的因子矩阵,为低维度表示。关于合成歧管,现实世界图像数据集和脑电图信号的广泛实验,表明HyperNTF在降低,聚类和分类方面优于最先进的方法。
translated by 谷歌翻译
光谱型子空间聚类算法成功的关键点是寻求重建系数矩阵,这些矩阵可以忠实地揭示数据集的子空间结构。理想的重建系数矩阵应该具有两个属性:1)它是块对角线,每个块指示一个子空间; 2)每个块完全连接。尽管已经提出了各种光谱类型子空间聚类算法,但这些算法构建的重建系数矩阵中仍然存在一些缺陷。我们发现,归一化成员矩阵自然满足上述两个条件。因此,在本文中,我们设计了一种基本表示(IDR)算法来追求近似归一化成员矩阵的重建系数矩阵。 IDR设计了重建系数矩阵的新的IDEMTOTENT约束。通过将双随机约束结合在一起,可以直接实现与归一化构件矩阵封闭的系数矩阵。我们提出了用于解决IDR问题的优化算法,并分析其计算负担和收敛性。 IDR和相关算法之间的比较显示IDR的优势。对合成和现实世界数据集进行的大量实验证明,IDR是一种有效而有效的子空间聚类算法。
translated by 谷歌翻译