随着信息时代的蓬勃发展,日常生成大量数据。由于这些数据的大规模和高维度,通常很难在实际应用中实现更好的决策。因此,迫切需要一种有效的大数据分析方法。对于功能工程,功能选择似乎是一个重要的研究内容,预计可以从候选人中选择“出色”功能。可以通过特征选择来实现不同的功能,例如降低维度,模型效应改进和模型性能改进。在许多分类任务中,研究人员发现,如果数据来自同一类,通常它们似乎彼此接近。因此,局部紧凑性对于评估功能至关重要。在此手稿中,我们提出了一种快速无监督的特征选择方法,称为紧凑型评分(CSUFS),以选择所需的功能。为了证明效率和准确性,通过进行广泛的实验选择了几个数据集。后来,通过解决聚类任务来揭示我们方法的有效性和优势。在这里,性能由几个众所周知的评估指标表示,而效率则由相应的运行时间反映。正如模拟结果所揭示的那样,与现有算法相比,我们提出的算法似乎更准确和有效。
translated by 谷歌翻译
由于巨大的未标记数据的出现,现在已经增加了更加关注无监督的功能选择。需要考虑使用更有效的顺序使用样品训练学习方法的样本和潜在效果的分布,以提高该方法的鲁棒性。自定步学习是考虑样本培训顺序的有效方法。在本研究中,通过整合自花枢学习和子空间学习框架来提出无监督的特征选择。此外,保留了局部歧管结构,并且特征的冗余受到两个正则化术语的约束。 $ l_ {2,1 / 2} $ - norm应用于投影矩阵,旨在保留歧视特征,并进一步缓解数据中噪声的影响。然后,提出了一种迭代方法来解决优化问题。理论上和实验证明了该方法的收敛性。将所提出的方法与九个现实世界数据集上的其他技术的算法进行比较。实验结果表明,该方法可以提高聚类方法的性能,优于其他比较算法。
translated by 谷歌翻译
多视图无监督的特征选择(MUF)已被证明是一种有效的技术,可降低多视图未标记数据的维度。现有方法假定所有视图都已完成。但是,多视图数据通常不完整,即,某些视图中显示了一部分实例,但并非所有视图。此外,学习完整的相似性图,作为现有MUFS方法中重要的有前途的技术,由于缺少的观点而无法实现。在本文中,我们提出了一个基于互补的和共识学习的不完整的多视图无监督的特征选择方法(C $^{2} $ IMUFS),以解决上述问题。具体而言,c $^{2} $ imufs将功能选择集成到扩展的加权非负矩阵分解模型中,配备了自适应学习视图和稀疏的$ \ ell_ {2,p} $ - norm-norm,它可以提供更好的提供适应性和灵活性。通过从不同视图得出的多个相似性矩阵的稀疏线性组合,介绍了互补学习引导的相似性矩阵重建模型,以在每个视图中获得完整的相似性图。此外,c $^{2} $ imufs学习了跨不同视图的共识聚类指示器矩阵,并将其嵌入光谱图术语中以保留本地几何结构。现实世界数据集的全面实验结果证明了与最新方法相比,C $^{2} $ IMUF的有效性。
translated by 谷歌翻译
尺寸还原〜(DR)将高维数据映射到较低的尺寸潜在空间,并最小化定义的优化目标。 DR方法通常属于特征选择〜(FS)和特征投影〜(FP)。 FS专注于选择尺寸的关键子集,但有风险破坏数据分布(结构)。另一方面,FP将所有输入特征结合到较低的维度空间中,旨在维护数据结构。但是缺乏解释性和稀疏性。 FS和FP传统上是不兼容的类别;因此,它们尚未统一为友好的框架。我们建议理想的DR方法将FS和FP同时结合到统一的端到端多种学习框架中,同时执行基本特征发现,同时保持潜在空间中数据样本之间的内在关系。在这项工作中,我们开发了一个统一的框架,统一的尺寸还原神经网络〜(UDRN),该框架以兼容的端到端方式将FS和FP整合在一起。我们通过使用两个堆叠子网络分别实施FS和FP任务来改善神经网络结构。此外,我们设计了DR流程的数据增强,以提高方法处理广泛的功能数据集和设计的损失功能时,可以与数据增强合作。关于四个图像和四个生物数据集的广泛实验结果,包括非常高维数据,证明了DRN的优势比现有方法〜(FS,FP和FS \&FP管道),尤其是在分类和可视化等下游任务中。
translated by 谷歌翻译
Multi-view unsupervised feature selection has been proven to be efficient in reducing the dimensionality of multi-view unlabeled data with high dimensions. The previous methods assume all of the views are complete. However, in real applications, the multi-view data are often incomplete, i.e., some views of instances are missing, which will result in the failure of these methods. Besides, while the data arrive in form of streams, these existing methods will suffer the issues of high storage cost and expensive computation time. To address these issues, we propose an Incremental Incomplete Multi-view Unsupervised Feature Selection method (I$^2$MUFS) on incomplete multi-view streaming data. By jointly considering the consistent and complementary information across different views, I$^2$MUFS embeds the unsupervised feature selection into an extended weighted non-negative matrix factorization model, which can learn a consensus clustering indicator matrix and fuse different latent feature matrices with adaptive view weights. Furthermore, we introduce the incremental leaning mechanisms to develop an alternative iterative algorithm, where the feature selection matrix is incrementally updated, rather than recomputing on the entire updated data from scratch. A series of experiments are conducted to verify the effectiveness of the proposed method by comparing with several state-of-the-art methods. The experimental results demonstrate the effectiveness and efficiency of the proposed method in terms of the clustering metrics and the computational cost.
translated by 谷歌翻译
由于其简单性和实用性,密度峰值聚类已成为聚类算法的NOVA。但是,这是一个主要的缺点:由于其高计算复杂性,这是耗时的。在此,开发了稀疏搜索和K-D树的密度峰聚类算法来解决此问题。首先,通过使用k-d树来替换原始的全等级距离矩阵来计算稀疏距离矩阵,以加速局部密度的计算。其次,提出了一种稀疏的搜索策略,以加快与$ k $最近邻居的集合与由数据点组成的集合之间的相互分离的计算。此外,采用了决策值的二阶差异方法来自适应确定群集中心。最后,通过与其他六种最先进的聚类算法进行比较,在具有不同分布特性的数据集上进行实验。事实证明,该算法可以有效地将原始DPC的计算复杂性从$ O(n^2k)$降低到$ O(n(n^{1-1/k}+k))$。特别是对于较大的数据集,效率更加明显地提高。此外,聚类精度也在一定程度上提高了。因此,可以得出结论,新提出的算法的总体性能非常好。
translated by 谷歌翻译
不平衡的分类问题成为数据挖掘和机器学习中的重要和具有挑战性问题之一。传统分类器的性能将受到许多数据问题的严重影响,例如类不平衡问题,类重叠和噪声。 Tomek-Link算法仅用于在提出时清理数据。近年来,已经报道了将Tomek-Link算法与采样技术结合起来。 Tomek-Link采样算法可以有效地减少数据上的类重叠,删除难以区分的多数实例,提高算法分类精度。然而,Tomek-Links下面采样算法仅考虑全局彼此的最近邻居并忽略潜在的本地重叠实例。当少数群体实例的数量很小时,取样效果不令人满意,分类模型的性能改善并不明显。因此,在Tomek-Link的基础上,提出了一种多粒度重新标记的取样算法(MGRU)。该算法完全考虑了本地粒度子空间中的数据集的本地信息,并检测数据集中的本地潜在重叠实例。然后,根据全局重新标记的索引值消除重叠的多数实例,这有效地扩展了Tomek-Link的检测范围。仿真结果表明,当我们选择欠采样的最佳全局重新标记索引值时,所提出的下采样算法的分类准确性和泛化性能明显优于其他基线算法。
translated by 谷歌翻译
Multi-label learning is often used to mine the correlation between variables and multiple labels, and its research focuses on fully extracting the information between variables and labels. The $\ell_{2,1}$ regularization is often used to get a sparse coefficient matrix, but the problem of multicollinearity among variables cannot be effectively solved. In this paper, the proposed model can choose the most relevant variables by solving a joint constraint optimization problem using the $\ell_{2,1}$ regularization and Frobenius regularization. In manifold regularization, we carry out a random walk strategy based on the joint structure to construct a neighborhood graph, which is highly robust to outliers. In addition, we give an iterative algorithm of the proposed method and proved the convergence of this algorithm. The experiments on the real-world data sets also show that the comprehensive performance of our method is consistently better than the classical method.
translated by 谷歌翻译
特征选择通过识别最具信息性功能的子集来减少数据的维度。在本文中,我们为无监督的特征选择提出了一种创新的框架,称为分形Automencoders(FAE)。它列举了一个神经网络,以确定全球探索能力和局部挖掘的多样性的信息。架构上,FAE通过添加一对一的评分层和小子神经网络来扩展AutoEncoders,以便以无监督的方式选择特征选择。通过这种简洁的建筑,Fae实现了最先进的表演;在十四个数据集中的广泛实验结果,包括非常高维数据,已经证明了FAE对未经监督特征选择的现有现代方法的优越性。特别是,FAE对基因表达数据探索具有实质性优势,通过广泛使用的L1000地标基因将测量成本降低约15美元。此外,我们表明FAE框架与应用程序很容易扩展。
translated by 谷歌翻译
分层群集的主要挑战之一是如何适当地识别群集树较低级别的代表点,这些点将被用作群集树的较高级别的根源以进行进一步的聚合。然而,传统的分层聚类方法采用了一些简单的技巧来选择可能不像代表的“代表”点。因此,构造的簇树在其稳健性和可靠性较弱的方面不太吸引。针对这个问题,我们提出了一种新的分层聚类算法,其中,在构建聚类树形图的同时,我们可以有效地检测基于对每个子最小跨越树中的互易读数的互动最近数据点进行评分的代表点。 UCI数据集的广泛实验表明,所提出的算法比其他基准更准确。同时,在我们的分析下,所提出的算法具有O(nlogn)时间复杂度和O(logn)空间复杂度,表明它具有在处理具有更少时间和存储消​​耗的大规模数据方面具有可扩展性。
translated by 谷歌翻译
机器学习对图像和视频数据的应用通常会产生高维特征空间。有效的功能选择技术确定了一个判别特征子空间,该子空间可降低计算和建模成本,而绩效很少。提出了一种新颖的监督功能选择方法,用于这项工作中的机器学习决策。所得测试分别称为分类和回归问题的判别功能测试(DFT)和相关特征测试(RFT)。 DFT和RFT程序进行了详细描述。此外,我们将DFT和RFT的有效性与几种经典特征选择方法进行了比较。为此,我们使用LENET-5为MNIST和时尚流行数据集获得的深度功能作为说明性示例。其他具有手工制作和基因表达功能的数据集也包括用于性能评估。实验结果表明,DFT和RFT可以在保持较高的决策绩效的同时明确,稳健地选择较低的尺寸特征子空间。
translated by 谷歌翻译
大多数维度降低方法采用频域表示,从基质对角线化获得,并且对于具有较高固有维度的大型数据集可能不会有效。为了应对这一挑战,相关的聚类和投影(CCP)提供了一种新的数据域策略,不需要解决任何矩阵。CCP将高维特征分配到相关的群集中,然后根据样本相关性将每个集群中的特征分为一个一维表示。引入了残留相似性(R-S)分数和索引,Riemannian歧管中的数据形状以及基于代数拓扑的持久性Laplacian进行可视化和分析。建议的方法通过与各种机器学习算法相关的基准数据集验证。
translated by 谷歌翻译
为了允许机器学习算法从原始数据中提取知识,必须首先清除,转换,并将这些数据置于适当的形式。这些通常很耗时的阶段被称为预处理。预处理阶段的一个重要步骤是特征选择,其目的通过减少数据集的特征量来更好地执行预测模型。在这些数据集中,不同事件的实例通常是不平衡的,这意味着某些正常事件被超出,而其他罕见事件非常有限。通常,这些罕见的事件具有特殊的兴趣,因为它们具有比正常事件更具辨别力。这项工作的目的是过滤提供给这些罕见实例的特征选择方法的实例,从而积极影响特征选择过程。在这项工作过程中,我们能够表明这种过滤对分类模型的性能以及异常值检测方法适用于该过滤。对于某些数据集,所产生的性能增加仅为百分点,但对于其他数据集,我们能够实现高达16%的性能的增加。这项工作应导致预测模型的改进以及在预处理阶段的过程中的特征选择更好的可解释性。本着公开科学的精神,提高了我们的研究领域的透明度,我们已经在公开的存储库中提供了我们的所有源代码和我们的实验结果。
translated by 谷歌翻译
Pawlak粗糙集和邻居粗糙集是两个最常见的粗糙设置理论模型。 Pawlawk可以使用等价类来表示知识,但无法处理连续数据;邻域粗糙集可以处理连续数据,但它失去了使用等价类代表知识的能力。为此,本文介绍了基于格兰拉球计算的粒状粗糙集。颗粒球粗糙集可以同时代表佩皮克粗集,以及邻域粗糙集,以实现两者的统一表示。这使得粒度球粗糙集不仅可以处理连续数据,而且可以使用对知识表示的等价类。此外,我们提出了一种颗粒球粗糙集的实现算法。基准数据集的实验符合证明,由于颗粒球计算的鲁棒性和适应性的组合,与Pawlak粗糙集和传统的邻居粗糙相比,粒状球粗糙集的学习准确性得到了大大提高放。颗粒球粗糙集也优于九流行或最先进的特征选择方法。
translated by 谷歌翻译
本文提出了一种基于粗糙集的强大数据挖掘方法,可以同时实现特征选择,分类和知识表示。粗糙集具有良好的解释性,是一种流行的特征选择方法。但效率低,精度低是其主要缺点,限制了其应用能力。在本文中,对应于准确性,首先找到粗糙集的无效,因为过度装备,尤其是在处理噪声属性中,并为属性提出了一个稳健的测量,称为相对重要性。我们提出了“粗糙概念树”的概念用于知识表示和分类。在公共基准数据集上的实验结果表明,所提出的框架达到比七种流行或最先进的特征选择方法更高的精度。
translated by 谷歌翻译
无论是在功能选择的领域还是可解释的AI领域,都有基于其重要性的“排名”功能的愿望。然后可以将这种功能重要的排名用于:(1)减少数据集大小或(2)解释机器学习模型。但是,在文献中,这种特征排名没有以系统的,一致的方式评估。许多论文都有不同的方式来争论哪些具有重要性排名最佳的特征。本文通过提出一种新的评估方法来填补这一空白。通过使用合成数据集,可以事先知道特征重要性得分,从而可以进行更系统的评估。为了促进使用新方法的大规模实验,在Python建造了一个名为FSEVAL的基准测定框架。该框架允许并行运行实验,并在HPC系统上的计算机上分布。通过与名为“权重和偏见”的在线平台集成,可以在实时仪表板上进行交互探索图表。该软件作为开源软件发布,并在PYPI平台上以包裹发行。该研究结束时,探索了一个这样的大规模实验,以在许多方面找到参与算法的优势和劣势。
translated by 谷歌翻译
非线性维度降低可以通过\纺织{歧管学习}方法来执行,例如随机邻居嵌入(SNE),局部线性嵌入(LLE)和等距特征映射(ISOMAP)。这些方法旨在产生两个或三个潜在嵌入的嵌入,主要用于可视化可理解的表示数据。此稿件提出了学生的T分布式SNE(T-SNE),LLE和ISOMAP的扩展,以实现多维数量和多视图数据的可视化。多视图数据是指从相同样本生成的多种类型的数据。与通过单独可视化所获得的数据,所提出的多视图方法提供了比较通过可视化所获得的多个数据的更可理解的预测。通常可视化用于识别样本内的底层模式。通过将获得的低维嵌入从多视图歧管中的方法结合到K-Means聚类算法中,示出了准确地识别出样品的簇。通过对实际和合成数据的分析,发现所提出的多SNE方法具有最佳性能。我们进一步说明了多SNE方法对分析多OMICS单细胞数据的适用性,目的是在与健康和疾病相关的生物组织中可视化和识别细胞异质性和细胞类型。
translated by 谷歌翻译
张量分解是学习多通道结构和来自高维数据的异质特征的有效工具,例如多视图图像和多通道脑电图(EEG)信号,通常由张量表示。但是,大多数张量分解方法是线性特征提取技术,它们无法在高维数据中揭示非线性结构。为了解决此类问题,已经提出了许多算法,以同时执行线性和非线性特征提取。代表性算法是用于图像群集的图形正则非负矩阵分解(GNMF)。但是,正常的2阶图只能模拟对象的成对相似性,该对象无法充分利用样品的复杂结构。因此,我们提出了一种新型方法,称为HyperGraph Narodarized非负张量分解(HyperNTF),该方法利用超图来编码样品之间的复杂连接,并采用了与最终的典型多形(CP)分解模式相对应的因子矩阵,为低维度表示。关于合成歧管,现实世界图像数据集和脑电图信号的广泛实验,表明HyperNTF在降低,聚类和分类方面优于最先进的方法。
translated by 谷歌翻译
旨在解决不完整的多视图数据中缺少部分视图的聚类问题的不完整的多视图聚类,近年来受到了越来越多的关注。尽管已经开发了许多方法,但大多数方法要么无法灵活地处理不完整的多视图数据,因此使用任意丢失的视图,或者不考虑视图之间信息失衡的负面因素。此外,某些方法并未完全探索所有不完整视图的局部结构。为了解决这些问题,本文提出了一种简单但有效的方法,称为局部稀疏不完整的多视图聚类(LSIMVC)。与现有方法不同,LSIMVC打算通过优化一个稀疏的正则化和新颖的图形嵌入式多视图矩阵分数模型来从不完整的多视图数据中学习稀疏和结构化的潜在表示。具体而言,在基于矩阵分解的这种新型模型中,引入了基于L1规范的稀疏约束,以获得稀疏的低维单个表示和稀疏共识表示。此外,引入了新的本地图嵌入项以学习结构化共识表示。与现有作品不同,我们的本地图嵌入术语汇总了图形嵌入任务和共识表示任务中的简洁术语。此外,为了减少多视图学习的不平衡因素,将自适应加权学习方案引入LSIMVC。最后,给出了有效的优化策略来解决我们提出的模型的优化问题。在六个不完整的多视图数据库上执行的全面实验结果证明,我们的LSIMVC的性能优于最新的IMC方法。该代码可在https://github.com/justsmart/lsimvc中找到。
translated by 谷歌翻译
信息科学的快速发展引起的“维度诅咒”在处理大数据集时可能会产生负面影响。在本文中,我们提出了Sparrow搜索算法(SSA)的一种变体,称为帐篷L \'evy飞行麻雀搜索算法(TFSSA),并使用它来选择包装模式中最佳的特征子集以进行分类。 SSA是最近提出的算法,尚未系统地应用于特征选择问题。通过CEC2020基准函数进行验证后,TFSSA用于选择最佳功能组合,以最大化分类精度并最大程度地减少所选功能的数量。将拟议的TFSSA与文献中的九种算法进行了比较。 9个评估指标用于正确评估和比较UCI存储库中21个数据集上这些算法的性能。此外,该方法应用于冠状病毒病(COVID-19)数据集,分别获得最佳的平均分类精度和特征选择的平均数量,为93.47%和2.1。实验结果证实了所提出的算法在提高分类准确性和减少与其他基于包装器的算法相比的选定特征数量方面的优势。
translated by 谷歌翻译