KNN分类是一种即兴的学习模式,其中仅当预测测试数据设置适当的K值并从整个训练样本空间搜索K最近邻居时,将它们引用到KNN分类的惰性部分。这一懒散的部分是应用KNN分类的瓶颈问题,因为完全搜索了K最近邻居。在本文中,提出了一步计算来取代KNN分类的惰性部分。一步计算实际上将惰性部分转换为矩阵计算,如下所示。考虑到测试数据,首先应用训练样本以将测试数据与最小二乘损耗功能拟合。然后,通过根据它们对测试数据的影响来加权所有训练样本来生成关系矩阵。最后,采用一个组套索来对关系矩阵进行稀疏学习。以这种方式,设置k值和搜索k最近邻居都集成到统一的计算。此外,提出了一种新的分类规则来改善单步核武器分类的性能。提出的方法是通过实验评估的,并证明了一步核武器分类是有效和有前途的
translated by 谷歌翻译
由于其简单性和实用性,密度峰值聚类已成为聚类算法的NOVA。但是,这是一个主要的缺点:由于其高计算复杂性,这是耗时的。在此,开发了稀疏搜索和K-D树的密度峰聚类算法来解决此问题。首先,通过使用k-d树来替换原始的全等级距离矩阵来计算稀疏距离矩阵,以加速局部密度的计算。其次,提出了一种稀疏的搜索策略,以加快与$ k $最近邻居的集合与由数据点组成的集合之间的相互分离的计算。此外,采用了决策值的二阶差异方法来自适应确定群集中心。最后,通过与其他六种最先进的聚类算法进行比较,在具有不同分布特性的数据集上进行实验。事实证明,该算法可以有效地将原始DPC的计算复杂性从$ O(n^2k)$降低到$ O(n(n^{1-1/k}+k))$。特别是对于较大的数据集,效率更加明显地提高。此外,聚类精度也在一定程度上提高了。因此,可以得出结论,新提出的算法的总体性能非常好。
translated by 谷歌翻译
不平衡的分类问题成为数据挖掘和机器学习中的重要和具有挑战性问题之一。传统分类器的性能将受到许多数据问题的严重影响,例如类不平衡问题,类重叠和噪声。 Tomek-Link算法仅用于在提出时清理数据。近年来,已经报道了将Tomek-Link算法与采样技术结合起来。 Tomek-Link采样算法可以有效地减少数据上的类重叠,删除难以区分的多数实例,提高算法分类精度。然而,Tomek-Links下面采样算法仅考虑全局彼此的最近邻居并忽略潜在的本地重叠实例。当少数群体实例的数量很小时,取样效果不令人满意,分类模型的性能改善并不明显。因此,在Tomek-Link的基础上,提出了一种多粒度重新标记的取样算法(MGRU)。该算法完全考虑了本地粒度子空间中的数据集的本地信息,并检测数据集中的本地潜在重叠实例。然后,根据全局重新标记的索引值消除重叠的多数实例,这有效地扩展了Tomek-Link的检测范围。仿真结果表明,当我们选择欠采样的最佳全局重新标记索引值时,所提出的下采样算法的分类准确性和泛化性能明显优于其他基线算法。
translated by 谷歌翻译
双支持向量机(TWSVM)和双支持向量回归(TSVR)是新兴有效的机器学习技术,可分别为分类和回归挑战提供了有希望的解决方案。 TWSVM基于该想法来识别两个非平行超平面,将数据指向其各自的类分类。它需要解决两个小型大小的二次编程问题(QPPS)代替求解单个大尺寸QPP在支持向量机(SVM),而TSVR配制在TWSVM的线上,并要求解决两个SVM类问题。虽然这些技术已经有很好的研究进展;关于TSVR的不同变体的比较有限的文献。因此,本综述对TWSVM和TSVR的最近研究同时提到了它们的局限性和优势,对最近的研究提供了严格的分析。首先,首先介绍支持向量机,TWSVM的基本理论,然后专注于TWSVM的各种改进和应用,然后介绍TSVR及其各种增强功能。最后,我们建议未来的研发前景。
translated by 谷歌翻译
The accuracy of k-nearest neighbor (kNN) classification depends significantly on the metric used to compute distances between different examples. In this paper, we show how to learn a Mahalanobis distance metric for kNN classification from labeled examples. The Mahalanobis metric can equivalently be viewed as a global linear transformation of the input space that precedes kNN classification using Euclidean distances. In our approach, the metric is trained with the goal that the k-nearest neighbors always belong to the same class while examples from different classes are separated by a large margin. As in support vector machines (SVMs), the margin criterion leads to a convex optimization based on the hinge loss. Unlike learning in SVMs, however, our approach requires no modification or extension for problems in multiway (as opposed to binary) classification. In our framework, the Mahalanobis distance metric is obtained as the solution to a semidefinite program. On several data sets of varying size and difficulty, we find that metrics trained in this way lead to significant improvements in kNN classification. Sometimes these results can be further improved by clustering the training examples and learning an individual metric within each cluster. We show how to learn and combine these local metrics in a globally integrated manner.
translated by 谷歌翻译
由于巨大的未标记数据的出现,现在已经增加了更加关注无监督的功能选择。需要考虑使用更有效的顺序使用样品训练学习方法的样本和潜在效果的分布,以提高该方法的鲁棒性。自定步学习是考虑样本培训顺序的有效方法。在本研究中,通过整合自花枢学习和子空间学习框架来提出无监督的特征选择。此外,保留了局部歧管结构,并且特征的冗余受到两个正则化术语的约束。 $ l_ {2,1 / 2} $ - norm应用于投影矩阵,旨在保留歧视特征,并进一步缓解数据中噪声的影响。然后,提出了一种迭代方法来解决优化问题。理论上和实验证明了该方法的收敛性。将所提出的方法与九个现实世界数据集上的其他技术的算法进行比较。实验结果表明,该方法可以提高聚类方法的性能,优于其他比较算法。
translated by 谷歌翻译
本文提出了一种基于对不平衡数据集的图形的新的RWO采样(随机步行过度采样)。在该方法中,引入了基于采样的下采样和过采样方法的两种方案,以使接近信息保持对噪声和异常值的鲁棒。在构建少数群体类上的第一个图形之后,RWO取样将在选定的样本上实现,其余部分保持不变。第二图是为多数类构造的,除去低密度区域(异常值)中的样品被移除。最后,在所提出的方法中,选择高密度区域中的多数类别的样品,并消除其余部分。此外,利用RWO取样,虽然未提高异常值,但虽然少数群体类的边界增加。测试该方法,并将评估措施的数量与先前的九个连续属性数据集进行比较,具有不同的过采集率和一个数据集,用于诊断Covid-19疾病。实验结果表明了所提出的不平衡数据分类方法的高效率和灵活性
translated by 谷歌翻译
Multi-label learning is often used to mine the correlation between variables and multiple labels, and its research focuses on fully extracting the information between variables and labels. The $\ell_{2,1}$ regularization is often used to get a sparse coefficient matrix, but the problem of multicollinearity among variables cannot be effectively solved. In this paper, the proposed model can choose the most relevant variables by solving a joint constraint optimization problem using the $\ell_{2,1}$ regularization and Frobenius regularization. In manifold regularization, we carry out a random walk strategy based on the joint structure to construct a neighborhood graph, which is highly robust to outliers. In addition, we give an iterative algorithm of the proposed method and proved the convergence of this algorithm. The experiments on the real-world data sets also show that the comprehensive performance of our method is consistently better than the classical method.
translated by 谷歌翻译
This paper computationally demonstrates a sharp improvement in predictive performance for $k$ nearest neighbors thanks to an efficient forward selection of the predictor variables. We show both simulated and real-world data that this novel repeatedly approaches outperformance regression models under stepwise selection
translated by 谷歌翻译
异常值是一个事件或观察,其被定义为不同于距群体的不规则距离的异常活动,入侵或可疑数据点。然而,异常事件的定义是主观的,取决于应用程序和域(能量,健康,无线网络等)。重要的是要尽可能仔细地检测异常事件,以避免基础设施故障,因为异常事件可能导致对基础设施的严重损坏。例如,诸如微电网的网络物理系统的攻击可以发起电压或频率不稳定性,从而损坏涉及非常昂贵的修复的智能逆变器。微电网中的不寻常活动可以是机械故障,行为在系统中发生变化,人体或仪器错误或恶意攻击。因此,由于其可变性,异常值检测(OD)是一个不断增长的研究领域。在本章中,我们讨论了使用AI技术的OD方法的进展。为此,通过多个类别引入每个OD模型的基本概念。广泛的OD方法分为六大类:基于统计,基于距离,基于密度的,基于群集的,基于学习的和合奏方法。对于每个类别,我们讨论最近最先进的方法,他们的应用领域和表演。之后,关于对未来研究方向的建议提供了关于各种技术的优缺点和挑战的简要讨论。该调查旨在指导读者更好地了解OD方法的最新进展,以便保证AI。
translated by 谷歌翻译
公制学习旨在学习一个距离度量,以便在将不同的实例推开时将语义上相似的实例放在一起。许多现有方法考虑在特征空间中最大化或至少限制距离距离的距离,以分离相似和不同的实例对以保证其概括能力。在本文中,我们主张在输入空间中施加对抗边缘,以改善公制学习算法的概括和稳健性。我们首先表明,对抗边缘定义为训练实例与其最接近的对手示例之间的距离,它既考虑了特征空间中的距离差距以及指标和三重限制之间的相关性。接下来,为了增强实例扰动的鲁棒性,我们建议通过最大程度地减少称为扰动损失的新型损失函数来扩大对抗缘。提出的损失可以看作是数据依赖性的正规器,并轻松地插入任何现有的度量学习方法中。最后,我们表明扩大边缘通过使用算法鲁棒性的理论技术对概括能力有益。 16个数据集的实验结果证明了所提出的方法比现有的最新方法具有歧视精度和鲁棒性,以抵抗可能的噪声。
translated by 谷歌翻译
包括机器学习在内的计算分析方法对基因组学和医学领域具有重大影响。高通量基因表达分析方法,例如微阵列技术和RNA测序产生大量数据。传统上,统计方法用于基因表达数据的比较分析。但是,针对样品观察分类或发现特征基因的分类的更复杂的分析需要复杂的计算方法。在这篇综述中,我们编译了用于分析表达微阵列数据的各种统计和计算工具。即使在表达微阵列的背景下讨论了这些方法,也可以将它们应用于RNA测序和定量蛋白质组学数据集的分析。我们讨论缺失价值的类型以及其插补中通常采用的方法和方法。我们还讨论了数据归一化,特征选择和特征提取的方法。最后,详细描述了分类和类发现方法及其评估参数。我们认为,这项详细的审查将帮助用户根据预期结果选择适当的方法来预处理和分析其数据。
translated by 谷歌翻译
Data-driven neighborhood definitions and graph constructions are often used in machine learning and signal processing applications. k-nearest neighbor~(kNN) and $\epsilon$-neighborhood methods are among the most common methods used for neighborhood selection, due to their computational simplicity. However, the choice of parameters associated with these methods, such as k and $\epsilon$, is still ad hoc. We make two main contributions in this paper. First, we present an alternative view of neighborhood selection, where we show that neighborhood construction is equivalent to a sparse signal approximation problem. Second, we propose an algorithm, non-negative kernel regression~(NNK), for obtaining neighborhoods that lead to better sparse representation. NNK draws similarities to the orthogonal matching pursuit approach to signal representation and possesses desirable geometric and theoretical properties. Experiments demonstrate (i) the robustness of the NNK algorithm for neighborhood and graph construction, (ii) its ability to adapt the number of neighbors to the data properties, and (iii) its superior performance in local neighborhood and graph-based machine learning tasks.
translated by 谷歌翻译
在医疗保健系统中,需要患者使用可穿戴设备进行远程数据收集和对健康数据的实时监控以及健康状况的状态。可穿戴设备的这种采用导致收集和传输的数据量显着增加。由于设备由较小的电池电源运行,因此由于设备的高处理要求以进行数据收集和传输,因此可以快速减少它们。鉴于医疗数据的重要性,必须所有传输数据遵守严格的完整性和可用性要求。减少医疗保健数据的量和传输频率将通过使用推理算法改善设备电池寿命。有一个以准确性和效率改善传输指标的问题,彼此之间的权衡,例如提高准确性会降低效率。本文表明,机器学习可用于分析复杂的健康数据指标,例如数据传输的准确性和效率,以使用Levenberg-Marquardt算法来克服权衡问题,从而增强这两个指标,从而通过少较少的样本来传输,同时保持维护准确性。使用标准心率数据集测试该算法以比较指标。结果表明,LMA最好以3.33倍的效率进行样本数据尺寸和79.17%的精度,在7种不同的采样案例中具有相似的准确性,用于测试,但表明效率提高。与具有高效率的现有方法相比,这些提出的方法使用机器学习可以显着改善两个指标,而无需牺牲其他指标。
translated by 谷歌翻译
痴呆症是一种神经精神脑障碍,通常会在一个或多个脑细胞停止部分或根本停止工作时发生。在疾病的早期阶段诊断这种疾病是从不良后果中挽救生命并为他们提供更好的医疗保健的至关重要的任务。事实证明,机器学习方法在预测疾病早期痴呆症方面是准确的。痴呆的预测在很大程度上取决于通常从归一化的全脑体积(NWBV)和地图集缩放系数(ASF)收集的收集数据类型,这些数据通常测量并从磁共振成像(MRIS)中进行校正。年龄和性别等其他生物学特征也可以帮助诊断痴呆症。尽管许多研究使用机器学习来预测痴呆症,但我们无法就这些方法的稳定性得出结论,而这些方法在不同的实验条件下更准确。因此,本文研究了有关痴呆预测的机器学习算法的性能的结论稳定性。为此,使用7种机器学习算法和两种功能还原算法,即信息增益(IG)和主成分分析(PCA)进行大量实验。为了检查这些算法的稳定性,IG的特征选择阈值从20%更改为100%,PCA尺寸从2到8。这导致了7x9 + 7x7 = 112实验。在每个实验中,都记录了各种分类评估数据。获得的结果表明,在七种算法中,支持向量机和天真的贝叶斯是最稳定的算法,同时更改选择阈值。同样,发现使用IG似乎比使用PCA预测痴呆症更有效。
translated by 谷歌翻译
群集集群或共识群集已成为一种强大的工具,用于提高各种聚类方法的鲁棒性和结果的稳定性。加权聚类集群自然地从集群集群中产生。加权群集集合的参数之一是聚类集群中的元素(群集或集群)具有不同的质量,或者对象或特征具有不同意义的重要性。但是,不可能直接将加权机制从分类(监督)域中应用于群集(无监督)域,因为群集本质上是一个不存在的问题。本文通过讨论不同类型的权重,确定重量值的主要方法以及将加权聚类集合与复杂数据的应用程序的主要方法概述了加权集群集群集合概述。本文提出的统一框架将有助于聚类从业者为自己的问题选择最合适的加权机制。
translated by 谷歌翻译
图表神经网络(GNN)基于故障诊断(FD)近年来收到了越来越多的关注,因为来自来自多个应用域的数据可以有利地表示为图。实际上,与传统的FD方法相比,这种特殊的代表性表格导致了卓越的性能。在本次审查中,给出了GNN,对故障诊断领域的潜在应用以及未来观点的简单介绍。首先,通过专注于它们的数据表示,即时间序列,图像和图形,回顾基于神经网络的FD方法。其次,引入了GNN的基本原则和主要架构,注意了图形卷积网络,图注意网络,图形样本和聚合,图形自动编码器和空间 - 时间图卷积网络。第三,通过详细实验验证基于GNN的最相关的故障诊断方法,结论是基于GNN的方法可以实现良好的故障诊断性能。最后,提供了讨论和未来的挑战。
translated by 谷歌翻译
随着信息时代的蓬勃发展,日常生成大量数据。由于这些数据的大规模和高维度,通常很难在实际应用中实现更好的决策。因此,迫切需要一种有效的大数据分析方法。对于功能工程,功能选择似乎是一个重要的研究内容,预计可以从候选人中选择“出色”功能。可以通过特征选择来实现不同的功能,例如降低维度,模型效应改进和模型性能改进。在许多分类任务中,研究人员发现,如果数据来自同一类,通常它们似乎彼此接近。因此,局部紧凑性对于评估功能至关重要。在此手稿中,我们提出了一种快速无监督的特征选择方法,称为紧凑型评分(CSUFS),以选择所需的功能。为了证明效率和准确性,通过进行广泛的实验选择了几个数据集。后来,通过解决聚类任务来揭示我们方法的有效性和优势。在这里,性能由几个众所周知的评估指标表示,而效率则由相应的运行时间反映。正如模拟结果所揭示的那样,与现有算法相比,我们提出的算法似乎更准确和有效。
translated by 谷歌翻译
随着软件量表和复杂性的快速增长,将大量错误报告提交到错误跟踪系统中。为了加快缺陷维修的速度,需要对这些报告进行准确的分类,以便可以将其发送给适当的开发人员。但是,现有的分类方法仅使用错误报告的文本信息,从而导致其性能较低。为了解决上述问题,本文提出了一种用于错误报告的新自动分类方法。创新是,当对错误报告进行分类时,除了使用报告的文本信息外,还考虑了报告的意图(即建议或解释),从而提高了分类的性能。首先,我们从四个生态系统(Apache,Eclipse,Gentoo,Mozilla)收集错误报告,并手动注释它们以构建实验数据集。然后,我们使用自然语言处理技术来预处理数据。在此基础上,BERT和TF-IDF用于提取意图的功能和多个文本信息。最后,这些功能用于训练分类器。对五个分类器(包括k-nearest邻居,天真的贝叶斯,逻辑回归,支持向量机和随机森林)的实验结果表明,我们提出的方法可实现更好的性能,其F量度从87.3%达到95.5%。
translated by 谷歌翻译
信息科学的快速发展引起的“维度诅咒”在处理大数据集时可能会产生负面影响。在本文中,我们提出了Sparrow搜索算法(SSA)的一种变体,称为帐篷L \'evy飞行麻雀搜索算法(TFSSA),并使用它来选择包装模式中最佳的特征子集以进行分类。 SSA是最近提出的算法,尚未系统地应用于特征选择问题。通过CEC2020基准函数进行验证后,TFSSA用于选择最佳功能组合,以最大化分类精度并最大程度地减少所选功能的数量。将拟议的TFSSA与文献中的九种算法进行了比较。 9个评估指标用于正确评估和比较UCI存储库中21个数据集上这些算法的性能。此外,该方法应用于冠状病毒病(COVID-19)数据集,分别获得最佳的平均分类精度和特征选择的平均数量,为93.47%和2.1。实验结果证实了所提出的算法在提高分类准确性和减少与其他基于包装器的算法相比的选定特征数量方面的优势。
translated by 谷歌翻译