需要在机器学习模型中对最小参数设置的需求,以避免耗时的优化过程。$ k $ - 最终的邻居是在许多问题中使用的最有效,最直接的模型之一。尽管具有众所周知的性能,但它仍需要特定数据分布的$ K $值,从而需要昂贵的计算工作。本文提出了一个$ k $ - 最终的邻居分类器,该分类器绕过定义$ k $的值的需求。考虑到训练集的数据分布,该模型计算$ k $值。我们将提出的模型与标准$ K $ - 最近的邻居分类器和文献中的两个无参数版本进行了比较。11个公共数据集的实验证实了所提出方法的鲁棒性,因为所获得的结果相似甚至更好。
translated by 谷歌翻译
Identifying anomalies has become one of the primary strategies towards security and protection procedures in computer networks. In this context, machine learning-based methods emerge as an elegant solution to identify such scenarios and learn irrelevant information so that a reduction in the identification time and possible gain in accuracy can be obtained. This paper proposes a novel feature selection approach called Finite Element Machines for Feature Selection (FEMa-FS), which uses the framework of finite elements to identify the most relevant information from a given dataset. Although FEMa-FS can be applied to any application domain, it has been evaluated in the context of anomaly detection in computer networks. The outcomes over two datasets showed promising results.
translated by 谷歌翻译
Dataset scaling, also known as normalization, is an essential preprocessing step in a machine learning pipeline. It is aimed at adjusting attributes scales in a way that they all vary within the same range. This transformation is known to improve the performance of classification models, but there are several scaling techniques to choose from, and this choice is not generally done carefully. In this paper, we execute a broad experiment comparing the impact of 5 scaling techniques on the performances of 20 classification algorithms among monolithic and ensemble models, applying them to 82 publicly available datasets with varying imbalance ratios. Results show that the choice of scaling technique matters for classification performance, and the performance difference between the best and the worst scaling technique is relevant and statistically significant in most cases. They also indicate that choosing an inadequate technique can be more detrimental to classification performance than not scaling the data at all. We also show how the performance variation of an ensemble model, considering different scaling techniques, tends to be dictated by that of its base model. Finally, we discuss the relationship between a model's sensitivity to the choice of scaling technique and its performance and provide insights into its applicability on different model deployment scenarios. Full results and source code for the experiments in this paper are available in a GitHub repository.\footnote{https://github.com/amorimlb/scaling\_matters}
translated by 谷歌翻译
KNN分类是一种即兴的学习模式,其中仅当预测测试数据设置适当的K值并从整个训练样本空间搜索K最近邻居时,将它们引用到KNN分类的惰性部分。这一懒散的部分是应用KNN分类的瓶颈问题,因为完全搜索了K最近邻居。在本文中,提出了一步计算来取代KNN分类的惰性部分。一步计算实际上将惰性部分转换为矩阵计算,如下所示。考虑到测试数据,首先应用训练样本以将测试数据与最小二乘损耗功能拟合。然后,通过根据它们对测试数据的影响来加权所有训练样本来生成关系矩阵。最后,采用一个组套索来对关系矩阵进行稀疏学习。以这种方式,设置k值和搜索k最近邻居都集成到统一的计算。此外,提出了一种新的分类规则来改善单步核武器分类的性能。提出的方法是通过实验评估的,并证明了一步核武器分类是有效和有前途的
translated by 谷歌翻译
这项研究旨在提出一个基于K-neart邻居的新型分类器,该分类器使用Power Muirhead平均操作员来计算每个类别的本地平均值。我们称我们的新方法电源muirhead Mean K-Nearest邻居(PMM-KNN)分类器。PMM-KNN分类器具有多个参数,可以针对每个问题确定和微调,这些参数与其他最近的邻居方法相比是一个优势。我们使用五个知名数据集评估PMM-KNN性能。研究结果表明,PMM-KNN优于其他一些分类方法。
translated by 谷歌翻译
通常考虑使用原型生成(PG)方法来提高$ k $ neart nearbor($ k $ nn)分类器的效率。与初始集合相比,这种方法旨在生成降低的语料库版本,而不会降低分类性能。尽管它们在多类方案中进行了庞大的应用,但很少有作品解决了多标签空间的PG方法的建议。在这方面,这项工作介绍了四种多类PG策略对多标签案例的新颖调整。这些建议通过三个基于$ k $ nn的分类器进行评估,其中12个Corpora包括各种域和语料库大小,以及数据中人为诱导的不同噪声场景。获得的结果表明,所提出的适应能够显着改善(在效率和分类性能方面),唯一的参考文献多标记PG在文献中以及没有应用PG方法的情况,也呈现A在嘈杂的场景中,统计上较高的鲁棒性。此外,这些新颖的PG策略允许通过其配置来优先考虑效率或功效标准,具体取决于目标情况,因此涵盖了以前未被其他作品所填写的解决方案空间中的广泛区域。
translated by 谷歌翻译
异常值是一个事件或观察,其被定义为不同于距群体的不规则距离的异常活动,入侵或可疑数据点。然而,异常事件的定义是主观的,取决于应用程序和域(能量,健康,无线网络等)。重要的是要尽可能仔细地检测异常事件,以避免基础设施故障,因为异常事件可能导致对基础设施的严重损坏。例如,诸如微电网的网络物理系统的攻击可以发起电压或频率不稳定性,从而损坏涉及非常昂贵的修复的智能逆变器。微电网中的不寻常活动可以是机械故障,行为在系统中发生变化,人体或仪器错误或恶意攻击。因此,由于其可变性,异常值检测(OD)是一个不断增长的研究领域。在本章中,我们讨论了使用AI技术的OD方法的进展。为此,通过多个类别引入每个OD模型的基本概念。广泛的OD方法分为六大类:基于统计,基于距离,基于密度的,基于群集的,基于学习的和合奏方法。对于每个类别,我们讨论最近最先进的方法,他们的应用领域和表演。之后,关于对未来研究方向的建议提供了关于各种技术的优缺点和挑战的简要讨论。该调查旨在指导读者更好地了解OD方法的最新进展,以便保证AI。
translated by 谷歌翻译
广泛应用的密度峰聚类(DPC)算法使得直观的群集形成假设假设集群中心通常被具有较低局部密度的数据点包围,远离具有较高局部密度的其他数据点。然而,这种假设遭受一个限制,即在识别具有较低密度的簇时通常有问题,因为它们可以容易地合并到具有更高密度的其他簇中。结果,DPC可能无法识别具有变分密度的簇。为了解决这个问题,我们提出了一种变分浓度峰值聚类(VDPC)算法,该算法旨在系统地和自主地在具有各种类型的密度分布的数据集上执行聚类任务。具体而言,我们首先提出了一种新的方法,以确定所有数据点中的代表,并根据所确定的代表构建初始集群,以进一步分析集群财产。此外,我们根据其本地密度将所有数据点划分为不同的级别,并通过组合DPC和DBSCAN的优点来提出统一的聚类框架。因此,系统地处理跨越不同密度水平跨越不同密度水平的所有识别的初始簇以形成最终簇。为了评估所提出的VDPC算法的有效性,我们使用20个数据集进行广泛的实验,包括八个合成,六个现实世界和六个图像数据集。实验结果表明,VDPC优于两个经典算法(即,DPC和DBSCAN)和四种最先进的扩展DPC算法。
translated by 谷歌翻译
Quantum computing is a promising paradigm based on quantum theory for performing fast computations. Quantum algorithms are expected to surpass their classical counterparts in terms of computational complexity for certain tasks, including machine learning. In this paper, we design, implement, and evaluate three hybrid quantum k-Means algorithms, exploiting different degree of parallelism. Indeed, each algorithm incrementally leverages quantum parallelism to reduce the complexity of the cluster assignment step up to a constant cost. In particular, we exploit quantum phenomena to speed up the computation of distances. The core idea is that the computation of distances between records and centroids can be executed simultaneously, thus saving time, especially for big datasets. We show that our hybrid quantum k-Means algorithms can be more efficient than the classical version, still obtaining comparable clustering results.
translated by 谷歌翻译
阶级失衡是一种以使学习对分类模型更具挑战性的特征,因为它们可能最终会偏向多数级别。在不平衡学习的背景下,基于整体的方法中的一种有希望的方法是动态选择(DS)。 DS技术根据整体中的分类器的一个子集,根据其在查询周围区域中的估计能力标记每个给定的样本。由于在选择方案中只考虑了一个小区域,因此全球类别不成比例可能对系统的性能产生较小的影响。但是,本地类重叠的存在可能会严重阻碍DS技术的性能,而不是分布不平衡,因为它不仅加剧了代表不足的影响,而且还引入了能力估计过程中模棱两可且可能不可靠的样本。因此,在这项工作中,我们提出了一种DS技术,该技术试图最大程度地减少分类器选择过程中本地类别重叠的影响。所提出的方法迭代从目标区域中删除了实例被认为是最难分类的实例,直到分类器被认为有能力标记查询样品为止。使用实例硬度度量量化本地类重叠的实例硬度度量来表征已知样品。实验结果表明,该提出的技术可以显着胜过基线以及其他几种DS技术,这表明其适合处理类别不足的班级和重叠的适用性。此外,当使用标记的集合的重新采样,重叠版本较少的版本时,该技术仍会产生竞争结果,特别是在重叠区域中少数少数族类样本的问题上。可在https://github.com/marianaasouza/lords上找到代码。
translated by 谷歌翻译
这项研究重点是探索局部可解释性方法来解释时间序列聚类模型。许多最先进的聚类模型无法直接解释。为了提供这些聚类算法的解释,我们训练分类模型以估计群集标签。然后,我们使用可解释性方法来解释分类模型的决策。这些解释用于获得对聚类模型的见解。我们执行一项详细的数值研究,以测试多个数据集,聚类模型和分类模型上所提出的方法。结果的分析表明,所提出的方法可用于解释时间序列聚类模型,特别是当基础分类模型准确时。最后,我们对结果进行了详细的分析,讨论了如何在现实生活中使用我们的方法。
translated by 谷歌翻译
由于其简单性和实用性,密度峰值聚类已成为聚类算法的NOVA。但是,这是一个主要的缺点:由于其高计算复杂性,这是耗时的。在此,开发了稀疏搜索和K-D树的密度峰聚类算法来解决此问题。首先,通过使用k-d树来替换原始的全等级距离矩阵来计算稀疏距离矩阵,以加速局部密度的计算。其次,提出了一种稀疏的搜索策略,以加快与$ k $最近邻居的集合与由数据点组成的集合之间的相互分离的计算。此外,采用了决策值的二阶差异方法来自适应确定群集中心。最后,通过与其他六种最先进的聚类算法进行比较,在具有不同分布特性的数据集上进行实验。事实证明,该算法可以有效地将原始DPC的计算复杂性从$ O(n^2k)$降低到$ O(n(n^{1-1/k}+k))$。特别是对于较大的数据集,效率更加明显地提高。此外,聚类精度也在一定程度上提高了。因此,可以得出结论,新提出的算法的总体性能非常好。
translated by 谷歌翻译
流媒体数据中对异常的实时检测正在受到越来越多的关注,因为它使我们能够提高警报,预测故障并检测到整个行业的入侵或威胁。然而,很少有人注意比较流媒体数据(即在线算法)的异常检测器的有效性和效率。在本文中,我们介绍了来自不同算法家族(即基于距离,密度,树木或投影)的主要在线检测器的定性合成概述,并突出了其构建,更新和测试检测模型的主要思想。然后,我们对在线检测算法的定量实验评估以及其离线对应物进行了彻底的分析。检测器的行为与不同数据集(即元功能)的特征相关,从而提供了对其性能的元级分析。我们的研究介绍了文献中几个缺失的见解,例如(a)检测器对随机分类器的可靠性以及什么数据集特性使它们随机执行; (b)在线探测器在何种程度上近似离线同行的性能; (c)哪种绘制检测器的策略和更新原始图最适合检测仅在数据集的功能子空间中可见的异常; (d)属于不同算法家族的探测器的有效性与效率之间的权衡是什么; (e)数据集的哪些特定特征产生在线算法以胜过所有其他特征。
translated by 谷歌翻译
在几十年来,通过仅评估对象级因子来计算数据中的对象的异常分数时,传统的异常探测器已经忽略了组级因子,无法捕获集体异常值。为缓解此问题,我们提出了一种称为邻居代表(NR)的方法,这些方法使所有现有的异常值探测器能够有效地检测到包括集体异常值,包括集体异常值,同时保持其计算完整性。它通过选择代表性对象来实现这一目标,然后将这些对象进行评分,然后将代表对象的分数应用于其集体对象。在不改变现有探测器的情况下,NR兼容现有的探测器,同时相对于最先进的异常值探测器提高了+ 8%(0.72至0.78 AUC)的现实世界数据集的性能。
translated by 谷歌翻译
这项研究提出了机器学习模型,这些模型使用大型钻探数据集预测和分类循环严重性损失。我们展示了利用易于解释的机器学习方法来应对大型钻井工程挑战的可再现核心技术。我们利用了来自伊朗Azadegan油田组的65,000多个记录数据,其中具有类不平衡问题。数据集的十七个参数中有11个参数用于五个丢失的循环事件的分类。为了生成分类模型,我们使用了六种基本的机器学习算法和四种合奏学习方法。线性判别分析(LDA),逻辑回归(LR),支持向量机(SVM),分类和回归树(CART),K-Nearest Neighbors(KNN)和Gaussian Naive Bayes(GNB)是六个基本技术。我们还在调查解决方案中使用包装和增强集合学习技术,以改善预测性能。这些算法的性能是使用四个指标测量的:精度,精度,回忆和F1得分。选择表示数据不平衡的F1得分作为首选评估标准。发现CART模型是识别钻孔流体循环损失事件的最佳选择,平均加权F1分数为0.9904,标准偏差为0.0015。在应用合奏学习技术后,决策树的随机森林合奏表现出最佳的预测性能。它以1.0的完美加权F1分数确定并分类丢失的循环事件。使用置换功能重要性(PFI),发现测得的深度是准确识别钻孔时丢失的循环事件的最具影响力因素。
translated by 谷歌翻译
系统变化是代谢组学数据分析中的常见问题。因此,使用不同的缩放和归一化技术来预处理数据进行代谢组学数据分析。尽管文献中有几种缩放方法可用,但是缩放,转换和/或归一化技术的选择会影响进一步的统计分析。选择适当的缩放技术进行下游分析以获得准确的结果或做出正确的决定是一项挑战。此外,现有的缩放技术对离群值或极值敏感。为了填补空白,我们的目标是引入不受异常值影响的强大缩放方法,并为下游分析提供了更准确的结果。在这里,我们引入了一种新的加权缩放方法,该方法对异常值具有强大的功能,但是,在数据预处理中不需要其他异常检测/治疗步骤,并将其与通过人工和实际代谢组学数据集进行了比较与常规缩放和归一化技术。我们在不存在和存在不同百分比的异常值的情况下,使用代谢组学数据分析评估了所提出的方法的性能与其他现有的常规缩放技术相比。结果表明,在大多数情况下,在不存在和存在异常值的情况下,提出的缩放技术的性能比传统的缩放方法更好。提出的方法改善了进一步的下游代谢组学分析。提出的强大缩放方法的R函数可在https://github.com/nishithkumarpaul/robustscaling/blob/main/main/wscaling.r.r
translated by 谷歌翻译
通过快速搜索并发现密度峰(DPC)(自2014年以来)的聚类已被证明是一种有希望的聚类方法,可以通过找到密度峰来有效地发现簇中心。 DPC的准确性取决于截止距离($ d_c $),群集号($ K $)和簇中心的选择。此外,最终分配策略是敏感的,容错的容量差。上面的缺点使该算法对参数敏感,仅适用于某些特定数据集。为了克服DPC的局限性,本文提出了基于天然最近邻域(DPC-PPPNNN)的密度峰值聚类的概率传播算法的提高。通过引入自然邻域和概率传播的想法,DPC-PPNNN实现了非参数聚类过程,并使该算法适用于更复杂的数据集。在几个数据集的实验中,DPC-PPNNN显示出优于DPC,K-均值和DBSCAN的表现。
translated by 谷歌翻译
由于更高的维度和困难的班级,机器学习应用中的可用数据变得越来越复杂。根据类重叠,可分离或边界形状,以及组形态,存在各种各样的方法来测量标记数据的复杂性。许多技术可以转换数据才能找到更好的功能,但很少专注于具体降低数据复杂性。大多数数据转换方法主要是治疗维度方面,撇开类标签中的可用信息,当类别在某种方式复杂时,可以有用。本文提出了一种基于AutoEncoder的复杂性减少方法,使用类标签来告知损耗函数关于所生成的变量的充分性。这导致了三个不同的新功能学习者,得分手,斯卡尔和切片机。它们基于Fisher的判别比率,Kullback-Leibler发散和最小二乘支持向量机。它们可以作为二进制分类问题应用作为预处理阶段。跨越27个数据集和一系列复杂性和分类指标的彻底实验表明,课堂上通知的AutoEncoders执行优于4个其他流行的无监督功能提取技术,特别是当最终目标使用数据进行分类任务时。
translated by 谷歌翻译
The accuracy of k-nearest neighbor (kNN) classification depends significantly on the metric used to compute distances between different examples. In this paper, we show how to learn a Mahalanobis distance metric for kNN classification from labeled examples. The Mahalanobis metric can equivalently be viewed as a global linear transformation of the input space that precedes kNN classification using Euclidean distances. In our approach, the metric is trained with the goal that the k-nearest neighbors always belong to the same class while examples from different classes are separated by a large margin. As in support vector machines (SVMs), the margin criterion leads to a convex optimization based on the hinge loss. Unlike learning in SVMs, however, our approach requires no modification or extension for problems in multiway (as opposed to binary) classification. In our framework, the Mahalanobis distance metric is obtained as the solution to a semidefinite program. On several data sets of varying size and difficulty, we find that metrics trained in this way lead to significant improvements in kNN classification. Sometimes these results can be further improved by clustering the training examples and learning an individual metric within each cluster. We show how to learn and combine these local metrics in a globally integrated manner.
translated by 谷歌翻译
本文提出了一种基于对不平衡数据集的图形的新的RWO采样(随机步行过度采样)。在该方法中,引入了基于采样的下采样和过采样方法的两种方案,以使接近信息保持对噪声和异常值的鲁棒。在构建少数群体类上的第一个图形之后,RWO取样将在选定的样本上实现,其余部分保持不变。第二图是为多数类构造的,除去低密度区域(异常值)中的样品被移除。最后,在所提出的方法中,选择高密度区域中的多数类别的样品,并消除其余部分。此外,利用RWO取样,虽然未提高异常值,但虽然少数群体类的边界增加。测试该方法,并将评估措施的数量与先前的九个连续属性数据集进行比较,具有不同的过采集率和一个数据集,用于诊断Covid-19疾病。实验结果表明了所提出的不平衡数据分类方法的高效率和灵活性
translated by 谷歌翻译