在本文中,我们提出了一种半监督异常检测(SSAD)的新方法。我们的分类器命名为QMS22,因为其成立的日期为2022年,该框架是二次多形分离(QMS)的框架,这是一个最近引入的分类模型。 QMS22通过解决涉及训练集和原始问题的测试集的多类分类问题来解决SSAD。分类问题有意包括带有重叠样本的类。其中一个类包含普通样品和离群值的混合物,所有其他类别仅包含正常样品。然后使用分类问题的结果为测试集中的每个样本计算出异常得分。我们还使用龙骨存储库中的95个基准不平衡数据集对QMS22进行QMS22的性能评估。这些分类器是BRM(包装随机矿工),Ockra(具有随机投影特征算法的单级K-均值),ISOF(隔离林)和OCSVM(单级支持向量机)。通过在接收器操作特征曲线的曲线下使用该区域作为性能度量,QMS22显着优于ISOF和OCSVM。此外,Wilcoxon签署的秩检验表明,在针对BRM和QMS22对OCKRA的QMS22测试时,没有统计学上的显着差异。
translated by 谷歌翻译
在本文中,我们介绍了机器学习中的新分类模型。我们的结果是三倍:1)该模型与最常见的分类模型产生可比的预测准确性。2)它的运行速度明显快于大多数常见的分类模型。3)它具有识别一部分看不见的样本的能力,可以找到具有更高的预测精度的类标签。目前,在拟议的模型上有几项专利。
translated by 谷歌翻译
Cyber intrusion attacks that compromise the users' critical and sensitive data are escalating in volume and intensity, especially with the growing connections between our daily life and the Internet. The large volume and high complexity of such intrusion attacks have impeded the effectiveness of most traditional defence techniques. While at the same time, the remarkable performance of the machine learning methods, especially deep learning, in computer vision, had garnered research interests from the cyber security community to further enhance and automate intrusion detections. However, the expensive data labeling and limitation of anomalous data make it challenging to train an intrusion detector in a fully supervised manner. Therefore, intrusion detection based on unsupervised anomaly detection is an important feature too. In this paper, we propose a three-stage deep learning anomaly detection based network intrusion attack detection framework. The framework comprises an integration of unsupervised (K-means clustering), semi-supervised (GANomaly) and supervised learning (CNN) algorithms. We then evaluated and showed the performance of our implemented framework on three benchmark datasets: NSL-KDD, CIC-IDS2018, and TON_IoT.
translated by 谷歌翻译
We study anomaly detection for the case when the normal class consists of more than one object category. This is an obvious generalization of the standard one-class anomaly detection problem. However, we show that jointly using multiple one-class anomaly detectors to solve this problem yields poorer results as compared to training a single one-class anomaly detector on all normal object categories together. We further develop a new anomaly detector called DeepMAD that learns compact distinguishing features by exploiting the multiple normal objects categories. This algorithm achieves higher AUC values for different datasets compared to two top performing one-class algorithms that either are trained on each normal object category or jointly trained on all normal object categories combined. In addition to theoretical results we present empirical results using the CIFAR-10, fMNIST, CIFAR-100, and a new dataset we developed called RECYCLE.
translated by 谷歌翻译
聚类分析是机器学习中的关键任务之一。传统上,聚类一直是一项独立的任务,与异常检测分开。由于离群值可以大大侵蚀聚类的性能,因此,少数算法尝试在聚类过程中掺入离群值检测。但是,大多数这些算法基于基于无监督的分区算法,例如K-均值。鉴于这些算法的性质,它们通常无法处理复杂的非凸形簇。为了应对这一挑战,我们提出了SSDBCODI,这是一种半监督密度的算法。 SSDBCODI结合了基于密度的算法的优势,这些算法能够处理复杂形状的簇,以及半监督元素,该元素具有灵活性,可以根据一些用户标签调整聚类结果。我们还将离群检测组件与聚类过程合并。根据过程中产生的三个分数检测到潜在离群值:(1)达到性得分,该得分衡量了一个点的密度可至关重要是对标记的正常物体的测量值,(2)局部密度得分,该局部密度得分,它测量了相邻密度的密度数据对象和(3)相似性得分,该分数测量了一个点与其最近标记的异常值的接近度。然后,在下一步中,在用于训练分类器以进一步群集和离群值检测之前,基于这三个分数为每个数据实例生成实例权重。为了增强对拟议算法的理解,为了进行评估,我们已经针对多个数据集上的某些最新方法运行了拟议的算法,并分别列出了除聚类外检测的结果。我们的结果表明,我们的算法可以通过少量标签获得优异的结果。
translated by 谷歌翻译
该行业许多领域的自动化越来越多地要求为检测异常事件设计有效的机器学习解决方案。随着传感器的普遍存在传感器监测几乎连续地区的复杂基础设施的健康,异常检测现在可以依赖于以非常高的频率进行采样的测量,从而提供了在监视下的现象的非常丰富的代表性。为了充分利用如此收集的信息,观察不能再被视为多变量数据,并且需要一个功能分析方法。本文的目的是探讨近期对实际数据集的功能设置中异常检测技术的性能。在概述最先进的和视觉描述性研究之后,比较各种异常检测方法。虽然功能设置中的异常分类(例如,形状,位置)在文献中记录,但为所识别的异常分配特定类型似乎是一个具有挑战性的任务。因此,鉴于模拟研究中的这些突出显示类型,现有方法的强度和弱点是基准测试。接下来在两个数据集上评估异常检测方法,与飞行中的直升机监测和建筑材料的光谱相同有关。基准分析由从业者的建议指导结束。
translated by 谷歌翻译
这项工作提供了可靠的nids(R-nids),一种新的机器学习方法(ML)的网络入侵检测系统(NIDS),允许ML模型在集成数据集上工作,从不同数据集中具有不同信息的学习过程。因此,R-NIDS针对更强大的模型的设计,比传统方法更好地概括。我们还提出了一个名为UNK21的新数据集。它是由三个最着名的网络数据集(UGR'16,USNW-NB15和NLS-KDD)构建,每个网络环境收集,使用不同的特征和类,通过使用数据聚合方法R-nids。在r-nids之后,在这项工作中,我们建议基于文献中的三个最常见的数据集的信息来构建两个着名的ML模型(一个线性和非线性的一个),用于NIDS评估中的三个,集成在UNK21中的那些。所提出的方法优惠展示了作为NIDS解决方案训练的两种ML模型的结果可以从这种方法中受益,在新提议的UNK21数据集上培训时能够更好地概括。此外,这些结果用统计工具仔细分析了对我们的结论提供了高度信心的统计工具。
translated by 谷歌翻译
We combine the metrics of distance and isolation to develop the \textit{Analytic Isolation and Distance-based Anomaly (AIDA) detection algorithm}. AIDA is the first distance-based method that does not rely on the concept of nearest-neighbours, making it a parameter-free model. Differently from the prevailing literature, in which the isolation metric is always computed via simulations, we show that AIDA admits an analytical expression for the outlier score, providing new insights into the isolation metric. Additionally, we present an anomaly explanation method based on AIDA, the \textit{Tempered Isolation-based eXplanation (TIX)} algorithm, which finds the most relevant outlier features even in data sets with hundreds of dimensions. We test both algorithms on synthetic and empirical data: we show that AIDA is competitive when compared to other state-of-the-art methods, and it is superior in finding outliers hidden in multidimensional feature subspaces. Finally, we illustrate how the TIX algorithm is able to find outliers in multidimensional feature subspaces, and use these explanations to analyze common benchmarks used in anomaly detection.
translated by 谷歌翻译
对自然和人制过程的研究通常会导致长时间有序值的长序列,也就是时间序列(TS)。这样的过程通常由多个状态组成,例如机器的操作模式,使观测过程中的状态变化会导致测量值形状的分布变化。时间序列分割(TSS)试图发现TS事后的这种变化,以推断数据生成过程的变化。通常将TSS视为无监督的学习问题,目的是识别某些统计属性可区分的细分。 TSS的当前算法要求用户设置依赖域的超参数,对TS值分布进行假设或可检测更改的类型,以限制其适用性。常见的超参数是段均匀性和变更点的数量的度量,对于每个数据集,这尤其难以调节。我们提出了TSS的一种新颖,高度准确,无参数和域的无义方法的方法。扣子分层将TS分为两个部分。更改点是通过训练每个可能的拆分点的二进制TS分类器来确定的,并选择最能识别从任何一个分区的子序列的一个拆分。 CLASP使用两种新颖的定制算法从数据中学习了其主要的两个模型参数。在我们使用115个数据集的基准测试的实验评估中,我们表明,扣子优于准确性,并且可以快速且可扩展。此外,我们使用几个现实世界的案例研究强调了扣子的特性。
translated by 谷歌翻译
为了允许机器学习算法从原始数据中提取知识,必须首先清除,转换,并将这些数据置于适当的形式。这些通常很耗时的阶段被称为预处理。预处理阶段的一个重要步骤是特征选择,其目的通过减少数据集的特征量来更好地执行预测模型。在这些数据集中,不同事件的实例通常是不平衡的,这意味着某些正常事件被超出,而其他罕见事件非常有限。通常,这些罕见的事件具有特殊的兴趣,因为它们具有比正常事件更具辨别力。这项工作的目的是过滤提供给这些罕见实例的特征选择方法的实例,从而积极影响特征选择过程。在这项工作过程中,我们能够表明这种过滤对分类模型的性能以及异常值检测方法适用于该过滤。对于某些数据集,所产生的性能增加仅为百分点,但对于其他数据集,我们能够实现高达16%的性能的增加。这项工作应导致预测模型的改进以及在预处理阶段的过程中的特征选择更好的可解释性。本着公开科学的精神,提高了我们的研究领域的透明度,我们已经在公开的存储库中提供了我们的所有源代码和我们的实验结果。
translated by 谷歌翻译
ROC曲线下的区域(又称AUC)是评估分类器不平衡数据的性能的选择。 AUC最大化是指通过直接最大化其AUC分数来学习预测模型的学习范式。它已被研究了二十年来,其历史可以追溯到90年代后期,从那时起,大量工作就致力于最大化。最近,对大数据和深度学习的深度最大化的随机AUC最大化已受到越来越多的关注,并对解决现实世界中的问题产生了巨大的影响。但是,据我们所知,没有对AUC最大化的相关作品进行全面调查。本文旨在通过回顾过去二十年来审查文献来解决差距。我们不仅给出了文献的整体看法,而且还提供了从配方到算法和理论保证的不同论文的详细解释和比较。我们还确定并讨论了深度AUC最大化的剩余和新兴问题,并就未来工作的主题提供建议。
translated by 谷歌翻译
我们描述了作为黑暗机器倡议和LES Houches 2019年物理学研讨会进行的数据挑战的结果。挑战的目标是使用无监督机器学习算法检测LHC新物理学的信号。首先,我们提出了如何实现异常分数以在LHC搜索中定义独立于模型的信号区域。我们定义并描述了一个大型基准数据集,由> 10亿美元的Muton-Proton碰撞,其中包含> 10亿美元的模拟LHC事件组成。然后,我们在数据挑战的背景下审查了各种异常检测和密度估计算法,我们在一组现实分析环境中测量了它们的性能。我们绘制了一些有用的结论,可以帮助开发无监督的新物理搜索在LHC的第三次运行期间,并为我们的基准数据集提供用于HTTPS://www.phenomldata.org的未来研究。重现分析的代码在https://github.com/bostdiek/darkmachines-unsupervisedChallenge提供。
translated by 谷歌翻译
半监督异常检测旨在使用在正常数据上培训的模型来检测来自正常样本的异常。随着近期深度学习的进步,研究人员设计了高效的深度异常检测方法。现有作品通常使用神经网络将数据映射到更具内容性的表示中,然后应用异常检测算法。在本文中,我们提出了一种方法,DASVDD,它共同学习AutoEncoder的参数,同时最小化其潜在表示上的封闭超球的音量。我们提出了一个异常的分数,它是自动化器的重建误差和距离潜在表示中封闭边距中心的距离的组合。尽量减少这种异常的分数辅助我们在培训期间学习正常课程的潜在分布。包括异常分数中的重建错误确保DESVDD不受常见的极度崩溃问题,因为DESVDD模型不会收敛到映射到潜在表示中的恒定点的常量点。几个基准数据集上的实验评估表明,该方法优于常用的最先进的异常检测算法,同时在不同的异常类中保持鲁棒性能。
translated by 谷歌翻译
异常和异常值检测是机器学习中的长期问题。在某些情况下,异常检测容易,例如当从诸如高斯的良好特征的分布中抽出数据时。但是,当数据占据高维空间时,异常检测变得更加困难。我们呈现蛤蜊(聚类学习近似歧管),是任何度量空间中的歧管映射技术。 CLAM以快速分层聚类技术开始,然后根据使用多个几何和拓扑功能所选择的重叠群集,从群集树中引导图表。使用这些图形,我们实现了Chaoda(群集分层异常和异常值检测算法),探索了图形的各种属性及其组成集群以查找异常值。 Chaoda采用了一种基于培训数据集的转移学习形式,并将这些知识应用于不同基数,维度和域的单独测试集。在24个公开可用的数据集上,我们将Chaoda(按衡量ROC AUC)与各种最先进的无监督异常检测算法进行比较。六个数据集用于培训。 Chaoda优于16个剩余的18个数据集的其他方法。 CLAM和Chaoda规模大,高维“大数据”异常检测问题,并贯穿数据集和距离函数。克拉姆和Chaoda的源代码在github上自由地提供https://github.com/uri-abd/clam。
translated by 谷歌翻译
The ability to quickly and accurately identify covariate shift at test time is a critical and often overlooked component of safe machine learning systems deployed in high-risk domains. While methods exist for detecting when predictions should not be made on out-of-distribution test examples, identifying distributional level differences between training and test time can help determine when a model should be removed from the deployment setting and retrained. In this work, we define harmful covariate shift (HCS) as a change in distribution that may weaken the generalization of a predictive model. To detect HCS, we use the discordance between an ensemble of classifiers trained to agree on training data and disagree on test data. We derive a loss function for training this ensemble and show that the disagreement rate and entropy represent powerful discriminative statistics for HCS. Empirically, we demonstrate the ability of our method to detect harmful covariate shift with statistical certainty on a variety of high-dimensional datasets. Across numerous domains and modalities, we show state-of-the-art performance compared to existing methods, particularly when the number of observed test samples is small.
translated by 谷歌翻译
异常的可视化和检测异常(异常值)对许多领域,特别是网络安全的重要性至关重要。在这些领域提出了几种方法,但我们的知识迄今为止,它们都不是在一个相干框架中同时或合作地满足了两个目标。引入了这些方法的可视化方法,用于解释检测算法的输出,而不是用于促进独立视觉检测的数据探测。这是我们的出发点:未经避免,不审视和非分析方法,对Vission(人类流程)和检测(算法)的异常值,分配不变的异常分数(标准化为$ [0,1] $) ,而不是硬二元决定。 Novely的新颖性的主要方面是它将数据转换为新的空间,该空间是在本文中引入的作为邻域累积密度函数(NCDF),其中进行了可视化和检测。在该空间中,异常值非常明显可区分,因此检测算法分配的异常分数在ROC曲线(AUC)下实现了高区域。我们在模拟和最近公布的网络安全数据集中评估了不避免,并将其与其中的三种最成功的异常检测方法进行比较:LOF,IF和FABOD。就AUC而言,不避免几乎是整体胜利者。这篇文章通过提供了对未避免的新理论和实际途径的预测来了解。其中包括设计一种可视化辅助异常检测(Vaad),一种软件通过提供不避免的检测算法(在后发动机中运行),NCDF可视化空间(呈现为绘图)以及其他传统方法在原始特征空间中的可视化,所有这些都在一个交互环境中链接。
translated by 谷歌翻译
可以通过学习所有类别的接受区域来获得的旨在确定观察属于的所有合理类的新分类范式,旨在识别所有观察属性的所有合理类别。许多现有的设置值分类方法没有考虑到训练数据中从未出现的新类别出现在测试数据中的可能性。此外,当类的数量很大时,它们在计算上很昂贵。我们提出了一种广义预测集(GPS)方法,以估计接受区域,同时考虑测试数据中新类的可能性。提出的分类器可最大程度地减少预测集的预期大小,同时确保特定于类的精度至少为预先指定的值。与以前的方法不同,所提出的方法在准确性,效率和异常检测率之间达到了良好的平衡。此外,我们的方法可以与所有类平行应用以减轻计算负担。进行了理论分析和数值实验,以说明该方法的有效性。
translated by 谷歌翻译
机器学习模型通常会遇到与训练分布不同的样本。无法识别分布(OOD)样本,因此将该样本分配给课堂标签会显着损害模​​型的可靠性。由于其对在开放世界中的安全部署模型的重要性,该问题引起了重大关注。由于对所有可能的未知分布进行建模的棘手性,检测OOD样品是具有挑战性的。迄今为止,一些研究领域解决了检测陌生样本的问题,包括异常检测,新颖性检测,一级学习,开放式识别识别和分布外检测。尽管有相似和共同的概念,但分别分布,开放式检测和异常检测已被独立研究。因此,这些研究途径尚未交叉授粉,创造了研究障碍。尽管某些调查打算概述这些方法,但它们似乎仅关注特定领域,而无需检查不同领域之间的关系。这项调查旨在在确定其共同点的同时,对各个领域的众多著名作品进行跨域和全面的审查。研究人员可以从不同领域的研究进展概述中受益,并协同发展未来的方法。此外,据我们所知,虽然进行异常检测或单级学习进行了调查,但没有关于分布外检测的全面或最新的调查,我们的调查可广泛涵盖。最后,有了统一的跨域视角,我们讨论并阐明了未来的研究线,打算将这些领域更加紧密地融为一体。
translated by 谷歌翻译
作为智能车辆控制系统的中心神经,车载网络总线对于车辆驾驶的安全至关重要。车载网络的最佳标准之一是控制器区域网络(CAN BUS)协议。但是,由于缺乏安全机制,CAN总线被设计为容易受到各种攻击的影响。为了增强车载网络的安全性并根据大量的CAN网络流量数据和提取的有价值的功能来促进该领域的研究,本研究全面比较了完全监督的机器学习与半监督的机器学习方法可以发信息异常检测。评估了传统的机器学习模型(包括单个分类器和集合模型)和基于神经网络的深度学习模型。此外,这项研究提出了一种基于自动编码器的深度自动编码器的半监督学习方法,该方法适用于CAN传达异常检测,并验证了其优于其他半监督方法的优势。广泛的实验表明,全面监督的方法通常优于半监督者,因为它们使用更多信息作为输入。通常,开发的基于XGBoost的模型以最佳准确性(98.65%),精度(0.9853)和Roc AUC(0.9585)击败了文献中报道的其他方法。
translated by 谷歌翻译
随着网络基础设施提高,个人贷款的需求增长,对等十年来,对等体(P2P)贷款平台已迅速增长。在没有传统金融机构的帮助下,这些平台允许用户创建对等贷款关系。评估借款人的信贷至关重要,以减少P2P平台的违约率和良性开发。构建个人信用评分机学习模型可以有效预测用户是否会在P2P平台上偿还贷款。并处理数据异常值和样本不平衡问题可能会影响机器学习模型的最终效果。已经有一些关于平衡采样方法的研究,但是对机器学习模型有效性的异常检测方法及其与平衡采样方法的影响尚未得到充分研究。在本文中,研究了使用不同异常检测方法对常用机器学习模型的不同异常检测方法和平衡采样方法的影响。 44,487贷款俱乐部样品的实验表明,适当的异常检测可以提高机器学习模型的有效性,平衡采样方法仅对几种机器学习模型(如MLP)有良好的影响。
translated by 谷歌翻译