流媒体数据中对异常的实时检测正在受到越来越多的关注,因为它使我们能够提高警报,预测故障并检测到整个行业的入侵或威胁。然而,很少有人注意比较流媒体数据(即在线算法)的异常检测器的有效性和效率。在本文中,我们介绍了来自不同算法家族(即基于距离,密度,树木或投影)的主要在线检测器的定性合成概述,并突出了其构建,更新和测试检测模型的主要思想。然后,我们对在线检测算法的定量实验评估以及其离线对应物进行了彻底的分析。检测器的行为与不同数据集(即元功能)的特征相关,从而提供了对其性能的元级分析。我们的研究介绍了文献中几个缺失的见解,例如(a)检测器对随机分类器的可靠性以及什么数据集特性使它们随机执行; (b)在线探测器在何种程度上近似离线同行的性能; (c)哪种绘制检测器的策略和更新原始图最适合检测仅在数据集的功能子空间中可见的异常; (d)属于不同算法家族的探测器的有效性与效率之间的权衡是什么; (e)数据集的哪些特定特征产生在线算法以胜过所有其他特征。
translated by 谷歌翻译
异常值是一个事件或观察,其被定义为不同于距群体的不规则距离的异常活动,入侵或可疑数据点。然而,异常事件的定义是主观的,取决于应用程序和域(能量,健康,无线网络等)。重要的是要尽可能仔细地检测异常事件,以避免基础设施故障,因为异常事件可能导致对基础设施的严重损坏。例如,诸如微电网的网络物理系统的攻击可以发起电压或频率不稳定性,从而损坏涉及非常昂贵的修复的智能逆变器。微电网中的不寻常活动可以是机械故障,行为在系统中发生变化,人体或仪器错误或恶意攻击。因此,由于其可变性,异常值检测(OD)是一个不断增长的研究领域。在本章中,我们讨论了使用AI技术的OD方法的进展。为此,通过多个类别引入每个OD模型的基本概念。广泛的OD方法分为六大类:基于统计,基于距离,基于密度的,基于群集的,基于学习的和合奏方法。对于每个类别,我们讨论最近最先进的方法,他们的应用领域和表演。之后,关于对未来研究方向的建议提供了关于各种技术的优缺点和挑战的简要讨论。该调查旨在指导读者更好地了解OD方法的最新进展,以便保证AI。
translated by 谷歌翻译
异常和异常值检测是机器学习中的长期问题。在某些情况下,异常检测容易,例如当从诸如高斯的良好特征的分布中抽出数据时。但是,当数据占据高维空间时,异常检测变得更加困难。我们呈现蛤蜊(聚类学习近似歧管),是任何度量空间中的歧管映射技术。 CLAM以快速分层聚类技术开始,然后根据使用多个几何和拓扑功能所选择的重叠群集,从群集树中引导图表。使用这些图形,我们实现了Chaoda(群集分层异常和异常值检测算法),探索了图形的各种属性及其组成集群以查找异常值。 Chaoda采用了一种基于培训数据集的转移学习形式,并将这些知识应用于不同基数,维度和域的单独测试集。在24个公开可用的数据集上,我们将Chaoda(按衡量ROC AUC)与各种最先进的无监督异常检测算法进行比较。六个数据集用于培训。 Chaoda优于16个剩余的18个数据集的其他方法。 CLAM和Chaoda规模大,高维“大数据”异常检测问题,并贯穿数据集和距离函数。克拉姆和Chaoda的源代码在github上自由地提供https://github.com/uri-abd/clam。
translated by 谷歌翻译
异常的可视化和检测异常(异常值)对许多领域,特别是网络安全的重要性至关重要。在这些领域提出了几种方法,但我们的知识迄今为止,它们都不是在一个相干框架中同时或合作地满足了两个目标。引入了这些方法的可视化方法,用于解释检测算法的输出,而不是用于促进独立视觉检测的数据探测。这是我们的出发点:未经避免,不审视和非分析方法,对Vission(人类流程)和检测(算法)的异常值,分配不变的异常分数(标准化为$ [0,1] $) ,而不是硬二元决定。 Novely的新颖性的主要方面是它将数据转换为新的空间,该空间是在本文中引入的作为邻域累积密度函数(NCDF),其中进行了可视化和检测。在该空间中,异常值非常明显可区分,因此检测算法分配的异常分数在ROC曲线(AUC)下实现了高区域。我们在模拟和最近公布的网络安全数据集中评估了不避免,并将其与其中的三种最成功的异常检测方法进行比较:LOF,IF和FABOD。就AUC而言,不避免几乎是整体胜利者。这篇文章通过提供了对未避免的新理论和实际途径的预测来了解。其中包括设计一种可视化辅助异常检测(Vaad),一种软件通过提供不避免的检测算法(在后发动机中运行),NCDF可视化空间(呈现为绘图)以及其他传统方法在原始特征空间中的可视化,所有这些都在一个交互环境中链接。
translated by 谷歌翻译
孤立森林(Iforest)近年来已经成为最受欢迎的异常检测器。它迭代地在树结构中执行轴平行的数据空间分区,以将偏差的数据对象与其他数据隔离,并且定义为异常得分的对象的隔离难度。 iForest在流行的数据集基准中显示出有效的性能,但其基于轴平行的线性数据分区无效地处理高维/非线性数据空间中的硬异常,甚至更糟糕的是,它导致了臭名昭著的算法偏见。为人工制品区域分配了出乎意料的较大的异常得分。有几个扩展的Iforest,但它们仍然专注于线性数据分区,无法有效地隔离这些硬异常。本文介绍了iforest,深层隔离森林的新型扩展。我们的方法提供了一种综合的隔离方法,可以在任何大小的子空间上任意将数据任意划分数据,从而有效地避免了线性分区中的算法偏置。此外,它仅需要随机初始化的神经网络(即,我们的方法中不需要优化)来确保分区的自由。这样一来,可以完全利用基于网络的随机表示和基于随机分区的隔离的所需随机性和多样性,以显着增强基于隔离集合的异常检测。此外,我们的方法还提供了数据型 - 敏捷的异常检测解决方案。通过简单地插入功能映射中的随机初始化的神经网络来检测不同类型数据中的异常。大量现实数据集的广泛经验结果表明,我们的模型对基于最新的隔离和基于非异常的异常检测模型有了显着改善。
translated by 谷歌翻译
隔离林或“IFOREST”是一种直观且广泛使用的异常检测算法,其遵循一个简单而有效的想法:在给定的数据分布中,如果在某种变量和数据的范围内随机地均匀选择阈值(分割点)根据它们是否更大或小于此阈值,异常值更可能在较小的分区中最终或较小分区划分点。原始程序建议选择变量以在每个步骤中随机均匀地完成变量的变量,但本文表明“集群化”不同的异常值 - 通常比其他人更有趣的异常值 - 可以更多通过应用非均匀 - 随机的变量和/或阈值来容易地识别。比较不同的分割指导标准,发现一些结果导致某些异常值的明显差异更好。
translated by 谷歌翻译
近年来,随着传感器和智能设备的广泛传播,物联网(IoT)系统的数据生成速度已大大增加。在物联网系统中,必须经常处理,转换和分析大量数据,以实现各种物联网服务和功能。机器学习(ML)方法已显示出其物联网数据分析的能力。但是,将ML模型应用于物联网数据分析任务仍然面临许多困难和挑战,特别是有效的模型选择,设计/调整和更新,这给经验丰富的数据科学家带来了巨大的需求。此外,物联网数据的动态性质可能引入概念漂移问题,从而导致模型性能降解。为了减少人类的努力,自动化机器学习(AUTOML)已成为一个流行的领域,旨在自动选择,构建,调整和更新机器学习模型,以在指定任务上实现最佳性能。在本文中,我们对Automl区域中模型选择,调整和更新过程中的现有方法进行了审查,以识别和总结将ML算法应用于IoT数据分析的每个步骤的最佳解决方案。为了证明我们的发现并帮助工业用户和研究人员更好地实施汽车方法,在这项工作中提出了将汽车应用于IoT异常检测问题的案例研究。最后,我们讨论并分类了该领域的挑战和研究方向。
translated by 谷歌翻译
The detection of anomalies in time series data is crucial in a wide range of applications, such as system monitoring, health care or cyber security. While the vast number of available methods makes selecting the right method for a certain application hard enough, different methods have different strengths, e.g. regarding the type of anomalies they are able to find. In this work, we compare six unsupervised anomaly detection methods with different complexities to answer the questions: Are the more complex methods usually performing better? And are there specific anomaly types that those method are tailored to? The comparison is done on the UCR anomaly archive, a recent benchmark dataset for anomaly detection. We compare the six methods by analyzing the experimental results on a dataset- and anomaly type level after tuning the necessary hyperparameter for each method. Additionally we examine the ability of individual methods to incorporate prior knowledge about the anomalies and analyse the differences of point-wise and sequence wise features. We show with broad experiments, that the classical machine learning methods show a superior performance compared to the deep learning methods across a wide range of anomaly types.
translated by 谷歌翻译
Isolation forest
分类:
Most existing model-based approaches to anomaly detection construct a profile of normal instances, then identify instances that do not conform to the normal profile as anomalies. This paper proposes a fundamentally different model-based method that explicitly isolates anomalies instead of profiles normal points. To our best knowledge, the concept of isolation has not been explored in current literature. The use of isolation enables the proposed method, iForest, to exploit sub-sampling to an extent that is not feasible in existing methods, creating an algorithm which has a linear time complexity with a low constant and a low memory requirement. Our empirical evaluation shows that iForest performs favourably to ORCA, a near-linear time complexity distance-based method, LOF and Random Forests in terms of AUC and processing time, and especially in large data sets. iForest also works well in high dimensional problems which have a large number of irrelevant attributes, and in situations where training set does not contain any anomalies.
translated by 谷歌翻译
长序列中的子序列异常检测是在广泛域中应用的重要问题。但是,迄今为止文献中提出的方法具有严重的局限性:它们要么需要用于设计异常发现算法的先前领域知识,要么在与相同类型的复发异常情况下使用繁琐且昂贵。在这项工作中,我们解决了这些问题,并提出了一种适用于域的不可知论次序列异常检测的方法。我们的方法series2graph基于新型低维嵌入子序列的图表。 Series2Graph不需要标记的实例(例如监督技术)也不需要无异常的数据(例如零阳性学习技术),也不需要识别长度不同的异常。在迄今为止使用的最大合成和真实数据集的实验结果表明,所提出的方法正确地识别了单一和复发异常,而无需任何先验的特征,以优于多种差距的准确性,同时提高了几种竞争的方法,同时又表现出色更快的数量级。本文出现在VLDB 2020中。
translated by 谷歌翻译
对自然和人制过程的研究通常会导致长时间有序值的长序列,也就是时间序列(TS)。这样的过程通常由多个状态组成,例如机器的操作模式,使观测过程中的状态变化会导致测量值形状的分布变化。时间序列分割(TSS)试图发现TS事后的这种变化,以推断数据生成过程的变化。通常将TSS视为无监督的学习问题,目的是识别某些统计属性可区分的细分。 TSS的当前算法要求用户设置依赖域的超参数,对TS值分布进行假设或可检测更改的类型,以限制其适用性。常见的超参数是段均匀性和变更点的数量的度量,对于每个数据集,这尤其难以调节。我们提出了TSS的一种新颖,高度准确,无参数和域的无义方法的方法。扣子分层将TS分为两个部分。更改点是通过训练每个可能的拆分点的二进制TS分类器来确定的,并选择最能识别从任何一个分区的子序列的一个拆分。 CLASP使用两种新颖的定制算法从数据中学习了其主要的两个模型参数。在我们使用115个数据集的基准测试的实验评估中,我们表明,扣子优于准确性,并且可以快速且可扩展。此外,我们使用几个现实世界的案例研究强调了扣子的特性。
translated by 谷歌翻译
异常值检测是指偏离一般数据分布的数据点的识别。现有的无监督方法经常遭受高计算成本,复杂的绰号调谐以及有限的解释性,特别是在使用大型高维数据集时。为了解决这些问题,我们介绍了一种称为ECOD(基于实证累积分布的异常值检测)的简单而有效的算法,这是由异常值常常出现在分布尾部的“罕见事件”的事实的启发。在简而言之,ECOD首先通过计算数据的各维度的经验累积分布来估计输入数据的基础分布以非参数。 ECOD然后使用这些经验分布来估计每个数据点的每维的尾部概率。最后,ECOD通过跨尺寸聚合估计的尾概率来计算每个数据点的异常值。我们的贡献如下:(1)我们提出了一种名为ECOD的新型异常检测方法,这既是可参数又易于解释; (2)我们在30个基准数据集上进行广泛的实验,在那里我们发现ECOD在准确性,效率和可扩展性方面优于11个最先进的基线; (3)我们释放易于使用和可扩展的(具有分布式支持)Python实现,以实现可访问性和再现性。
translated by 谷歌翻译
We combine the metrics of distance and isolation to develop the \textit{Analytic Isolation and Distance-based Anomaly (AIDA) detection algorithm}. AIDA is the first distance-based method that does not rely on the concept of nearest-neighbours, making it a parameter-free model. Differently from the prevailing literature, in which the isolation metric is always computed via simulations, we show that AIDA admits an analytical expression for the outlier score, providing new insights into the isolation metric. Additionally, we present an anomaly explanation method based on AIDA, the \textit{Tempered Isolation-based eXplanation (TIX)} algorithm, which finds the most relevant outlier features even in data sets with hundreds of dimensions. We test both algorithms on synthetic and empirical data: we show that AIDA is competitive when compared to other state-of-the-art methods, and it is superior in finding outliers hidden in multidimensional feature subspaces. Finally, we illustrate how the TIX algorithm is able to find outliers in multidimensional feature subspaces, and use these explanations to analyze common benchmarks used in anomaly detection.
translated by 谷歌翻译
Concept drift primarily refers to an online supervised learning scenario when the relation between the input data and the target variable changes over time. Assuming a general knowledge of supervised learning in this paper we characterize adaptive learning process, categorize existing strategies for handling concept drift, overview the most representative, distinct and popular techniques and algorithms, discuss evaluation methodology of adaptive algorithms, and present a set of illustrative applications. The survey covers the different facets of concept drift in an integrated way to reflect on the existing scattered state-of-the-art. Thus, it aims at providing a comprehensive introduction to the concept drift adaptation for researchers, industry analysts and practitioners.
translated by 谷歌翻译
机器学习模型通常会遇到与训练分布不同的样本。无法识别分布(OOD)样本,因此将该样本分配给课堂标签会显着损害模​​型的可靠性。由于其对在开放世界中的安全部署模型的重要性,该问题引起了重大关注。由于对所有可能的未知分布进行建模的棘手性,检测OOD样品是具有挑战性的。迄今为止,一些研究领域解决了检测陌生样本的问题,包括异常检测,新颖性检测,一级学习,开放式识别识别和分布外检测。尽管有相似和共同的概念,但分别分布,开放式检测和异常检测已被独立研究。因此,这些研究途径尚未交叉授粉,创造了研究障碍。尽管某些调查打算概述这些方法,但它们似乎仅关注特定领域,而无需检查不同领域之间的关系。这项调查旨在在确定其共同点的同时,对各个领域的众多著名作品进行跨域和全面的审查。研究人员可以从不同领域的研究进展概述中受益,并协同发展未来的方法。此外,据我们所知,虽然进行异常检测或单级学习进行了调查,但没有关于分布外检测的全面或最新的调查,我们的调查可广泛涵盖。最后,有了统一的跨域视角,我们讨论并阐明了未来的研究线,打算将这些领域更加紧密地融为一体。
translated by 谷歌翻译
在许多应用程序中,检测异常行为是新兴的需求,尤其是在安全性和可靠性是关键方面的情况下。尽管对异常的定义严格取决于域框架,但它通常是不切实际的或太耗时的,无法获得完全标记的数据集。使用无监督模型来克服缺乏标签的模型通常无法捕获特定的特定异常情况,因为它们依赖于异常值的一般定义。本文提出了一种新的基于积极学习的方法Alif,以通过减少所需标签的数量并将检测器调整为用户提供的异常的定义来解决此问题。在存在决策支持系统(DSS)的情况下,提出的方法特别有吸引力,这种情况在现实世界中越来越流行。尽管常见的DSS嵌入异常检测功能取决于无监督的模型,但它们没有办法提高性能:Alif能够通过在常见操作期间利用用户反馈来增强DSS的功能。 Alif是对流行的隔离森林的轻巧修改,在许多真实的异常检测数据集中,相对于其他最先进的算法证明了相对于其他最先进算法的出色性能。
translated by 谷歌翻译
考虑到过去几十年中开发的一长串异常检测算法,它们如何在(i)(i)不同级别的监督,(ii)不同类型的异常以及(iii)嘈杂和损坏的数据方面执行?在这项工作中,我们通过(据我们所知)在55个名为Adbench的55个基准数据集中使用30个算法来回答这些关键问题。我们的广泛实验(总共93,654)确定了对监督和异常类型的作用的有意义的见解,并解锁了研究人员在算法选择和设计中的未来方向。借助Adbench,研究人员可以轻松地对数据集(包括我们从自然语言和计算机视觉域的贡献)对现有基线的新提出的方法进行全面和公平的评估。为了促进可访问性和可重复性,我们完全开源的Adbench和相应的结果。
translated by 谷歌翻译
我们描述了作为黑暗机器倡议和LES Houches 2019年物理学研讨会进行的数据挑战的结果。挑战的目标是使用无监督机器学习算法检测LHC新物理学的信号。首先,我们提出了如何实现异常分数以在LHC搜索中定义独立于模型的信号区域。我们定义并描述了一个大型基准数据集,由> 10亿美元的Muton-Proton碰撞,其中包含> 10亿美元的模拟LHC事件组成。然后,我们在数据挑战的背景下审查了各种异常检测和密度估计算法,我们在一组现实分析环境中测量了它们的性能。我们绘制了一些有用的结论,可以帮助开发无监督的新物理搜索在LHC的第三次运行期间,并为我们的基准数据集提供用于HTTPS://www.phenomldata.org的未来研究。重现分析的代码在https://github.com/bostdiek/darkmachines-unsupervisedChallenge提供。
translated by 谷歌翻译
在2015年和2019年之间,地平线的成员2020年资助的创新培训网络名为“Amva4newphysics”,研究了高能量物理问题的先进多变量分析方法和统计学习工具的定制和应用,并开发了完全新的。其中许多方法已成功地用于提高Cern大型Hadron撞机的地图集和CMS实验所执行的数据分析的敏感性;其他几个人,仍然在测试阶段,承诺进一步提高基本物理参数测量的精确度以及新现象的搜索范围。在本文中,在研究和开发的那些中,最相关的新工具以及对其性能的评估。
translated by 谷歌翻译
概念漂移过程挖掘(PM)是一种挑战,因为古典方法假设进程处于稳态,即事件共享相同的进程版本。我们对这些领域的交叉点进行了系统的文献综述,从而审查了过程采矿中的概念漂移,并提出了用于漂移检测和在线流程挖掘的现有技术的分类,以实现不断发展的环境。现有的作品描绘了(i)PM仍然主要关注离线分析,并且(ii)由于缺乏公共评估协议,数据集和指标,过程中的概念漂移技术的评估是麻烦的。
translated by 谷歌翻译