来自数据流的在线异常检测对于许多应用程序的安全性至关重要,但是由于来自IoT设备和基于云的基础架构的复杂且不断发展的数据流而面临严重的挑战。不幸的是,现有方法对这些挑战太短。在线异常检测方法承担着处理复杂性的负担,而离线深度异常检测方法则遭受了不断发展的数据分布的影响。本文介绍了一个在线深度异常检测的框架ARCU,可以与任何基于自动编码器的深度异常检测方法实例化。它使用两种新颖的技术使用自适应模型合并方法来处理复杂而不断发展的数据流:概念驱动的推理和漂移感知模型池更新;前者检测到最适合复杂性的模型组合的异常,后者会动态调整模型池以适合不断发展的数据流。在具有高维和概念拖延的十个数据集的全面实验中,Arcus提高了基于最先进的自动编码器的流媒体变体的异常检测准确性,并提高了最新的方法和最新的方法。 ART流动异常检测方法的分别为22%和37%。
translated by 谷歌翻译
近年来,随着传感器和智能设备的广泛传播,物联网(IoT)系统的数据生成速度已大大增加。在物联网系统中,必须经常处理,转换和分析大量数据,以实现各种物联网服务和功能。机器学习(ML)方法已显示出其物联网数据分析的能力。但是,将ML模型应用于物联网数据分析任务仍然面临许多困难和挑战,特别是有效的模型选择,设计/调整和更新,这给经验丰富的数据科学家带来了巨大的需求。此外,物联网数据的动态性质可能引入概念漂移问题,从而导致模型性能降解。为了减少人类的努力,自动化机器学习(AUTOML)已成为一个流行的领域,旨在自动选择,构建,调整和更新机器学习模型,以在指定任务上实现最佳性能。在本文中,我们对Automl区域中模型选择,调整和更新过程中的现有方法进行了审查,以识别和总结将ML算法应用于IoT数据分析的每个步骤的最佳解决方案。为了证明我们的发现并帮助工业用户和研究人员更好地实施汽车方法,在这项工作中提出了将汽车应用于IoT异常检测问题的案例研究。最后,我们讨论并分类了该领域的挑战和研究方向。
translated by 谷歌翻译
Time series anomaly detection has applications in a wide range of research fields and applications, including manufacturing and healthcare. The presence of anomalies can indicate novel or unexpected events, such as production faults, system defects, or heart fluttering, and is therefore of particular interest. The large size and complex patterns of time series have led researchers to develop specialised deep learning models for detecting anomalous patterns. This survey focuses on providing structured and comprehensive state-of-the-art time series anomaly detection models through the use of deep learning. It providing a taxonomy based on the factors that divide anomaly detection models into different categories. Aside from describing the basic anomaly detection technique for each category, the advantages and limitations are also discussed. Furthermore, this study includes examples of deep anomaly detection in time series across various application domains in recent years. It finally summarises open issues in research and challenges faced while adopting deep anomaly detection models.
translated by 谷歌翻译
Concept drift primarily refers to an online supervised learning scenario when the relation between the input data and the target variable changes over time. Assuming a general knowledge of supervised learning in this paper we characterize adaptive learning process, categorize existing strategies for handling concept drift, overview the most representative, distinct and popular techniques and algorithms, discuss evaluation methodology of adaptive algorithms, and present a set of illustrative applications. The survey covers the different facets of concept drift in an integrated way to reflect on the existing scattered state-of-the-art. Thus, it aims at providing a comprehensive introduction to the concept drift adaptation for researchers, industry analysts and practitioners.
translated by 谷歌翻译
异常值是一个事件或观察,其被定义为不同于距群体的不规则距离的异常活动,入侵或可疑数据点。然而,异常事件的定义是主观的,取决于应用程序和域(能量,健康,无线网络等)。重要的是要尽可能仔细地检测异常事件,以避免基础设施故障,因为异常事件可能导致对基础设施的严重损坏。例如,诸如微电网的网络物理系统的攻击可以发起电压或频率不稳定性,从而损坏涉及非常昂贵的修复的智能逆变器。微电网中的不寻常活动可以是机械故障,行为在系统中发生变化,人体或仪器错误或恶意攻击。因此,由于其可变性,异常值检测(OD)是一个不断增长的研究领域。在本章中,我们讨论了使用AI技术的OD方法的进展。为此,通过多个类别引入每个OD模型的基本概念。广泛的OD方法分为六大类:基于统计,基于距离,基于密度的,基于群集的,基于学习的和合奏方法。对于每个类别,我们讨论最近最先进的方法,他们的应用领域和表演。之后,关于对未来研究方向的建议提供了关于各种技术的优缺点和挑战的简要讨论。该调查旨在指导读者更好地了解OD方法的最新进展,以便保证AI。
translated by 谷歌翻译
神经发展是在训练期间可以用于学习最佳架构的方法之一。它使用进化算法来产生人工神经网络(ANN)的拓扑及其参数。在这项工作中,提出了一种改进的神经发展技术,其包含多级优化。本方法采用了基于装袋技术的演化策略,采用遗传算子优化单一异常检测模型,减少训练数据集以加速搜索过程并执行非梯度微调。多元异常检测作为无监督的学习任务是测试所呈现的方法的案例研究。单一模型优化基于突变,交叉运算符,并专注于查找最佳窗口尺寸,层数,层深度,超参数等,以提高新的和已知模型的异常检测分数。拟议的框架及其协议表明,可以在合理的时间内找到架构,这可以提高所有众所周知的多元异常检测深度学习架构。该工作集中在改善异常检测的多级神经发展方法。主要修改是混合组和单一模型演化,非梯度微调和投票机制的方法。呈现的框架可以用作可以使用AutoEncoder架构的任何不同无监督任务的高效学习网络架构方法。测试在SWAT和WADI数据集上运行,并呈现了在其他深度学习模型中获得最佳分数的进化架构。
translated by 谷歌翻译
考虑到过去几十年中开发的一长串异常检测算法,它们如何在(i)(i)不同级别的监督,(ii)不同类型的异常以及(iii)嘈杂和损坏的数据方面执行?在这项工作中,我们通过(据我们所知)在55个名为Adbench的55个基准数据集中使用30个算法来回答这些关键问题。我们的广泛实验(总共93,654)确定了对监督和异常类型的作用的有意义的见解,并解锁了研究人员在算法选择和设计中的未来方向。借助Adbench,研究人员可以轻松地对数据集(包括我们从自然语言和计算机视觉域的贡献)对现有基线的新提出的方法进行全面和公平的评估。为了促进可访问性和可重复性,我们完全开源的Adbench和相应的结果。
translated by 谷歌翻译
Concept drift describes unforeseeable changes in the underlying distribution of streaming data over time. Concept drift research involves the development of methodologies and techniques for drift detection, understanding and adaptation. Data analysis has revealed that machine learning in a concept drift environment will result in poor learning results if the drift is not addressed. To help researchers identify which research topics are significant and how to apply related techniques in data analysis tasks, it is necessary that a high quality, instructive review of current research developments and trends in the concept drift field is conducted. In addition, due to the rapid development of concept drift in recent years, the methodologies of learning under concept drift have become noticeably systematic, unveiling a framework which has not been mentioned in literature. This paper reviews over 130 high quality publications in concept drift related research areas, analyzes up-to-date developments in methodologies and techniques, and establishes a framework of learning under concept drift including three main components: concept drift detection, concept drift understanding, and concept drift adaptation. This paper lists and discusses 10 popular synthetic datasets and 14 publicly available benchmark datasets used for evaluating the performance of learning algorithms aiming at handling concept drift. Also, concept drift related research directions are covered and discussed. By providing state-of-the-art knowledge, this survey will directly support researchers in their understanding of research developments in the field of learning under concept drift.
translated by 谷歌翻译
孤立森林(Iforest)近年来已经成为最受欢迎的异常检测器。它迭代地在树结构中执行轴平行的数据空间分区,以将偏差的数据对象与其他数据隔离,并且定义为异常得分的对象的隔离难度。 iForest在流行的数据集基准中显示出有效的性能,但其基于轴平行的线性数据分区无效地处理高维/非线性数据空间中的硬异常,甚至更糟糕的是,它导致了臭名昭著的算法偏见。为人工制品区域分配了出乎意料的较大的异常得分。有几个扩展的Iforest,但它们仍然专注于线性数据分区,无法有效地隔离这些硬异常。本文介绍了iforest,深层隔离森林的新型扩展。我们的方法提供了一种综合的隔离方法,可以在任何大小的子空间上任意将数据任意划分数据,从而有效地避免了线性分区中的算法偏置。此外,它仅需要随机初始化的神经网络(即,我们的方法中不需要优化)来确保分区的自由。这样一来,可以完全利用基于网络的随机表示和基于随机分区的隔离的所需随机性和多样性,以显着增强基于隔离集合的异常检测。此外,我们的方法还提供了数据型 - 敏捷的异常检测解决方案。通过简单地插入功能映射中的随机初始化的神经网络来检测不同类型数据中的异常。大量现实数据集的广泛经验结果表明,我们的模型对基于最新的隔离和基于非异常的异常检测模型有了显着改善。
translated by 谷歌翻译
在智能交通系统中,交通拥堵异常检测至关重要。运输机构的目标有两个方面:监视感兴趣领域的一般交通状况,并在异常拥堵状态下定位道路细分市场。建模拥塞模式可以实现这些目标,以实现全市道路的目标,相当于学习多元时间序列(MTS)的分布。但是,现有作品要么不可伸缩,要么无法同时捕获MTS中的空间信息。为此,我们提出了一个由数据驱动的生成方法组成的原则性和全面的框架,该方法可以执行可拖动的密度估计来检测流量异常。我们的方法在特征空间中的第一群段段,然后使用条件归一化流以在无监督的设置下在群集级别识别异常的时间快照。然后,我们通过在异常群集上使用内核密度估计器来识别段级别的异常。关于合成数据集的广泛实验表明,我们的方法在召回和F1得分方面显着优于几种最新的拥塞异常检测和诊断方法。我们还使用生成模型来采样标记的数据,该数据可以在有监督的环境中训练分类器,从而减轻缺乏在稀疏设置中进行异常检测的标记数据。
translated by 谷歌翻译
半监督异常检测旨在使用在正常数据上培训的模型来检测来自正常样本的异常。随着近期深度学习的进步,研究人员设计了高效的深度异常检测方法。现有作品通常使用神经网络将数据映射到更具内容性的表示中,然后应用异常检测算法。在本文中,我们提出了一种方法,DASVDD,它共同学习AutoEncoder的参数,同时最小化其潜在表示上的封闭超球的音量。我们提出了一个异常的分数,它是自动化器的重建误差和距离潜在表示中封闭边距中心的距离的组合。尽量减少这种异常的分数辅助我们在培训期间学习正常课程的潜在分布。包括异常分数中的重建错误确保DESVDD不受常见的极度崩溃问题,因为DESVDD模型不会收敛到映射到潜在表示中的恒定点的常量点。几个基准数据集上的实验评估表明,该方法优于常用的最先进的异常检测算法,同时在不同的异常类中保持鲁棒性能。
translated by 谷歌翻译
The literature on machine learning in the context of data streams is vast and growing. However, many of the defining assumptions regarding data-stream learning tasks are too strong to hold in practice, or are even contradictory such that they cannot be met in the contexts of supervised learning. Algorithms are chosen and designed based on criteria which are often not clearly stated, for problem settings not clearly defined, tested in unrealistic settings, and/or in isolation from related approaches in the wider literature. This puts into question the potential for real-world impact of many approaches conceived in such contexts, and risks propagating a misguided research focus. We propose to tackle these issues by reformulating the fundamental definitions and settings of supervised data-stream learning with regard to contemporary considerations of concept drift and temporal dependence; and we take a fresh look at what constitutes a supervised data-stream learning task, and a reconsideration of algorithms that may be applied to tackle such tasks. Through and in reflection of this formulation and overview, helped by an informal survey of industrial players dealing with real-world data streams, we provide recommendations. Our main emphasis is that learning from data streams does not impose a single-pass or online-learning approach, or any particular learning regime; and any constraints on memory and time are not specific to streaming. Meanwhile, there exist established techniques for dealing with temporal dependence and concept drift, in other areas of the literature. For the data streams community, we thus encourage a shift in research focus, from dealing with often-artificial constraints and assumptions on the learning mode, to issues such as robustness, privacy, and interpretability which are increasingly relevant to learning in data streams in academic and industrial settings.
translated by 谷歌翻译
自动日志文件分析可以尽早发现相关事件,例如系统故障。特别是,自我学习的异常检测技术在日志数据中捕获模式,随后向系统操作员报告意外的日志事件事件,而无需提前提供或手动对异常情况进行建模。最近,已经提出了越来越多的方法来利用深度学习神经网络为此目的。与传统的机器学习技术相比,这些方法证明了出色的检测性能,并同时解决了不稳定数据格式的问题。但是,有许多不同的深度学习体系结构,并且编码由神经网络分析的原始和非结构化日志数据是不平凡的。因此,我们进行了系统的文献综述,概述了部署的模型,数据预处理机制,异常检测技术和评估。该调查没有定量比较现有方法,而是旨在帮助读者了解不同模型体系结构的相关方面,并强调未来工作的开放问题。
translated by 谷歌翻译
流数据分类的重要问题之一是概念漂移的发生,包括分类任务的概率特征的变化。这种现象不稳定了分类模型的性能,并严重降低了其质量。需要抵消这种现象的适当策略来使分类器适应变化的概率特征。实现此类解决方案的一个重要问题是访问数据标签。它通常是昂贵的,从而最大限度地减少与该过程相关的费用,提出了基于半监督学习的学习策略,例如,采用主动学习方法,该方法指示哪些传入对象是有价值的,以便标记为提高分类器的性能。本文提出了一种基于基于分类器集合学习的非静止数据流的基于块的方法,以及考虑可以成功应用于任何数据流分类算法的有限预算的主动学习策略。已经通过使用真实和生成的数据流进行了计算机实验来评估所提出的方法。结果证实了最先进的方法的高质量。
translated by 谷歌翻译
The detection of anomalies in time series data is crucial in a wide range of applications, such as system monitoring, health care or cyber security. While the vast number of available methods makes selecting the right method for a certain application hard enough, different methods have different strengths, e.g. regarding the type of anomalies they are able to find. In this work, we compare six unsupervised anomaly detection methods with different complexities to answer the questions: Are the more complex methods usually performing better? And are there specific anomaly types that those method are tailored to? The comparison is done on the UCR anomaly archive, a recent benchmark dataset for anomaly detection. We compare the six methods by analyzing the experimental results on a dataset- and anomaly type level after tuning the necessary hyperparameter for each method. Additionally we examine the ability of individual methods to incorporate prior knowledge about the anomalies and analyse the differences of point-wise and sequence wise features. We show with broad experiments, that the classical machine learning methods show a superior performance compared to the deep learning methods across a wide range of anomaly types.
translated by 谷歌翻译
时间序列的异常提供了各个行业的关键方案的见解,从银行和航空航天到信息技术,安全和医学。但是,由于异常的定义,经常缺乏标签以及此类数据中存在的极为复杂的时间相关性,因此识别时间序列数据中的异常尤其具有挑战性。LSTM自动编码器是基于长期短期内存网络的异常检测的编码器传统方案,该方案学会重建时间序列行为,然后使用重建错误来识别异常。我们将Denoising Architecture作为对该LSTM编码模型模型的补充,并研究其对现实世界以及人为生成的数据集的影响。我们证明了所提出的体系结构既提高了准确性和训练速度,从而使LSTM自动编码器更有效地用于无监督的异常检测任务。
translated by 谷歌翻译
我们如何检测异常:也就是说,与给定的一组高维数据(例如图像或传感器数据)显着不同的样品?这是众多应用程序的实际问题,也与使学习算法对意外输入更强大的目标有关。自动编码器是一种流行的方法,部分原因是它们的简单性和降低维度的能力。但是,异常评分函数并不适应正常样品范围内重建误差的自然变化,这阻碍了它们检测实际异常的能力。在本文中,我们从经验上证明了局部适应性对具有真实数据的实验中异常评分的重要性。然后,我们提出了新颖的自适应重建基于错误的评分方法,该方法根据潜在空间的重建误差的局部行为来适应其评分。我们表明,这改善了各种基准数据集中相关基线的异常检测性能。
translated by 谷歌翻译
近年来,在线增量学习中兴趣增长。然而,这方面存在三个主要挑战。第一个主要困难是概念漂移,即流数据中的概率分布会随着数据到达而改变。第二个重大困难是灾难性的遗忘,即忘记在学习新知识之前学到的东西。我们经常忽略的最后一个是学习潜在的代表。只有良好的潜在表示可以提高模型的预测准确性。我们的研究在此观察中建立并试图克服这些困难。为此,我们提出了一种适应性在线增量学习,用于不断发展数据流(AOL)。我们使用带内存模块的自动编码器,一方面,我们获得了输入的潜在功能,另一方面,根据自动编码器的重建丢失与内存模块,我们可以成功检测存在的存在概念漂移并触发更新机制,调整模型参数及时。此外,我们划分从隐藏层的激活导出的特征,分为两个部分,用于分别提取公共和私有特征。通过这种方法,该模型可以了解新的即将到来的实例的私有功能,但不要忘记我们在过去(共享功能)中学到的内容,这减少了灾难性遗忘的发生。同时,要获取融合特征向量,我们使用自我关注机制来有效地融合提取的特征,这进一步改善了潜在的代表学习。
translated by 谷歌翻译
流媒体数据中对异常的实时检测正在受到越来越多的关注,因为它使我们能够提高警报,预测故障并检测到整个行业的入侵或威胁。然而,很少有人注意比较流媒体数据(即在线算法)的异常检测器的有效性和效率。在本文中,我们介绍了来自不同算法家族(即基于距离,密度,树木或投影)的主要在线检测器的定性合成概述,并突出了其构建,更新和测试检测模型的主要思想。然后,我们对在线检测算法的定量实验评估以及其离线对应物进行了彻底的分析。检测器的行为与不同数据集(即元功能)的特征相关,从而提供了对其性能的元级分析。我们的研究介绍了文献中几个缺失的见解,例如(a)检测器对随机分类器的可靠性以及什么数据集特性使它们随机执行; (b)在线探测器在何种程度上近似离线同行的性能; (c)哪种绘制检测器的策略和更新原始图最适合检测仅在数据集的功能子空间中可见的异常; (d)属于不同算法家族的探测器的有效性与效率之间的权衡是什么; (e)数据集的哪些特定特征产生在线算法以胜过所有其他特征。
translated by 谷歌翻译
现代高性能计算(HPC)系统的复杂性日益增加,需要引入自动化和数据驱动的方法,以支持系统管理员为增加系统可用性的努力。异常检测是改善可用性不可或缺的一部分,因为它减轻了系统管理员的负担,并减少了异常和解决方案之间的时间。但是,对当前的最新检测方法进行了监督和半监督,因此它们需要具有异常的人体标签数据集 - 在生产HPC系统中收集通常是不切实际的。基于聚类的无监督异常检测方法,旨在减轻准确的异常数据的需求,到目前为止的性能差。在这项工作中,我们通过提出RUAD来克服这些局限性,RUAD是一种新型的无监督异常检测模型。 Ruad比当前的半监督和无监督的SOA方法取得了更好的结果。这是通过考虑数据中的时间依赖性以及在模型体系结构中包括长短期限内存单元的实现。提出的方法是根据tier-0系统(带有980个节点的Cineca的Marconi100的完整历史)评估的。 RUAD在半监督训练中达到曲线(AUC)下的区域(AUC)为0.763,在无监督的训练中达到了0.767的AUC,这改进了SOA方法,在半监督训练中达到0.747的AUC,无需训练的AUC和0.734的AUC在无处不在的AUC中提高了AUC。训练。它还大大优于基于聚类的当前SOA无监督的异常检测方法,其AUC为0.548。
translated by 谷歌翻译