Unsupervised anomaly detection in time-series has been extensively investigated in the literature. Notwithstanding the relevance of this topic in numerous application fields, a complete and extensive evaluation of recent state-of-the-art techniques is still missing. Few efforts have been made to compare existing unsupervised time-series anomaly detection methods rigorously. However, only standard performance metrics, namely precision, recall, and F1-score are usually considered. Essential aspects for assessing their practical relevance are therefore neglected. This paper proposes an original and in-depth evaluation study of recent unsupervised anomaly detection techniques in time-series. Instead of relying solely on standard performance metrics, additional yet informative metrics and protocols are taken into account. In particular, (1) more elaborate performance metrics specifically tailored for time-series are used; (2) the model size and the model stability are studied; (3) an analysis of the tested approaches with respect to the anomaly type is provided; and (4) a clear and unique protocol is followed for all experiments. Overall, this extensive analysis aims to assess the maturity of state-of-the-art time-series anomaly detection, give insights regarding their applicability under real-world setups and provide to the community a more complete evaluation protocol.
translated by 谷歌翻译
Time series anomaly detection has applications in a wide range of research fields and applications, including manufacturing and healthcare. The presence of anomalies can indicate novel or unexpected events, such as production faults, system defects, or heart fluttering, and is therefore of particular interest. The large size and complex patterns of time series have led researchers to develop specialised deep learning models for detecting anomalous patterns. This survey focuses on providing structured and comprehensive state-of-the-art time series anomaly detection models through the use of deep learning. It providing a taxonomy based on the factors that divide anomaly detection models into different categories. Aside from describing the basic anomaly detection technique for each category, the advantages and limitations are also discussed. Furthermore, this study includes examples of deep anomaly detection in time series across various application domains in recent years. It finally summarises open issues in research and challenges faced while adopting deep anomaly detection models.
translated by 谷歌翻译
The detection of anomalies in time series data is crucial in a wide range of applications, such as system monitoring, health care or cyber security. While the vast number of available methods makes selecting the right method for a certain application hard enough, different methods have different strengths, e.g. regarding the type of anomalies they are able to find. In this work, we compare six unsupervised anomaly detection methods with different complexities to answer the questions: Are the more complex methods usually performing better? And are there specific anomaly types that those method are tailored to? The comparison is done on the UCR anomaly archive, a recent benchmark dataset for anomaly detection. We compare the six methods by analyzing the experimental results on a dataset- and anomaly type level after tuning the necessary hyperparameter for each method. Additionally we examine the ability of individual methods to incorporate prior knowledge about the anomalies and analyse the differences of point-wise and sequence wise features. We show with broad experiments, that the classical machine learning methods show a superior performance compared to the deep learning methods across a wide range of anomaly types.
translated by 谷歌翻译
近年来,提出了关于时间序列异常检测(TAD)的研究报告基准TAD数据集中的高F1分数,给出了TAD的清晰改进的印象。然而,大多数研究在评分之前应用了一个名为Point调整(PA)的特殊评估协议。在本文中,我们理论上实验揭示了PA协议具有高估检测性能的可能性;也就是说,即使是随机异常的分数也可以容易地变成最先进的TAD方法。因此,应用PA协议后的TAD方法的比较可能导致误导排名。此外,我们通过表示未经训练的模型对现有方法获得了可比的检测性能,即使禁止禁止,我们会解决现有TAD方法的潜力。根据我们的调查结果,我们提出了一种新的基线和评估议定书。我们预计我们的研究将有助于对TAD严格评估,并导致未来的研究进一步改善。
translated by 谷歌翻译
Anomaly detection on time series data is increasingly common across various industrial domains that monitor metrics in order to prevent potential accidents and economic losses. However, a scarcity of labeled data and ambiguous definitions of anomalies can complicate these efforts. Recent unsupervised machine learning methods have made remarkable progress in tackling this problem using either single-timestamp predictions or time series reconstructions. While traditionally considered separately, these methods are not mutually exclusive and can offer complementary perspectives on anomaly detection. This paper first highlights the successes and limitations of prediction-based and reconstruction-based methods with visualized time series signals and anomaly scores. We then propose AER (Auto-encoder with Regression), a joint model that combines a vanilla auto-encoder and an LSTM regressor to incorporate the successes and address the limitations of each method. Our model can produce bi-directional predictions while simultaneously reconstructing the original time series by optimizing a joint objective function. Furthermore, we propose several ways of combining the prediction and reconstruction errors through a series of ablation studies. Finally, we compare the performance of the AER architecture against two prediction-based methods and three reconstruction-based methods on 12 well-known univariate time series datasets from NASA, Yahoo, Numenta, and UCR. The results show that AER has the highest averaged F1 score across all datasets (a 23.5% improvement compared to ARIMA) while retaining a runtime similar to its vanilla auto-encoder and regressor components. Our model is available in Orion, an open-source benchmarking tool for time series anomaly detection.
translated by 谷歌翻译
在智能交通系统中,交通拥堵异常检测至关重要。运输机构的目标有两个方面:监视感兴趣领域的一般交通状况,并在异常拥堵状态下定位道路细分市场。建模拥塞模式可以实现这些目标,以实现全市道路的目标,相当于学习多元时间序列(MTS)的分布。但是,现有作品要么不可伸缩,要么无法同时捕获MTS中的空间信息。为此,我们提出了一个由数据驱动的生成方法组成的原则性和全面的框架,该方法可以执行可拖动的密度估计来检测流量异常。我们的方法在特征空间中的第一群段段,然后使用条件归一化流以在无监督的设置下在群集级别识别异常的时间快照。然后,我们通过在异常群集上使用内核密度估计器来识别段级别的异常。关于合成数据集的广泛实验表明,我们的方法在召回和F1得分方面显着优于几种最新的拥塞异常检测和诊断方法。我们还使用生成模型来采样标记的数据,该数据可以在有监督的环境中训练分类器,从而减轻缺乏在稀疏设置中进行异常检测的标记数据。
translated by 谷歌翻译
无监督的时间序列异常检测对各种域中目标系统的潜在故障有助于。当前的最新时间序列异常检测器主要集中于设计高级神经网络结构和新的重建/预测学习目标,以尽可能准确地学习数据正常(正常模式和行为)。但是,这些单级学习方法可以被训练数据中未知异常(即异常污染)所欺骗。此外,他们的正常学习也缺乏对感兴趣异常的知识。因此,他们经常学习一个有偏见的,不准确的正态边界。本文提出了一种新型的单级学习方法,称为校准的一级分类,以解决此问题。我们的单级分类器以两种方式进行校准:(1)通过适应性地惩罚不确定的预测,这有助于消除异常污染的影响,同时强调单级模型对一级模型有信心的预测,并通过区分正常情况来确定(2)来自本机异常示例的样本,这些样本是根据原始数据基于原始数据模拟真实时间序列异常行为的。这两个校准导致耐污染的,异常的单级学习,从而产生了显着改善的正态性建模。对六个现实世界数据集进行的广泛实验表明,我们的模型大大优于12个最先进的竞争对手,并获得了6%-31%的F1分数提高。源代码可在\ url {https://github.com/xuhongzuo/couta}中获得。
translated by 谷歌翻译
时间序列异常检测已被认为对现实世界系统的可靠和有效运行至关重要。基于对异常特征的各种假设,已经开发了许多异常检测方法。但是,由于现实世界数据的复杂性质,时间序列中的不同异常通常具有支持不同异常假设的不同曲线。这使得很难找到一个可以始终如一的其他模型的异常检测器。在这项工作中,为了利用不同基本模型的好处,我们提出了一个基于增强学习的模型选择框架。具体而言,我们首先学习了不同异常检测模型的池,然后利用强化学习从这些基本模型中动态选择候选模型。关于现实世界数据的实验表明,就整体绩效而言,提出的策略确实可以超过所有基线模型。
translated by 谷歌翻译
时间序列的异常提供了各个行业的关键方案的见解,从银行和航空航天到信息技术,安全和医学。但是,由于异常的定义,经常缺乏标签以及此类数据中存在的极为复杂的时间相关性,因此识别时间序列数据中的异常尤其具有挑战性。LSTM自动编码器是基于长期短期内存网络的异常检测的编码器传统方案,该方案学会重建时间序列行为,然后使用重建错误来识别异常。我们将Denoising Architecture作为对该LSTM编码模型模型的补充,并研究其对现实世界以及人为生成的数据集的影响。我们证明了所提出的体系结构既提高了准确性和训练速度,从而使LSTM自动编码器更有效地用于无监督的异常检测任务。
translated by 谷歌翻译
存在几种数据驱动方法,使我们的模型时间序列数据能够包括传统的基于回归的建模方法(即,Arima)。最近,在时间序列分析和预测的背景下介绍和探索了深度学习技术。询问的主要研究问题是在预测时间序列数据中的深度学习技术中的这些变化的性能。本文比较了两个突出的深度学习建模技术。比较了经常性的神经网络(RNN)长的短期记忆(LSTM)和卷积神经网络(CNN)基于基于TCN的时间卷积网络(TCN),并报告了它们的性能和训练时间。根据我们的实验结果,两个建模技术都表现了相当具有基于TCN的模型优于LSTM略微。此外,基于CNN的TCN模型比基于RNN的LSTM模型更快地构建了稳定的模型。
translated by 谷歌翻译
在能源系统的数字化中,传感器和智能电表越来越多地用于监视生产,运行和需求。基于智能电表数据的异常检测对于在早期阶段识别潜在的风险和异常事件至关重要,这可以作为及时启动适当动作和改善管理的参考。但是,来自能源系统的智能电表数据通常缺乏标签,并且包含噪声和各种模式,而没有明显的周期性。同时,在不同的能量场景中对异常的模糊定义和高度复杂的时间相关性对异常检测构成了巨大的挑战。许多传统的无监督异常检测算法(例如基于群集或基于距离的模型)对噪声不强大,也不完全利用时间序列中的时间依赖性以及在多个变量(传感器)中的其他依赖关系。本文提出了一种基于带有注意机制的变异复发自动编码器的无监督异常检测方法。凭借来自智能电表的“肮脏”数据,我们的方法预示了缺失的值和全球异常,以在训练中缩小其贡献。本文与基于VAE的基线方法和其他四种无监督的学习方法进行了定量比较,证明了其有效性和优势。本文通过一项实际案例研究进一步验证了所提出的方法,该研究方法是检测工业加热厂的供水温度异常。
translated by 谷歌翻译
异常值是一个事件或观察,其被定义为不同于距群体的不规则距离的异常活动,入侵或可疑数据点。然而,异常事件的定义是主观的,取决于应用程序和域(能量,健康,无线网络等)。重要的是要尽可能仔细地检测异常事件,以避免基础设施故障,因为异常事件可能导致对基础设施的严重损坏。例如,诸如微电网的网络物理系统的攻击可以发起电压或频率不稳定性,从而损坏涉及非常昂贵的修复的智能逆变器。微电网中的不寻常活动可以是机械故障,行为在系统中发生变化,人体或仪器错误或恶意攻击。因此,由于其可变性,异常值检测(OD)是一个不断增长的研究领域。在本章中,我们讨论了使用AI技术的OD方法的进展。为此,通过多个类别引入每个OD模型的基本概念。广泛的OD方法分为六大类:基于统计,基于距离,基于密度的,基于群集的,基于学习的和合奏方法。对于每个类别,我们讨论最近最先进的方法,他们的应用领域和表演。之后,关于对未来研究方向的建议提供了关于各种技术的优缺点和挑战的简要讨论。该调查旨在指导读者更好地了解OD方法的最新进展,以便保证AI。
translated by 谷歌翻译
今天的网络世界难以多变量。在极端品种中收集的指标需要多变量算法以正确检测异常。然而,基于预测的算法,如被广泛证明的方法,通常在数据集中进行次优或不一致。一个关键的常见问题是他们努力成为一个尺寸适合的,但异常在自然中是独特的。我们提出了一种裁定到这种区别的方法。提出FMUAD - 一种基于预测,多方面,无监督的异常检测框架。FMUAD明确,分别捕获异常类型的签名性状 - 空间变化,时间变化和相关变化 - 与独立模块。然后,模块共同学习最佳特征表示,这是非常灵活和直观的,与类别中的大多数其他模型不同。广泛的实验表明我们的FMUAD框架始终如一地优于其他最先进的预测的异常探测器。
translated by 谷歌翻译
日志是确保许多软件系统的可靠性和连续性,尤其是大规模分布式系统的命令。他们忠实地录制运行时信息,以便于系统故障排除和行为理解。由于现代软件系统的大规模和复杂性,日志量已达到前所未有的水平。因此,对于基于逻究的异常检测,常规的手动检查方法甚至传统的基于机器学习的方法变得不切实际,这是一种不切实际的是,作为基于深度学习的解决方案的快速发展的催化剂。然而,目前在诉诸神经网络的代表性日志的异常探测器之间缺乏严格的比较。此外,重新实现过程需要不琐碎的努力,并且可以轻易引入偏差。为了更好地了解不同异常探测器的特性,在本文中,我们提供了六种最先进的方法使用的五种流行神经网络的全面审查和评估。特别是,4种所选方法是无监督的,并且剩下的两个是监督的。这些方法是用两个公开的日志数据集进行评估,其中包含近1600万日志消息和总共有04万个异常实例。我们相信我们的工作可以作为这一领域的基础,为未来的学术研究和工业应用做出贡献。
translated by 谷歌翻译
时间序列(TS)异常检测(AD)在各种应用中起重要作用,例如,金融和医疗保健监测中的欺诈检测。由于异常的本质上不可预测和高度不同,并且在历史数据中缺乏异常标签,而广告问题通常被制定为无监督的学习问题。现有解决方案的性能往往不令人满意,尤其是数据稀缺方案。为了解决这个问题,我们提出了一种新颖的自我监督的广告中的时间序列学习技术,即\ EMPH {DeepFib}。我们将问题模型为a \ emph {填写空白}游戏,通过屏蔽TS中的某些元素并将其抵御其余部分。考虑到TS数据中的两个共同的异常形状(点或序列异常值),我们实施了两个具有许多自我产生的训练样本的掩蔽策略。相应的自我估算网络可以提取比现有的广告解决方案更强大的时间关系,并有效地促进识别两种类型的异常。对于连续异常值,我们还提出了一种异常的本地化算法,可大大减少广告错误。各种现实世界TS数据集的实验表明,DeepFib优先于最先进的方法,通过大幅度,实现F1分数的高达65.2 \%$ 65.2 \%。
translated by 谷歌翻译
多元时间序列的异常检测对于系统行为监测有意义。本文提出了一种基于无监督的短期和长期面具表示学习(SLMR)的异常检测方法。主要思想是分别使用多尺度的残余卷积和门控复发单元(GRU)提取多元时间序列的短期局部依赖模式和长期全球趋势模式。此外,我们的方法可以通过结合时空掩盖的自我监督表示和序列分裂来理解时间上下文和特征相关性。它认为功能的重要性是不同的,我们介绍了注意机制以调整每个功能的贡献。最后,将基于预测的模型和基于重建的模型集成在一起,以关注单时间戳预测和时间序列的潜在表示。实验表明,我们方法的性能优于三个现实世界数据集上的其他最先进的模型。进一步的分析表明,我们的方法擅长可解释性。
translated by 谷歌翻译
检测数据分布突然变化的变更点检测(CPD)被认为是时间序列分析中最重要的任务之一。尽管关于离线CPD的文献广泛,但无监督的在线CPD仍面临主要挑战,包括可扩展性,超参数调整和学习限制。为了减轻其中一些挑战,在本文中,我们提出了一种新颖的深度学习方法,用于从多维时间序列中无监督的在线CPD,名为Adaptive LSTM-AUTOENOCODER变更点检测(ALACPD)。 ALACPD利用了基于LSTM-AutoEncoder的神经网络来执行无监督的在线CPD。它连续地适应了传入的样本,而无需保留先前接收的输入,因此没有内存。我们对几个实际时间序列的CPD基准进行了广泛的评估。我们表明,在时间序列细分的质量方面,ALACPD平均在最先进的CPD算法中排名第一,并且就估计更改点的准确性而言,它与表现最好。 ALACPD的实现可在Github \ footNote {\ url {https://github.com/zahraatashgahi/alacpd}}上在线获得。
translated by 谷歌翻译
使用最后一英里无线连接的终端设备的数量随着智能基础设施的上升而大大增加,并且需要可靠的功能来支持平滑和高效的业务流程。为了有效地管理此类大规模无线网络,需要更先进和准确的网络监控和故障检测解决方案。在本文中,我们使用复制图和克朗尼亚角场进行无线异常检测的基于图像的表示技术的第一次分析,并提出了一种启用精确异常检测的新的深度学习架构。我们详细阐述了开发资源意识架构的设计考虑因素,并使用时间序列提出新模型以使用复制图来实现图像转换。我们表明,所提出的模型a)以最多14个百分点的基于语法角字段优异的型号,b)使用动态时间翘曲高达24个百分点,c)优于24个百分点的典型ML模型,C)优于或与主流架构相表现出如AlexNet和VGG11的同时具有<10倍的权重和高达$ \其计算复杂度的8倍,而d)优于各个应用面积的最新状态高达55个百分点。最后,我们还在随机选择的示例上解释了分类器如何决定。
translated by 谷歌翻译
自动日志文件分析可以尽早发现相关事件,例如系统故障。特别是,自我学习的异常检测技术在日志数据中捕获模式,随后向系统操作员报告意外的日志事件事件,而无需提前提供或手动对异常情况进行建模。最近,已经提出了越来越多的方法来利用深度学习神经网络为此目的。与传统的机器学习技术相比,这些方法证明了出色的检测性能,并同时解决了不稳定数据格式的问题。但是,有许多不同的深度学习体系结构,并且编码由神经网络分析的原始和非结构化日志数据是不平凡的。因此,我们进行了系统的文献综述,概述了部署的模型,数据预处理机制,异常检测技术和评估。该调查没有定量比较现有方法,而是旨在帮助读者了解不同模型体系结构的相关方面,并强调未来工作的开放问题。
translated by 谷歌翻译
对于由硬件和软件组件组成的复杂分布式系统而言,异常检测是一个重要的问题。对此类系统的异常检测的要求和挑战的透彻理解对于系统的安全性至关重要,尤其是对于现实世界的部署。尽管有许多解决问题的研究领域和应用领域,但很少有人试图对这种系统进行深入研究。大多数异常检测技术是针对某些应用域的专门开发的,而其他检测技术则更为通用。在这项调查中,我们探讨了基于图的算法在复杂分布式异质系统中识别和减轻不同类型异常的重要潜力。我们的主要重点是在分布在复杂分布式系统上的异质计算设备上应用时,可深入了解图。这项研究分析,比较和对比该领域的最新研究文章。首先,我们描述了现实世界分布式系统的特征及其在复杂网络中的异常检测的特定挑战,例如数据和评估,异常的性质以及现实世界的要求。稍后,我们讨论了为什么可以在此类系统中利用图形以及使用图的好处。然后,我们将恰当地深入研究最先进的方法,并突出它们的优势和劣势。最后,我们评估和比较这些方法,并指出可能改进的领域。
translated by 谷歌翻译