鉴于在现实世界应用中缺乏异常情况,大多数文献一直集中在建模正态上。学到的表示形式可以将异常检测作为正态性模型进行训练,以捕获正常情况下的某些密钥数据规律性。在实际环境中,尤其是工业时间序列异常检测中,我们经常遇到有大量正常操作数据以及随时间收集的少量异常事件的情况。这种实际情况要求方法学来利用这些少量的异常事件来创建更好的异常检测器。在本文中,我们介绍了两种方法来满足这种实际情况的需求,并将其与最近开发的最新技术进行了比较。我们提出的方法锚定在具有自回归(AR)模型的正常运行的代表性学习以及损失组件上,以鼓励表示正常与几个积极示例的表示形式。我们将提出的方法应用于两个工业异常检测数据集,并与文献相比表现出有效的性能。我们的研究还指出了在实际应用中采用此类方法的其他挑战。
translated by 谷歌翻译
现代高性能计算(HPC)系统的复杂性日益增加,需要引入自动化和数据驱动的方法,以支持系统管理员为增加系统可用性的努力。异常检测是改善可用性不可或缺的一部分,因为它减轻了系统管理员的负担,并减少了异常和解决方案之间的时间。但是,对当前的最新检测方法进行了监督和半监督,因此它们需要具有异常的人体标签数据集 - 在生产HPC系统中收集通常是不切实际的。基于聚类的无监督异常检测方法,旨在减轻准确的异常数据的需求,到目前为止的性能差。在这项工作中,我们通过提出RUAD来克服这些局限性,RUAD是一种新型的无监督异常检测模型。 Ruad比当前的半监督和无监督的SOA方法取得了更好的结果。这是通过考虑数据中的时间依赖性以及在模型体系结构中包括长短期限内存单元的实现。提出的方法是根据tier-0系统(带有980个节点的Cineca的Marconi100的完整历史)评估的。 RUAD在半监督训练中达到曲线(AUC)下的区域(AUC)为0.763,在无监督的训练中达到了0.767的AUC,这改进了SOA方法,在半监督训练中达到0.747的AUC,无需训练的AUC和0.734的AUC在无处不在的AUC中提高了AUC。训练。它还大大优于基于聚类的当前SOA无监督的异常检测方法,其AUC为0.548。
translated by 谷歌翻译
在智能交通系统中,交通拥堵异常检测至关重要。运输机构的目标有两个方面:监视感兴趣领域的一般交通状况,并在异常拥堵状态下定位道路细分市场。建模拥塞模式可以实现这些目标,以实现全市道路的目标,相当于学习多元时间序列(MTS)的分布。但是,现有作品要么不可伸缩,要么无法同时捕获MTS中的空间信息。为此,我们提出了一个由数据驱动的生成方法组成的原则性和全面的框架,该方法可以执行可拖动的密度估计来检测流量异常。我们的方法在特征空间中的第一群段段,然后使用条件归一化流以在无监督的设置下在群集级别识别异常的时间快照。然后,我们通过在异常群集上使用内核密度估计器来识别段级别的异常。关于合成数据集的广泛实验表明,我们的方法在召回和F1得分方面显着优于几种最新的拥塞异常检测和诊断方法。我们还使用生成模型来采样标记的数据,该数据可以在有监督的环境中训练分类器,从而减轻缺乏在稀疏设置中进行异常检测的标记数据。
translated by 谷歌翻译
Time series anomaly detection has applications in a wide range of research fields and applications, including manufacturing and healthcare. The presence of anomalies can indicate novel or unexpected events, such as production faults, system defects, or heart fluttering, and is therefore of particular interest. The large size and complex patterns of time series have led researchers to develop specialised deep learning models for detecting anomalous patterns. This survey focuses on providing structured and comprehensive state-of-the-art time series anomaly detection models through the use of deep learning. It providing a taxonomy based on the factors that divide anomaly detection models into different categories. Aside from describing the basic anomaly detection technique for each category, the advantages and limitations are also discussed. Furthermore, this study includes examples of deep anomaly detection in time series across various application domains in recent years. It finally summarises open issues in research and challenges faced while adopting deep anomaly detection models.
translated by 谷歌翻译
无监督的时间序列异常检测对各种域中目标系统的潜在故障有助于。当前的最新时间序列异常检测器主要集中于设计高级神经网络结构和新的重建/预测学习目标,以尽可能准确地学习数据正常(正常模式和行为)。但是,这些单级学习方法可以被训练数据中未知异常(即异常污染)所欺骗。此外,他们的正常学习也缺乏对感兴趣异常的知识。因此,他们经常学习一个有偏见的,不准确的正态边界。本文提出了一种新型的单级学习方法,称为校准的一级分类,以解决此问题。我们的单级分类器以两种方式进行校准:(1)通过适应性地惩罚不确定的预测,这有助于消除异常污染的影响,同时强调单级模型对一级模型有信心的预测,并通过区分正常情况来确定(2)来自本机异常示例的样本,这些样本是根据原始数据基于原始数据模拟真实时间序列异常行为的。这两个校准导致耐污染的,异常的单级学习,从而产生了显着改善的正态性建模。对六个现实世界数据集进行的广泛实验表明,我们的模型大大优于12个最先进的竞争对手,并获得了6%-31%的F1分数提高。源代码可在\ url {https://github.com/xuhongzuo/couta}中获得。
translated by 谷歌翻译
Aiot技术的最新进展导致利用机器学习算法来检测网络物理系统(CPS)的操作失败的越来越受欢迎。在其基本形式中,异常检测模块从物理工厂监控传感器测量和致动器状态,并检测这些测量中的异常以识别异常操作状态。然而,由于该模型必须在存在高度复杂的系统动态和未知量的传感器噪声的情况下准确地检测异常,构建有效的异常检测模型是挑战性的。在这项工作中,我们提出了一种新的时序序列异常检测方法,称为神经系统识别和贝叶斯滤波(NSIBF),其中特制的神经网络架构被构成系统识别,即捕获动态状态空间中CP的动态模型;然后,通过跟踪系统的隐藏状态的不确定性随着时间的推移,自然地施加贝叶斯滤波算法的顶部。我们提供定性的和定量实验,并在合成和三个现实世界CPS数据集上具有所提出的方法,表明NSIBF对最先进的方法比较了对CPS中异常检测的最新方法。
translated by 谷歌翻译
异常检测涉及广泛的应用,如故障检测,系统监控和事件检测。识别从智能计量系统获得的计量数据的异常是提高电力系统的可靠性,稳定性和效率的关键任务。本文介绍了异常检测过程,以发现在智能计量系统中观察到的异常值。在所提出的方法中,使用双向长短期存储器(BILSTM)的AutoEncoder并找到异常数据点。它通过具有非异常数据的AutoEncoder计算重建错误,并且将分类为异常的异常值通过预定义的阈值与非异常数据分离。基于Bilstm AutoEncoder的异常检测方法用来自985户家庭收集的4种能源电力/水/加热/热水的计量数据进行测试。
translated by 谷歌翻译
Unsupervised anomaly detection in time-series has been extensively investigated in the literature. Notwithstanding the relevance of this topic in numerous application fields, a complete and extensive evaluation of recent state-of-the-art techniques is still missing. Few efforts have been made to compare existing unsupervised time-series anomaly detection methods rigorously. However, only standard performance metrics, namely precision, recall, and F1-score are usually considered. Essential aspects for assessing their practical relevance are therefore neglected. This paper proposes an original and in-depth evaluation study of recent unsupervised anomaly detection techniques in time-series. Instead of relying solely on standard performance metrics, additional yet informative metrics and protocols are taken into account. In particular, (1) more elaborate performance metrics specifically tailored for time-series are used; (2) the model size and the model stability are studied; (3) an analysis of the tested approaches with respect to the anomaly type is provided; and (4) a clear and unique protocol is followed for all experiments. Overall, this extensive analysis aims to assess the maturity of state-of-the-art time-series anomaly detection, give insights regarding their applicability under real-world setups and provide to the community a more complete evaluation protocol.
translated by 谷歌翻译
时间序列数据的积累和标签的不存在使时间序列异常检测(AD)是自我监督的深度学习任务。基于单拟合的方法只能触及整个正态性的某些方面,不足以检测各种异常。其中,AD采用的对比度学习方法总是选择正常的负面对,这是反对AD任务的目的。现有的基于多促进的方法通常是两阶段的,首先应用了训练过程,其目标可能与AD不同,因此性能受到预训练的表示的限制。本文提出了一种深层对比的单级异常检测方法(COCA),该方法结合了对比度学习和一级分类的正态性假设。关键思想是将表示和重建表示形式视为无阴性对比度学习的积极对,我们将其命名为序列对比。然后,我们应用了由不变性和方差项组成的对比度损失函数,前者同时优化了这两个假设的损失,后者则防止了超晶体崩溃。在四个现实世界中的时间序列数据集上进行的广泛实验表明,所提出的方法的卓越性能达到了最新。该代码可在https://github.com/ruiking04/coca上公开获得。
translated by 谷歌翻译
存在几种数据驱动方法,使我们的模型时间序列数据能够包括传统的基于回归的建模方法(即,Arima)。最近,在时间序列分析和预测的背景下介绍和探索了深度学习技术。询问的主要研究问题是在预测时间序列数据中的深度学习技术中的这些变化的性能。本文比较了两个突出的深度学习建模技术。比较了经常性的神经网络(RNN)长的短期记忆(LSTM)和卷积神经网络(CNN)基于基于TCN的时间卷积网络(TCN),并报告了它们的性能和训练时间。根据我们的实验结果,两个建模技术都表现了相当具有基于TCN的模型优于LSTM略微。此外,基于CNN的TCN模型比基于RNN的LSTM模型更快地构建了稳定的模型。
translated by 谷歌翻译
该行业许多领域的自动化越来越多地要求为检测异常事件设计有效的机器学习解决方案。随着传感器的普遍存在传感器监测几乎连续地区的复杂基础设施的健康,异常检测现在可以依赖于以非常高的频率进行采样的测量,从而提供了在监视下的现象的非常丰富的代表性。为了充分利用如此收集的信息,观察不能再被视为多变量数据,并且需要一个功能分析方法。本文的目的是探讨近期对实际数据集的功能设置中异常检测技术的性能。在概述最先进的和视觉描述性研究之后,比较各种异常检测方法。虽然功能设置中的异常分类(例如,形状,位置)在文献中记录,但为所识别的异常分配特定类型似乎是一个具有挑战性的任务。因此,鉴于模拟研究中的这些突出显示类型,现有方法的强度和弱点是基准测试。接下来在两个数据集上评估异常检测方法,与飞行中的直升机监测和建筑材料的光谱相同有关。基准分析由从业者的建议指导结束。
translated by 谷歌翻译
时间序列异常检测(TSAD)是一项重要的数据挖掘任务,在物联网时代,许多应用程序。近年来,已经提出了大量基于神经网络的方法,与传统方法相比,在解决各个领域中挑战的TSAD问题方面的性能要好得多。然而,这些深层TSAD方法通常依赖于没有被异常污染的干净训练数据集来学习基础动力学的“正常概况”。这项要求是不平凡的,因为实际上很难提供干净的数据集。此外,如果没有意识到其鲁棒性的意识,则盲目地应用具有潜在污染训练数据的深层TSAD方法可能会在检测阶段引起显着的性能降解。在这项工作中,为了应对这一重要挑战,我们首先使用受污染的培训数据研究常用的深层TSAD方法的鲁棒性,该方法在不保证无异常的训练数据时提供了应用这些方法的指南。此外,我们提出了一种模型不足的方法,该方法可以有效地改善具有潜在污染数据的主流深层TSAD模型的鲁棒性。实验结果表明,我们的方法可以始终防止或减轻广泛使用基准数据集上主流深层TSAD模型的性能下降。
translated by 谷歌翻译
Anomaly detection on time series data is increasingly common across various industrial domains that monitor metrics in order to prevent potential accidents and economic losses. However, a scarcity of labeled data and ambiguous definitions of anomalies can complicate these efforts. Recent unsupervised machine learning methods have made remarkable progress in tackling this problem using either single-timestamp predictions or time series reconstructions. While traditionally considered separately, these methods are not mutually exclusive and can offer complementary perspectives on anomaly detection. This paper first highlights the successes and limitations of prediction-based and reconstruction-based methods with visualized time series signals and anomaly scores. We then propose AER (Auto-encoder with Regression), a joint model that combines a vanilla auto-encoder and an LSTM regressor to incorporate the successes and address the limitations of each method. Our model can produce bi-directional predictions while simultaneously reconstructing the original time series by optimizing a joint objective function. Furthermore, we propose several ways of combining the prediction and reconstruction errors through a series of ablation studies. Finally, we compare the performance of the AER architecture against two prediction-based methods and three reconstruction-based methods on 12 well-known univariate time series datasets from NASA, Yahoo, Numenta, and UCR. The results show that AER has the highest averaged F1 score across all datasets (a 23.5% improvement compared to ARIMA) while retaining a runtime similar to its vanilla auto-encoder and regressor components. Our model is available in Orion, an open-source benchmarking tool for time series anomaly detection.
translated by 谷歌翻译
装有传感器,执行器和电子控制单元(ECU)的现代车辆可以分为几个称为功能工作组(FWGS)的操作子系统。这些FWG的示例包括发动机系统,变速箱,燃油系统,制动器等。每个FWG都有相关的传感器通道,可以衡量车辆操作条件。这种丰富的数据环境有利于预测维护(PDM)技术的开发。削弱各种PDM技术的是需要强大的异常检测模型,该模型可以识别出明显偏离大多数数据的事件或观察结果,并且不符合正常车辆操作行为的明确定义的概念。在本文中,我们介绍了车辆性能,可靠性和操作(VEPRO)数据集,并使用它来创建一种基于多阶段的异常检测方法。利用时间卷积网络(TCN),我们的异常检测系统可以达到96%的检测准确性,并准确预测91%的真实异常。当利用来自多个FWG的传感器通道时,我们的异常检测系统的性能会改善。
translated by 谷歌翻译
给定传感器读数随着时间的推移从电网上,我们如何在发生异常时准确地检测?实现这一目标的关键部分是使用电网传感器网络在电网上实时地在实时检测到自然故障或恶意的任何不寻常的事件。行业中现有的坏数据探测器缺乏鲁布布利地检测广泛类型的异常,特别是由于新兴网络攻击而造成的复杂性,因为它们一次在网格的单个测量快照上运行。新的ML方法更广泛适用,但通常不会考虑拓扑变化对传感器测量的影响,因此无法适应历史数据中的定期拓扑调整。因此,我们向DynWatch,基于域知识和拓扑知识算法用于使用动态网格上的传感器进行异常检测。我们的方法准确,优于实验中的现有方法20%以上(F-Measure);快速,在60K +分支机用中的每次传感器上平均运行小于1.7ms,使用笔记本电脑,并在图表的大小上线性缩放。
translated by 谷歌翻译
时间序列的异常提供了各个行业的关键方案的见解,从银行和航空航天到信息技术,安全和医学。但是,由于异常的定义,经常缺乏标签以及此类数据中存在的极为复杂的时间相关性,因此识别时间序列数据中的异常尤其具有挑战性。LSTM自动编码器是基于长期短期内存网络的异常检测的编码器传统方案,该方案学会重建时间序列行为,然后使用重建错误来识别异常。我们将Denoising Architecture作为对该LSTM编码模型模型的补充,并研究其对现实世界以及人为生成的数据集的影响。我们证明了所提出的体系结构既提高了准确性和训练速度,从而使LSTM自动编码器更有效地用于无监督的异常检测任务。
translated by 谷歌翻译
Semi-supervised anomaly detection is a common problem, as often the datasets containing anomalies are partially labeled. We propose a canonical framework: Semi-supervised Pseudo-labeler Anomaly Detection with Ensembling (SPADE) that isn't limited by the assumption that labeled and unlabeled data come from the same distribution. Indeed, the assumption is often violated in many applications - for example, the labeled data may contain only anomalies unlike unlabeled data, or unlabeled data may contain different types of anomalies, or labeled data may contain only 'easy-to-label' samples. SPADE utilizes an ensemble of one class classifiers as the pseudo-labeler to improve the robustness of pseudo-labeling with distribution mismatch. Partial matching is proposed to automatically select the critical hyper-parameters for pseudo-labeling without validation data, which is crucial with limited labeled data. SPADE shows state-of-the-art semi-supervised anomaly detection performance across a wide range of scenarios with distribution mismatch in both tabular and image domains. In some common real-world settings such as model facing new types of unlabeled anomalies, SPADE outperforms the state-of-the-art alternatives by 5% AUC in average.
translated by 谷歌翻译
在能源系统的数字化中,传感器和智能电表越来越多地用于监视生产,运行和需求。基于智能电表数据的异常检测对于在早期阶段识别潜在的风险和异常事件至关重要,这可以作为及时启动适当动作和改善管理的参考。但是,来自能源系统的智能电表数据通常缺乏标签,并且包含噪声和各种模式,而没有明显的周期性。同时,在不同的能量场景中对异常的模糊定义和高度复杂的时间相关性对异常检测构成了巨大的挑战。许多传统的无监督异常检测算法(例如基于群集或基于距离的模型)对噪声不强大,也不完全利用时间序列中的时间依赖性以及在多个变量(传感器)中的其他依赖关系。本文提出了一种基于带有注意机制的变异复发自动编码器的无监督异常检测方法。凭借来自智能电表的“肮脏”数据,我们的方法预示了缺失的值和全球异常,以在训练中缩小其贡献。本文与基于VAE的基线方法和其他四种无监督的学习方法进行了定量比较,证明了其有效性和优势。本文通过一项实际案例研究进一步验证了所提出的方法,该研究方法是检测工业加热厂的供水温度异常。
translated by 谷歌翻译
粒子加速器是复杂的设施,可产生大量的结构化数据,并具有明确的优化目标以及精确定义的控制要求。因此,它们自然适合数据驱动的研究方法。来自传感器和监视加速器形式的多元时间序列的数据。在加速器控制和诊断方面,快速的先发制人方法是高度首选的,数据驱动的时间序列预测方法的应用尤其有希望。这篇综述提出了时间序列预测问题,并总结了现有模型,并在各个科学领域的应用中进行了应用。引入了粒子加速器领域中的几次和将来的尝试。预测到粒子加速器的时间序列的应用显示出令人鼓舞的结果和更广泛使用的希望,现有的问题(例如数据一致性和兼容性)已开始解决。
translated by 谷歌翻译
现代工业设施在生产过程中生成大量的原始传感器数据。该数据用于监视和控制过程,可以分析以检测和预测过程异常。通常,数据必须由专家注释,以进一步用于预测建模。当今的大多数研究都集中在需要手动注释数据的无监督异常检测算法或监督方法上。这些研究通常是使用过程模拟器生成的狭窄事件类别的数据进行的,并且在公开可用的数据集上很少验证建议的算法。在本文中,我们提出了一种新型的方法,用于用于工业化学传感器数据的无监督故障检测和诊断。我们根据具有各种故障类型的田纳西州伊士曼进程的两个公开数据集证明了我们的模型性能。结果表明,我们的方法显着优于现有方法(固定FPR的+0.2-0.3 TPR),并在不使用专家注释的情况下检测大多数过程故障。此外,我们进行了实验,以证明我们的方法适用于未提前不知道故障类型数量的现实世界应用。
translated by 谷歌翻译