时间序列异常检测(TSAD)是一项重要的数据挖掘任务,在物联网时代,许多应用程序。近年来,已经提出了大量基于神经网络的方法,与传统方法相比,在解决各个领域中挑战的TSAD问题方面的性能要好得多。然而,这些深层TSAD方法通常依赖于没有被异常污染的干净训练数据集来学习基础动力学的“正常概况”。这项要求是不平凡的,因为实际上很难提供干净的数据集。此外,如果没有意识到其鲁棒性的意识,则盲目地应用具有潜在污染训练数据的深层TSAD方法可能会在检测阶段引起显着的性能降解。在这项工作中,为了应对这一重要挑战,我们首先使用受污染的培训数据研究常用的深层TSAD方法的鲁棒性,该方法在不保证无异常的训练数据时提供了应用这些方法的指南。此外,我们提出了一种模型不足的方法,该方法可以有效地改善具有潜在污染数据的主流深层TSAD模型的鲁棒性。实验结果表明,我们的方法可以始终防止或减轻广泛使用基准数据集上主流深层TSAD模型的性能下降。
translated by 谷歌翻译
Aiot技术的最新进展导致利用机器学习算法来检测网络物理系统(CPS)的操作失败的越来越受欢迎。在其基本形式中,异常检测模块从物理工厂监控传感器测量和致动器状态,并检测这些测量中的异常以识别异常操作状态。然而,由于该模型必须在存在高度复杂的系统动态和未知量的传感器噪声的情况下准确地检测异常,构建有效的异常检测模型是挑战性的。在这项工作中,我们提出了一种新的时序序列异常检测方法,称为神经系统识别和贝叶斯滤波(NSIBF),其中特制的神经网络架构被构成系统识别,即捕获动态状态空间中CP的动态模型;然后,通过跟踪系统的隐藏状态的不确定性随着时间的推移,自然地施加贝叶斯滤波算法的顶部。我们提供定性的和定量实验,并在合成和三个现实世界CPS数据集上具有所提出的方法,表明NSIBF对最先进的方法比较了对CPS中异常检测的最新方法。
translated by 谷歌翻译
鉴于在现实世界应用中缺乏异常情况,大多数文献一直集中在建模正态上。学到的表示形式可以将异常检测作为正态性模型进行训练,以捕获正常情况下的某些密钥数据规律性。在实际环境中,尤其是工业时间序列异常检测中,我们经常遇到有大量正常操作数据以及随时间收集的少量异常事件的情况。这种实际情况要求方法学来利用这些少量的异常事件来创建更好的异常检测器。在本文中,我们介绍了两种方法来满足这种实际情况的需求,并将其与最近开发的最新技术进行了比较。我们提出的方法锚定在具有自回归(AR)模型的正常运行的代表性学习以及损失组件上,以鼓励表示正常与几个积极示例的表示形式。我们将提出的方法应用于两个工业异常检测数据集,并与文献相比表现出有效的性能。我们的研究还指出了在实际应用中采用此类方法的其他挑战。
translated by 谷歌翻译
无监督的时间序列异常检测对各种域中目标系统的潜在故障有助于。当前的最新时间序列异常检测器主要集中于设计高级神经网络结构和新的重建/预测学习目标,以尽可能准确地学习数据正常(正常模式和行为)。但是,这些单级学习方法可以被训练数据中未知异常(即异常污染)所欺骗。此外,他们的正常学习也缺乏对感兴趣异常的知识。因此,他们经常学习一个有偏见的,不准确的正态边界。本文提出了一种新型的单级学习方法,称为校准的一级分类,以解决此问题。我们的单级分类器以两种方式进行校准:(1)通过适应性地惩罚不确定的预测,这有助于消除异常污染的影响,同时强调单级模型对一级模型有信心的预测,并通过区分正常情况来确定(2)来自本机异常示例的样本,这些样本是根据原始数据基于原始数据模拟真实时间序列异常行为的。这两个校准导致耐污染的,异常的单级学习,从而产生了显着改善的正态性建模。对六个现实世界数据集进行的广泛实验表明,我们的模型大大优于12个最先进的竞争对手,并获得了6%-31%的F1分数提高。源代码可在\ url {https://github.com/xuhongzuo/couta}中获得。
translated by 谷歌翻译
近年来,提出了关于时间序列异常检测(TAD)的研究报告基准TAD数据集中的高F1分数,给出了TAD的清晰改进的印象。然而,大多数研究在评分之前应用了一个名为Point调整(PA)的特殊评估协议。在本文中,我们理论上实验揭示了PA协议具有高估检测性能的可能性;也就是说,即使是随机异常的分数也可以容易地变成最先进的TAD方法。因此,应用PA协议后的TAD方法的比较可能导致误导排名。此外,我们通过表示未经训练的模型对现有方法获得了可比的检测性能,即使禁止禁止,我们会解决现有TAD方法的潜力。根据我们的调查结果,我们提出了一种新的基线和评估议定书。我们预计我们的研究将有助于对TAD严格评估,并导致未来的研究进一步改善。
translated by 谷歌翻译
时间序列的异常提供了各个行业的关键方案的见解,从银行和航空航天到信息技术,安全和医学。但是,由于异常的定义,经常缺乏标签以及此类数据中存在的极为复杂的时间相关性,因此识别时间序列数据中的异常尤其具有挑战性。LSTM自动编码器是基于长期短期内存网络的异常检测的编码器传统方案,该方案学会重建时间序列行为,然后使用重建错误来识别异常。我们将Denoising Architecture作为对该LSTM编码模型模型的补充,并研究其对现实世界以及人为生成的数据集的影响。我们证明了所提出的体系结构既提高了准确性和训练速度,从而使LSTM自动编码器更有效地用于无监督的异常检测任务。
translated by 谷歌翻译
异常检测旨在识别数据点,这些数据点显示了未标记数据集中大多数数据的系统偏差。一个普遍的假设是,可以使用干净的培训数据(没有异常),这在实践中通常会违反。我们提出了一种在存在与广泛模型兼容的未标记异常的情况下训练异常检测器的策略。这个想法是在更新模型参数时将二进制标签共同推断为每个基准(正常与异常)。受到异常暴露的启发(Hendrycks等人,2018年),该暴露考虑合成创建,标记为异常,我们因此使用了两个共享参数的损失的组合:一个用于正常参数,一个用于异常数据。然后,我们对参数和最可能(潜在)标签进行块坐标更新。我们在三个图像数据集,30个表格数据集和视频异常检测基准上使用几个主链模型进行了实验,对基线显示了一致且显着的改进。
translated by 谷歌翻译
存在几种数据驱动方法,使我们的模型时间序列数据能够包括传统的基于回归的建模方法(即,Arima)。最近,在时间序列分析和预测的背景下介绍和探索了深度学习技术。询问的主要研究问题是在预测时间序列数据中的深度学习技术中的这些变化的性能。本文比较了两个突出的深度学习建模技术。比较了经常性的神经网络(RNN)长的短期记忆(LSTM)和卷积神经网络(CNN)基于基于TCN的时间卷积网络(TCN),并报告了它们的性能和训练时间。根据我们的实验结果,两个建模技术都表现了相当具有基于TCN的模型优于LSTM略微。此外,基于CNN的TCN模型比基于RNN的LSTM模型更快地构建了稳定的模型。
translated by 谷歌翻译
无监督的异常检测旨在通过在正常数据上训练来建立模型以有效地检测看不见的异常。尽管以前的基于重建的方法取得了富有成效的进展,但由于两个危急挑战,他们的泛化能力受到限制。首先,训练数据集仅包含正常模式,这限制了模型泛化能力。其次,现有模型学到的特征表示通常缺乏代表性,妨碍了保持正常模式的多样性的能力。在本文中,我们提出了一种称为自适应存储器网络的新方法,具有自我监督的学习(AMSL)来解决这些挑战,并提高无监督异常检测中的泛化能力。基于卷积的AutoEncoder结构,AMSL包含一个自我监督的学习模块,以学习一般正常模式和自适应内存融合模块来学习丰富的特征表示。四个公共多变量时间序列数据集的实验表明,与其他最先进的方法相比,AMSL显着提高了性能。具体而言,在具有9亿个样本的最大帽睡眠阶段检测数据集上,AMSL以精度和F1分数\ TextBF {4} \%+优于第二个最佳基线。除了增强的泛化能力之外,AMSL还针对输入噪声更加强大。
translated by 谷歌翻译
时间序列的无监督检测是一个具有挑战性的问题,它要求该模型得出可区分的标准。以前的方法主要通过学习点表示或成对关联来解决问题,但是,这两个方法都不足以推理复杂的动态。最近,变形金刚在统​​一的指示和成对关联的统一建模中表现出了强大的力量,我们发现每个时间点的自我发项重量分布都可以与整个系列体现丰富的关联。我们的主要观察结果是,由于异常的罕见性,很难建立从异常点到整个系列的非平凡关联,因此,异常关联应主要集中在其相邻的时间点上。这种相邻的浓度偏见意味着基于关联的标准在正常点和异常点之间可固有地区分,我们通过\ emph {关联差异}突出显示。从技术上讲,我们使用新的\ emph {Anomaly-Interveention}机制提出\ emph {Anomaly Transformer}来计算关联差异。设计了一种最小值策略来扩大关联差异的正常明显区分性。异常变压器在六个无监督的时间序列检测基准三个应用的基准中实现了最先进的结果:服务监测,空间和地球勘探和水处理。
translated by 谷歌翻译
异常检测(AD),将异常与正常数据分开,从安全性到医疗保健都有许多范围内的应用程序。尽管大多数以前的作品都被证明对具有完全或部分标记数据的案例有效,但由于标记对此任务特别乏味,因此设置在实践中较不常见。在本文中,我们专注于完全无监督的AD,其中包含正常样本和异常样本的整个培训数据集未标记。为了有效地解决这个问题,我们建议通过使用数据改进过程来提高接受自我监督表示的一类分类的鲁棒性。我们提出的数据完善方法基于单级分类器(OCCS)的集合,每个分类器均经过培训的训练数据子集。随着数据改进的改进,通过自我监督学习学到的表示的表示。我们在具有图像和表格数据的各种无监督的AD任务上演示了我们的方法。 CIFAR-10图像数据的异常比率为10% /甲状腺表格数据的2.5%异常比率,该方法的表现优于最先进的单级分类器,高于6.3 AUC和12.5平均精度 / 22.9 F1评分。 。
translated by 谷歌翻译
多元时间序列异常检测已在半监督的设置下进行了广泛的研究,其中需要所有具有正常实例的训练数据集。但是,准备这样的数据集非常费力,因为每个数据实例应完全保证是正常的。因此,希望在没有任何标签知识的情况下基于数据集探索基于数据集的多元时间序列异常检测方法。在本文中,我们提出了MTGFLOF,这是通过动态图和实体意识到的归一化流量进行多变量时间序列异常检测的无监督异常检测方法,仅依靠广泛接受的假设,即异常实例比正常情况表现出稀疏的密度。但是,实体之间的复杂相互依赖性和每个实体的不同固有特征对密度估计提出了重大挑战,更不用说基于估计的可能性分布来检测异常。为了解决这些问题,我们建议通过图结构学习模型来学习实体之间的相互关系,这有助于建模多元时间序列的准确分布。此外,考虑到各个实体的独特特征,开发了实体意识到的归一化流,以将每个实体描述为参数化的正态分布,从而产生细粒密度估计。结合了这两种策略,MTGFlowChieves出色的异常检测性能。进行了现实世界数据集的实验,表明MTGFLOW的表现分别超过了最先进的(SOTA),分别对SWAT和WADI数据集的实验分别高出5.0%和1.6%的AUROC。同样,通过单个实体贡献的异常得分,MTGFLOF可以为检测结果提供解释信息。
translated by 谷歌翻译
Time series anomaly detection has applications in a wide range of research fields and applications, including manufacturing and healthcare. The presence of anomalies can indicate novel or unexpected events, such as production faults, system defects, or heart fluttering, and is therefore of particular interest. The large size and complex patterns of time series have led researchers to develop specialised deep learning models for detecting anomalous patterns. This survey focuses on providing structured and comprehensive state-of-the-art time series anomaly detection models through the use of deep learning. It providing a taxonomy based on the factors that divide anomaly detection models into different categories. Aside from describing the basic anomaly detection technique for each category, the advantages and limitations are also discussed. Furthermore, this study includes examples of deep anomaly detection in time series across various application domains in recent years. It finally summarises open issues in research and challenges faced while adopting deep anomaly detection models.
translated by 谷歌翻译
Unsupervised anomaly detection in time-series has been extensively investigated in the literature. Notwithstanding the relevance of this topic in numerous application fields, a complete and extensive evaluation of recent state-of-the-art techniques is still missing. Few efforts have been made to compare existing unsupervised time-series anomaly detection methods rigorously. However, only standard performance metrics, namely precision, recall, and F1-score are usually considered. Essential aspects for assessing their practical relevance are therefore neglected. This paper proposes an original and in-depth evaluation study of recent unsupervised anomaly detection techniques in time-series. Instead of relying solely on standard performance metrics, additional yet informative metrics and protocols are taken into account. In particular, (1) more elaborate performance metrics specifically tailored for time-series are used; (2) the model size and the model stability are studied; (3) an analysis of the tested approaches with respect to the anomaly type is provided; and (4) a clear and unique protocol is followed for all experiments. Overall, this extensive analysis aims to assess the maturity of state-of-the-art time-series anomaly detection, give insights regarding their applicability under real-world setups and provide to the community a more complete evaluation protocol.
translated by 谷歌翻译
在能源系统的数字化中,传感器和智能电表越来越多地用于监视生产,运行和需求。基于智能电表数据的异常检测对于在早期阶段识别潜在的风险和异常事件至关重要,这可以作为及时启动适当动作和改善管理的参考。但是,来自能源系统的智能电表数据通常缺乏标签,并且包含噪声和各种模式,而没有明显的周期性。同时,在不同的能量场景中对异常的模糊定义和高度复杂的时间相关性对异常检测构成了巨大的挑战。许多传统的无监督异常检测算法(例如基于群集或基于距离的模型)对噪声不强大,也不完全利用时间序列中的时间依赖性以及在多个变量(传感器)中的其他依赖关系。本文提出了一种基于带有注意机制的变异复发自动编码器的无监督异常检测方法。凭借来自智能电表的“肮脏”数据,我们的方法预示了缺失的值和全球异常,以在训练中缩小其贡献。本文与基于VAE的基线方法和其他四种无监督的学习方法进行了定量比较,证明了其有效性和优势。本文通过一项实际案例研究进一步验证了所提出的方法,该研究方法是检测工业加热厂的供水温度异常。
translated by 谷歌翻译
多元时间序列的异常检测对于系统行为监测有意义。本文提出了一种基于无监督的短期和长期面具表示学习(SLMR)的异常检测方法。主要思想是分别使用多尺度的残余卷积和门控复发单元(GRU)提取多元时间序列的短期局部依赖模式和长期全球趋势模式。此外,我们的方法可以通过结合时空掩盖的自我监督表示和序列分裂来理解时间上下文和特征相关性。它认为功能的重要性是不同的,我们介绍了注意机制以调整每个功能的贡献。最后,将基于预测的模型和基于重建的模型集成在一起,以关注单时间戳预测和时间序列的潜在表示。实验表明,我们方法的性能优于三个现实世界数据集上的其他最先进的模型。进一步的分析表明,我们的方法擅长可解释性。
translated by 谷歌翻译
现代高性能计算(HPC)系统的复杂性日益增加,需要引入自动化和数据驱动的方法,以支持系统管理员为增加系统可用性的努力。异常检测是改善可用性不可或缺的一部分,因为它减轻了系统管理员的负担,并减少了异常和解决方案之间的时间。但是,对当前的最新检测方法进行了监督和半监督,因此它们需要具有异常的人体标签数据集 - 在生产HPC系统中收集通常是不切实际的。基于聚类的无监督异常检测方法,旨在减轻准确的异常数据的需求,到目前为止的性能差。在这项工作中,我们通过提出RUAD来克服这些局限性,RUAD是一种新型的无监督异常检测模型。 Ruad比当前的半监督和无监督的SOA方法取得了更好的结果。这是通过考虑数据中的时间依赖性以及在模型体系结构中包括长短期限内存单元的实现。提出的方法是根据tier-0系统(带有980个节点的Cineca的Marconi100的完整历史)评估的。 RUAD在半监督训练中达到曲线(AUC)下的区域(AUC)为0.763,在无监督的训练中达到了0.767的AUC,这改进了SOA方法,在半监督训练中达到0.747的AUC,无需训练的AUC和0.734的AUC在无处不在的AUC中提高了AUC。训练。它还大大优于基于聚类的当前SOA无监督的异常检测方法,其AUC为0.548。
translated by 谷歌翻译
多元时间序列中的异常检测在监视各种现实世界系统(例如IT系统运营或制造业)的行为方面起着重要作用。先前的方法对关节分布进行建模,而无需考虑多元时间序列的潜在机制,使它们变得复杂且饥饿。在本文中,我们从因果的角度提出异常检测问题,并将异常视为未遵循常规因果机制来生成多元数据的情况。然后,我们提出了一种基于因果关系的异常检测方法,该方法首先从数据中学习因果结构,然后渗透实例是否是相对于局部因果机制的异常,以从其直接原因产生每个变量,其条件分布可以直接估计从数据。鉴于因果系统的模块化特性,原始问题被分为一系列单独的低维异常检测问题,因此可以直接识别出异常的地方。我们通过模拟和公共数据集以及有关现实世界中AIOPS应用程序的案例研究评估我们的方法,显示其功效,鲁棒性和实际可行性。
translated by 谷歌翻译
在智能交通系统中,交通拥堵异常检测至关重要。运输机构的目标有两个方面:监视感兴趣领域的一般交通状况,并在异常拥堵状态下定位道路细分市场。建模拥塞模式可以实现这些目标,以实现全市道路的目标,相当于学习多元时间序列(MTS)的分布。但是,现有作品要么不可伸缩,要么无法同时捕获MTS中的空间信息。为此,我们提出了一个由数据驱动的生成方法组成的原则性和全面的框架,该方法可以执行可拖动的密度估计来检测流量异常。我们的方法在特征空间中的第一群段段,然后使用条件归一化流以在无监督的设置下在群集级别识别异常的时间快照。然后,我们通过在异常群集上使用内核密度估计器来识别段级别的异常。关于合成数据集的广泛实验表明,我们的方法在召回和F1得分方面显着优于几种最新的拥塞异常检测和诊断方法。我们还使用生成模型来采样标记的数据,该数据可以在有监督的环境中训练分类器,从而减轻缺乏在稀疏设置中进行异常检测的标记数据。
translated by 谷歌翻译
A new Lossy Causal Temporal Convolutional Neural Network Autoencoder for anomaly detection is proposed in this work. Our framework uses a rate-distortion loss and an entropy bottleneck to learn a compressed latent representation for the task. The main idea of using a rate-distortion loss is to introduce representation flexibility that ignores or becomes robust to unlikely events with distinctive patterns, such as anomalies. These anomalies manifest as unique distortion features that can be accurately detected in testing conditions. This new architecture allows us to train a fully unsupervised model that has high accuracy in detecting anomalies from a distortion score despite being trained with some portion of unlabelled anomalous data. This setting is in stark contrast to many of the state-of-the-art unsupervised methodologies that require the model to be only trained on "normal data". We argue that this partially violates the concept of unsupervised training for anomaly detection as the model uses an informed decision that selects what is normal from abnormal for training. Additionally, there is evidence to suggest it also effects the models ability at generalisation. We demonstrate that models that succeed in the paradigm where they are only trained on normal data fail to be robust when anomalous data is injected into the training. In contrast, our compression-based approach converges to a robust representation that tolerates some anomalous distortion. The robust representation achieved by a model using a rate-distortion loss can be used in a more realistic unsupervised anomaly detection scheme.
translated by 谷歌翻译