我们介绍了多变量时间序列中异常检测问题的新型,实际相关的变化:内在的异常检测。它出现在从DevOps到IoT的各种实践场景中,我们想认识到在周围环境影响下运行的系统的故障。固有的异常是时间序列之间的功能依赖性结构的变化,该时间序列代表代表所述环境中系统内部状态的环境和时间序列。我们将此问题形式化,为其提供了不足的公共和新的专用数据集,并提供了处理内在异常检测的方法。这些解决了无法区分系统状态的预期变化和意外情况的现有异常检测方法的缩写,即,偏离环境影响的系统的变化。我们最有前途的方法是完全无监督的,并结合了对抗性学习和时间序列表示学习,从而解决了标签稀疏性和主观性等问题,同时允许导航并改善臭名昭著的有问题的异常检测数据集。
translated by 谷歌翻译
Time series anomaly detection has applications in a wide range of research fields and applications, including manufacturing and healthcare. The presence of anomalies can indicate novel or unexpected events, such as production faults, system defects, or heart fluttering, and is therefore of particular interest. The large size and complex patterns of time series have led researchers to develop specialised deep learning models for detecting anomalous patterns. This survey focuses on providing structured and comprehensive state-of-the-art time series anomaly detection models through the use of deep learning. It providing a taxonomy based on the factors that divide anomaly detection models into different categories. Aside from describing the basic anomaly detection technique for each category, the advantages and limitations are also discussed. Furthermore, this study includes examples of deep anomaly detection in time series across various application domains in recent years. It finally summarises open issues in research and challenges faced while adopting deep anomaly detection models.
translated by 谷歌翻译
增加光伏(PV)工厂的部署需要在模态中自动检测故障PV模块,例如红外(IR)图像。最近,深入学习已经为此受欢迎。然而,相关的作品通常是来自相同分布的样本列车和测试数据忽略不同光伏工厂数据之间的域移位的存在。相反,我们将故障检测视为更现实无监督的域适应问题,我们在训练一个源PV工厂的标记数据并在另一个目标工厂进行预测。我们培训具有监督对比损失的Reset-34卷积神经网络,在其中我们采用K-Collect Exband Classifier来检测异常。我们的方法在接收器下实现令人满意的区域(Auroc),在九个源和目标数据集的九种组合中的达到73.3%至96.6%,其中8.5%的8.5%是异常的。在某些情况下,它甚至优于二进制交叉熵分类器。固定决策阈值,这导致79.4%和77.1%分别正确分类正常和异常图像。大多数错误分类的异常具有低严重程度,例如热二极管和小型热点。我们的方法对封锁率设置不敏感,汇聚快速并可靠地检测未知类型的异常,使其适合实践。可能的用途是自动PV工厂检测系统或通过过滤普通图像来简化IR数据集的手动标记。此外,我们的工作为使用无监督域适应的PV模块故障检测提供了更现实的观点,以开发具有有利的概括功能的更加性能的方法。
translated by 谷歌翻译
在能源系统的数字化中,传感器和智能电表越来越多地用于监视生产,运行和需求。基于智能电表数据的异常检测对于在早期阶段识别潜在的风险和异常事件至关重要,这可以作为及时启动适当动作和改善管理的参考。但是,来自能源系统的智能电表数据通常缺乏标签,并且包含噪声和各种模式,而没有明显的周期性。同时,在不同的能量场景中对异常的模糊定义和高度复杂的时间相关性对异常检测构成了巨大的挑战。许多传统的无监督异常检测算法(例如基于群集或基于距离的模型)对噪声不强大,也不完全利用时间序列中的时间依赖性以及在多个变量(传感器)中的其他依赖关系。本文提出了一种基于带有注意机制的变异复发自动编码器的无监督异常检测方法。凭借来自智能电表的“肮脏”数据,我们的方法预示了缺失的值和全球异常,以在训练中缩小其贡献。本文与基于VAE的基线方法和其他四种无监督的学习方法进行了定量比较,证明了其有效性和优势。本文通过一项实际案例研究进一步验证了所提出的方法,该研究方法是检测工业加热厂的供水温度异常。
translated by 谷歌翻译
时间序列数据的积累和标签的不存在使时间序列异常检测(AD)是自我监督的深度学习任务。基于单拟合的方法只能触及整个正态性的某些方面,不足以检测各种异常。其中,AD采用的对比度学习方法总是选择正常的负面对,这是反对AD任务的目的。现有的基于多促进的方法通常是两阶段的,首先应用了训练过程,其目标可能与AD不同,因此性能受到预训练的表示的限制。本文提出了一种深层对比的单级异常检测方法(COCA),该方法结合了对比度学习和一级分类的正态性假设。关键思想是将表示和重建表示形式视为无阴性对比度学习的积极对,我们将其命名为序列对比。然后,我们应用了由不变性和方差项组成的对比度损失函数,前者同时优化了这两个假设的损失,后者则防止了超晶体崩溃。在四个现实世界中的时间序列数据集上进行的广泛实验表明,所提出的方法的卓越性能达到了最新。该代码可在https://github.com/ruiking04/coca上公开获得。
translated by 谷歌翻译
异常检测方法努力以语义方式发现与规范不同的模式。这个目标是模棱两可的,因为数据点与规范不同的属性不同,例如年龄,种族或性别,可能被某些操作员认为是异常的,而其他操作员可能认为这种属性无关紧要。从先前的研究中断,我们提出了一种新的异常检测方法,该方法使操作员可以将属性排除在被认为与异常检测相关的情况下。然后,我们的方法学习了不包含有关滋扰属性的信息的表示形式。使用基于密度的方法进行异常评分。重要的是,我们的方法不需要指定与检测异常相关的属性,这在异常检测中通常是不可能的,而是只能忽略的属性。提出了一项实证研究,以验证我们方法的有效性。
translated by 谷歌翻译
异常检测旨在识别数据点,这些数据点显示了未标记数据集中大多数数据的系统偏差。一个普遍的假设是,可以使用干净的培训数据(没有异常),这在实践中通常会违反。我们提出了一种在存在与广泛模型兼容的未标记异常的情况下训练异常检测器的策略。这个想法是在更新模型参数时将二进制标签共同推断为每个基准(正常与异常)。受到异常暴露的启发(Hendrycks等人,2018年),该暴露考虑合成创建,标记为异常,我们因此使用了两个共享参数的损失的组合:一个用于正常参数,一个用于异常数据。然后,我们对参数和最可能(潜在)标签进行块坐标更新。我们在三个图像数据集,30个表格数据集和视频异常检测基准上使用几个主链模型进行了实验,对基线显示了一致且显着的改进。
translated by 谷歌翻译
Aiot技术的最新进展导致利用机器学习算法来检测网络物理系统(CPS)的操作失败的越来越受欢迎。在其基本形式中,异常检测模块从物理工厂监控传感器测量和致动器状态,并检测这些测量中的异常以识别异常操作状态。然而,由于该模型必须在存在高度复杂的系统动态和未知量的传感器噪声的情况下准确地检测异常,构建有效的异常检测模型是挑战性的。在这项工作中,我们提出了一种新的时序序列异常检测方法,称为神经系统识别和贝叶斯滤波(NSIBF),其中特制的神经网络架构被构成系统识别,即捕获动态状态空间中CP的动态模型;然后,通过跟踪系统的隐藏状态的不确定性随着时间的推移,自然地施加贝叶斯滤波算法的顶部。我们提供定性的和定量实验,并在合成和三个现实世界CPS数据集上具有所提出的方法,表明NSIBF对最先进的方法比较了对CPS中异常检测的最新方法。
translated by 谷歌翻译
在智能交通系统中,交通拥堵异常检测至关重要。运输机构的目标有两个方面:监视感兴趣领域的一般交通状况,并在异常拥堵状态下定位道路细分市场。建模拥塞模式可以实现这些目标,以实现全市道路的目标,相当于学习多元时间序列(MTS)的分布。但是,现有作品要么不可伸缩,要么无法同时捕获MTS中的空间信息。为此,我们提出了一个由数据驱动的生成方法组成的原则性和全面的框架,该方法可以执行可拖动的密度估计来检测流量异常。我们的方法在特征空间中的第一群段段,然后使用条件归一化流以在无监督的设置下在群集级别识别异常的时间快照。然后,我们通过在异常群集上使用内核密度估计器来识别段级别的异常。关于合成数据集的广泛实验表明,我们的方法在召回和F1得分方面显着优于几种最新的拥塞异常检测和诊断方法。我们还使用生成模型来采样标记的数据,该数据可以在有监督的环境中训练分类器,从而减轻缺乏在稀疏设置中进行异常检测的标记数据。
translated by 谷歌翻译
对于由硬件和软件组件组成的复杂分布式系统而言,异常检测是一个重要的问题。对此类系统的异常检测的要求和挑战的透彻理解对于系统的安全性至关重要,尤其是对于现实世界的部署。尽管有许多解决问题的研究领域和应用领域,但很少有人试图对这种系统进行深入研究。大多数异常检测技术是针对某些应用域的专门开发的,而其他检测技术则更为通用。在这项调查中,我们探讨了基于图的算法在复杂分布式异质系统中识别和减轻不同类型异常的重要潜力。我们的主要重点是在分布在复杂分布式系统上的异质计算设备上应用时,可深入了解图。这项研究分析,比较和对比该领域的最新研究文章。首先,我们描述了现实世界分布式系统的特征及其在复杂网络中的异常检测的特定挑战,例如数据和评估,异常的性质以及现实世界的要求。稍后,我们讨论了为什么可以在此类系统中利用图形以及使用图的好处。然后,我们将恰当地深入研究最先进的方法,并突出它们的优势和劣势。最后,我们评估和比较这些方法,并指出可能改进的领域。
translated by 谷歌翻译
鉴于在现实世界应用中缺乏异常情况,大多数文献一直集中在建模正态上。学到的表示形式可以将异常检测作为正态性模型进行训练,以捕获正常情况下的某些密钥数据规律性。在实际环境中,尤其是工业时间序列异常检测中,我们经常遇到有大量正常操作数据以及随时间收集的少量异常事件的情况。这种实际情况要求方法学来利用这些少量的异常事件来创建更好的异常检测器。在本文中,我们介绍了两种方法来满足这种实际情况的需求,并将其与最近开发的最新技术进行了比较。我们提出的方法锚定在具有自回归(AR)模型的正常运行的代表性学习以及损失组件上,以鼓励表示正常与几个积极示例的表示形式。我们将提出的方法应用于两个工业异常检测数据集,并与文献相比表现出有效的性能。我们的研究还指出了在实际应用中采用此类方法的其他挑战。
translated by 谷歌翻译
多元时间序列中的异常检测在监视各种现实世界系统(例如IT系统运营或制造业)的行为方面起着重要作用。先前的方法对关节分布进行建模,而无需考虑多元时间序列的潜在机制,使它们变得复杂且饥饿。在本文中,我们从因果的角度提出异常检测问题,并将异常视为未遵循常规因果机制来生成多元数据的情况。然后,我们提出了一种基于因果关系的异常检测方法,该方法首先从数据中学习因果结构,然后渗透实例是否是相对于局部因果机制的异常,以从其直接原因产生每个变量,其条件分布可以直接估计从数据。鉴于因果系统的模块化特性,原始问题被分为一系列单独的低维异常检测问题,因此可以直接识别出异常的地方。我们通过模拟和公共数据集以及有关现实世界中AIOPS应用程序的案例研究评估我们的方法,显示其功效,鲁棒性和实际可行性。
translated by 谷歌翻译
机器学习模型通常会遇到与训练分布不同的样本。无法识别分布(OOD)样本,因此将该样本分配给课堂标签会显着损害模​​型的可靠性。由于其对在开放世界中的安全部署模型的重要性,该问题引起了重大关注。由于对所有可能的未知分布进行建模的棘手性,检测OOD样品是具有挑战性的。迄今为止,一些研究领域解决了检测陌生样本的问题,包括异常检测,新颖性检测,一级学习,开放式识别识别和分布外检测。尽管有相似和共同的概念,但分别分布,开放式检测和异常检测已被独立研究。因此,这些研究途径尚未交叉授粉,创造了研究障碍。尽管某些调查打算概述这些方法,但它们似乎仅关注特定领域,而无需检查不同领域之间的关系。这项调查旨在在确定其共同点的同时,对各个领域的众多著名作品进行跨域和全面的审查。研究人员可以从不同领域的研究进展概述中受益,并协同发展未来的方法。此外,据我们所知,虽然进行异常检测或单级学习进行了调查,但没有关于分布外检测的全面或最新的调查,我们的调查可广泛涵盖。最后,有了统一的跨域视角,我们讨论并阐明了未来的研究线,打算将这些领域更加紧密地融为一体。
translated by 谷歌翻译
长序列中的子序列异常检测是在广泛域中应用的重要问题。但是,迄今为止文献中提出的方法具有严重的局限性:它们要么需要用于设计异常发现算法的先前领域知识,要么在与相同类型的复发异常情况下使用繁琐且昂贵。在这项工作中,我们解决了这些问题,并提出了一种适用于域的不可知论次序列异常检测的方法。我们的方法series2graph基于新型低维嵌入子序列的图表。 Series2Graph不需要标记的实例(例如监督技术)也不需要无异常的数据(例如零阳性学习技术),也不需要识别长度不同的异常。在迄今为止使用的最大合成和真实数据集的实验结果表明,所提出的方法正确地识别了单一和复发异常,而无需任何先验的特征,以优于多种差距的准确性,同时提高了几种竞争的方法,同时又表现出色更快的数量级。本文出现在VLDB 2020中。
translated by 谷歌翻译
Semi-supervised anomaly detection is a common problem, as often the datasets containing anomalies are partially labeled. We propose a canonical framework: Semi-supervised Pseudo-labeler Anomaly Detection with Ensembling (SPADE) that isn't limited by the assumption that labeled and unlabeled data come from the same distribution. Indeed, the assumption is often violated in many applications - for example, the labeled data may contain only anomalies unlike unlabeled data, or unlabeled data may contain different types of anomalies, or labeled data may contain only 'easy-to-label' samples. SPADE utilizes an ensemble of one class classifiers as the pseudo-labeler to improve the robustness of pseudo-labeling with distribution mismatch. Partial matching is proposed to automatically select the critical hyper-parameters for pseudo-labeling without validation data, which is crucial with limited labeled data. SPADE shows state-of-the-art semi-supervised anomaly detection performance across a wide range of scenarios with distribution mismatch in both tabular and image domains. In some common real-world settings such as model facing new types of unlabeled anomalies, SPADE outperforms the state-of-the-art alternatives by 5% AUC in average.
translated by 谷歌翻译
A new Lossy Causal Temporal Convolutional Neural Network Autoencoder for anomaly detection is proposed in this work. Our framework uses a rate-distortion loss and an entropy bottleneck to learn a compressed latent representation for the task. The main idea of using a rate-distortion loss is to introduce representation flexibility that ignores or becomes robust to unlikely events with distinctive patterns, such as anomalies. These anomalies manifest as unique distortion features that can be accurately detected in testing conditions. This new architecture allows us to train a fully unsupervised model that has high accuracy in detecting anomalies from a distortion score despite being trained with some portion of unlabelled anomalous data. This setting is in stark contrast to many of the state-of-the-art unsupervised methodologies that require the model to be only trained on "normal data". We argue that this partially violates the concept of unsupervised training for anomaly detection as the model uses an informed decision that selects what is normal from abnormal for training. Additionally, there is evidence to suggest it also effects the models ability at generalisation. We demonstrate that models that succeed in the paradigm where they are only trained on normal data fail to be robust when anomalous data is injected into the training. In contrast, our compression-based approach converges to a robust representation that tolerates some anomalous distortion. The robust representation achieved by a model using a rate-distortion loss can be used in a more realistic unsupervised anomaly detection scheme.
translated by 谷歌翻译
异常检测旨在识别正常数据分布的偏差样本。对比学习提供了一种成功的样本表示方式,可以有效地歧视异常。但是,当在半监督环境下设置的训练中被未标记的异常样本污染时,当前基于对比的方法通常1)忽略训练数据之间的全面关系,导致次优的性能,2)需要微调,导致低效率的低效率。为了解决上述两个问题,在本文中,我们提出了一种新型的分层半监督对比学习(HSCL)框架,以抗污染异常检测。具体而言,HSCL分层调节了三个互补关系:样本到样本,样本到原型型和正常关系,通过对受污染数据的全面探索,扩大了正常样本和异常样本之间的歧视。此外,HSCL是一种端到端的学习方法,可以在不进行微调的情况下有效地学习判别性表示。 HSCL在多种方案中实现了最先进的性能,例如单级分类和跨数据库检测。广泛的消融研究进一步验证了每个考虑的关系的有效性。该代码可在https://github.com/gaoangw/hscl上找到。
translated by 谷歌翻译
与行业4.0的发展相一致,越来越多的关注被表面缺陷检测领域所吸引。提高效率并节省劳动力成本已稳步成为行业领域引起人们关注的问题,近年来,基于深度学习的算法比传统的视力检查方法更好。尽管现有的基于深度学习的算法偏向于监督学习,但这不仅需要大量标记的数据和大量的劳动力,而且还效率低下,并且有一定的局限性。相比之下,最近的研究表明,无监督的学习在解决视觉工业异常检测的高于缺点方面具有巨大的潜力。在这项调查中,我们总结了当前的挑战,并详细概述了最近提出的针对视觉工业异常检测的无监督算法,涵盖了五个类别,其创新点和框架详细描述了。同时,提供了包含表面图像样本的公开可用数据集的信息。通过比较不同类别的方法,总结了异常检测算法的优点和缺点。预计将协助研究社区和行业发展更广泛,更跨域的观点。
translated by 谷歌翻译
无监督的时间序列异常检测对各种域中目标系统的潜在故障有助于。当前的最新时间序列异常检测器主要集中于设计高级神经网络结构和新的重建/预测学习目标,以尽可能准确地学习数据正常(正常模式和行为)。但是,这些单级学习方法可以被训练数据中未知异常(即异常污染)所欺骗。此外,他们的正常学习也缺乏对感兴趣异常的知识。因此,他们经常学习一个有偏见的,不准确的正态边界。本文提出了一种新型的单级学习方法,称为校准的一级分类,以解决此问题。我们的单级分类器以两种方式进行校准:(1)通过适应性地惩罚不确定的预测,这有助于消除异常污染的影响,同时强调单级模型对一级模型有信心的预测,并通过区分正常情况来确定(2)来自本机异常示例的样本,这些样本是根据原始数据基于原始数据模拟真实时间序列异常行为的。这两个校准导致耐污染的,异常的单级学习,从而产生了显着改善的正态性建模。对六个现实世界数据集进行的广泛实验表明,我们的模型大大优于12个最先进的竞争对手,并获得了6%-31%的F1分数提高。源代码可在\ url {https://github.com/xuhongzuo/couta}中获得。
translated by 谷歌翻译
考虑到过去几十年中开发的一长串异常检测算法,它们如何在(i)(i)不同级别的监督,(ii)不同类型的异常以及(iii)嘈杂和损坏的数据方面执行?在这项工作中,我们通过(据我们所知)在55个名为Adbench的55个基准数据集中使用30个算法来回答这些关键问题。我们的广泛实验(总共93,654)确定了对监督和异常类型的作用的有意义的见解,并解锁了研究人员在算法选择和设计中的未来方向。借助Adbench,研究人员可以轻松地对数据集(包括我们从自然语言和计算机视觉域的贡献)对现有基线的新提出的方法进行全面和公平的评估。为了促进可访问性和可重复性,我们完全开源的Adbench和相应的结果。
translated by 谷歌翻译