事件日志被广泛用于复杂系统中的异常检测和预测。现有的基于日志的异常检测方法通常包括四个主要步骤:日志收集,日志解析,特征提取和异常检测,其中特征提取步骤提取有用的功能,可通过计数日志事件来进行异常检测。对于一个复杂的系统,例如由大量子系统组成的光刻机器,其日志可能包含数千个不同的事件,从而导致富含提取的功能。但是,当在子系统级别进行异常检测时,分析所有功能变得昂贵且不必要。为了减轻此问题,我们为基于日志的异常检测和预测开发了一种功能选择方法,从而在很大程度上提高了有效性和效率。
translated by 谷歌翻译
迁移率和加热部门的连续电气化将对分布网格运行引入新的挑战。不协调的灵活单元激活,例如,电动车辆同时充电作为对价格信号的反应,可以系统地触发变压器或线路保护。实时识别这种快速升高的灵活性激活将允许抵消以避免潜在的社会和财务成本。在这项工作中,提出了一种用于识别快速升高灵活性激活事件的新型数据处理流水线。管道结合了无监督事件检测和开放式分类的技术。实际负载数据的系统评估演示了所提出的管道的主要构建块可以通过满足分布式事件检测架构中应用的重要要求的方法来实现。为了检测灵活性激活事件,识别了上部性能限制。此外,证明了与广泛应用的闭合分类器相比,用于分类的开放式分类器的应用可以提高性能。
translated by 谷歌翻译
随着阿里巴巴的业务在各种行业中扩大世界各地,对大数据云计算平台的服务质量和可靠性施加了更高的标准,这构成了阿里巴巴云的基础设施。然而,由于系统架构复杂,这些平台中的根本原因分析是非微不足道的。在本文中,我们提出了一个根本原因分析框架,称为Cloudrca,它利用包括关键绩效指标(KPI),日志以及拓扑的异构多源数据,并通过最先进的异常提取重要特征检测和日志分析技术。然后在知识通知的分层贝叶斯网络(KHBN)模型中使用工程化特征,以推断出高精度和效率的根本原因。消融研究和综合实验比较表明,与现有框架,Cloudrca 1相比,Cloudrca 1)始终如一地优于不同云系统的F1分数的现有方法; 2)由于KHBN的层次结构,可以处理新颖的根本原因; 3)相对于算法配置更强大地执行; 4)在数据和特征尺寸中更有利地缩放。实验还表明,可以采用跨平台转移学习机制来进一步提高10%以上的准确性。 Cloudrca已被整合到阿里巴巴云的诊断系统中,并在三个典型的云计算平台中使用,包括MaxCompute,实时计算和Hologres。它节省了站点可靠性工程师(SRES)在过去的十二个月内解决故障的时间超过20美元,并且显着提高了服务可靠性。
translated by 谷歌翻译
日志数据异常检测是IT操作的人工智能区域中的核心组件。但是,大量现有方法使其难以为特定系统选择正确的方法。更好地了解不同种类的异常,以及哪些算法适合检测它们,将支持研究人员和IT运营商。虽然已经存在的异常分类常见的分类,但尚未专门应用于记录数据,指出该域中的特征和特点。在本文中,我们为不同种类的日志数据异常提供了一种分类,并介绍了一种分析标记数据集中的这种异常的方法。我们将我们的分类系统应用于三个常见的基准数据集Thunderbird,Spirit和BGL,并培训了五种最先进的无监督异常检测算法,以评估它们在检测不同种类的异常中的性能。我们的结果表明,最常见的异常类型也是最容易预测的。此外,基于深度学习的方法在所有异常类型中占据了基于数据的方法,但特别是当涉及到检测语境异常时。
translated by 谷歌翻译
给定传感器读数随着时间的推移从电网上,我们如何在发生异常时准确地检测?实现这一目标的关键部分是使用电网传感器网络在电网上实时地在实时检测到自然故障或恶意的任何不寻常的事件。行业中现有的坏数据探测器缺乏鲁布布利地检测广泛类型的异常,特别是由于新兴网络攻击而造成的复杂性,因为它们一次在网格的单个测量快照上运行。新的ML方法更广泛适用,但通常不会考虑拓扑变化对传感器测量的影响,因此无法适应历史数据中的定期拓扑调整。因此,我们向DynWatch,基于域知识和拓扑知识算法用于使用动态网格上的传感器进行异常检测。我们的方法准确,优于实验中的现有方法20%以上(F-Measure);快速,在60K +分支机用中的每次传感器上平均运行小于1.7ms,使用笔记本电脑,并在图表的大小上线性缩放。
translated by 谷歌翻译
日志是确保许多软件系统的可靠性和连续性,尤其是大规模分布式系统的命令。他们忠实地录制运行时信息,以便于系统故障排除和行为理解。由于现代软件系统的大规模和复杂性,日志量已达到前所未有的水平。因此,对于基于逻究的异常检测,常规的手动检查方法甚至传统的基于机器学习的方法变得不切实际,这是一种不切实际的是,作为基于深度学习的解决方案的快速发展的催化剂。然而,目前在诉诸神经网络的代表性日志的异常探测器之间缺乏严格的比较。此外,重新实现过程需要不琐碎的努力,并且可以轻易引入偏差。为了更好地了解不同异常探测器的特性,在本文中,我们提供了六种最先进的方法使用的五种流行神经网络的全面审查和评估。特别是,4种所选方法是无监督的,并且剩下的两个是监督的。这些方法是用两个公开的日志数据集进行评估,其中包含近1600万日志消息和总共有04万个异常实例。我们相信我们的工作可以作为这一领域的基础,为未来的学术研究和工业应用做出贡献。
translated by 谷歌翻译
Time series anomaly detection has applications in a wide range of research fields and applications, including manufacturing and healthcare. The presence of anomalies can indicate novel or unexpected events, such as production faults, system defects, or heart fluttering, and is therefore of particular interest. The large size and complex patterns of time series have led researchers to develop specialised deep learning models for detecting anomalous patterns. This survey focuses on providing structured and comprehensive state-of-the-art time series anomaly detection models through the use of deep learning. It providing a taxonomy based on the factors that divide anomaly detection models into different categories. Aside from describing the basic anomaly detection technique for each category, the advantages and limitations are also discussed. Furthermore, this study includes examples of deep anomaly detection in time series across various application domains in recent years. It finally summarises open issues in research and challenges faced while adopting deep anomaly detection models.
translated by 谷歌翻译
自动日志文件分析可以尽早发现相关事件,例如系统故障。特别是,自我学习的异常检测技术在日志数据中捕获模式,随后向系统操作员报告意外的日志事件事件,而无需提前提供或手动对异常情况进行建模。最近,已经提出了越来越多的方法来利用深度学习神经网络为此目的。与传统的机器学习技术相比,这些方法证明了出色的检测性能,并同时解决了不稳定数据格式的问题。但是,有许多不同的深度学习体系结构,并且编码由神经网络分析的原始和非结构化日志数据是不平凡的。因此,我们进行了系统的文献综述,概述了部署的模型,数据预处理机制,异常检测技术和评估。该调查没有定量比较现有方法,而是旨在帮助读者了解不同模型体系结构的相关方面,并强调未来工作的开放问题。
translated by 谷歌翻译
Aiot技术的最新进展导致利用机器学习算法来检测网络物理系统(CPS)的操作失败的越来越受欢迎。在其基本形式中,异常检测模块从物理工厂监控传感器测量和致动器状态,并检测这些测量中的异常以识别异常操作状态。然而,由于该模型必须在存在高度复杂的系统动态和未知量的传感器噪声的情况下准确地检测异常,构建有效的异常检测模型是挑战性的。在这项工作中,我们提出了一种新的时序序列异常检测方法,称为神经系统识别和贝叶斯滤波(NSIBF),其中特制的神经网络架构被构成系统识别,即捕获动态状态空间中CP的动态模型;然后,通过跟踪系统的隐藏状态的不确定性随着时间的推移,自然地施加贝叶斯滤波算法的顶部。我们提供定性的和定量实验,并在合成和三个现实世界CPS数据集上具有所提出的方法,表明NSIBF对最先进的方法比较了对CPS中异常检测的最新方法。
translated by 谷歌翻译
多元时间序列中的异常检测在监视各种现实世界系统(例如IT系统运营或制造业)的行为方面起着重要作用。先前的方法对关节分布进行建模,而无需考虑多元时间序列的潜在机制,使它们变得复杂且饥饿。在本文中,我们从因果的角度提出异常检测问题,并将异常视为未遵循常规因果机制来生成多元数据的情况。然后,我们提出了一种基于因果关系的异常检测方法,该方法首先从数据中学习因果结构,然后渗透实例是否是相对于局部因果机制的异常,以从其直接原因产生每个变量,其条件分布可以直接估计从数据。鉴于因果系统的模块化特性,原始问题被分为一系列单独的低维异常检测问题,因此可以直接识别出异常的地方。我们通过模拟和公共数据集以及有关现实世界中AIOPS应用程序的案例研究评估我们的方法,显示其功效,鲁棒性和实际可行性。
translated by 谷歌翻译
我们提出了一个多变量时间序列异常检测框架 - 工作YMIR,它利用了集合学习和监督学习技术,以有效地学习和适应异常的现实世界系统应用。 YMIR通过Anensemble学习方法集成了几个目前使用的无监督的异常检测模型,因此可以在无监督场景中提供强大的额度体内差异检测结果。在超级访问的环境中,域专家和系统用户讨论和提供(异常与否),用于培训数据,这反映了特定系统的自身统计学检测标准。 Ymir Leveragesthe上述了未经监督的方法从原始多变量时间序列数据中提取丰富和有用的奇数表示,然后将特征和标签与监督分类器与OFALY检测结合起来。我们在大型监测系统中评估了内部多功能仪系列数据集的YMIR,并实现了异常检测性能。
translated by 谷歌翻译
智能制造系统以越来越多的速度部署,因为它们能够解释各种各样的感知信息并根据系统观察收集的知识采取行动。在许多情况下,智能制造系统的主要目标是快速检测(或预期)失败以降低运营成本并消除停机时间。这通常归结为检测从系统中获取的传感器日期内的异常。智能制造应用域构成了某些显着的技术挑战。特别是,通常有多种具有不同功能和成本的传感器。传感器数据特性随环境或机器的操作点而变化,例如电动机的RPM。因此,必须在工作点附近校准异常检测过程。在本文中,我们分析了从制造测试台部署的传感器中的四个数据集。我们评估了几种基于传统和ML的预测模型的性能,以预测传感器数据的时间序列。然后,考虑到一种传感器的稀疏数据,我们从高数据速率传感器中执行传输学习来执行缺陷类型分类。综上所述,我们表明可以实现预测性故障分类,从而为预测维护铺平了道路。
translated by 谷歌翻译
今天的网络世界难以多变量。在极端品种中收集的指标需要多变量算法以正确检测异常。然而,基于预测的算法,如被广泛证明的方法,通常在数据集中进行次优或不一致。一个关键的常见问题是他们努力成为一个尺寸适合的,但异常在自然中是独特的。我们提出了一种裁定到这种区别的方法。提出FMUAD - 一种基于预测,多方面,无监督的异常检测框架。FMUAD明确,分别捕获异常类型的签名性状 - 空间变化,时间变化和相关变化 - 与独立模块。然后,模块共同学习最佳特征表示,这是非常灵活和直观的,与类别中的大多数其他模型不同。广泛的实验表明我们的FMUAD框架始终如一地优于其他最先进的预测的异常探测器。
translated by 谷歌翻译
作为在Internet交换路由到达性信息的默认协议,边界网关协议(BGP)的流量异常行为与互联网异常事件密切相关。 BGP异常检测模型通过其实时监控和警报功能确保互联网上的稳定路由服务。以前的研究要么专注于特征选择问题或数据中的内存特征,同时忽略特征之间的关系和特征中的精确时间相关(无论是长期还是短期依赖性)。在本文中,我们提出了一种用于捕获来自BGP更新流量的异常行为的多视图模型,其中使用黄土(STL)方法的季节性和趋势分解来减少原始时间序列数据中的噪声和图表网络中的噪声(GAT)用于分别发现功能中的特征关系和时间相关性。我们的结果优于异常检测任务的最先进的方法,平均F1分别在平衡和不平衡数据集上得分高达96.3%和93.2%。同时,我们的模型可以扩展以对多个异常进行分类并检测未知事件。
translated by 谷歌翻译
为了允许机器学习算法从原始数据中提取知识,必须首先清除,转换,并将这些数据置于适当的形式。这些通常很耗时的阶段被称为预处理。预处理阶段的一个重要步骤是特征选择,其目的通过减少数据集的特征量来更好地执行预测模型。在这些数据集中,不同事件的实例通常是不平衡的,这意味着某些正常事件被超出,而其他罕见事件非常有限。通常,这些罕见的事件具有特殊的兴趣,因为它们具有比正常事件更具辨别力。这项工作的目的是过滤提供给这些罕见实例的特征选择方法的实例,从而积极影响特征选择过程。在这项工作过程中,我们能够表明这种过滤对分类模型的性能以及异常值检测方法适用于该过滤。对于某些数据集,所产生的性能增加仅为百分点,但对于其他数据集,我们能够实现高达16%的性能的增加。这项工作应导致预测模型的改进以及在预处理阶段的过程中的特征选择更好的可解释性。本着公开科学的精神,提高了我们的研究领域的透明度,我们已经在公开的存储库中提供了我们的所有源代码和我们的实验结果。
translated by 谷歌翻译
现代高性能计算(HPC)系统的复杂性日益增加,需要引入自动化和数据驱动的方法,以支持系统管理员为增加系统可用性的努力。异常检测是改善可用性不可或缺的一部分,因为它减轻了系统管理员的负担,并减少了异常和解决方案之间的时间。但是,对当前的最新检测方法进行了监督和半监督,因此它们需要具有异常的人体标签数据集 - 在生产HPC系统中收集通常是不切实际的。基于聚类的无监督异常检测方法,旨在减轻准确的异常数据的需求,到目前为止的性能差。在这项工作中,我们通过提出RUAD来克服这些局限性,RUAD是一种新型的无监督异常检测模型。 Ruad比当前的半监督和无监督的SOA方法取得了更好的结果。这是通过考虑数据中的时间依赖性以及在模型体系结构中包括长短期限内存单元的实现。提出的方法是根据tier-0系统(带有980个节点的Cineca的Marconi100的完整历史)评估的。 RUAD在半监督训练中达到曲线(AUC)下的区域(AUC)为0.763,在无监督的训练中达到了0.767的AUC,这改进了SOA方法,在半监督训练中达到0.747的AUC,无需训练的AUC和0.734的AUC在无处不在的AUC中提高了AUC。训练。它还大大优于基于聚类的当前SOA无监督的异常检测方法,其AUC为0.548。
translated by 谷歌翻译
鉴于在现实世界应用中缺乏异常情况,大多数文献一直集中在建模正态上。学到的表示形式可以将异常检测作为正态性模型进行训练,以捕获正常情况下的某些密钥数据规律性。在实际环境中,尤其是工业时间序列异常检测中,我们经常遇到有大量正常操作数据以及随时间收集的少量异常事件的情况。这种实际情况要求方法学来利用这些少量的异常事件来创建更好的异常检测器。在本文中,我们介绍了两种方法来满足这种实际情况的需求,并将其与最近开发的最新技术进行了比较。我们提出的方法锚定在具有自回归(AR)模型的正常运行的代表性学习以及损失组件上,以鼓励表示正常与几个积极示例的表示形式。我们将提出的方法应用于两个工业异常检测数据集,并与文献相比表现出有效的性能。我们的研究还指出了在实际应用中采用此类方法的其他挑战。
translated by 谷歌翻译
Anomaly detection is an active research topic in many different fields such as intrusion detection, network monitoring, system health monitoring, IoT healthcare, etc. However, many existing anomaly detection approaches require either human intervention or domain knowledge, and may suffer from high computation complexity, consequently hindering their applicability in real-world scenarios. Therefore, a lightweight and ready-to-go approach that is able to detect anomalies in real-time is highly sought-after. Such an approach could be easily and immediately applied to perform time series anomaly detection on any commodity machine. The approach could provide timely anomaly alerts and by that enable appropriate countermeasures to be undertaken as early as possible. With these goals in mind, this paper introduces ReRe, which is a Real-time Ready-to-go proactive Anomaly Detection algorithm for streaming time series. ReRe employs two lightweight Long Short-Term Memory (LSTM) models to predict and jointly determine whether or not an upcoming data point is anomalous based on short-term historical data points and two long-term self-adaptive thresholds. Experiments based on real-world time-series datasets demonstrate the good performance of ReRe in real-time anomaly detection without requiring human intervention or domain knowledge.
translated by 谷歌翻译
日志分析是工程师用来解决大规模软件系统故障的主要技术之一。在过去的几十年中,已经提出了许多日志分析方法来检测日志反映的系统异常。他们通常将日志事件计数或顺序日志事件作为输入,并利用机器学习算法,包括深度学习模型来检测系统异常。这些异常通常被确定为对数序列中对数事件的定量关系模式或顺序模式的违反。但是,现有方法无法利用日志事件之间的空间结构关系,从而导致潜在的错误警报和不稳定的性能。在这项研究中,我们提出了一种新型的基于图的对数异常检测方法loggd,以通过将日志序列转换为图来有效解决问题。我们利用了图形变压器神经网络的强大功能,该网络结合了图结构和基于日志异常检测的节点语义。我们在四个广泛使用的公共日志数据集上评估了建议的方法。实验结果表明,Loggd可以胜过最先进的基于定量和基于序列的方法,并在不同的窗口大小设置下实现稳定的性能。结果证实LOGGD在基于对数的异常检测中有效。
translated by 谷歌翻译
装有传感器,执行器和电子控制单元(ECU)的现代车辆可以分为几个称为功能工作组(FWGS)的操作子系统。这些FWG的示例包括发动机系统,变速箱,燃油系统,制动器等。每个FWG都有相关的传感器通道,可以衡量车辆操作条件。这种丰富的数据环境有利于预测维护(PDM)技术的开发。削弱各种PDM技术的是需要强大的异常检测模型,该模型可以识别出明显偏离大多数数据的事件或观察结果,并且不符合正常车辆操作行为的明确定义的概念。在本文中,我们介绍了车辆性能,可靠性和操作(VEPRO)数据集,并使用它来创建一种基于多阶段的异常检测方法。利用时间卷积网络(TCN),我们的异常检测系统可以达到96%的检测准确性,并准确预测91%的真实异常。当利用来自多个FWG的传感器通道时,我们的异常检测系统的性能会改善。
translated by 谷歌翻译