迁移率和加热部门的连续电气化将对分布网格运行引入新的挑战。不协调的灵活单元激活,例如,电动车辆同时充电作为对价格信号的反应,可以系统地触发变压器或线路保护。实时识别这种快速升高的灵活性激活将允许抵消以避免潜在的社会和财务成本。在这项工作中,提出了一种用于识别快速升高灵活性激活事件的新型数据处理流水线。管道结合了无监督事件检测和开放式分类的技术。实际负载数据的系统评估演示了所提出的管道的主要构建块可以通过满足分布式事件检测架构中应用的重要要求的方法来实现。为了检测灵活性激活事件,识别了上部性能限制。此外,证明了与广泛应用的闭合分类器相比,用于分类的开放式分类器的应用可以提高性能。
translated by 谷歌翻译
Time series anomaly detection has applications in a wide range of research fields and applications, including manufacturing and healthcare. The presence of anomalies can indicate novel or unexpected events, such as production faults, system defects, or heart fluttering, and is therefore of particular interest. The large size and complex patterns of time series have led researchers to develop specialised deep learning models for detecting anomalous patterns. This survey focuses on providing structured and comprehensive state-of-the-art time series anomaly detection models through the use of deep learning. It providing a taxonomy based on the factors that divide anomaly detection models into different categories. Aside from describing the basic anomaly detection technique for each category, the advantages and limitations are also discussed. Furthermore, this study includes examples of deep anomaly detection in time series across various application domains in recent years. It finally summarises open issues in research and challenges faced while adopting deep anomaly detection models.
translated by 谷歌翻译
非侵入性负载监控(NILM)是将总功率消耗分为单个子组件的任务。多年来,已经合并了信号处理和机器学习算法以实现这一目标。关于最先进的方法,进行了许多出版物和广泛的研究工作,以涉及最先进的方法。科学界最初使用机器学习工具的尼尔姆问题制定和描述的最初兴趣已经转变为更实用的尼尔姆。如今,我们正处于成熟的尼尔姆时期,在现实生活中的应用程序方案中尝试使用尼尔姆。因此,算法的复杂性,可转移性,可靠性,实用性和普遍的信任度是主要的关注问题。这篇评论缩小了早期未成熟的尼尔姆时代与成熟的差距。特别是,本文仅对住宅电器的尼尔姆方法提供了全面的文献综述。本文分析,总结并介绍了大量最近发表的学术文章的结果。此外,本文讨论了这些方法的亮点,并介绍了研究人员应考虑的研究困境,以应用尼尔姆方法。最后,我们表明需要将传统分类模型转移到一个实用且值得信赖的框架中。
translated by 谷歌翻译
Anomaly detection is an active research topic in many different fields such as intrusion detection, network monitoring, system health monitoring, IoT healthcare, etc. However, many existing anomaly detection approaches require either human intervention or domain knowledge, and may suffer from high computation complexity, consequently hindering their applicability in real-world scenarios. Therefore, a lightweight and ready-to-go approach that is able to detect anomalies in real-time is highly sought-after. Such an approach could be easily and immediately applied to perform time series anomaly detection on any commodity machine. The approach could provide timely anomaly alerts and by that enable appropriate countermeasures to be undertaken as early as possible. With these goals in mind, this paper introduces ReRe, which is a Real-time Ready-to-go proactive Anomaly Detection algorithm for streaming time series. ReRe employs two lightweight Long Short-Term Memory (LSTM) models to predict and jointly determine whether or not an upcoming data point is anomalous based on short-term historical data points and two long-term self-adaptive thresholds. Experiments based on real-world time-series datasets demonstrate the good performance of ReRe in real-time anomaly detection without requiring human intervention or domain knowledge.
translated by 谷歌翻译
近年来,随着传感器和智能设备的广泛传播,物联网(IoT)系统的数据生成速度已大大增加。在物联网系统中,必须经常处理,转换和分析大量数据,以实现各种物联网服务和功能。机器学习(ML)方法已显示出其物联网数据分析的能力。但是,将ML模型应用于物联网数据分析任务仍然面临许多困难和挑战,特别是有效的模型选择,设计/调整和更新,这给经验丰富的数据科学家带来了巨大的需求。此外,物联网数据的动态性质可能引入概念漂移问题,从而导致模型性能降解。为了减少人类的努力,自动化机器学习(AUTOML)已成为一个流行的领域,旨在自动选择,构建,调整和更新机器学习模型,以在指定任务上实现最佳性能。在本文中,我们对Automl区域中模型选择,调整和更新过程中的现有方法进行了审查,以识别和总结将ML算法应用于IoT数据分析的每个步骤的最佳解决方案。为了证明我们的发现并帮助工业用户和研究人员更好地实施汽车方法,在这项工作中提出了将汽车应用于IoT异常检测问题的案例研究。最后,我们讨论并分类了该领域的挑战和研究方向。
translated by 谷歌翻译
在2015年和2019年之间,地平线的成员2020年资助的创新培训网络名为“Amva4newphysics”,研究了高能量物理问题的先进多变量分析方法和统计学习工具的定制和应用,并开发了完全新的。其中许多方法已成功地用于提高Cern大型Hadron撞机的地图集和CMS实验所执行的数据分析的敏感性;其他几个人,仍然在测试阶段,承诺进一步提高基本物理参数测量的精确度以及新现象的搜索范围。在本文中,在研究和开发的那些中,最相关的新工具以及对其性能的评估。
translated by 谷歌翻译
The detection of anomalies in time series data is crucial in a wide range of applications, such as system monitoring, health care or cyber security. While the vast number of available methods makes selecting the right method for a certain application hard enough, different methods have different strengths, e.g. regarding the type of anomalies they are able to find. In this work, we compare six unsupervised anomaly detection methods with different complexities to answer the questions: Are the more complex methods usually performing better? And are there specific anomaly types that those method are tailored to? The comparison is done on the UCR anomaly archive, a recent benchmark dataset for anomaly detection. We compare the six methods by analyzing the experimental results on a dataset- and anomaly type level after tuning the necessary hyperparameter for each method. Additionally we examine the ability of individual methods to incorporate prior knowledge about the anomalies and analyse the differences of point-wise and sequence wise features. We show with broad experiments, that the classical machine learning methods show a superior performance compared to the deep learning methods across a wide range of anomaly types.
translated by 谷歌翻译
给定传感器读数随着时间的推移从电网上,我们如何在发生异常时准确地检测?实现这一目标的关键部分是使用电网传感器网络在电网上实时地在实时检测到自然故障或恶意的任何不寻常的事件。行业中现有的坏数据探测器缺乏鲁布布利地检测广泛类型的异常,特别是由于新兴网络攻击而造成的复杂性,因为它们一次在网格的单个测量快照上运行。新的ML方法更广泛适用,但通常不会考虑拓扑变化对传感器测量的影响,因此无法适应历史数据中的定期拓扑调整。因此,我们向DynWatch,基于域知识和拓扑知识算法用于使用动态网格上的传感器进行异常检测。我们的方法准确,优于实验中的现有方法20%以上(F-Measure);快速,在60K +分支机用中的每次传感器上平均运行小于1.7ms,使用笔记本电脑,并在图表的大小上线性缩放。
translated by 谷歌翻译
现代高性能计算(HPC)系统的复杂性日益增加,需要引入自动化和数据驱动的方法,以支持系统管理员为增加系统可用性的努力。异常检测是改善可用性不可或缺的一部分,因为它减轻了系统管理员的负担,并减少了异常和解决方案之间的时间。但是,对当前的最新检测方法进行了监督和半监督,因此它们需要具有异常的人体标签数据集 - 在生产HPC系统中收集通常是不切实际的。基于聚类的无监督异常检测方法,旨在减轻准确的异常数据的需求,到目前为止的性能差。在这项工作中,我们通过提出RUAD来克服这些局限性,RUAD是一种新型的无监督异常检测模型。 Ruad比当前的半监督和无监督的SOA方法取得了更好的结果。这是通过考虑数据中的时间依赖性以及在模型体系结构中包括长短期限内存单元的实现。提出的方法是根据tier-0系统(带有980个节点的Cineca的Marconi100的完整历史)评估的。 RUAD在半监督训练中达到曲线(AUC)下的区域(AUC)为0.763,在无监督的训练中达到了0.767的AUC,这改进了SOA方法,在半监督训练中达到0.747的AUC,无需训练的AUC和0.734的AUC在无处不在的AUC中提高了AUC。训练。它还大大优于基于聚类的当前SOA无监督的异常检测方法,其AUC为0.548。
translated by 谷歌翻译
成像,散射和光谱是理解和发现新功能材料的基础。自动化和实验技术的当代创新导致这些测量更快,分辨率更高,从而产生了大量的分析数据。这些创新在用户设施和同步射击光源时特别明显。机器学习(ML)方法经常开发用于实时地处理和解释大型数据集。然而,仍然存在概念障碍,进入设施一般用户社区,通常缺乏ML的专业知识,以及部署ML模型的技术障碍。在此,我们展示了各种原型ML模型,用于在国家同步光源II(NSLS-II)的多个波束线上在飞行分析。我们谨慎地描述这些示例,专注于将模型集成到现有的实验工作流程中,使得读者可以容易地将它们自己的ML技术与具有普通基础设施的NSLS-II或设施的实验中的实验。此处介绍的框架展示了几乎没有努力,多样化的ML型号通过集成到实验编程和数据管理的现有Blueske套件中与反馈回路一起运行。
translated by 谷歌翻译
异常检测是识别数据中意外事件或AB差异的过程,并且已在许多不同领域(例如系统监控,欺诈检测,医疗保健,入侵检测等)应用。提供实时,轻量级和主动的异常情况对于人类干预和领域知识的时间序列的检测,由于它减少了人类的努力,并在发生灾难性事件发生之前可以进行适当的对策,因此既不具有人为干预和领域知识。据我们所知,Repad(实时主动的异常检测算法)是所有上述特征的通用方法。为了实现实时和轻质检测,重新使用长期记忆(LSTM)来检测每个即将到来的数据点是否基于短期历史数据点是异常的。但是,目前尚不清楚不同数量的历史数据点如何影响续期的性能。因此,在本文中,我们通过引入一组涵盖新颖的检测准确性措施,时间效率,准备和资源消耗等的绩效指标来研究不同历史数据对重新播放的影响。进行时间序列数据集以评估不同情况下的重新播放,并提出和讨论实验结果。
translated by 谷歌翻译
机器学习(ML)代表了当前和未来信息系统的关键技术,许多域已经利用了ML的功能。但是,网络安全中ML的部署仍处于早期阶段,揭示了研究和实践之间的显着差异。这种差异在当前的最新目的中具有其根本原因,该原因不允许识别ML在网络安全中的作用。除非广泛的受众理解其利弊,否则ML的全部潜力将永远不会释放。本文是对ML在整个网络安全领域中的作用的首次尝试 - 对任何对此主题感兴趣的潜在读者。我们强调了ML在人类驱动的检测方法方面的优势,以及ML在网络安全方面可以解决的其他任务。此外,我们阐明了影响网络安全部署实际ML部署的各种固有问题。最后,我们介绍了各种利益相关者如何为网络安全中ML的未来发展做出贡献,这对于该领域的进一步进步至关重要。我们的贡献补充了两项实际案例研究,这些案例研究描述了ML作为对网络威胁的辩护的工业应用。
translated by 谷歌翻译
装有传感器,执行器和电子控制单元(ECU)的现代车辆可以分为几个称为功能工作组(FWGS)的操作子系统。这些FWG的示例包括发动机系统,变速箱,燃油系统,制动器等。每个FWG都有相关的传感器通道,可以衡量车辆操作条件。这种丰富的数据环境有利于预测维护(PDM)技术的开发。削弱各种PDM技术的是需要强大的异常检测模型,该模型可以识别出明显偏离大多数数据的事件或观察结果,并且不符合正常车辆操作行为的明确定义的概念。在本文中,我们介绍了车辆性能,可靠性和操作(VEPRO)数据集,并使用它来创建一种基于多阶段的异常检测方法。利用时间卷积网络(TCN),我们的异常检测系统可以达到96%的检测准确性,并准确预测91%的真实异常。当利用来自多个FWG的传感器通道时,我们的异常检测系统的性能会改善。
translated by 谷歌翻译
评估能源转型和能源市场自由化对资源充足性的影响是一种越来越重要和苛刻的任务。能量系统的上升复杂性需要足够的能量系统建模方法,从而提高计算要求。此外,随着复杂性,同样调用概率评估和场景分析同样增加不确定性。为了充分和高效地解决这些各种要求,需要来自数据科学领域的新方法来加速当前方法。通过我们的系统文献综述,我们希望缩小三个学科之间的差距(1)电力供应安全性评估,(2)人工智能和(3)实验设计。为此,我们对所选应用领域进行大规模的定量审查,并制作彼此不同学科的合成。在其他发现之外,我们使用基于AI的方法和应用程序的AI方法和应用来确定电力供应模型的复杂安全性的元素,并作为未充分涵盖的应用领域的储存调度和(非)可用性。我们结束了推出了一种新的方法管道,以便在评估电力供应安全评估时充分有效地解决当前和即将到来的挑战。
translated by 谷歌翻译
Unsupervised anomaly detection in time-series has been extensively investigated in the literature. Notwithstanding the relevance of this topic in numerous application fields, a complete and extensive evaluation of recent state-of-the-art techniques is still missing. Few efforts have been made to compare existing unsupervised time-series anomaly detection methods rigorously. However, only standard performance metrics, namely precision, recall, and F1-score are usually considered. Essential aspects for assessing their practical relevance are therefore neglected. This paper proposes an original and in-depth evaluation study of recent unsupervised anomaly detection techniques in time-series. Instead of relying solely on standard performance metrics, additional yet informative metrics and protocols are taken into account. In particular, (1) more elaborate performance metrics specifically tailored for time-series are used; (2) the model size and the model stability are studied; (3) an analysis of the tested approaches with respect to the anomaly type is provided; and (4) a clear and unique protocol is followed for all experiments. Overall, this extensive analysis aims to assess the maturity of state-of-the-art time-series anomaly detection, give insights regarding their applicability under real-world setups and provide to the community a more complete evaluation protocol.
translated by 谷歌翻译
为了允许机器学习算法从原始数据中提取知识,必须首先清除,转换,并将这些数据置于适当的形式。这些通常很耗时的阶段被称为预处理。预处理阶段的一个重要步骤是特征选择,其目的通过减少数据集的特征量来更好地执行预测模型。在这些数据集中,不同事件的实例通常是不平衡的,这意味着某些正常事件被超出,而其他罕见事件非常有限。通常,这些罕见的事件具有特殊的兴趣,因为它们具有比正常事件更具辨别力。这项工作的目的是过滤提供给这些罕见实例的特征选择方法的实例,从而积极影响特征选择过程。在这项工作过程中,我们能够表明这种过滤对分类模型的性能以及异常值检测方法适用于该过滤。对于某些数据集,所产生的性能增加仅为百分点,但对于其他数据集,我们能够实现高达16%的性能的增加。这项工作应导致预测模型的改进以及在预处理阶段的过程中的特征选择更好的可解释性。本着公开科学的精神,提高了我们的研究领域的透明度,我们已经在公开的存储库中提供了我们的所有源代码和我们的实验结果。
translated by 谷歌翻译
电力系统状态估计面临着不同类型的异常。这些可能包括由总测量错误或通信系统故障引起的不良数据。根据实施的状态估计方法,负载或发电的突然变化可以视为异常。此外,将电网视为网络物理系统,状态估计变得容易受到虚假数据注射攻击的影响。现有的异常分类方法无法准确对上述三种异常进行分类(区分),尤其是在歧视突然的负载变化和虚假数据注入攻击时。本文提出了一种用于检测异常存在,对异常类型进行分类并识别异常起源的新算法更改或通过错误数据注入攻击针对的状态变量。该算法结合了分析和机器学习(ML)方法。第一阶段通过组合$ \ chi^2 $检测指数来利用一种分析方法来检测异常存在。第二阶段利用ML进行异常类型的分类和其来源的识别,特别是指突然负载变化和错误数据注射攻击的歧视。提出的基于ML的方法经过训练,可以独立于网络配置,该网络配置消除了网络拓扑变化后算法的重新训练。通过在IEEE 14总线测试系统上实施拟议的算法获得的结果证明了拟议算法的准确性和有效性。
translated by 谷歌翻译
在智能交通系统中,交通拥堵异常检测至关重要。运输机构的目标有两个方面:监视感兴趣领域的一般交通状况,并在异常拥堵状态下定位道路细分市场。建模拥塞模式可以实现这些目标,以实现全市道路的目标,相当于学习多元时间序列(MTS)的分布。但是,现有作品要么不可伸缩,要么无法同时捕获MTS中的空间信息。为此,我们提出了一个由数据驱动的生成方法组成的原则性和全面的框架,该方法可以执行可拖动的密度估计来检测流量异常。我们的方法在特征空间中的第一群段段,然后使用条件归一化流以在无监督的设置下在群集级别识别异常的时间快照。然后,我们通过在异常群集上使用内核密度估计器来识别段级别的异常。关于合成数据集的广泛实验表明,我们的方法在召回和F1得分方面显着优于几种最新的拥塞异常检测和诊断方法。我们还使用生成模型来采样标记的数据,该数据可以在有监督的环境中训练分类器,从而减轻缺乏在稀疏设置中进行异常检测的标记数据。
translated by 谷歌翻译
日志是确保许多软件系统的可靠性和连续性,尤其是大规模分布式系统的命令。他们忠实地录制运行时信息,以便于系统故障排除和行为理解。由于现代软件系统的大规模和复杂性,日志量已达到前所未有的水平。因此,对于基于逻究的异常检测,常规的手动检查方法甚至传统的基于机器学习的方法变得不切实际,这是一种不切实际的是,作为基于深度学习的解决方案的快速发展的催化剂。然而,目前在诉诸神经网络的代表性日志的异常探测器之间缺乏严格的比较。此外,重新实现过程需要不琐碎的努力,并且可以轻易引入偏差。为了更好地了解不同异常探测器的特性,在本文中,我们提供了六种最先进的方法使用的五种流行神经网络的全面审查和评估。特别是,4种所选方法是无监督的,并且剩下的两个是监督的。这些方法是用两个公开的日志数据集进行评估,其中包含近1600万日志消息和总共有04万个异常实例。我们相信我们的工作可以作为这一领域的基础,为未来的学术研究和工业应用做出贡献。
translated by 谷歌翻译
现代云计算系统包含数百到数千个计算和存储服务器。这种规模与不断增长的系统复杂性相结合,对可靠云计算的失败和资源管理导致关键挑战。自主失败检测是了解系统级可靠性保证的紧急,云现象和自我管理云资源的重要技术。要检测到失败,我们需要监控云执行并收集运行时性能数据。这些数据通常是未标记的,因此在生产云中并不总是可用的现有故障历史。在本文中,我们提出了一种\ emph {自我不断发展的异常检测}(SEAD)框架,用于云可靠性保证。我们的框架通过递归探索新验证的异常记录并在线持续更新异常探测器。作为我们框架的鲜明优势,云系统管理员只需要检查少量检测到的异常,并且它们的决定可以利用以更新探测器。因此,探测器在升级系统硬件,软件堆栈的更新和用户工作负载的更改之后演变。此外,我们设计了两种类型的探测器,一个用于一般异常检测,另一类用于特异性异常检测。在自我不断发展的技术的帮助下,我们的探测器可以平均达到88.94 \%的灵敏度和94.60 \%,这使得它们适合现实世界部署。
translated by 谷歌翻译