在许多情况下,有必要通过观察时间序列监视复杂的系统,并确定何时发生异源事件,以便采取相关的动作。确定当前的观察是否异常是具有挑战性的。它需要从历史数据中学习动力学的外推性概率模型,并使用有限数量的当前观察结果来进行分类。我们利用长期概率预测的最新进展,即{\ em Deep概率Koopman},构建了一种在多维时序数据中对异常进行分类的通用方法。我们还展示了如何利用具有域知识的模型来减少I型和II型错误。我们展示了我们提出的关于全球大气污染监测的重要现实世界任务的方法,并将其与NASA的全球地球系统模型集成在一起。该系统成功地检测到由于COVID-19锁定和野火等事件而导致的空气质量异常情况。
translated by 谷歌翻译
Time series anomaly detection has applications in a wide range of research fields and applications, including manufacturing and healthcare. The presence of anomalies can indicate novel or unexpected events, such as production faults, system defects, or heart fluttering, and is therefore of particular interest. The large size and complex patterns of time series have led researchers to develop specialised deep learning models for detecting anomalous patterns. This survey focuses on providing structured and comprehensive state-of-the-art time series anomaly detection models through the use of deep learning. It providing a taxonomy based on the factors that divide anomaly detection models into different categories. Aside from describing the basic anomaly detection technique for each category, the advantages and limitations are also discussed. Furthermore, this study includes examples of deep anomaly detection in time series across various application domains in recent years. It finally summarises open issues in research and challenges faced while adopting deep anomaly detection models.
translated by 谷歌翻译
Unsupervised anomaly detection in time-series has been extensively investigated in the literature. Notwithstanding the relevance of this topic in numerous application fields, a complete and extensive evaluation of recent state-of-the-art techniques is still missing. Few efforts have been made to compare existing unsupervised time-series anomaly detection methods rigorously. However, only standard performance metrics, namely precision, recall, and F1-score are usually considered. Essential aspects for assessing their practical relevance are therefore neglected. This paper proposes an original and in-depth evaluation study of recent unsupervised anomaly detection techniques in time-series. Instead of relying solely on standard performance metrics, additional yet informative metrics and protocols are taken into account. In particular, (1) more elaborate performance metrics specifically tailored for time-series are used; (2) the model size and the model stability are studied; (3) an analysis of the tested approaches with respect to the anomaly type is provided; and (4) a clear and unique protocol is followed for all experiments. Overall, this extensive analysis aims to assess the maturity of state-of-the-art time-series anomaly detection, give insights regarding their applicability under real-world setups and provide to the community a more complete evaluation protocol.
translated by 谷歌翻译
预测可帮助企业分配资源并实现目标。在LinkedIn,产品所有者使用预测来设定业务目标,跟踪前景和监视健康。工程师使用预测有效地提供硬件。开发一种预测解决方案来满足这些需求,需要对各种时间序列进行准确,可解释的预测,并以次数至季度的频率。我们提出了Greykite,这是一个用于预测的开源Python库,已在LinkedIn上部署了二十多种用例。它的旗舰算法Silverkite提供了可解释的,快速且高度灵活的单变量预测,可捕获诸如时期增长和季节性,自相关,假期和回归剂等效果。该库通过促进数据探索,模型配置,执行和解释来实现自我服务的准确性和信任。我们的基准结果显示了来自各个域的数据集的现成速度和准确性。在过去的两年中,金融,工程和产品团队的资源计划和分配,目标设置和进度跟踪,异常检测和根本原因分析的资源团队一直信任灰金矿的预测。我们希望灰金矿对具有类似应用的预测从业者有用,这些应用需要准确,可解释的预测,这些预测捕获了与人类活动相关的时间序列共有的复杂动力学。
translated by 谷歌翻译
粒子加速器是复杂的设施,可产生大量的结构化数据,并具有明确的优化目标以及精确定义的控制要求。因此,它们自然适合数据驱动的研究方法。来自传感器和监视加速器形式的多元时间序列的数据。在加速器控制和诊断方面,快速的先发制人方法是高度首选的,数据驱动的时间序列预测方法的应用尤其有希望。这篇综述提出了时间序列预测问题,并总结了现有模型,并在各个科学领域的应用中进行了应用。引入了粒子加速器领域中的几次和将来的尝试。预测到粒子加速器的时间序列的应用显示出令人鼓舞的结果和更广泛使用的希望,现有的问题(例如数据一致性和兼容性)已开始解决。
translated by 谷歌翻译
给定传感器读数随着时间的推移从电网上,我们如何在发生异常时准确地检测?实现这一目标的关键部分是使用电网传感器网络在电网上实时地在实时检测到自然故障或恶意的任何不寻常的事件。行业中现有的坏数据探测器缺乏鲁布布利地检测广泛类型的异常,特别是由于新兴网络攻击而造成的复杂性,因为它们一次在网格的单个测量快照上运行。新的ML方法更广泛适用,但通常不会考虑拓扑变化对传感器测量的影响,因此无法适应历史数据中的定期拓扑调整。因此,我们向DynWatch,基于域知识和拓扑知识算法用于使用动态网格上的传感器进行异常检测。我们的方法准确,优于实验中的现有方法20%以上(F-Measure);快速,在60K +分支机用中的每次传感器上平均运行小于1.7ms,使用笔记本电脑,并在图表的大小上线性缩放。
translated by 谷歌翻译
在智能交通系统中,交通拥堵异常检测至关重要。运输机构的目标有两个方面:监视感兴趣领域的一般交通状况,并在异常拥堵状态下定位道路细分市场。建模拥塞模式可以实现这些目标,以实现全市道路的目标,相当于学习多元时间序列(MTS)的分布。但是,现有作品要么不可伸缩,要么无法同时捕获MTS中的空间信息。为此,我们提出了一个由数据驱动的生成方法组成的原则性和全面的框架,该方法可以执行可拖动的密度估计来检测流量异常。我们的方法在特征空间中的第一群段段,然后使用条件归一化流以在无监督的设置下在群集级别识别异常的时间快照。然后,我们通过在异常群集上使用内核密度估计器来识别段级别的异常。关于合成数据集的广泛实验表明,我们的方法在召回和F1得分方面显着优于几种最新的拥塞异常检测和诊断方法。我们还使用生成模型来采样标记的数据,该数据可以在有监督的环境中训练分类器,从而减轻缺乏在稀疏设置中进行异常检测的标记数据。
translated by 谷歌翻译
今天的网络世界难以多变量。在极端品种中收集的指标需要多变量算法以正确检测异常。然而,基于预测的算法,如被广泛证明的方法,通常在数据集中进行次优或不一致。一个关键的常见问题是他们努力成为一个尺寸适合的,但异常在自然中是独特的。我们提出了一种裁定到这种区别的方法。提出FMUAD - 一种基于预测,多方面,无监督的异常检测框架。FMUAD明确,分别捕获异常类型的签名性状 - 空间变化,时间变化和相关变化 - 与独立模块。然后,模块共同学习最佳特征表示,这是非常灵活和直观的,与类别中的大多数其他模型不同。广泛的实验表明我们的FMUAD框架始终如一地优于其他最先进的预测的异常探测器。
translated by 谷歌翻译
了解极端事件及其可能性是研究气候变化影响,风险评估,适应和保护生物的关键。在这项工作中,我们开发了一种方法来构建极端热浪的预测模型。这些模型基于卷积神经网络,对极长的8,000年气候模型输出进行了培训。由于极端事件之间的关系本质上是概率的,因此我们强调概率预测和验证。我们证明,深度神经网络适用于法国持续持续14天的热浪,快速动态驱动器提前15天(500 hpa地球电位高度场),并且在慢速较长的交货时间内,慢速物理时间驱动器(土壤水分)。该方法很容易实现和通用。我们发现,深神经网络选择了与北半球波数字3模式相关的极端热浪。我们发现,当将2米温度场添加到500 HPA地球电位高度和土壤水分场中时,2米温度场不包含任何新的有用统计信息。主要的科学信息是,训练深层神经网络预测极端热浪的发生是在严重缺乏数据的情况下发生的。我们建议大多数其他应用在大规模的大气和气候现象中都是如此。我们讨论了处理缺乏数据制度的观点,例如罕见的事件模拟,以及转移学习如何在后一种任务中发挥作用。
translated by 谷歌翻译
时间序列模型通常处理极端事件和异常,这两者都在现实世界数据集中普遍存在。这样的模型通常需要提供仔细的概率预测,这对于诸如飓风和大流行等极端事件的风险管理至关重要。但是,自动检测并学习对大规模数据集使用极端事件和异常,这是一项挑战,这通常需要手动努力。因此,我们提出了一个异常的预测框架,该框架利用了先前看到的异常作用来提高其在极端事件存在期间和之后的预测准确性。具体而言,该框架会自动提取异常,并通过注意机制将其合并,以提高其未来极端事件的准确性。此外,该框架采用动态不确定性优化算法,以在线方式降低预测的不确定性。所提出的框架表现出一致的卓越精度,而在三个数据集上,与当前预测模型相比,三个具有不同异常的数据集的不确定性。
translated by 谷歌翻译
The detection of anomalies in time series data is crucial in a wide range of applications, such as system monitoring, health care or cyber security. While the vast number of available methods makes selecting the right method for a certain application hard enough, different methods have different strengths, e.g. regarding the type of anomalies they are able to find. In this work, we compare six unsupervised anomaly detection methods with different complexities to answer the questions: Are the more complex methods usually performing better? And are there specific anomaly types that those method are tailored to? The comparison is done on the UCR anomaly archive, a recent benchmark dataset for anomaly detection. We compare the six methods by analyzing the experimental results on a dataset- and anomaly type level after tuning the necessary hyperparameter for each method. Additionally we examine the ability of individual methods to incorporate prior knowledge about the anomalies and analyse the differences of point-wise and sequence wise features. We show with broad experiments, that the classical machine learning methods show a superior performance compared to the deep learning methods across a wide range of anomaly types.
translated by 谷歌翻译
Anomaly detection on time series data is increasingly common across various industrial domains that monitor metrics in order to prevent potential accidents and economic losses. However, a scarcity of labeled data and ambiguous definitions of anomalies can complicate these efforts. Recent unsupervised machine learning methods have made remarkable progress in tackling this problem using either single-timestamp predictions or time series reconstructions. While traditionally considered separately, these methods are not mutually exclusive and can offer complementary perspectives on anomaly detection. This paper first highlights the successes and limitations of prediction-based and reconstruction-based methods with visualized time series signals and anomaly scores. We then propose AER (Auto-encoder with Regression), a joint model that combines a vanilla auto-encoder and an LSTM regressor to incorporate the successes and address the limitations of each method. Our model can produce bi-directional predictions while simultaneously reconstructing the original time series by optimizing a joint objective function. Furthermore, we propose several ways of combining the prediction and reconstruction errors through a series of ablation studies. Finally, we compare the performance of the AER architecture against two prediction-based methods and three reconstruction-based methods on 12 well-known univariate time series datasets from NASA, Yahoo, Numenta, and UCR. The results show that AER has the highest averaged F1 score across all datasets (a 23.5% improvement compared to ARIMA) while retaining a runtime similar to its vanilla auto-encoder and regressor components. Our model is available in Orion, an open-source benchmarking tool for time series anomaly detection.
translated by 谷歌翻译
Aiot技术的最新进展导致利用机器学习算法来检测网络物理系统(CPS)的操作失败的越来越受欢迎。在其基本形式中,异常检测模块从物理工厂监控传感器测量和致动器状态,并检测这些测量中的异常以识别异常操作状态。然而,由于该模型必须在存在高度复杂的系统动态和未知量的传感器噪声的情况下准确地检测异常,构建有效的异常检测模型是挑战性的。在这项工作中,我们提出了一种新的时序序列异常检测方法,称为神经系统识别和贝叶斯滤波(NSIBF),其中特制的神经网络架构被构成系统识别,即捕获动态状态空间中CP的动态模型;然后,通过跟踪系统的隐藏状态的不确定性随着时间的推移,自然地施加贝叶斯滤波算法的顶部。我们提供定性的和定量实验,并在合成和三个现实世界CPS数据集上具有所提出的方法,表明NSIBF对最先进的方法比较了对CPS中异常检测的最新方法。
translated by 谷歌翻译
最近实现了更准确的短期预测的数据驱动的空气质量预测。尽管取得了成功,但大多数目前的数据驱动解决方案都缺乏适当的模型不确定性的量化,以传达信任预测的程度。最近,在概率深度学习中已经制定了几种估计不确定性的实用工具。但是,在空气质量预测领域的域中没有经验应用和广泛的比较这些工具。因此,这项工作在空气质量预测的真实环境中应用了最先进的不确定性量化。通过广泛的实验,我们描述了培训概率模型,并根据经验性能,信心可靠性,置信度估计和实际适用性评估其预测性不确定性。我们还使用空气质量数据中固有的“自由”对抗培训和利用时间和空间相关性提出改善这些模型。我们的实验表明,所提出的模型比以前的工作更好地在量化数据驱动空气质量预测中的不确定性方面表现出。总体而言,贝叶斯神经网络提供了更可靠的不确定性估计,但可能挑战实施和规模。其他可扩展方法,如深合奏,蒙特卡罗(MC)辍学和随机重量平均-Gaussian(SWAG)可以执行良好,如果正确应用,但具有不同的权衡和性能度量的轻微变化。最后,我们的结果表明了不确定性估计的实际影响,并证明了,实际上,概率模型更适合提出知情决策。代码和数据集可用于\ url {https:/github.com/abdulmajid-murad/deep_probabilistic_forecast}
translated by 谷歌翻译
评估能源转型和能源市场自由化对资源充足性的影响是一种越来越重要和苛刻的任务。能量系统的上升复杂性需要足够的能量系统建模方法,从而提高计算要求。此外,随着复杂性,同样调用概率评估和场景分析同样增加不确定性。为了充分和高效地解决这些各种要求,需要来自数据科学领域的新方法来加速当前方法。通过我们的系统文献综述,我们希望缩小三个学科之间的差距(1)电力供应安全性评估,(2)人工智能和(3)实验设计。为此,我们对所选应用领域进行大规模的定量审查,并制作彼此不同学科的合成。在其他发现之外,我们使用基于AI的方法和应用程序的AI方法和应用来确定电力供应模型的复杂安全性的元素,并作为未充分涵盖的应用领域的储存调度和(非)可用性。我们结束了推出了一种新的方法管道,以便在评估电力供应安全评估时充分有效地解决当前和即将到来的挑战。
translated by 谷歌翻译
准确可靠的流行病预测是对公共卫生规划和疾病缓解影响的重要问题。大多数现有的疫情预测模型无视不确定性量化,导致错误校准的预测。近期神经模型的作品,用于不确定感知的时序预测也有几个限制;例如很难在贝叶斯NNS中指定有意义的前瞻,而Deep Leaseming的方法在实践中是计算昂贵的。在本文中,我们填补了这个重要的差距。我们将预测任务模拟为概率生成过程,并提出了一种名为EPIFNP的功能神经过程模型,其直接模拟预测值的概率密度。 EPIFNP利用动态随机相关图来模拟非参数方式之间序列之间的相关性,并设计不同的随机潜变量以捕获不同视角的功能不确定性。我们在实时流感预测环境中的广泛实验表明,EPIFNP在准确性和校准度量中显着优于先前的最先进模型,精度高达2.5倍,校准2.4倍。此外,由于其生成过程的性质,EPIFNP了解当前季节与历史季节类似模式之间的关系,从而实现可解释的预测。超越疫情预测,EPIFNP可以是独立的利益,以便在深度顺序模型中推进预测性分析的深度顺序模型
translated by 谷歌翻译
明显大小的时间变化(称为光曲线)是望远镜在长时间内捕获的感兴趣的观察统计。光曲线提供了空间域意识(SDA)目标(例如对象识别或姿势估计)作为潜在变量推理问题等目标的探索。与较高的精确仪器相比,来自货架上商业架子(COTS)摄像机的地面观测仍然很便宜,但是,有限的传感器可用性与嘈杂的观察结果相结合,可能会产生可能难以建模的gappy时间序列数据。这些外部因素混淆了对光曲线的自动开发,这使光曲线预测和外推成为应用的关键问题。传统上,使用基于扩散或基于示例的方法解决了图像或时间序列的完成问题。最近,由于学习复杂的非线性嵌入方面的经验成功,深度神经网络(DNNS)已成为首选工具。但是,DNN通常需要大量的培训数据,而这些数据不一定在查看单个卫星的光曲线的独特功能时可用。在本文中,我们提出了一种新的方法,可以使用高斯工艺(GPS)预测光曲线的缺失和未来数据点。 GPS是非线性概率模型,可推断后验分布在功能上并自然量化不确定性。但是,GP推理和培训的立方缩放是其在应用中采用的主要障碍。特别是,单个光曲线可以具有数十万个观测值,这远远超出了单个机器上常规GP的实际实现极限。因此,我们采用MUYGP,这是一种可扩展的框架,用于使用最近的邻居稀疏和局部交叉验证的GP模型的超参数估计。 muygps ...
translated by 谷歌翻译
成像,散射和光谱是理解和发现新功能材料的基础。自动化和实验技术的当代创新导致这些测量更快,分辨率更高,从而产生了大量的分析数据。这些创新在用户设施和同步射击光源时特别明显。机器学习(ML)方法经常开发用于实时地处理和解释大型数据集。然而,仍然存在概念障碍,进入设施一般用户社区,通常缺乏ML的专业知识,以及部署ML模型的技术障碍。在此,我们展示了各种原型ML模型,用于在国家同步光源II(NSLS-II)的多个波束线上在飞行分析。我们谨慎地描述这些示例,专注于将模型集成到现有的实验工作流程中,使得读者可以容易地将它们自己的ML技术与具有普通基础设施的NSLS-II或设施的实验中的实验。此处介绍的框架展示了几乎没有努力,多样化的ML型号通过集成到实验编程和数据管理的现有Blueske套件中与反馈回路一起运行。
translated by 谷歌翻译
基于预测方法的深度学习已成为时间序列预测或预测的许多应用中的首选方法,通常通常优于其他方法。因此,在过去的几年中,这些方法现在在大规模的工业预测应用中无处不在,并且一直在预测竞赛(例如M4和M5)中排名最佳。这种实践上的成功进一步提高了学术兴趣,以理解和改善深厚的预测方法。在本文中,我们提供了该领域的介绍和概述:我们为深入预测的重要构建块提出了一定深度的深入预测;随后,我们使用这些构建块,调查了最近的深度预测文献的广度。
translated by 谷歌翻译
预测组合在预测社区中蓬勃发展,近年来,已经成为预测研究和活动主流的一部分。现在,由单个(目标)系列产生的多个预测组合通过整合来自不同来源收集的信息,从而提高准确性,从而减轻了识别单个“最佳”预测的风险。组合方案已从没有估计的简单组合方法演变为涉及时间变化的权重,非线性组合,组件之间的相关性和交叉学习的复杂方法。它们包括结合点预测和结合概率预测。本文提供了有关预测组合的广泛文献的最新评论,并参考可用的开源软件实施。我们讨论了各种方法的潜在和局限性,并突出了这些思想如何随着时间的推移而发展。还调查了有关预测组合实用性的一些重要问题。最后,我们以当前的研究差距和未来研究的潜在见解得出结论。
translated by 谷歌翻译