时间序列的建模在各种应用中变得越来越重要。总体而言,数据通过遵循不同的模式而演变,这些模式通常是由不同的用户行为引起的。给定时间序列,我们定义了进化基因以捕获潜在用户行为,并描述行为如何导致时间序列的产生。特别是,我们提出了一个统一的框架,该框架通过学习分类器来识别片段的不同演化基因,并通过估计片段的分布来实现对抗发电机来实现进化基因。基于合成数据集和五个现实世界数据集的实验结果表明,我们的方法不仅可以实现良好的预测结果(例如,在F1方面 +10.56%),还可以提供结果的解释。
translated by 谷歌翻译
Time series anomaly detection has applications in a wide range of research fields and applications, including manufacturing and healthcare. The presence of anomalies can indicate novel or unexpected events, such as production faults, system defects, or heart fluttering, and is therefore of particular interest. The large size and complex patterns of time series have led researchers to develop specialised deep learning models for detecting anomalous patterns. This survey focuses on providing structured and comprehensive state-of-the-art time series anomaly detection models through the use of deep learning. It providing a taxonomy based on the factors that divide anomaly detection models into different categories. Aside from describing the basic anomaly detection technique for each category, the advantages and limitations are also discussed. Furthermore, this study includes examples of deep anomaly detection in time series across various application domains in recent years. It finally summarises open issues in research and challenges faced while adopting deep anomaly detection models.
translated by 谷歌翻译
在智能交通系统中,交通拥堵异常检测至关重要。运输机构的目标有两个方面:监视感兴趣领域的一般交通状况,并在异常拥堵状态下定位道路细分市场。建模拥塞模式可以实现这些目标,以实现全市道路的目标,相当于学习多元时间序列(MTS)的分布。但是,现有作品要么不可伸缩,要么无法同时捕获MTS中的空间信息。为此,我们提出了一个由数据驱动的生成方法组成的原则性和全面的框架,该方法可以执行可拖动的密度估计来检测流量异常。我们的方法在特征空间中的第一群段段,然后使用条件归一化流以在无监督的设置下在群集级别识别异常的时间快照。然后,我们通过在异常群集上使用内核密度估计器来识别段级别的异常。关于合成数据集的广泛实验表明,我们的方法在召回和F1得分方面显着优于几种最新的拥塞异常检测和诊断方法。我们还使用生成模型来采样标记的数据,该数据可以在有监督的环境中训练分类器,从而减轻缺乏在稀疏设置中进行异常检测的标记数据。
translated by 谷歌翻译
“轨迹”是指由地理空间中的移动物体产生的迹线,通常由一系列按时间顺序排列的点表示,其中每个点由地理空间坐标集和时间戳组成。位置感应和无线通信技术的快速进步使我们能够收集和存储大量的轨迹数据。因此,许多研究人员使用轨迹数据来分析各种移动物体的移动性。在本文中,我们专注于“城市车辆轨迹”,这是指城市交通网络中车辆的轨迹,我们专注于“城市车辆轨迹分析”。城市车辆轨迹分析提供了前所未有的机会,可以了解城市交通网络中的车辆运动模式,包括以用户为中心的旅行经验和系统范围的时空模式。城市车辆轨迹数据的时空特征在结构上相互关联,因此,许多先前的研究人员使用了各种方法来理解这种结构。特别是,由于其强大的函数近似和特征表示能力,深度学习模型是由于许多研究人员的注意。因此,本文的目的是开发基于深度学习的城市车辆轨迹分析模型,以更好地了解城市交通网络的移动模式。特别是,本文重点介绍了两项研究主题,具有很高的必要性,重要性和适用性:下一个位置预测,以及合成轨迹生成。在这项研究中,我们向城市车辆轨迹分析提供了各种新型模型,使用深度学习。
translated by 谷歌翻译
时间序列分析已在网络安全,环境监测和医学信息学等不同应用中取得了巨大成功。在不同时间序列之间学习相似性是一个关键问题,因为它是下游分析(例如聚类和异常检测)的基础。由于事件触发的传感产生的时间序列的复杂时间动态,通常不清楚哪种距离度量适合相似性学习,这在各种应用中很常见,包括自动驾驶,交互式医疗保健和智能家庭自动化。本文的总体目标是开发一个无监督的学习框架,该框架能够在未标记的事件触发时间序列中学习任务感知的相似性。从机器学习有利位置,提出的框架可以利用层次多尺度序列自动编码器和高斯混合模型(GMM)的功能,以有效地学习时间序列的低维表示。最后,可以轻松地将获得的相似性度量可视化以进行解释。拟议的框架渴望提供一块垫脚石,从而产生一种系统的模型方法,以在许多事件触发的时间序列中学习相似之处。通过广泛的定性和定量实验,揭示了所提出的方法的表现大大优于最先进的方法。
translated by 谷歌翻译
在能源系统的数字化中,传感器和智能电表越来越多地用于监视生产,运行和需求。基于智能电表数据的异常检测对于在早期阶段识别潜在的风险和异常事件至关重要,这可以作为及时启动适当动作和改善管理的参考。但是,来自能源系统的智能电表数据通常缺乏标签,并且包含噪声和各种模式,而没有明显的周期性。同时,在不同的能量场景中对异常的模糊定义和高度复杂的时间相关性对异常检测构成了巨大的挑战。许多传统的无监督异常检测算法(例如基于群集或基于距离的模型)对噪声不强大,也不完全利用时间序列中的时间依赖性以及在多个变量(传感器)中的其他依赖关系。本文提出了一种基于带有注意机制的变异复发自动编码器的无监督异常检测方法。凭借来自智能电表的“肮脏”数据,我们的方法预示了缺失的值和全球异常,以在训练中缩小其贡献。本文与基于VAE的基线方法和其他四种无监督的学习方法进行了定量比较,证明了其有效性和优势。本文通过一项实际案例研究进一步验证了所提出的方法,该研究方法是检测工业加热厂的供水温度异常。
translated by 谷歌翻译
无监督的时间序列异常检测对各种域中目标系统的潜在故障有助于。当前的最新时间序列异常检测器主要集中于设计高级神经网络结构和新的重建/预测学习目标,以尽可能准确地学习数据正常(正常模式和行为)。但是,这些单级学习方法可以被训练数据中未知异常(即异常污染)所欺骗。此外,他们的正常学习也缺乏对感兴趣异常的知识。因此,他们经常学习一个有偏见的,不准确的正态边界。本文提出了一种新型的单级学习方法,称为校准的一级分类,以解决此问题。我们的单级分类器以两种方式进行校准:(1)通过适应性地惩罚不确定的预测,这有助于消除异常污染的影响,同时强调单级模型对一级模型有信心的预测,并通过区分正常情况来确定(2)来自本机异常示例的样本,这些样本是根据原始数据基于原始数据模拟真实时间序列异常行为的。这两个校准导致耐污染的,异常的单级学习,从而产生了显着改善的正态性建模。对六个现实世界数据集进行的广泛实验表明,我们的模型大大优于12个最先进的竞争对手,并获得了6%-31%的F1分数提高。源代码可在\ url {https://github.com/xuhongzuo/couta}中获得。
translated by 谷歌翻译
随着深度学习生成模型的最新进展,它在时间序列领域的出色表现并没有花费很长时间。用于与时间序列合作的深度神经网络在很大程度上取决于培训中使用的数据集的广度和一致性。这些类型的特征通常在现实世界中不丰富,在现实世界中,它们通常受到限制,并且通常具有必须保证的隐私限制。因此,一种有效的方法是通过添加噪声或排列并生成新的合成数据来使用\ gls {da}技术增加数据数。它正在系统地审查该领域的当前最新技术,以概述所有可用的算法,并提出对最相关研究的分类法。将评估不同变体的效率;作为过程的重要组成部分,将分析评估性能的不同指标以及有关每个模型的主要问题。这项研究的最终目的是摘要摘要,这些领域的进化和性能会产生更好的结果,以指导该领域的未来研究人员。
translated by 谷歌翻译
机器学习模型通常会遇到与训练分布不同的样本。无法识别分布(OOD)样本,因此将该样本分配给课堂标签会显着损害模​​型的可靠性。由于其对在开放世界中的安全部署模型的重要性,该问题引起了重大关注。由于对所有可能的未知分布进行建模的棘手性,检测OOD样品是具有挑战性的。迄今为止,一些研究领域解决了检测陌生样本的问题,包括异常检测,新颖性检测,一级学习,开放式识别识别和分布外检测。尽管有相似和共同的概念,但分别分布,开放式检测和异常检测已被独立研究。因此,这些研究途径尚未交叉授粉,创造了研究障碍。尽管某些调查打算概述这些方法,但它们似乎仅关注特定领域,而无需检查不同领域之间的关系。这项调查旨在在确定其共同点的同时,对各个领域的众多著名作品进行跨域和全面的审查。研究人员可以从不同领域的研究进展概述中受益,并协同发展未来的方法。此外,据我们所知,虽然进行异常检测或单级学习进行了调查,但没有关于分布外检测的全面或最新的调查,我们的调查可广泛涵盖。最后,有了统一的跨域视角,我们讨论并阐明了未来的研究线,打算将这些领域更加紧密地融为一体。
translated by 谷歌翻译
无监督的异常检测旨在通过在正常数据上训练来建立模型以有效地检测看不见的异常。尽管以前的基于重建的方法取得了富有成效的进展,但由于两个危急挑战,他们的泛化能力受到限制。首先,训练数据集仅包含正常模式,这限制了模型泛化能力。其次,现有模型学到的特征表示通常缺乏代表性,妨碍了保持正常模式的多样性的能力。在本文中,我们提出了一种称为自适应存储器网络的新方法,具有自我监督的学习(AMSL)来解决这些挑战,并提高无监督异常检测中的泛化能力。基于卷积的AutoEncoder结构,AMSL包含一个自我监督的学习模块,以学习一般正常模式和自适应内存融合模块来学习丰富的特征表示。四个公共多变量时间序列数据集的实验表明,与其他最先进的方法相比,AMSL显着提高了性能。具体而言,在具有9亿个样本的最大帽睡眠阶段检测数据集上,AMSL以精度和F1分数\ TextBF {4} \%+优于第二个最佳基线。除了增强的泛化能力之外,AMSL还针对输入噪声更加强大。
translated by 谷歌翻译
TimeSeries Partitioning是大多数机器学习驱动的传感器的IOT应用程序的重要步骤。本文介绍了一种采样效率,鲁棒,时序分割模型和算法。我们表明,通过基于最大平均差异(MMD)的分割目标来学习特定于分割目标的表示,我们的算法可以鲁布布地检测不同应用程序的时间序列事件。我们的损耗功能允许我们推断是否从相同的分布(空假设)中绘制了连续的样本序列,并确定拒绝零假设的对之间的变化点(即,来自不同的分布)。我们展示了其在基于环境传感的活动识别的实际IOT部署中的适用性。此外,虽然文献中存在许多关于变更点检测的作品,但我们的模型明显更简单,匹配或优于最先进的方法。我们可以平均地在9-93秒内完全培训我们的模型,而在不同应用程序上的数据的差异很小。
translated by 谷歌翻译
大量的数据和创新算法使数据驱动的建模成为现代行业的流行技术。在各种数据驱动方法中,潜在变量模型(LVM)及其对应物占主要份额,并在许多工业建模领域中起着至关重要的作用。 LVM通常可以分为基于统计学习的经典LVM和基于神经网络的深层LVM(DLVM)。我们首先讨论经典LVM的定义,理论和应用,该定义和应用既是综合教程,又是对经典LVM的简短申请调查。然后,我们对当前主流DLVM进行了彻底的介绍,重点是其理论和模型体系结构,此后不久就提供了有关DLVM的工业应用的详细调查。上述两种类型的LVM具有明显的优势和缺点。具体而言,经典的LVM具有简洁的原理和良好的解释性,但是它们的模型能力无法解决复杂的任务。基于神经网络的DLVM具有足够的模型能力,可以在复杂的场景中实现令人满意的性能,但它以模型的解释性和效率为例。旨在结合美德并减轻这两种类型的LVM的缺点,并探索非神经网络的举止以建立深层模型,我们提出了一个新颖的概念,称为“轻量级Deep LVM(LDLVM)”。在提出了这个新想法之后,该文章首先阐述了LDLVM的动机和内涵,然后提供了两个新颖的LDLVM,并详尽地描述了其原理,建筑和优点。最后,讨论了前景和机会,包括重要的开放问题和可能的研究方向。
translated by 谷歌翻译
与CNN的分类,分割或对象检测相比,生成网络的目标和方法根本不同。最初,它们不是作为图像分析工具,而是生成自然看起来的图像。已经提出了对抗性训练范式来稳定生成方法,并已被证明是非常成功的 - 尽管绝不是第一次尝试。本章对生成对抗网络(GAN)的动机进行了基本介绍,并通​​过抽象基本任务和工作机制并得出了早期实用方法的困难来追溯其成功的道路。将显示进行更稳定的训练方法,也将显示出不良收敛及其原因的典型迹象。尽管本章侧重于用于图像生成和图像分析的gan,但对抗性训练范式本身并非特定于图像,并且在图像分析中也概括了任务。在将GAN与最近进入场景的进一步生成建模方法进行对比之前,将闻名图像语义分割和异常检测的架构示例。这将允许对限制的上下文化观点,但也可以对gans有好处。
translated by 谷歌翻译
最近的研究表明,基于自动编码器的模型可以在异常检测任务上实现出色的性能,因为它们以无监督的方式适合复杂数据的能力出色。在这项工作中,我们提出了一种新型的基于自动编码器的模型,称为Stackvae-G,可以显着将效率和解释性带入多元时间序列异常检测。具体而言,我们通过使用权重共生方案的堆叠式重建来利用整个时间序列频道的相似性来减少学习模型的大小,并减轻培训数据中未知噪声的过度拟合。我们还利用图形学习模块来学习稀疏的邻接矩阵,以明确捕获多个时间序列通道之间的稳定相互关系结构,以便对相互关联的通道的可解释模式重建。结合了这两个模块,我们将堆叠式块VAE(变异自动编码器)与GNN(图神经网络)模型进行了多变量时间序列异常检测。我们对三个常用的公共数据集进行了广泛的实验,这表明我们的模型与最先进的模型相当(甚至更好)的性能,同时需要更少的计算和内存成本。此外,我们证明,通过模型学到的邻接矩阵可以准确捕获多个渠道之间的相互关系,并可以为失败诊断应用提供有价值的信息。
translated by 谷歌翻译
时间序列数据在现实世界应用中无处不在。但是,最常见的问题之一是,时间序列数据可能会通过数据收集过程的固有性质丢失值。因此,必须从多元(相关)时间序列数据中推出缺失值,这对于改善预测性能的同时做出准确的数据驱动决策至关重要。插补的常规工作简单地删除缺失值或基于平均/零填充它们。尽管基于深层神经网络的最新作品显示出了显着的结果,但它们仍然有一个限制来捕获多元时间序列的复杂生成过程。在本文中,我们提出了一种用于多变量时间序列数据的新型插补方法,称为sting(使用GAN基于自我注意的时间序列插补网络)。我们利用生成的对抗网络和双向复发性神经网络来学习时间序列的潜在表示。此外,我们引入了一种新型的注意机制,以捕获整个序列的加权相关性,并避免无关序列带来的潜在偏见。三个现实世界数据集的实验结果表明,刺痛在插补精度以及具有估算值的下游任务方面优于现有的最新方法。
translated by 谷歌翻译
用于现实世界应用程序的时间序列分类器的安全部署依赖于检测未从与培训数据相同的分布生成的数据的能力。此任务称为离分布(OOD)检测。我们考虑了时间序列域的OOD检测的新问题。我们讨论了时间序列数据带来的独特挑战,并解释了为什么来自图像域的先前方法会表现不佳。受这些挑战的激励,本文提出了一种新颖的{\ em季节性评分(SRS)}方法。 SRS由三个关键算法步骤组成。首先,将每个输入分解为类别的语义组件和余数。其次,使用这种分解来估计输入的阶级条件可能性和使用深层生成模型的条件。从这些估计值中计算出季节性比率得分。第三,从分布数据中确定阈值间隔以检测OOD示例。对不同现实世界基准的实验表明,与基线方法相比,SRS方法非常适合于时间序列OOD检测。 https://github.com/tahabelkhouja/srs提供了SRS方法的开源代码
translated by 谷歌翻译
近年来,拥抱集群研究中的表演学习的深度学习技术引起了广泛的关注,产生了一个新开发的聚类范式,QZ。深度聚类(DC)。通常,DC型号大写AutoEncoders,以了解促进聚类过程的内在特征。如今,一个名为变变AualEncoder(VAE)的生成模型在DC研究中得到了广泛的认可。然而,平原VAE不足以察觉到综合潜在特征,导致细分性能恶化。本文提出了一种新的DC方法来解决这个问题。具体地,生成的逆势网络和VAE被聚结成了一种名为Fusion AutoEncoder(FAE)的新的AutoEncoder,以辨别出更多的辨别性表示,从而使下游聚类任务受益。此外,FAE通过深度剩余网络架构实施,进一步提高了表示学习能力。最后,将FAE的潜在空间转变为由深密神经网络的嵌入空间,用于彼此从彼此拉出不同的簇,并将数据点折叠在单个簇内。在几个图像数据集上进行的实验证明了所提出的DC模型对基线方法的有效性。
translated by 谷歌翻译
通过人类活动(例如在线购买,健康记录,空间流动性等)生成的大量数据可以在连续时间内表示为一系列事件。在这些连续的时间事件序列上学习深度学习模型是一项非平凡的任务,因为它涉及建模不断增加的事件时间戳,活动间时间差距,事件类型以及不同序列内部和跨不同序列之间的不同事件之间的影响。近年来,对标记的时间点过程(MTPP)的神经增强功能已成为一种强大的框架,以模拟连续时间内定位的异步事件的基本生成机制。但是,MTPP框架中的大多数现有模型和推理方法仅考虑完整的观察方案,即所建模的事件序列是完全观察到的,没有丢失的事件 - 理想的设置很少适用于现实世界应用程序。最近考虑的事件的最新工作是在培训MTPP时采用监督的学习技术,这些技术需要以序列的方式了解每个事件的丢失或观察标签,这进一步限制了其实用性,因为在几种情况下,缺失事件的细节是不知道的apriori 。在这项工作中,我们提供了一种新颖的无监督模型和推理方法,用于在存在事件序列的情况下学习MTPP。具体而言,我们首先使用两个MTPP模拟观察到的事件和缺失事件的生成过程,其中缺少事件表示为潜在的随机变量。然后,我们设计了一种无监督的训练方法,该方法通过变异推断共同学习MTPP。这样的公式可以有效地将丢失的数据归为观察到的事件,并可以在序列中确定缺失事件的最佳位置。
translated by 谷歌翻译
这是一门专门针对STEM学生开发的介绍性机器学习课程。我们的目标是为有兴趣的读者提供基础知识,以在自己的项目中使用机器学习,并将自己熟悉术语作为进一步阅读相关文献的基础。在这些讲义中,我们讨论受监督,无监督和强化学习。注释从没有神经网络的机器学习方法的说明开始,例如原理分析,T-SNE,聚类以及线性回归和线性分类器。我们继续介绍基本和先进的神经网络结构,例如密集的进料和常规神经网络,经常性的神经网络,受限的玻尔兹曼机器,(变性)自动编码器,生成的对抗性网络。讨论了潜在空间表示的解释性问题,并使用梦和对抗性攻击的例子。最后一部分致力于加强学习,我们在其中介绍了价值功能和政策学习的基本概念。
translated by 谷歌翻译
Forecasting time series with extreme events has been a challenging and prevalent research topic, especially when the time series data are affected by complicated uncertain factors, such as is the case in hydrologic prediction. Diverse traditional and deep learning models have been applied to discover the nonlinear relationships and recognize the complex patterns in these types of data. However, existing methods usually ignore the negative influence of imbalanced data, or severe events, on model training. Moreover, methods are usually evaluated on a small number of generally well-behaved time series, which does not show their ability to generalize. To tackle these issues, we propose a novel probability-enhanced neural network model, called NEC+, which concurrently learns extreme and normal prediction functions and a way to choose among them via selective back propagation. We evaluate the proposed model on the difficult 3-day ahead hourly water level prediction task applied to 9 reservoirs in California. Experimental results demonstrate that the proposed model significantly outperforms state-of-the-art baselines and exhibits superior generalization ability on data with diverse distributions.
translated by 谷歌翻译