Time series motif discovery has been a fundamental task to identify meaningful repeated patterns in time series. Recently, time series chains were introduced as an expansion of time series motifs to identify the continuous evolving patterns in time series data. Informally, a time series chain (TSC) is a temporally ordered set of time series subsequences, in which every subsequence is similar to the one that precedes it, but the last and the first can be arbitrarily dissimilar. TSCs are shown to be able to reveal latent continuous evolving trends in the time series, and identify precursors of unusual events in complex systems. Despite its promising interpretability, unfortunately, we have observed that existing TSC definitions lack the ability to accurately cover the evolving part of a time series: the discovered chains can be easily cut by noise and can include non-evolving patterns, making them impractical in real-world applications. Inspired by a recent work that tracks how the nearest neighbor of a time series subsequence changes over time, we introduce a new TSC definition which is much more robust to noise in the data, in the sense that they can better locate the evolving patterns while excluding the non-evolving ones. We further propose two new quality metrics to rank the discovered chains. With extensive empirical evaluations, we demonstrate that the proposed TSC definition is significantly more robust to noise than the state of the art, and the top ranked chains discovered can reveal meaningful regularities in a variety of real world datasets.
translated by 谷歌翻译
对自然和人制过程的研究通常会导致长时间有序值的长序列,也就是时间序列(TS)。这样的过程通常由多个状态组成,例如机器的操作模式,使观测过程中的状态变化会导致测量值形状的分布变化。时间序列分割(TSS)试图发现TS事后的这种变化,以推断数据生成过程的变化。通常将TSS视为无监督的学习问题,目的是识别某些统计属性可区分的细分。 TSS的当前算法要求用户设置依赖域的超参数,对TS值分布进行假设或可检测更改的类型,以限制其适用性。常见的超参数是段均匀性和变更点的数量的度量,对于每个数据集,这尤其难以调节。我们提出了TSS的一种新颖,高度准确,无参数和域的无义方法的方法。扣子分层将TS分为两个部分。更改点是通过训练每个可能的拆分点的二进制TS分类器来确定的,并选择最能识别从任何一个分区的子序列的一个拆分。 CLASP使用两种新颖的定制算法从数据中学习了其主要的两个模型参数。在我们使用115个数据集的基准测试的实验评估中,我们表明,扣子优于准确性,并且可以快速且可扩展。此外,我们使用几个现实世界的案例研究强调了扣子的特性。
translated by 谷歌翻译
拼图解决问题,从一组非重叠的无序视觉碎片构建一个连贯的整体,是许多应用的基础,然而,过去二十年的大部分文献都集中在较不太现实的谜题上正方形。在这里,我们正规化一种新型的拼图拼图,其中碎片是通过用任意数量的直切割的全局多边形/图像切割而产生的一般凸多边形,这是由庆祝的懒人辅助er序列的产生模型。我们分析了这种难题的理论特性,包括在碎片被几何噪声被污染时解决它们的固有挑战。为了应对此类困难并获得易行的解决方案,我们摘要作为一种具有分层循环约束和分层重建过程的多体弹簧质量动态系统的问题。我们定义了评估指标,并在普通植物和图案谜题上呈现实验结果,以表明它们是完全自动溶解的。
translated by 谷歌翻译
紧凑和节能的可穿戴传感器的发展导致生物信号的可用性增加。为了分析这些连续记录的,通常是多维的时间序列,能够进行有意义的无监督数据分割是一个吉祥的目标。实现这一目标的一种常见方法是将时间序列中的变更点确定为分割基础。但是,传统的更改点检测算法通常带有缺点,从而限制了其现实世界的适用性。值得注意的是,他们通常依靠完整的时间序列可用,因此不能用于实时应用程序。另一个常见的限制是,它们处理多维时间序列的分割(或无法)。因此,这项工作的主要贡献是提出一种新型的无监督分段算法,用于多维时间序列,名为潜在空间无监督的语义细分(LS-USS),该算法旨在轻松地与在线和批处理数据一起使用。在将LS-USS与其他最先进的更改点检测算法进行比较时,在各种现实世界数据集上,在离线和实时设置中,LS-USS在PAR或更好的性能上都可以系统地实现。
translated by 谷歌翻译
概念漂移过程挖掘(PM)是一种挑战,因为古典方法假设进程处于稳态,即事件共享相同的进程版本。我们对这些领域的交叉点进行了系统的文献综述,从而审查了过程采矿中的概念漂移,并提出了用于漂移检测和在线流程挖掘的现有技术的分类,以实现不断发展的环境。现有的作品描绘了(i)PM仍然主要关注离线分析,并且(ii)由于缺乏公共评估协议,数据集和指标,过程中的概念漂移技术的评估是麻烦的。
translated by 谷歌翻译
长序列中的子序列异常检测是在广泛域中应用的重要问题。但是,迄今为止文献中提出的方法具有严重的局限性:它们要么需要用于设计异常发现算法的先前领域知识,要么在与相同类型的复发异常情况下使用繁琐且昂贵。在这项工作中,我们解决了这些问题,并提出了一种适用于域的不可知论次序列异常检测的方法。我们的方法series2graph基于新型低维嵌入子序列的图表。 Series2Graph不需要标记的实例(例如监督技术)也不需要无异常的数据(例如零阳性学习技术),也不需要识别长度不同的异常。在迄今为止使用的最大合成和真实数据集的实验结果表明,所提出的方法正确地识别了单一和复发异常,而无需任何先验的特征,以优于多种差距的准确性,同时提高了几种竞争的方法,同时又表现出色更快的数量级。本文出现在VLDB 2020中。
translated by 谷歌翻译
The most useful data mining primitives are distance measures. With an effective distance measure, it is possible to perform classification, clustering, anomaly detection, segmentation, etc. For single-event time series Euclidean Distance and Dynamic Time Warping distance are known to be extremely effective. However, for time series containing cyclical behaviors, the semantic meaningfulness of such comparisons is less clear. For example, on two separate days the telemetry from an athlete workout routine might be very similar. The second day may change the order in of performing push-ups and squats, adding repetitions of pull-ups, or completely omitting dumbbell curls. Any of these minor changes would defeat existing time series distance measures. Some bag-of-features methods have been proposed to address this problem, but we argue that in many cases, similarity is intimately tied to the shapes of subsequences within these longer time series. In such cases, summative features will lack discrimination ability. In this work we introduce PRCIS, which stands for Pattern Representation Comparison in Series. PRCIS is a distance measure for long time series, which exploits recent progress in our ability to summarize time series with dictionaries. We will demonstrate the utility of our ideas on diverse tasks and datasets.
translated by 谷歌翻译
矩阵配置文件是一种有效的数据挖掘工具,可提供时间序列数据的相似关系。矩阵配置文件的用户可以使用相似性连接(即,自行连接)或使用相似性相互作用连接使用另一个时间序列加入时间序列。通过调用或两种类型的连接,矩阵配置文件可以帮助用户在数据中发现保守和异常结构。自从五年前引入矩阵简介以来,已经进行了多项努力,以加快近似联合的计算;然而,大多数这些努力只关注自我连接。在这项工作中,我们表明可以通过创建时间序列的紧凑“字典”表示,有效地使用误差限制保证来执行近似时间序列相似度。使用字典表示而不是原始时间序列,我们能够将异常挖掘系统的吞吐量至少为20倍,基本上没有准确度降低。作为副作用,字典还以语义有意义的方式总结时间序列,可以提供直观和可操作的见解。我们展示了我们的字典的内部序列相似性的实用性,如医学和运输所多样化的域。
translated by 谷歌翻译
降低降低和聚类通常被用作许多复杂机器学习任务的初步步骤。噪声和离群值的存在可能会恶化此类预处理的性能,从而极大地损害了后续分析。在流形学习中,几项研究表明,当密度大大高于噪声所示时,可以消除接近结构的背景噪声或接近结构的解决方案。但是,在包括天文数据集在内的许多应用中,密度随埋在嘈杂背景的流形而变化。我们提出了一种基于蚂蚁菌落优化的思想,在存在噪声的情况下提取歧管的新方法。与现有的随机步行解决方案相反,我们的技术捕获了与歧管的主要方向局部对齐的点。此外,我们从经验上表明,蚂蚁信息素的生物学启发的配方增强了这种行为,使其能够恢复嵌入极其嘈杂的数据云中的多个歧管。与在几个合成和真实数据集上(包括宇宙学量的N体模拟)相比,证明了与最新的降噪方法的最新方法相比,算法性能。
translated by 谷歌翻译
许多时间序列数据挖掘问题可以通过重复使用距离度量来解决。此类任务的示例包括相似性搜索,聚类,分类,异常检测和分割。在过去的二十年中,人们已经知道,在大多数域中,动态时间扭曲(DTW)距离度量是用于大多数任务的最佳措施。由于经典的DTW算法具有二次的时间复杂性,因此引入了许多想法,以减少其摊销时间或快速近似它。最引用的近似方法之一是FastDTW。 FastDTW算法已有超过一千个引用,并已在数百个研究工作中明确使用。在这项工作中,我们提出了令人惊讶的主张。在任何现实的数据挖掘应用程序中,近似FastDTW都比确切的DTW慢得多。这个事实显然对使用此算法的社区具有影响:允许其解决更大的数据集,获得确切的结果并在更少的时间内完成。
translated by 谷歌翻译
图主直觉是一个短时间序列,在较大的时间序列中重复自身大致相同。这样的主题通常代表隐藏的结构,例如心电图记录中的心跳或脑电图中的睡眠纺锤体。主题发现(MD)是在给定输入系列中找到此类主题的任务。由于有不同的定义,因此存在许多算法。作为中心参数,它们都采用了基序的长度L和图案发生之间的最大距离R。但是,实际上,R的合适值很难确定前期,并且发现的图案显示出很高的可变性。设置错误的输入值将导致一个与噪声无法区分的主题。因此,使用这些方法找到一个有趣的主题需要广泛的试用和错误。我们对MD问题提出了不同的方法。我们将k- motiflet定义为长度为l的基序的精确k出现,其最大成对距离是最小的。这将MD问题颠倒了:我们的中心参数不是距离阈值r,而是主题集的所需尺寸K,我们显示的更直观且易于设置。基于此定义,我们提出了用于查找K-单体并分析其复杂性的精确和近似算法。为了进一步缓解我们的方法的使用,我们描述了扩展,以自动确定其输入参数的正确/合适值。因此,第一次提取有意义的主题集在没有任何A-Priori知识的情况下变得可行。通过评估现实世界的用例并将其与4种最先进的MD算法进行比较,我们表明我们提出的算法在定量上是(a)较高的,在较高的相似性上找到较大的基序集,(b)在质量上更好,导致,导致更清晰,更易于解释主题,(c)的运行时间最低。
translated by 谷歌翻译
时间序列的异常检测一直是数据科学中常年重要的主题,论文可以追溯到1950年代。但是,近年来,对这个主题引起了人们的兴趣,其中很大程度上是由于深度学习在其他领域和其他时间序列任务中的成功驱动。这些论文中的大多数对Yahoo,Numenta,NASA等创建的一个或多个流行的基准数据集进行了测试。在这项工作中,我们提出了令人惊讶的主张。这些数据集中的大多数示例都遭受四个缺陷中的一个或多个。由于这四个缺陷,我们认为许多发表的异常检测算法的比较可能是不可靠的,更重要的是,近年来,许多明显的进展可能都是幻觉。除了证明这些主张外,我们还介绍了UCR时间序列异常存档。我们认为,该资源将通过为社区提供基准,从而可以在方法和有意义的总体进步范围之间进行有意义的比较,从而扮演与UCR时间序列分类档案相似的角色。
translated by 谷歌翻译
流媒体数据中对异常的实时检测正在受到越来越多的关注,因为它使我们能够提高警报,预测故障并检测到整个行业的入侵或威胁。然而,很少有人注意比较流媒体数据(即在线算法)的异常检测器的有效性和效率。在本文中,我们介绍了来自不同算法家族(即基于距离,密度,树木或投影)的主要在线检测器的定性合成概述,并突出了其构建,更新和测试检测模型的主要思想。然后,我们对在线检测算法的定量实验评估以及其离线对应物进行了彻底的分析。检测器的行为与不同数据集(即元功能)的特征相关,从而提供了对其性能的元级分析。我们的研究介绍了文献中几个缺失的见解,例如(a)检测器对随机分类器的可靠性以及什么数据集特性使它们随机执行; (b)在线探测器在何种程度上近似离线同行的性能; (c)哪种绘制检测器的策略和更新原始图最适合检测仅在数据集的功能子空间中可见的异常; (d)属于不同算法家族的探测器的有效性与效率之间的权衡是什么; (e)数据集的哪些特定特征产生在线算法以胜过所有其他特征。
translated by 谷歌翻译
Concept drift describes unforeseeable changes in the underlying distribution of streaming data over time. Concept drift research involves the development of methodologies and techniques for drift detection, understanding and adaptation. Data analysis has revealed that machine learning in a concept drift environment will result in poor learning results if the drift is not addressed. To help researchers identify which research topics are significant and how to apply related techniques in data analysis tasks, it is necessary that a high quality, instructive review of current research developments and trends in the concept drift field is conducted. In addition, due to the rapid development of concept drift in recent years, the methodologies of learning under concept drift have become noticeably systematic, unveiling a framework which has not been mentioned in literature. This paper reviews over 130 high quality publications in concept drift related research areas, analyzes up-to-date developments in methodologies and techniques, and establishes a framework of learning under concept drift including three main components: concept drift detection, concept drift understanding, and concept drift adaptation. This paper lists and discusses 10 popular synthetic datasets and 14 publicly available benchmark datasets used for evaluating the performance of learning algorithms aiming at handling concept drift. Also, concept drift related research directions are covered and discussed. By providing state-of-the-art knowledge, this survey will directly support researchers in their understanding of research developments in the field of learning under concept drift.
translated by 谷歌翻译
在执行现实生活过程中,计划或意外的变化是常见的。检测这些更改是优化运行此类过程的组织的性能的必要条件。最先进的大多数算法都集中在突然变化的检测上,抛开其他类型的变化。在本文中,我们将专注于自动检测渐进漂移,这是一种特殊的变化类型,其中两个模型的情况在一段时间内重叠。所提出的算法依赖于一致性检查指标来自动检测变化,还将这些变化的全自动分类为突然或逐渐分类。该方法已通过一个由120个日志组成的合成数据集进行了验证,该数据集具有不同的变化分布,在检测和分类准确性,延迟和变化区域在比较主要的最新算法方面取得更好的结果。
translated by 谷歌翻译
近年来,传感器技术中有前所未有的技术进步,传感器变得比以往任何时候都更实惠。因此,传感器驱动数据收集越来越多地成为全球研究人员的吸引力和实用的选择。这些数据通常以时间序列数据的形式提取,这可以用数据挖掘技术来研究,以总结一系列受试者的行为,包括人类和动物。虽然启用廉价和质量收集数据,但连续传感器数据记录在大小和体积中大的数据集,这是在及时处理和分析传统技术的具有挑战性。这种收集的传感器数据通常以时间序列数据的形式提取。文献中有两种主要方法,即基于形状的分类和基于特征的分类。基于形状的分类根据距离测量确定最佳类。另一方面,基于功能的分类,根据时间序列定义的功能,找到时间序列的属性并找到最佳类。在本文中,我们证明这两种技术都不会使一些问题占主导地位,但两者都可能是最好的。换句话说,在一个问题上,可能的技术可以更好地对行为的一个子集更好,而另一技术对于另一个行为的子集更好。我们介绍了一种混合算法来分类行为,使用两个形状和特征措施,在从传感器收集的弱标记时间序列数据中,以量化由受试者执行的特定行为。我们展示了我们的算法可以基于形状和特征的组合,强大地分类真实,嘈杂和复杂的数据集,并在现实世界数据集中测试了我们所提出的算法。
translated by 谷歌翻译
准确性是当前工作的关键重点,用于时间序列分类。但是,许多应用程序中的速度和数据降低同样重要,尤其是当数据量表和存储需求迅速增加时。当前的MTSC算法需要数百个计算小时才能完成培训和预测。这是由于多元时间序列数据的性质,该数据随时间序列,其长度和通道数量而增长。在许多应用程序中,并非所有渠道都对分类任务有用。因此,我们需要可以有效选择有用的渠道并节省计算资源的方法。我们提出并评估两种用于渠道选择的方法。我们的技术通过由原型时间序列表示每个类,并根据类之间的原型距离执行通道选择。主要假设是有用的通道可以在类之间进行更好的分离。因此,类原型之间具有较高距离的通道更有用。在UEA多元时间序列分类(MTSC)基准上,我们表明这些技术可实现显着的数据降低和分类器加速,以达到类似的分类精度。在训练最先进的MTSC算法之前,将通道选择作为预处理步骤,并节省了约70 \%的计算时间和数据存储,并保留了精确度。此外,我们的方法使甚至可以使用不使用通道选择或前向通道选择的有效分类器(例如Rocket)获得了更好的准确性。为了进一步研究我们的技术的影响,我们介绍了对具有100多个通道的合成多元时间序列数据集进行分类的实验,以及在具有50个渠道的数据集上进行的真实世界案例研究。我们的渠道选择方法可通过保留或提高的精度可显着减少数据。
translated by 谷歌翻译
聚类算法的全面基准是困难的两个关键因素:(i)〜这种无监督的学习方法的独特数学定义和(ii)〜某些聚类算法采用的生成模型或群集标准之间的依赖性的依赖性内部集群验证。因此,对严格基准测试的最佳做法没有达成共识,以及是否有可能在给定申请的背景之外。在这里,我们认为合成数据集必须继续在群集算法的评估中发挥重要作用,但这需要构建适当地涵盖影响聚类算法性能的各种属性集的基准。通过我们的框架,我们展示了重要的角色进化算法,以支持灵活的这种基准,允许简单的修改和扩展。我们说明了我们框架的两种可能用途:(i)〜基准数据的演变与一组手派生属性和(ii)〜生成梳理给定对算法之间的性能差异的数据集。我们的作品对设计集群基准的设计具有足够挑战广泛算法的集群基准,并进一步了解特定方法的优势和弱点。
translated by 谷歌翻译
异常值是一个事件或观察,其被定义为不同于距群体的不规则距离的异常活动,入侵或可疑数据点。然而,异常事件的定义是主观的,取决于应用程序和域(能量,健康,无线网络等)。重要的是要尽可能仔细地检测异常事件,以避免基础设施故障,因为异常事件可能导致对基础设施的严重损坏。例如,诸如微电网的网络物理系统的攻击可以发起电压或频率不稳定性,从而损坏涉及非常昂贵的修复的智能逆变器。微电网中的不寻常活动可以是机械故障,行为在系统中发生变化,人体或仪器错误或恶意攻击。因此,由于其可变性,异常值检测(OD)是一个不断增长的研究领域。在本章中,我们讨论了使用AI技术的OD方法的进展。为此,通过多个类别引入每个OD模型的基本概念。广泛的OD方法分为六大类:基于统计,基于距离,基于密度的,基于群集的,基于学习的和合奏方法。对于每个类别,我们讨论最近最先进的方法,他们的应用领域和表演。之后,关于对未来研究方向的建议提供了关于各种技术的优缺点和挑战的简要讨论。该调查旨在指导读者更好地了解OD方法的最新进展,以便保证AI。
translated by 谷歌翻译
本文为工程产品的计算模型或仅返回分类信息的过程提供了一种新的高效和健壮方法,用于罕见事件概率估计,例如成功或失败。对于此类模型,大多数用于估计故障概率的方法,这些方法使用结果的数值来计算梯度或估计与故障表面的接近度。即使性能函数不仅提供了二进制输出,系统的状态也可能是连续输入变量域中定义的不平滑函数,甚至是不连续的函数。在这些情况下,基于经典的梯度方法通常会失败。我们提出了一种简单而有效的算法,该算法可以从随机变量的输入域进行顺序自适应选择点,以扩展和完善简单的基于距离的替代模型。可以在连续采样的任何阶段完成两个不同的任务:(i)估计失败概率,以及(ii)如果需要进一步改进,则选择最佳的候选者进行后续模型评估。选择用于模型评估的下一个点的建议标准最大化了使用候选者分类的预期概率。因此,全球探索与本地剥削之间的完美平衡是自动维持的。该方法可以估计多种故障类型的概率。此外,当可以使用模型评估的数值来构建平滑的替代物时,该算法可以容纳此信息以提高估计概率的准确性。最后,我们定义了一种新的简单但一般的几何测量,这些测量是对稀有事实概率对单个变量的全局敏感性的定义,该度量是作为所提出算法的副产品获得的。
translated by 谷歌翻译