时间序列无处不在,因此本质上很难分析,最终以标记或群集。随着物联网(IoT)及其智能设备的兴起,数据将大量收集。收集到的数据丰富的信息,因为人们可以实时检测事故(例如汽车),或者在给定的时间段内评估伤害/疾病(例如,健康设备)。由于其混乱的性质和大量数据点,时间剧本很难手动标记。此外,数据中的新类可能会随着时间的流逝而出现(与手写数字相反),这将需要重新标记数据。在本文中,我们提出了SUSL4TS,这是一种用于半无调学习的深层生成高斯混合模型,以对时间序列数据进行分类。通过我们的方法,我们可以减轻手动标记步骤,因为我们可以检测到稀疏标记的类(半监督)并识别隐藏在数据中的新兴类(无监督)。我们通过来自不同领域的既定时间序列分类数据集证明了方法的功效。
translated by 谷歌翻译
无监督的异常检测旨在通过在正常数据上训练来建立模型以有效地检测看不见的异常。尽管以前的基于重建的方法取得了富有成效的进展,但由于两个危急挑战,他们的泛化能力受到限制。首先,训练数据集仅包含正常模式,这限制了模型泛化能力。其次,现有模型学到的特征表示通常缺乏代表性,妨碍了保持正常模式的多样性的能力。在本文中,我们提出了一种称为自适应存储器网络的新方法,具有自我监督的学习(AMSL)来解决这些挑战,并提高无监督异常检测中的泛化能力。基于卷积的AutoEncoder结构,AMSL包含一个自我监督的学习模块,以学习一般正常模式和自适应内存融合模块来学习丰富的特征表示。四个公共多变量时间序列数据集的实验表明,与其他最先进的方法相比,AMSL显着提高了性能。具体而言,在具有9亿个样本的最大帽睡眠阶段检测数据集上,AMSL以精度和F1分数\ TextBF {4} \%+优于第二个最佳基线。除了增强的泛化能力之外,AMSL还针对输入噪声更加强大。
translated by 谷歌翻译
紧凑和节能的可穿戴传感器的发展导致生物信号的可用性增加。为了分析这些连续记录的,通常是多维的时间序列,能够进行有意义的无监督数据分割是一个吉祥的目标。实现这一目标的一种常见方法是将时间序列中的变更点确定为分割基础。但是,传统的更改点检测算法通常带有缺点,从而限制了其现实世界的适用性。值得注意的是,他们通常依靠完整的时间序列可用,因此不能用于实时应用程序。另一个常见的限制是,它们处理多维时间序列的分割(或无法)。因此,这项工作的主要贡献是提出一种新型的无监督分段算法,用于多维时间序列,名为潜在空间无监督的语义细分(LS-USS),该算法旨在轻松地与在线和批处理数据一起使用。在将LS-USS与其他最先进的更改点检测算法进行比较时,在各种现实世界数据集上,在离线和实时设置中,LS-USS在PAR或更好的性能上都可以系统地实现。
translated by 谷歌翻译
现代工业设施在生产过程中生成大量的原始传感器数据。该数据用于监视和控制过程,可以分析以检测和预测过程异常。通常,数据必须由专家注释,以进一步用于预测建模。当今的大多数研究都集中在需要手动注释数据的无监督异常检测算法或监督方法上。这些研究通常是使用过程模拟器生成的狭窄事件类别的数据进行的,并且在公开可用的数据集上很少验证建议的算法。在本文中,我们提出了一种新型的方法,用于用于工业化学传感器数据的无监督故障检测和诊断。我们根据具有各种故障类型的田纳西州伊士曼进程的两个公开数据集证明了我们的模型性能。结果表明,我们的方法显着优于现有方法(固定FPR的+0.2-0.3 TPR),并在不使用专家注释的情况下检测大多数过程故障。此外,我们进行了实验,以证明我们的方法适用于未提前不知道故障类型数量的现实世界应用。
translated by 谷歌翻译
我们提出了Parse,这是一种新颖的半监督结构,用于学习强大的脑电图表现以进行情感识别。为了减少大量未标记数据与标记数据有限的潜在分布不匹配,Parse使用成对表示对准。首先,我们的模型执行数据增强,然后标签猜测大量原始和增强的未标记数据。然后将其锐化的标签和标记数据的凸组合锐化。最后,进行表示对准和情感分类。为了严格测试我们的模型,我们将解析与我们实施并适应脑电图学习的几种最先进的半监督方法进行了比较。我们对四个基于公共EEG的情绪识别数据集,种子,种子IV,种子V和Amigos(价和唤醒)进行这些实验。该实验表明,我们提出的框架在种子,种子-IV和Amigos(Valence)中的标记样品有限的情况下,取得了总体最佳效果,同时接近种子V和Amigos中的总体最佳结果(达到第二好) (唤醒)。分析表明,我们的成对表示对齐方式通过减少未标记数据和标记数据之间的分布比对来大大提高性能,尤其是当每类仅1个样本被标记时。
translated by 谷歌翻译
With the progress of sensor technology in wearables, the collection and analysis of PPG signals are gaining more interest. Using Machine Learning, the cardiac rhythm corresponding to PPG signals can be used to predict different tasks such as activity recognition, sleep stage detection, or more general health status. However, supervised learning is often limited by the amount of available labeled data, which is typically expensive to obtain. To address this problem, we propose a Self-Supervised Learning (SSL) method with a pretext task of signal reconstruction to learn an informative generalized PPG representation. The performance of the proposed SSL framework is compared with two fully supervised baselines. The results show that in a very limited label data setting (10 samples per class or less), using SSL is beneficial, and a simple classifier trained on SSL-learned representations outperforms fully supervised deep neural networks. However, the results reveal that the SSL-learned representations are too focused on encoding the subjects. Unfortunately, there is high inter-subject variability in the SSL-learned representations, which makes working with this data more challenging when labeled data is scarce. The high inter-subject variability suggests that there is still room for improvements in learning representations. In general, the results suggest that SSL may pave the way for the broader use of machine learning models on PPG data in label-scarce regimes.
translated by 谷歌翻译
Time series anomaly detection has applications in a wide range of research fields and applications, including manufacturing and healthcare. The presence of anomalies can indicate novel or unexpected events, such as production faults, system defects, or heart fluttering, and is therefore of particular interest. The large size and complex patterns of time series have led researchers to develop specialised deep learning models for detecting anomalous patterns. This survey focuses on providing structured and comprehensive state-of-the-art time series anomaly detection models through the use of deep learning. It providing a taxonomy based on the factors that divide anomaly detection models into different categories. Aside from describing the basic anomaly detection technique for each category, the advantages and limitations are also discussed. Furthermore, this study includes examples of deep anomaly detection in time series across various application domains in recent years. It finally summarises open issues in research and challenges faced while adopting deep anomaly detection models.
translated by 谷歌翻译
考虑到过去几十年中开发的一长串异常检测算法,它们如何在(i)(i)不同级别的监督,(ii)不同类型的异常以及(iii)嘈杂和损坏的数据方面执行?在这项工作中,我们通过(据我们所知)在55个名为Adbench的55个基准数据集中使用30个算法来回答这些关键问题。我们的广泛实验(总共93,654)确定了对监督和异常类型的作用的有意义的见解,并解锁了研究人员在算法选择和设计中的未来方向。借助Adbench,研究人员可以轻松地对数据集(包括我们从自然语言和计算机视觉域的贡献)对现有基线的新提出的方法进行全面和公平的评估。为了促进可访问性和可重复性,我们完全开源的Adbench和相应的结果。
translated by 谷歌翻译
自我监督学习(SSL)是一个新的范式,用于学习判别性表示没有标记的数据,并且与受监督的对手相比,已经达到了可比甚至最新的结果。对比度学习(CL)是SSL中最著名的方法之一,试图学习一般性的信息表示数据。 CL方法主要是针对仅使用单个传感器模态的计算机视觉和自然语言处理应用程序开发的。但是,大多数普遍的计算应用程序都从各种不同的传感器模式中利用数据。虽然现有的CL方法仅限于从一个或两个数据源学习,但我们提出了可可(Crockoa)(交叉模态对比度学习),这是一种自我监督的模型,该模型采用新颖的目标函数来通过计算多功能器数据来学习质量表示形式不同的数据方式,并最大程度地减少了无关实例之间的相似性。我们评估可可对八个最近引入最先进的自我监督模型的有效性,以及五个公共数据集中的两个受监督的基线。我们表明,可可与所有其他方法相比,可可的分类表现出色。同样,可可比其他可用标记数据的十分之一的基线(包括完全监督的模型)的标签高得多。
translated by 谷歌翻译
现代高性能计算(HPC)系统的复杂性日益增加,需要引入自动化和数据驱动的方法,以支持系统管理员为增加系统可用性的努力。异常检测是改善可用性不可或缺的一部分,因为它减轻了系统管理员的负担,并减少了异常和解决方案之间的时间。但是,对当前的最新检测方法进行了监督和半监督,因此它们需要具有异常的人体标签数据集 - 在生产HPC系统中收集通常是不切实际的。基于聚类的无监督异常检测方法,旨在减轻准确的异常数据的需求,到目前为止的性能差。在这项工作中,我们通过提出RUAD来克服这些局限性,RUAD是一种新型的无监督异常检测模型。 Ruad比当前的半监督和无监督的SOA方法取得了更好的结果。这是通过考虑数据中的时间依赖性以及在模型体系结构中包括长短期限内存单元的实现。提出的方法是根据tier-0系统(带有980个节点的Cineca的Marconi100的完整历史)评估的。 RUAD在半监督训练中达到曲线(AUC)下的区域(AUC)为0.763,在无监督的训练中达到了0.767的AUC,这改进了SOA方法,在半监督训练中达到0.747的AUC,无需训练的AUC和0.734的AUC在无处不在的AUC中提高了AUC。训练。它还大大优于基于聚类的当前SOA无监督的异常检测方法,其AUC为0.548。
translated by 谷歌翻译
Managing novelty in perception-based human activity recognition (HAR) is critical in realistic settings to improve task performance over time and ensure solution generalization outside of prior seen samples. Novelty manifests in HAR as unseen samples, activities, objects, environments, and sensor changes, among other ways. Novelty may be task-relevant, such as a new class or new features, or task-irrelevant resulting in nuisance novelty, such as never before seen noise, blur, or distorted video recordings. To perform HAR optimally, algorithmic solutions must be tolerant to nuisance novelty, and learn over time in the face of novelty. This paper 1) formalizes the definition of novelty in HAR building upon the prior definition of novelty in classification tasks, 2) proposes an incremental open world learning (OWL) protocol and applies it to the Kinetics datasets to generate a new benchmark KOWL-718, 3) analyzes the performance of current state-of-the-art HAR models when novelty is introduced over time, 4) provides a containerized and packaged pipeline for reproducing the OWL protocol and for modifying for any future updates to Kinetics. The experimental analysis includes an ablation study of how the different models perform under various conditions as annotated by Kinetics-AVA. The protocol as an algorithm for reproducing experiments using the KOWL-718 benchmark will be publicly released with code and containers at https://github.com/prijatelj/human-activity-recognition-in-an-open-world. The code may be used to analyze different annotations and subsets of the Kinetics datasets in an incremental open world fashion, as well as be extended as further updates to Kinetics are released.
translated by 谷歌翻译
我们提出了一种结合时间序列表示学习的专家知识的方法。我们的方法采用专家功能来代替以前的对比学习方法中常用的数据转换。我们这样做是因为时间序列数据经常源于工业或医疗领域,这些工业或医学领域通常可以从域专家那里获得专家功能,而转换通常难以捉摸,对于时间序列数据。我们首先提出了有用的时间序列表示应实现的两个属性,并表明当前的表示学习方法不能确保这些属性。因此,我们设计了Expclr,这是一种基于目标的目标,它利用专家功能来鼓励两种属性来实现学习的代表。最后,我们在三个现实世界中的数据集上演示了ExpCLR超过了无监督和半监督的表示学习的几种最新方法。
translated by 谷歌翻译
Wearable sensor-based human activity recognition (HAR) has emerged as a principal research area and is utilized in a variety of applications. Recently, deep learning-based methods have achieved significant improvement in the HAR field with the development of human-computer interaction applications. However, they are limited to operating in a local neighborhood in the process of a standard convolution neural network, and correlations between different sensors on body positions are ignored. In addition, they still face significant challenging problems with performance degradation due to large gaps in the distribution of training and test data, and behavioral differences between subjects. In this work, we propose a novel Transformer-based Adversarial learning framework for human activity recognition using wearable sensors via Self-KnowledgE Distillation (TASKED), that accounts for individual sensor orientations and spatial and temporal features. The proposed method is capable of learning cross-domain embedding feature representations from multiple subjects datasets using adversarial learning and the maximum mean discrepancy (MMD) regularization to align the data distribution over multiple domains. In the proposed method, we adopt the teacher-free self-knowledge distillation to improve the stability of the training procedure and the performance of human activity recognition. Experimental results show that TASKED not only outperforms state-of-the-art methods on the four real-world public HAR datasets (alone or combined) but also improves the subject generalization effectively.
translated by 谷歌翻译
由于手表和手机中可穿戴传感器的扩散以及深度学习方法的进步,有关人类活动RE \ -cog \ -ni \ -Tion(HAR)的最新研究已有来自原始传感器信号的功能。深度学习应用于HAR的一个重要缺点是需要手动标记的培训数据,这对于HAR数据集尤其困难。在无监督的环境中,以深HAR聚类模型的形式开始取得进展,该模型可以将标签分配给数据而无需给予任何标签以进行训练,但是评估深HAR聚类模型的问题有问题,这使得评估评估。该领域和设计新方法很困难。在本文中,我们重点介绍了如何评估深HAR聚类模型,详细描述这些问题并进行仔细的实验​​以阐明它们对结果的影响。然后,我们讨论解决这些问题的解决方案,并为将来的深HAR聚类模型提出标准评估设置。此外,我们为HAR提供了一种新的深层聚类模型。在我们提出的设置下进行测试时,我们的模型的性能要比现有模型(或与现有模型相同)更好,同时还可以通过避免使用自动编码器来更有效,能够更好地扩展到更复杂的数据集。
translated by 谷歌翻译
用于现实世界应用程序的时间序列分类器的安全部署依赖于检测未从与培训数据相同的分布生成的数据的能力。此任务称为离分布(OOD)检测。我们考虑了时间序列域的OOD检测的新问题。我们讨论了时间序列数据带来的独特挑战,并解释了为什么来自图像域的先前方法会表现不佳。受这些挑战的激励,本文提出了一种新颖的{\ em季节性评分(SRS)}方法。 SRS由三个关键算法步骤组成。首先,将每个输入分解为类别的语义组件和余数。其次,使用这种分解来估计输入的阶级条件可能性和使用深层生成模型的条件。从这些估计值中计算出季节性比率得分。第三,从分布数据中确定阈值间隔以检测OOD示例。对不同现实世界基准的实验表明,与基线方法相比,SRS方法非常适合于时间序列OOD检测。 https://github.com/tahabelkhouja/srs提供了SRS方法的开源代码
translated by 谷歌翻译
时间序列的异常提供了各个行业的关键方案的见解,从银行和航空航天到信息技术,安全和医学。但是,由于异常的定义,经常缺乏标签以及此类数据中存在的极为复杂的时间相关性,因此识别时间序列数据中的异常尤其具有挑战性。LSTM自动编码器是基于长期短期内存网络的异常检测的编码器传统方案,该方案学会重建时间序列行为,然后使用重建错误来识别异常。我们将Denoising Architecture作为对该LSTM编码模型模型的补充,并研究其对现实世界以及人为生成的数据集的影响。我们证明了所提出的体系结构既提高了准确性和训练速度,从而使LSTM自动编码器更有效地用于无监督的异常检测任务。
translated by 谷歌翻译
被动射频(RF)感测和对老年护理房屋的人类日常活动监测是一个新兴的话题。微多普勒雷达是一种吸引人的解决方案,考虑到它们的非侵入性,深渗透和高距离范围。尽管在真实情景中未标记或较差的活动的情况下,但是使用多普勒雷达数据的无监督活动识别尚未得到注意。本研究提出了使用多普勒流的人类活动监测的两个无监督特征提取方法。这些包括基于局部离散余弦变换(DCT)的特征提取方法和基于局部熵的特征提取方法。此外,对于多普勒雷达数据,首次采用了卷积变分性自动化器(CVAE)特征提取的新应用。将三种特征提取架构与先前使用的卷积AutoEncoder(CAE)和基于主成分分析(PCA)和2DPCA的线性特征提取进行比较。使用K-Means和K-METOIDS进行无监督的聚类。结果表明,与CAE,PCA和2DPCA相比,基于DCT的方法,基于熵的方法和CVAE特征的优越性,具有超过5 \%-20 \%的平均精度。关于计算时间,两个提出的方法明显比现有的CVAE快得多。此外,对于高维数据可视化,考虑了三种歧管学习技术。比较方法,以对原始数据的投影以及编码的CVAE特征进行比较。当应用于编码的CVAE特征时,所有三种方法都显示出改善的可视化能力。
translated by 谷歌翻译
学习时间序列表示只有未标记的数据或几个标签样本可用时,可能是一项具有挑战性的任务。最近,通过对比,通过对比的不同数据观点从未标记的数据中提取有用的表示形式方面,对对比的自我监督学习表现出了很大的改进。在这项工作中,我们通过时间和上下文对比(TS-TCC)提出了一个新颖的时间序列表示学习框架,该框架从未标记的数据中学习了具有对比性学习的无标记数据的表示。具体而言,我们建议时间序列特定的弱和强大的增强,并利用他们的观点在拟议的时间对比模块中学习稳健的时间关系,除了通过我们提出的上下文对比模块学习判别性表示。此外,我们对时间序列数据增强选择进行系统研究,这是对比度学习的关键部分。我们还将TS-TCC扩展到了半监督的学习设置,并提出了一种类感知的TS-TCC(CA-TCC),从可用的少数标​​记数据中受益,以进一步改善TS-TCC学到的表示。具体而言,我们利用TS-TCC生成的强大伪标签来实现班级感知的对比损失。广泛的实验表明,对我们提议的框架所学的功能的线性评估与完全监督的培训相当。此外,我们的框架在少数标记的数据和转移学习方案中显示出高效率。该代码可在\ url {https://github.com/emadeldeen24/ts-tcc}上公开获得。
translated by 谷歌翻译
在能源系统的数字化中,传感器和智能电表越来越多地用于监视生产,运行和需求。基于智能电表数据的异常检测对于在早期阶段识别潜在的风险和异常事件至关重要,这可以作为及时启动适当动作和改善管理的参考。但是,来自能源系统的智能电表数据通常缺乏标签,并且包含噪声和各种模式,而没有明显的周期性。同时,在不同的能量场景中对异常的模糊定义和高度复杂的时间相关性对异常检测构成了巨大的挑战。许多传统的无监督异常检测算法(例如基于群集或基于距离的模型)对噪声不强大,也不完全利用时间序列中的时间依赖性以及在多个变量(传感器)中的其他依赖关系。本文提出了一种基于带有注意机制的变异复发自动编码器的无监督异常检测方法。凭借来自智能电表的“肮脏”数据,我们的方法预示了缺失的值和全球异常,以在训练中缩小其贡献。本文与基于VAE的基线方法和其他四种无监督的学习方法进行了定量比较,证明了其有效性和优势。本文通过一项实际案例研究进一步验证了所提出的方法,该研究方法是检测工业加热厂的供水温度异常。
translated by 谷歌翻译
我们研究了时间序列分类(TSC),是时间序列数据挖掘的根本任务。事先从两个主要方向接近TSC:(1)基于相似性的方法,用于基于最近邻居的时间系列,(2)直接以数据驱动的方式学习分类表示的深度学习模型。在这两条研究线内的不同工作机制激励,我们的目的是以与共同模拟时间序列相似度的方式连接它们并学习表示。这是一个具有挑战性的任务,因为目前尚不清楚我们应该如何有效地利用相似性信息。为了解决挑战,我们提出了相似度感知的时序分类(SIMTSC),这是一种概念上简单且一般的框架,其模型与图形神经网络(GNN)的相似性信息。具体地,我们将TSC标记为图中的节点分类问题,其中节点对应于时间序列,并且链路对应于配对相似性。我们进一步设计了一种图形施工策略和具有负采样的批量培训算法,以提高培训效率。我们将SIMTSC与RESENT作为骨干网和动态时间翘曲(DTW)作为相似度测量。在完整的UCR数据集和几个多变量数据集上的广泛实验证明了在监督和半监督设置中将相似信息纳入深度学习模型的有效性。我们的代码可在https://github.com/daochenzha/simtsc提供
translated by 谷歌翻译