近年来,传感器技术中有前所未有的技术进步,传感器变得比以往任何时候都更实惠。因此,传感器驱动数据收集越来越多地成为全球研究人员的吸引力和实用的选择。这些数据通常以时间序列数据的形式提取,这可以用数据挖掘技术来研究,以总结一系列受试者的行为,包括人类和动物。虽然启用廉价和质量收集数据,但连续传感器数据记录在大小和体积中大的数据集,这是在及时处理和分析传统技术的具有挑战性。这种收集的传感器数据通常以时间序列数据的形式提取。文献中有两种主要方法,即基于形状的分类和基于特征的分类。基于形状的分类根据距离测量确定最佳类。另一方面,基于功能的分类,根据时间序列定义的功能,找到时间序列的属性并找到最佳类。在本文中,我们证明这两种技术都不会使一些问题占主导地位,但两者都可能是最好的。换句话说,在一个问题上,可能的技术可以更好地对行为的一个子集更好,而另一技术对于另一个行为的子集更好。我们介绍了一种混合算法来分类行为,使用两个形状和特征措施,在从传感器收集的弱标记时间序列数据中,以量化由受试者执行的特定行为。我们展示了我们的算法可以基于形状和特征的组合,强大地分类真实,嘈杂和复杂的数据集,并在现实世界数据集中测试了我们所提出的算法。
translated by 谷歌翻译
自二十年前引入以来,人们对时间序列的早期分类问题一直在越来越兴趣。这个问题概括了经典的时间序列分类,以询问我们是否可以在仅看到目标模式的某些前缀后,以足够的准确性和置信度分类。这个想法是,较早的分类将使我们能够立即采取行动,在某个实践干预措施的领域中。例如,该干预措施可能会发出警报或在汽车中施加制动器。在这项工作中,我们提出了令人惊讶的主张。尽管有数十种有关时间序列的早期分类的论文,但尚不清楚它们中的任何一个都可以在现实世界中工作。问题本身本身不是算法,而是含糊不清的问题描述。从本质上讲,所有算法都对问题做出了隐式和不必要的假设,即使他们的结果表明他们可以获得近乎完美的结果,也会确保它们会受到误报和假否定的困扰。我们将通过新颖的见解和实验来解释我们的发现,并向社区提供建议。
translated by 谷歌翻译
时间序列的异常检测一直是数据科学中常年重要的主题,论文可以追溯到1950年代。但是,近年来,对这个主题引起了人们的兴趣,其中很大程度上是由于深度学习在其他领域和其他时间序列任务中的成功驱动。这些论文中的大多数对Yahoo,Numenta,NASA等创建的一个或多个流行的基准数据集进行了测试。在这项工作中,我们提出了令人惊讶的主张。这些数据集中的大多数示例都遭受四个缺陷中的一个或多个。由于这四个缺陷,我们认为许多发表的异常检测算法的比较可能是不可靠的,更重要的是,近年来,许多明显的进展可能都是幻觉。除了证明这些主张外,我们还介绍了UCR时间序列异常存档。我们认为,该资源将通过为社区提供基准,从而可以在方法和有意义的总体进步范围之间进行有意义的比较,从而扮演与UCR时间序列分类档案相似的角色。
translated by 谷歌翻译
对自然和人制过程的研究通常会导致长时间有序值的长序列,也就是时间序列(TS)。这样的过程通常由多个状态组成,例如机器的操作模式,使观测过程中的状态变化会导致测量值形状的分布变化。时间序列分割(TSS)试图发现TS事后的这种变化,以推断数据生成过程的变化。通常将TSS视为无监督的学习问题,目的是识别某些统计属性可区分的细分。 TSS的当前算法要求用户设置依赖域的超参数,对TS值分布进行假设或可检测更改的类型,以限制其适用性。常见的超参数是段均匀性和变更点的数量的度量,对于每个数据集,这尤其难以调节。我们提出了TSS的一种新颖,高度准确,无参数和域的无义方法的方法。扣子分层将TS分为两个部分。更改点是通过训练每个可能的拆分点的二进制TS分类器来确定的,并选择最能识别从任何一个分区的子序列的一个拆分。 CLASP使用两种新颖的定制算法从数据中学习了其主要的两个模型参数。在我们使用115个数据集的基准测试的实验评估中,我们表明,扣子优于准确性,并且可以快速且可扩展。此外,我们使用几个现实世界的案例研究强调了扣子的特性。
translated by 谷歌翻译
The most useful data mining primitives are distance measures. With an effective distance measure, it is possible to perform classification, clustering, anomaly detection, segmentation, etc. For single-event time series Euclidean Distance and Dynamic Time Warping distance are known to be extremely effective. However, for time series containing cyclical behaviors, the semantic meaningfulness of such comparisons is less clear. For example, on two separate days the telemetry from an athlete workout routine might be very similar. The second day may change the order in of performing push-ups and squats, adding repetitions of pull-ups, or completely omitting dumbbell curls. Any of these minor changes would defeat existing time series distance measures. Some bag-of-features methods have been proposed to address this problem, but we argue that in many cases, similarity is intimately tied to the shapes of subsequences within these longer time series. In such cases, summative features will lack discrimination ability. In this work we introduce PRCIS, which stands for Pattern Representation Comparison in Series. PRCIS is a distance measure for long time series, which exploits recent progress in our ability to summarize time series with dictionaries. We will demonstrate the utility of our ideas on diverse tasks and datasets.
translated by 谷歌翻译
即使机器学习算法已经在数据科学中发挥了重要作用,但许多当前方法对输入数据提出了不现实的假设。由于不兼容的数据格式,或数据集中的异质,分层或完全缺少的数据片段,因此很难应用此类方法。作为解决方案,我们提出了一个用于样本表示,模型定义和培训的多功能,统一的框架,称为“ Hmill”。我们深入审查框架构建和扩展的机器学习的多个范围范式。从理论上讲,为HMILL的关键组件的设计合理,我们将通用近似定理的扩展显示到框架中实现的模型所实现的所有功能的集合。本文还包含有关我们实施中技术和绩效改进的详细讨论,该讨论将在MIT许可下发布供下载。该框架的主要资产是其灵活性,它可以通过相同的工具对不同的现实世界数据源进行建模。除了单独观察到每个对象的一组属性的标准设置外,我们解释了如何在框架中实现表示整个对象系统的图表中的消息推断。为了支持我们的主张,我们使用框架解决了网络安全域的三个不同问题。第一种用例涉及来自原始网络观察结果的IoT设备识别。在第二个问题中,我们研究了如何使用以有向图表示的操作系统的快照可以对恶意二进制文件进行分类。最后提供的示例是通过网络中实体之间建模域黑名单扩展的任务。在所有三个问题中,基于建议的框架的解决方案可实现与专业方法相当的性能。
translated by 谷歌翻译
自动化驾驶系统(广告)开辟了汽车行业的新领域,为未来的运输提供了更高的效率和舒适体验的新可能性。然而,在恶劣天气条件下的自主驾驶已经存在,使自动车辆(AVS)长时间保持自主车辆(AVS)或更高的自主权。本文评估了天气在分析和统计方式中为广告传感器带来的影响和挑战,并对恶劣天气条件进行了解决方案。彻底报道了关于对每种天气的感知增强的最先进技术。外部辅助解决方案如V2X技术,当前可用的数据集,模拟器和天气腔室的实验设施中的天气条件覆盖范围明显。通过指出各种主要天气问题,自主驾驶场目前正在面临,近年来审查硬件和计算机科学解决方案,这项调查概述了在不利的天气驾驶条件方面的障碍和方向的障碍和方向。
translated by 谷歌翻译
The International Workshop on Reading Music Systems (WoRMS) is a workshop that tries to connect researchers who develop systems for reading music, such as in the field of Optical Music Recognition, with other researchers and practitioners that could benefit from such systems, like librarians or musicologists. The relevant topics of interest for the workshop include, but are not limited to: Music reading systems; Optical music recognition; Datasets and performance evaluation; Image processing on music scores; Writer identification; Authoring, editing, storing and presentation systems for music scores; Multi-modal systems; Novel input-methods for music to produce written music; Web-based Music Information Retrieval services; Applications and projects; Use-cases related to written music. These are the proceedings of the 3rd International Workshop on Reading Music Systems, held in Alicante on the 23rd of July 2021.
translated by 谷歌翻译
为了允许机器学习算法从原始数据中提取知识,必须首先清除,转换,并将这些数据置于适当的形式。这些通常很耗时的阶段被称为预处理。预处理阶段的一个重要步骤是特征选择,其目的通过减少数据集的特征量来更好地执行预测模型。在这些数据集中,不同事件的实例通常是不平衡的,这意味着某些正常事件被超出,而其他罕见事件非常有限。通常,这些罕见的事件具有特殊的兴趣,因为它们具有比正常事件更具辨别力。这项工作的目的是过滤提供给这些罕见实例的特征选择方法的实例,从而积极影响特征选择过程。在这项工作过程中,我们能够表明这种过滤对分类模型的性能以及异常值检测方法适用于该过滤。对于某些数据集,所产生的性能增加仅为百分点,但对于其他数据集,我们能够实现高达16%的性能的增加。这项工作应导致预测模型的改进以及在预处理阶段的过程中的特征选择更好的可解释性。本着公开科学的精神,提高了我们的研究领域的透明度,我们已经在公开的存储库中提供了我们的所有源代码和我们的实验结果。
translated by 谷歌翻译
Insects are the most important global pollinator of crops and play a key role in maintaining the sustainability of natural ecosystems. Insect pollination monitoring and management are therefore essential for improving crop production and food security. Computer vision facilitated pollinator monitoring can intensify data collection over what is feasible using manual approaches. The new data it generates may provide a detailed understanding of insect distributions and facilitate fine-grained analysis sufficient to predict their pollination efficacy and underpin precision pollination. Current computer vision facilitated insect tracking in complex outdoor environments is restricted in spatial coverage and often constrained to a single insect species. This limits its relevance to agriculture. Therefore, in this article we introduce a novel system to facilitate markerless data capture for insect counting, insect motion tracking, behaviour analysis and pollination prediction across large agricultural areas. Our system is comprised of edge computing multi-point video recording, offline automated multispecies insect counting, tracking and behavioural analysis. We implement and test our system on a commercial berry farm to demonstrate its capabilities. Our system successfully tracked four insect varieties, at nine monitoring stations within polytunnels, obtaining an F-score above 0.8 for each variety. The system enabled calculation of key metrics to assess the relative pollination impact of each insect variety. With this technological advancement, detailed, ongoing data collection for precision pollination becomes achievable. This is important to inform growers and apiarists managing crop pollination, as it allows data-driven decisions to be made to improve food production and food security.
translated by 谷歌翻译
概念漂移过程挖掘(PM)是一种挑战,因为古典方法假设进程处于稳态,即事件共享相同的进程版本。我们对这些领域的交叉点进行了系统的文献综述,从而审查了过程采矿中的概念漂移,并提出了用于漂移检测和在线流程挖掘的现有技术的分类,以实现不断发展的环境。现有的作品描绘了(i)PM仍然主要关注离线分析,并且(ii)由于缺乏公共评估协议,数据集和指标,过程中的概念漂移技术的评估是麻烦的。
translated by 谷歌翻译
紧凑和节能的可穿戴传感器的发展导致生物信号的可用性增加。为了分析这些连续记录的,通常是多维的时间序列,能够进行有意义的无监督数据分割是一个吉祥的目标。实现这一目标的一种常见方法是将时间序列中的变更点确定为分割基础。但是,传统的更改点检测算法通常带有缺点,从而限制了其现实世界的适用性。值得注意的是,他们通常依靠完整的时间序列可用,因此不能用于实时应用程序。另一个常见的限制是,它们处理多维时间序列的分割(或无法)。因此,这项工作的主要贡献是提出一种新型的无监督分段算法,用于多维时间序列,名为潜在空间无监督的语义细分(LS-USS),该算法旨在轻松地与在线和批处理数据一起使用。在将LS-USS与其他最先进的更改点检测算法进行比较时,在各种现实世界数据集上,在离线和实时设置中,LS-USS在PAR或更好的性能上都可以系统地实现。
translated by 谷歌翻译
人类行为越来越多地在移动设备上捕获,从而增加了对自动人类活动识别的兴趣。但是,现有数据集通常由脚本运动组成。我们的长期目标是在自然环境中执行移动活动识别。我们收集一个数据集,以支持与下游任务(例如健康监测和干预)相关的活动类别。由于人类行为中存在巨大的差异,因此我们收集了两个不同年龄段的许多参与者的数据。由于人类行为会随着时间的流逝而改变,因此我们还在一个月的时间内收集参与者的数据以捕捉时间漂移。我们假设移动活动识别可以受益于无监督的域适应算法。为了满足这一需求并检验这一假设,我们分析了整个人和整个时间的域适应性的性能。然后,我们通过对比度学习来增强无监督的域适应性,并在可用标签比例时进行弱监督。该数据集可在https://github.com/wsu-casas/smartwatch-data上找到
translated by 谷歌翻译
由于照顾不断增长的老年人口的医疗和财务需求,对跌倒的及时可靠发现是一个大型且快速增长的研究领域。在过去的20年中,高质量硬件(高质量传感器和AI微芯片)和软件(机器学习算法)技术的可用性通过为开发人员提供开发此类系统的功能,从而成为这项研究的催化剂。这项研究开发了多个应用组件,以研究秋季检测系统的发展挑战和选择,并为未来的研究提供材料。使用此方法开发的智能应用程序通过秋季检测模型实验和模型移动部署的结果验证。总体上表现最好的模型是标准化的RESNET152,并带有2S窗口尺寸的调整数据集,可实现92.8%的AUC,7.28%的灵敏度和98.33%的特异性。鉴于这些结果很明显,加速度计和心电图传感器对秋季检测有益,并允许跌倒和其他活动之间的歧视。由于所得数据集中确定的弱点,这项研究为改进的空间留下了很大的改进空间。这些改进包括在跌落的临界阶段使用标签协议,增加数据集样品的数量,改善测试主题表示形式,并通过频域预处理进行实验。
translated by 谷歌翻译
培训和测试监督对象检测模型需要大量带有地面真相标签的图像。标签定义图像中的对象类及其位置,形状以及可能的其他信息,例如姿势。即使存在人力,标签过程也非常耗时。我们引入了一个新的标签工具,用于2D图像以及3D三角网格:3D标记工具(3DLT)。这是一个独立的,功能丰富和跨平台软件,不需要安装,并且可以在Windows,MacOS和基于Linux的发行版上运行。我们不再像当前工具那样在每个图像上分别标记相同的对象,而是使用深度信息从上述图像重建三角形网格,并仅在上述网格上标记一次对象。我们使用注册来简化3D标记,离群值检测来改进2D边界框的计算和表面重建,以将标记可能性扩展到大点云。我们的工具经过最先进的方法测试,并且在保持准确性和易用性的同时,它极大地超过了它们。
translated by 谷歌翻译
The ImageNet Large Scale Visual Recognition Challenge is a benchmark in object category classification and detection on hundreds of object categories and millions of images. The challenge has been run annually from 2010 to present, attracting participation from more than fifty institutions. This paper describes the creation of this benchmark dataset and the advances in object recognition that have been possible as a result. We discuss the chal-
translated by 谷歌翻译
Concept drift primarily refers to an online supervised learning scenario when the relation between the input data and the target variable changes over time. Assuming a general knowledge of supervised learning in this paper we characterize adaptive learning process, categorize existing strategies for handling concept drift, overview the most representative, distinct and popular techniques and algorithms, discuss evaluation methodology of adaptive algorithms, and present a set of illustrative applications. The survey covers the different facets of concept drift in an integrated way to reflect on the existing scattered state-of-the-art. Thus, it aims at providing a comprehensive introduction to the concept drift adaptation for researchers, industry analysts and practitioners.
translated by 谷歌翻译
近年来,虚拟学习已成为传统课堂教学的替代方法。学生参与虚拟学习可能会对满足学习目标和计划辍学风险产生重大影响。在虚拟学习环境中,有许多专门针对学生参与度(SE)的测量工具。在这项关键综述中,我们分析了这些作品,并从不同的参与定义和测量量表上突出了不一致之处。现有研究人员之间的这种多样性在比较不同的注释和构建可推广的预测模型时可能会出现问题。我们进一步讨论了有关参与注释和设计缺陷的问题。我们根据我们定义的七个参与注释的七个维度分析现有的SE注释量表,包括来源,用于注释的数据模式,注释发生的时间,注释发生的时间段,抽象,组合和组合水平的时间段,定量。令人惊讶的发现之一是,在SE测量中,很少有审查的数据集使用了现有的精神法法学验证量表中的注释中。最后,我们讨论了除虚拟学习以外的其他一些范围,这些量表具有用于测量虚拟学习中SE的潜力。
translated by 谷歌翻译
机器学习(ML)系统的开发和部署可以用现代工具轻松执行,但该过程通常是匆忙和意思是结束的。缺乏勤奋会导致技术债务,范围蠕变和未对准的目标,模型滥用和失败,以及昂贵的后果。另一方面,工程系统遵循明确定义的流程和测试标准,以简化高质量,可靠的结果的开发。极端是航天器系统,其中关键任务措施和鲁棒性在开发过程中根深蒂固。借鉴航天器工程和ML的经验(通过域名通过产品的研究),我们开发了一种经过验证的机器学习开发和部署的系统工程方法。我们的“机器学习技术准备水平”(MLTRL)框架定义了一个原则的过程,以确保强大,可靠和负责的系统,同时为ML工作流程流线型,包括来自传统软件工程的关键区别。 MLTRL甚至更多,MLTRL为跨团队和组织的人们定义了一个人工智能和机器学习技术的人员。在这里,我们描述了通过生产化和部署在医学诊断,消费者计算机视觉,卫星图像和粒子物理学等领域,以通过生产和部署在基本研究中开发ML方法的几个现实世界使用情况的框架和阐明。
translated by 谷歌翻译
信号处理是几乎任何传感器系统的基本组件,具有不同科学学科的广泛应用。时间序列数据,图像和视频序列包括可以增强和分析信息提取和量化的代表性形式的信号。人工智能和机器学习的最近进步正在转向智能,数据驱动,信号处理的研究。该路线图呈现了最先进的方法和应用程序的关键概述,旨在突出未来的挑战和对下一代测量系统的研究机会。它涵盖了广泛的主题,从基础到工业研究,以简明的主题部分组织,反映了每个研究领域的当前和未来发展的趋势和影响。此外,它为研究人员和资助机构提供了识别新前景的指导。
translated by 谷歌翻译