我们描述了一种新的基于度量的学习方法,介绍了一个多模态框架,并在暹蒙配置中使用深音频和地震检波器编码,以设计适应和轻量级的监督模型。该框架消除了昂贵的数据标签过程的需求,并从从全峰传感系统获得的低多个多师数据学习通用表示。这些传感系统在活动识别任务中提供了许多应用和各种用例。在这里,我们打算探索来自室内环境的人类足迹运动,并分析来自基于声学和振动的传感器的小型自收集数据集的表示。核心思想是在两个感官特征之间学习合理的相似性,并将来自音频和地震孔信号的表示组合。我们提出了一种广义框架,用于从音频和地理孔信号中提取的时间和空间特征中学习嵌入的嵌入。然后,我们提取共享空间中的表示,以最大化声音和地理声音功能之间的兼容功能的学习。反过来,这可以有效地用于从学习模型执行分类任务,如通过将高相似性分配与人体脚步运动的对和不含脚步运动的对的相似性。性能分析表明,我们提出的多模式框架实现了19.99 \%的准确性增加(绝对术语),并且当训练样本从200对增加到只需500对时,避免在评估集上的过度拟合,同时令人满意地学习音频和地震听音乐声音表示。我们的结果采用基于度量的对比学习方法,用于多传感器数据,以减轻数据稀缺的影响,并利用有限的数据尺寸执行人体运动识别。
translated by 谷歌翻译
自我监督学习(SSL)是一个新的范式,用于学习判别性表示没有标记的数据,并且与受监督的对手相比,已经达到了可比甚至最新的结果。对比度学习(CL)是SSL中最著名的方法之一,试图学习一般性的信息表示数据。 CL方法主要是针对仅使用单个传感器模态的计算机视觉和自然语言处理应用程序开发的。但是,大多数普遍的计算应用程序都从各种不同的传感器模式中利用数据。虽然现有的CL方法仅限于从一个或两个数据源学习,但我们提出了可可(Crockoa)(交叉模态对比度学习),这是一种自我监督的模型,该模型采用新颖的目标函数来通过计算多功能器数据来学习质量表示形式不同的数据方式,并最大程度地减少了无关实例之间的相似性。我们评估可可对八个最近引入最先进的自我监督模型的有效性,以及五个公共数据集中的两个受监督的基线。我们表明,可可与所有其他方法相比,可可的分类表现出色。同样,可可比其他可用标记数据的十分之一的基线(包括完全监督的模型)的标签高得多。
translated by 谷歌翻译
物联网中的智能汽车,智能手机和其他设备(物联网)通常具有多个传感器,会产生多模式数据。联合学习支持从不同设备收集大量多模式数据,而无需共享原始数据。转移学习方法有助于将知识从某些设备传输到其他设备。联合转移学习方法受益于联合学习和转移学习。这个新提出的联合转移学习框架旨在将数据岛与隐私保护联系起来。我们的构建基于联合学习和转移学习。与以前的联合转移学习相比,每个用户应具有相同模式的数据(所有单峰或全模式),我们的新框架更为通用,它允许使用用户数据的混合分布。核心策略是为我们的两种用户使用两种不同但固有连接的培训方法。仅对单峰数据(类型1)的用户采用监督学习,而自我监督的学习则用于使用多模式数据(类型2)的用户,以适用于每种模式的功能及其之间的连接。类型2的这种联系知识将在培训的后期阶段有助于1键入1。新框架中的培训可以分为三个步骤。在第一步中,将具有相同模式的数据的用户分组在一起。例如,仅具有声音信号的用户在第一组中,只有图像的用户在第二组中,并且具有多模式数据的用户在第三组中,依此类推。在第二步中,在小组内执行联合学习,在该小组中,根据小组的性质,使用监督的学习和自学学习。大多数转移学习发生在第三步中,从前步骤获得的网络中的相关部分是汇总的(联合)。
translated by 谷歌翻译
最近,自我监督的表示学习(SSRL)在计算机视觉,语音,自然语言处理(NLP)以及最近的其他类型的模式(包括传感器的时间序列)中引起了很多关注。自我监督学习的普及是由传统模型通常需要大量通知数据进行培训的事实所驱动的。获取带注释的数据可能是一个困难且昂贵的过程。已经引入了自我监督的方法,以通过使用从原始数据自由获得的监督信号对模型进行判别预训练来提高训练数据的效率。与现有的对SSRL的评论不同,该评论旨在以单一模式为重点介绍CV或NLP领域的方法,我们旨在为时间数据提供对多模式自我监督学习方法的首次全面审查。为此,我们1)提供现有SSRL方法的全面分类,2)通过定义SSRL框架的关键组件来引入通用管道,3)根据其目标功能,网络架构和潜在应用程序,潜在的应用程序,潜在的应用程序,比较现有模型, 4)查看每个类别和各种方式中的现有多模式技术。最后,我们提出了现有的弱点和未来的机会。我们认为,我们的工作对使用多模式和/或时间数据的域中SSRL的要求有了一个观点
translated by 谷歌翻译
传统上,将情感建模视为映射可测量的影响表现的过程,这些过程来自用户输入的多种方式,以影响标签。该映射通常是通过机器学习过程来推断的。如果相反,一个人训练一般的主题不变表示,考虑影响信息,然后使用此类表示形式来建模?在本文中,我们假设影响标签构成了情感表示形式的组成部分,而不仅仅是训练信号,我们探讨了如何采用对比度学习的最新范式来发现目的的一般高级感动式的表示形式建模影响。我们介绍了三种不同的监督对比学习方法,用于考虑影响信息的培训表示。在这项最初的研究中,我们根据来自多种模式的用户信息来测试Recola数据集中唤醒预测的建议方法。结果证明了对比度学习的表示能力及其在提高情感模型准确性方面的效率。除了与端到端的唤醒分类相比,其证据更高的性能之外,最终的表示是通用和主题不合时式的,因为训练受到了任何多模式语料库可用的一般影响信息的指导。
translated by 谷歌翻译
主动扬声器检测(ASD)问题的最新进展基于两个阶段的过程:特征提取和时空上下文集合。在本文中,我们提出了一个端到端的ASD工作流程,在其中共同学习特征学习和上下文预测。我们的端到端可训练网络同时学习了多模式的嵌入和汇总时空上下文。这会导致更合适的功能表示,并改善了ASD任务的性能。我们还介绍了交织的图神经网络(IGNN)块,该块根据ASD问题中的上下文主要来源分割消息。实验表明,IGNN块的汇总特征更适合ASD,从而导致最先进的性能。最后,我们设计了一种弱监督的策略,该策略表明也可以通过使用视听数据来解决ASD问题,但仅依赖于音频注释。我们通过对音频信号与可能的声源(扬声器)之间的直接关系进行建模以及引入对比度损失来实现这一目标。该项目的所有资源将在以下网址提供:https://github.com/fuankarion/end-to-end-end-asd。
translated by 谷歌翻译
作为人类识别的重要生物标志物,可以通过被动传感器在没有主题合作的情况下以远距离收集人步态,这在预防犯罪,安全检测和其他人类识别应用中起着至关重要的作用。目前,大多数研究工作都是基于相机和计算机视觉技术来执行步态识别的。但是,在面对不良的照明时,基于视觉的方法并不可靠,导致性能降解。在本文中,我们提出了一种新型的多模式步态识别方法,即gaitfi,该方法利用WiFi信号和视频进行人类识别。在GAITFI中,收集了反映WiFi多路径传播的通道状态信息(CSI),以捕获人体步态,而视频则由相机捕获。为了了解强大的步态信息,我们建议使用轻量级残留卷积网络(LRCN)作为骨干网络,并通过集成WiFi和Vision功能来进一步提出两流性gaitfi,以进行步态检索任务。通过在不同级别的特征上的三胞胎损失和分类损失进行训练。广泛的实验是在现实世界中进行的,该实验表明,基于单个WiFi或摄像机的GAITFI优于最先进的步态识别方法,对于12个受试者的人类识别任务而达到94.2%。
translated by 谷歌翻译
Wearable sensor-based human activity recognition (HAR) has emerged as a principal research area and is utilized in a variety of applications. Recently, deep learning-based methods have achieved significant improvement in the HAR field with the development of human-computer interaction applications. However, they are limited to operating in a local neighborhood in the process of a standard convolution neural network, and correlations between different sensors on body positions are ignored. In addition, they still face significant challenging problems with performance degradation due to large gaps in the distribution of training and test data, and behavioral differences between subjects. In this work, we propose a novel Transformer-based Adversarial learning framework for human activity recognition using wearable sensors via Self-KnowledgE Distillation (TASKED), that accounts for individual sensor orientations and spatial and temporal features. The proposed method is capable of learning cross-domain embedding feature representations from multiple subjects datasets using adversarial learning and the maximum mean discrepancy (MMD) regularization to align the data distribution over multiple domains. In the proposed method, we adopt the teacher-free self-knowledge distillation to improve the stability of the training procedure and the performance of human activity recognition. Experimental results show that TASKED not only outperforms state-of-the-art methods on the four real-world public HAR datasets (alone or combined) but also improves the subject generalization effectively.
translated by 谷歌翻译
主动演讲者的检测和语音增强已成为视听场景中越来越有吸引力的主题。根据它们各自的特征,独立设计的体系结构方案已被广泛用于与每个任务的对应。这可能导致模型特定于任务所学的表示形式,并且不可避免地会导致基于多模式建模的功能缺乏概括能力。最近的研究表明,建立听觉和视觉流之间的跨模式关系是针对视听多任务学习挑战的有前途的解决方案。因此,作为弥合视听任务中多模式关联的动机,提出了一个统一的框架,以通过在本研究中通过联合学习视听模型来实现目标扬声器的检测和语音增强。
translated by 谷歌翻译
TimeSeries Partitioning是大多数机器学习驱动的传感器的IOT应用程序的重要步骤。本文介绍了一种采样效率,鲁棒,时序分割模型和算法。我们表明,通过基于最大平均差异(MMD)的分割目标来学习特定于分割目标的表示,我们的算法可以鲁布布地检测不同应用程序的时间序列事件。我们的损耗功能允许我们推断是否从相同的分布(空假设)中绘制了连续的样本序列,并确定拒绝零假设的对之间的变化点(即,来自不同的分布)。我们展示了其在基于环境传感的活动识别的实际IOT部署中的适用性。此外,虽然文献中存在许多关于变更点检测的作品,但我们的模型明显更简单,匹配或优于最先进的方法。我们可以平均地在9-93秒内完全培训我们的模型,而在不同应用程序上的数据的差异很小。
translated by 谷歌翻译
口吃是一种言语障碍,在此期间,语音流被非自愿停顿和声音重复打断。口吃识别是一个有趣的跨学科研究问题,涉及病理学,心理学,声学和信号处理,使检测很难且复杂。机器和深度学习的最新发展已经彻底彻底改变了语音领域,但是对口吃的识别受到了最小的关注。这项工作通过试图将研究人员从跨学科领域聚集在一起来填补空白。在本文中,我们回顾了全面的声学特征,基于统计和深度学习的口吃/不足分类方法。我们还提出了一些挑战和未来的指示。
translated by 谷歌翻译
在深度学习研究中,自学学习(SSL)引起了极大的关注,引起了计算机视觉和遥感社区的兴趣。尽管计算机视觉取得了很大的成功,但SSL在地球观测领域的大部分潜力仍然锁定。在本文中,我们对在遥感的背景下为计算机视觉的SSL概念和最新发展提供了介绍,并回顾了SSL中的概念和最新发展。此外,我们在流行的遥感数据集上提供了现代SSL算法的初步基准,从而验证了SSL在遥感中的潜力,并提供了有关数据增强的扩展研究。最后,我们确定了SSL未来研究的有希望的方向的地球观察(SSL4EO),以铺平了两个领域的富有成效的相互作用。
translated by 谷歌翻译
The remarkable success of deep learning in various domains relies on the availability of large-scale annotated datasets. However, obtaining annotations is expensive and requires great effort, which is especially challenging for videos. Moreover, the use of human-generated annotations leads to models with biased learning and poor domain generalization and robustness. As an alternative, self-supervised learning provides a way for representation learning which does not require annotations and has shown promise in both image and video domains. Different from the image domain, learning video representations are more challenging due to the temporal dimension, bringing in motion and other environmental dynamics. This also provides opportunities for video-exclusive ideas that advance self-supervised learning in the video and multimodal domain. In this survey, we provide a review of existing approaches on self-supervised learning focusing on the video domain. We summarize these methods into four different categories based on their learning objectives: 1) pretext tasks, 2) generative learning, 3) contrastive learning, and 4) cross-modal agreement. We further introduce the commonly used datasets, downstream evaluation tasks, insights into the limitations of existing works, and the potential future directions in this area.
translated by 谷歌翻译
注释音乐节拍在繁琐的过程中是很长的。为了打击这个问题,我们为节拍跟踪和下拍估算提出了一种新的自我监督的学习借口任务。这项任务利用SPLEETER,一个音频源分离模型,将歌曲的鼓从其其余的信号分开。第一组信号用作阳性,并通过延长否定,用于对比学习预培训。另一方面,鼓的信号用作锚点。使用此借口任务进行全卷积和复发模型时,学习了一个开始功能。在某些情况下,发现此功能被映射到歌曲中的周期元素。我们发现,当一个节拍跟踪训练集非常小(少于10个示例)时,预先训练的模型随机初始化模型表现优于随机初始化的模型。当不是这种情况时,预先训练导致了一个学习速度,导致模型过度训练集。更一般地说,这项工作定义了音乐自我监督学习领域的新观点。尤其是使用音频源分离作为自我监督的基本分量的作品之一。
translated by 谷歌翻译
近年来,MMWave FMCW雷达吸引了人类居中应用的大量研究兴趣,例如人类姿态/活动识别。大多数现有的管道由传统的离散傅立叶变换(DFT)预处理和深神经网络分类器混合方法建立,其中大多数以前的作品专注于设计下游分类器以提高整体精度。在这项工作中,我们返回返回并查看预处理模块。为了避免传统DFT预处理的缺点,我们提出了一个名为Cubelearn的学习预处理模块,直接从原始雷达信号中提取特征,并为MMWAVE FMCW雷达运动识别应用构建端到端的深神经网络。广泛的实验表明,我们的立方体模块一直提高不同管道的分类准确性,特别是利益以前较弱的模型。我们提供关于所提出的模块的初始化方法和结构的消融研究,以及对PC和边缘设备上运行时间的评估。这项工作也用作不同方法对数据立方体切片的比较。通过我们的任务无关设计,我们向雷达识别问题提出了一步迈向通用端到端解决方案。
translated by 谷歌翻译
自动扬声器识别算法通常使用预定义的过滤库,例如MEL频率和伽马酮滤波器,以表征语音音频。但是,已经观察到使用这些滤纸提取的功能对各种音频降解没有弹性。在这项工作中,我们提出了一种基于学习的技术,以从大量的语音音频中推断出滤纸设计。这种过滤库的目的是提取特征在非理想的音频条件下(例如退化,持续时间短和多语言语音)的功能。为此,1D卷积神经网络旨在直接从原始的语音音频中学习一个名为deepvox的时间域滤纸。其次,开发了一种自适应三重态挖掘技术,以有效地挖掘最适合训练过滤器的数据样本。第三,对DeepVox FilterBanks进行的详细消融研究揭示了提取特征中的声源和声带特征的存在。 Voxceleb2,NIST SRE 2008、2010和2018和Fisher Speech数据集的实验结果证明了DeepVox特征在各种退化,短期和多语言语音中的功效。 DeepVox的功能还显示出可提高现有说话者识别算法的性能,例如XVECTOR-PLDA和IVECTOR-PLDA。
translated by 谷歌翻译
人类身份是对日常生活中许多应用的关键要求,例如个性化服务,自动监视,连续身份验证和大流行期间的接触跟踪等。这项工作研究了跨模式人类重新识别(REID)的问题,对跨摄像机允许区域(例如街道)和摄像头限制区域(例如办公室)的常规人类运动的反应。通过利用新出现的低成本RGB-D摄像机和MMWave雷达,我们提出了同时跨模式多人REID的首个视觉RF系统。首先,为了解决基本模式间差异,我们提出了一种基于人体观察到的镜面反射模型的新型签名合成算法。其次,引入了有效的跨模式深度度量学习模型,以应对在雷达和相机之间由非同步数据引起的干扰。通过在室内和室外环境中进行的广泛实验,我们证明了我们所提出的系统能够达到约92.5%的TOP-1准确性,而在56名志愿者中,〜97.5%的前5位精度。我们还表明,即使传感器的视野中存在多个主题,我们提出的系统也能够重新识别受试者。
translated by 谷歌翻译
我们提出了一种新的四管齐下的方法,在文献中首次建立消防员的情境意识。我们构建了一系列深度学习框架,彼此之叠,以提高消防员在紧急首次响应设置中进行的救援任务的安全性,效率和成功完成。首先,我们使用深度卷积神经网络(CNN)系统,以实时地分类和识别来自热图像的感兴趣对象。接下来,我们将此CNN框架扩展了对象检测,跟踪,分割与掩码RCNN框架,以及具有多模级自然语言处理(NLP)框架的场景描述。第三,我们建立了一个深入的Q学习的代理,免受压力引起的迷失方向和焦虑,能够根据现场消防环境中观察和存储的事实来制定明确的导航决策。最后,我们使用了一种低计算无监督的学习技术,称为张量分解,在实时对异常检测进行有意义的特征提取。通过这些临时深度学习结构,我们建立了人工智能系统的骨干,用于消防员的情境意识。要将设计的系统带入消防员的使用,我们设计了一种物理结构,其中处理后的结果被用作创建增强现实的投入,这是一个能够建议他们所在地的消防员和周围的关键特征,这对救援操作至关重要在手头,以及路径规划功能,充当虚拟指南,以帮助迷彩的第一个响应者恢复安全。当组合时,这四种方法呈现了一种新颖的信息理解,转移和综合方法,这可能会大大提高消防员响应和功效,并降低寿命损失。
translated by 谷歌翻译
近年来,WiFi传感一直在迅速发展。通过传播模型和深度学习方法的能力,实现了许多具有挑战性的应用,例如基于WiFi的人类活动识别和手势识别。但是,与深入学习视觉识别和自然语言处理相反,没有足够全面的公共基准。在本文中,我们强调了最新的深度学习进展,使WiFi传感能够感测,然后提出了一个基准SensenFI,以研究各种深度学习模型对WiFi传感的有效性。这些高级模型是根据独特的传感任务,WiFi平台,识别精度,模型大小,计算复杂性,功能可传递性以及无监督学习的适应性进行比较的。从CSI硬件平台到传感算法,它也被认为是基于深度学习的WiFi传感的教程。广泛的实验为我们提供了深层模型设计,学习策略技能和培训技术的经验。据我们所知,这是第一个带开源库的基准,用于WiFi传感研究中的深度学习。基准代码可在https://github.com/chenxinyan-sg/wifi-csi-sensing-benchmark上获得。
translated by 谷歌翻译
老年人的跌倒检测是一些经过深入研究的问题,其中包括多种拟议的解决方案,包括可穿戴和不可磨损的技术。尽管现有技术的检测率很高,但由于需要佩戴设备和用户隐私问题,因此缺乏目标人群的采用。我们的论文提供了一种新颖的,不可磨损的,不受欢迎的和可扩展的解决方案,用于秋季检测,该解决方案部署在配备麦克风的自主移动机器人上。所提出的方法使用人们在房屋中记录的环境声音输入。我们专门针对浴室环境,因为它很容易跌落,并且在不危害用户隐私的情况下无法部署现有技术。目前的工作开发了一种基于变压器体系结构的解决方案,该解决方案从浴室中获取嘈杂的声音输入,并将其分为秋季/禁止类别,准确性为0.8673。此外,提出的方法可扩展到其他室内环境,除了浴室外,还适合在老年家庭,医院和康复设施中部署,而无需用户佩戴任何设备或不断受到传感器的“观察”。
translated by 谷歌翻译