对于诊断各种疾病的诊断,对睡眠阶段进行分类至关重要。但是,现有的自动诊断方法主要采用“金标准”局部脑图(EEG)或医院中多摄像机仪(PSG)机器的其他单型模式传感信号,这些信号昂贵,导入且因此不适合保健点监测在家。为了在家中启用睡眠阶段监控,我们在本文中分析了红外视频与脑电图信号之间的关系,并提出了一项新任务:通过将有用的知识从EEG信号提炼到视觉视频,使用红外视频对睡眠阶段进行分类。为了为该应用程序建立可靠的跨模式基准,我们开发了一个新的数据集,称为通过红外视频和脑电图($ s^3ve $)看到您的睡眠阶段。 $ s^3ve $是一个大型数据集,包括用于睡眠阶段分类的同步红外视频和脑电图信号,包括105个主题和154,573个视频剪辑,长度超过1100小时。我们的贡献不仅限于数据集,而且还涉及一种新型的跨模式蒸馏基线模型,即结构感知的对比度蒸馏(SACD),以将脑电图知识提升为红外视频特征。 SACD在我们的$ S^3ve $和现有的跨模式蒸馏基准上都达到了最先进的表演。基准方法和基线方法都将被释放给社区。我们希望在睡眠阶段分类中提高更多注意力并促进更多的发展,更重要的是,从临床信号/媒体到传统媒体的跨模式蒸馏。
translated by 谷歌翻译
最近,自我监督的表示学习(SSRL)在计算机视觉,语音,自然语言处理(NLP)以及最近的其他类型的模式(包括传感器的时间序列)中引起了很多关注。自我监督学习的普及是由传统模型通常需要大量通知数据进行培训的事实所驱动的。获取带注释的数据可能是一个困难且昂贵的过程。已经引入了自我监督的方法,以通过使用从原始数据自由获得的监督信号对模型进行判别预训练来提高训练数据的效率。与现有的对SSRL的评论不同,该评论旨在以单一模式为重点介绍CV或NLP领域的方法,我们旨在为时间数据提供对多模式自我监督学习方法的首次全面审查。为此,我们1)提供现有SSRL方法的全面分类,2)通过定义SSRL框架的关键组件来引入通用管道,3)根据其目标功能,网络架构和潜在应用程序,潜在的应用程序,潜在的应用程序,比较现有模型, 4)查看每个类别和各种方式中的现有多模式技术。最后,我们提出了现有的弱点和未来的机会。我们认为,我们的工作对使用多模式和/或时间数据的域中SSRL的要求有了一个观点
translated by 谷歌翻译
自我监督学习(SSL)是一个新的范式,用于学习判别性表示没有标记的数据,并且与受监督的对手相比,已经达到了可比甚至最新的结果。对比度学习(CL)是SSL中最著名的方法之一,试图学习一般性的信息表示数据。 CL方法主要是针对仅使用单个传感器模态的计算机视觉和自然语言处理应用程序开发的。但是,大多数普遍的计算应用程序都从各种不同的传感器模式中利用数据。虽然现有的CL方法仅限于从一个或两个数据源学习,但我们提出了可可(Crockoa)(交叉模态对比度学习),这是一种自我监督的模型,该模型采用新颖的目标函数来通过计算多功能器数据来学习质量表示形式不同的数据方式,并最大程度地减少了无关实例之间的相似性。我们评估可可对八个最近引入最先进的自我监督模型的有效性,以及五个公共数据集中的两个受监督的基线。我们表明,可可与所有其他方法相比,可可的分类表现出色。同样,可可比其他可用标记数据的十分之一的基线(包括完全监督的模型)的标签高得多。
translated by 谷歌翻译
物联网中的智能汽车,智能手机和其他设备(物联网)通常具有多个传感器,会产生多模式数据。联合学习支持从不同设备收集大量多模式数据,而无需共享原始数据。转移学习方法有助于将知识从某些设备传输到其他设备。联合转移学习方法受益于联合学习和转移学习。这个新提出的联合转移学习框架旨在将数据岛与隐私保护联系起来。我们的构建基于联合学习和转移学习。与以前的联合转移学习相比,每个用户应具有相同模式的数据(所有单峰或全模式),我们的新框架更为通用,它允许使用用户数据的混合分布。核心策略是为我们的两种用户使用两种不同但固有连接的培训方法。仅对单峰数据(类型1)的用户采用监督学习,而自我监督的学习则用于使用多模式数据(类型2)的用户,以适用于每种模式的功能及其之间的连接。类型2的这种联系知识将在培训的后期阶段有助于1键入1。新框架中的培训可以分为三个步骤。在第一步中,将具有相同模式的数据的用户分组在一起。例如,仅具有声音信号的用户在第一组中,只有图像的用户在第二组中,并且具有多模式数据的用户在第三组中,依此类推。在第二步中,在小组内执行联合学习,在该小组中,根据小组的性质,使用监督的学习和自学学习。大多数转移学习发生在第三步中,从前步骤获得的网络中的相关部分是汇总的(联合)。
translated by 谷歌翻译
半监控视频动作识别倾向于使深神经网络能够实现显着性能,即使具有非常有限的标记数据。然而,现有方法主要从当前的基于图像的方法转移(例如,FixMatch)。不具体利用时间动态和固有的多模式属性,它们的结果可能是次优。为了更好地利用视频中的编码的时间信息,我们将时间梯度引入了本文中的更多细小特征提取的额外模态。具体而言,我们的方法明确地蒸馏从时间梯度(TG)的细粒度运动表示,并施加不同方式的一致性(即RGB和TG)。在推理期间,没有额外的计算或参数,在没有额外的计算或参数的情况下显着提高了半监督动作识别的性能。我们的方法在若干典型的半监督设置(即标记数据的不同比率)下实现三个视频动作识别基准(即动态-400,UCF-101和HMDB-51)的最先进的性能。
translated by 谷歌翻译
准确的睡眠阶段分类对于睡眠健康评估很重要。近年来,已经开发了几种基于深度学习和机器学习的睡眠阶段算法,并且在人类注释方面取得了表现。尽管性能提高,但最深入学习算法的局限性是其黑盒行为,它限制了它们在临床环境中的使用。在这里,我们提出了跨模式变压器,这是一种基于变压器的睡眠阶段分类的方法。我们的模型通过最先进的方法实现了竞争性能,并通过利用注意模块的可解释性方面消除了深度学习模型的黑盒行为。提出的跨模式变压器由一种新型的跨模式变压器编码器结构以及多尺度的一维卷积神经网络组成,用于自动表示学习。基于此设计的我们的睡眠阶段分类器能够以与最先进的方法相同或更好地达到睡眠阶段分类性能,以及可解释性,参数数量减少了四倍,并且比较培训时间减少了。到当前的最新。我们的代码可从https://github.com/jathurshan0330/cross-modal-transformer获得。
translated by 谷歌翻译
近年来,基于脑电图的情绪识别的进步已受到人机相互作用和认知科学领域的广泛关注。但是,如何用有限的标签识别情绪已成为一种新的研究和应用瓶颈。为了解决这个问题,本文提出了一个基于人类中刺激一致的脑电图信号的自我监督组减数分裂对比学习框架(SGMC)。在SGMC中,开发了一种新型遗传学启发的数据增强方法,称为减数分裂。它利用了组中脑电图样品之间的刺激对齐,通过配对,交换和分离来生成增强组。该模型采用组投影仪,从相同的情感视频刺激触发的脑电图样本中提取组级特征表示。然后,使用对比度学习来最大程度地提高具有相同刺激的增强群体的组级表示的相似性。 SGMC在公开可用的DEAP数据集上实现了最先进的情感识别结果,其价值为94.72%和95.68%的价和唤醒维度,并且在公共种子数据集上的竞争性能也具有94.04的竞争性能。 %。值得注意的是,即使使用有限的标签,SGMC也会显示出明显的性能。此外,功能可视化的结果表明,该模型可能已经学习了与情感相关的特征表示,以改善情绪识别。在超级参数分析中进一步评估了组大小的影响。最后,进行了对照实验和消融研究以检查建筑的合理性。该代码是在线公开提供的。
translated by 谷歌翻译
The booming development and huge market of micro-videos bring new e-commerce channels for merchants. Currently, more micro-video publishers prefer to embed relevant ads into their micro-videos, which not only provides them with business income but helps the audiences to discover their interesting products. However, due to the micro-video recording by unprofessional equipment, involving various topics and including multiple modalities, it is challenging to locate the products related to micro-videos efficiently, appropriately, and accurately. We formulate the microvideo-product retrieval task, which is the first attempt to explore the retrieval between the multi-modal and multi-modal instances. A novel approach named Multi-Queue Momentum Contrast (MQMC) network is proposed for bidirectional retrieval, consisting of the uni-modal feature and multi-modal instance representation learning. Moreover, a discriminative selection strategy with a multi-queue is used to distinguish the importance of different negatives based on their categories. We collect two large-scale microvideo-product datasets (MVS and MVS-large) for evaluation and manually construct the hierarchical category ontology, which covers sundry products in daily life. Extensive experiments show that MQMC outperforms the state-of-the-art baselines. Our replication package (including code, dataset, etc.) is publicly available at https://github.com/duyali2000/MQMC.
translated by 谷歌翻译
尽管配备的远景和语言预处理(VLP)在过去两年中取得了显着的进展,但它遭受了重大缺点:VLP型号不断增加的尺寸限制了其部署到现实世界的搜索场景(高潜伏期是不可接受的)。为了减轻此问题,我们提出了一种新颖的插件动态对比度蒸馏(DCD)框架,以压缩ITR任务的大型VLP模型。从技术上讲,我们面临以下两个挑战:1)由于GPU内存有限,在处理交叉模式融合功能期间优化了太多的负样本,因此很难直接应用于跨模式任务,因此很难直接应用于跨模式任务。 。 2)从不同的硬样品中静态优化学生网络的效率效率低下,这些样本对蒸馏学习和学生网络优化具有不同的影响。我们试图从两点克服这些挑战。首先,为了实现多模式对比度学习并平衡培训成本和效果,我们建议使用教师网络估算学生的困难样本,使学生吸收了预培训的老师的强大知识,并掌握知识来自硬样品。其次,要从硬样品对学习动态,我们提出动态蒸馏以动态学习不同困难的样本,从更好地平衡知识和学生的自学能力的困难的角度。我们成功地将我们提出的DCD策略应用于两个最先进的视觉语言预处理模型,即vilt和仪表。关于MS-Coco和FlickR30K基准测试的广泛实验显示了我们DCD框架的有效性和效率。令人鼓舞的是,与现有的ITR型号相比,我们可以至少加快推断至少129美元的$ \ times $。
translated by 谷歌翻译
多模式情感分析由于其在多模式相互作用中的信息互补性而具有广泛的应用。以前的作品更多地着重于研究有效的联合表示,但他们很少考虑非峰值提取和多模层融合的数据冗余性的不足。在本文中,提出了一个基于视频的跨模式辅助网络(VCAN),该网络由音频特征映射模块和跨模式选择模块组成。第一个模块旨在大大提高音频功能提取的特征多样性,旨在通过提供更全面的声学表示来提高分类精度。为了授权该模型处理冗余视觉功能,第二个模块是在集成视听数据时有效地过滤冗余视觉框架的。此外,引入了由几个图像分类网络组成的分类器组,以预测情感极性和情感类别。关于RAVDESS,CMU-MOSI和CMU-MOSEI基准的广泛实验结果表明,VCAN明显优于提高多模式情感分析的分类准确性的最新方法。
translated by 谷歌翻译
脑电图(EEG)解码旨在识别基于非侵入性测量的脑活动的神经处理的感知,语义和认知含量。当应用于在静态,受控的实验室环境中获取的数据时,传统的EEG解码方法取得了适度的成功。然而,开放世界的环境是一个更现实的环境,在影响EEG录音的情况下,可以意外地出现,显着削弱了现有方法的鲁棒性。近年来,由于其在特征提取的卓越容量,深入学习(DL)被出现为潜在的解决方案。它克服了使用浅架构提取的“手工制作”功能或功能的限制,但通常需要大量的昂贵,专业标记的数据 - 并不总是可获得的。结合具有域特定知识的DL可能允许开发即使具有小样本数据,也可以开发用于解码大脑活动的鲁棒方法。虽然已经提出了各种DL方法来解决EEG解码中的一些挑战,但目前缺乏系统的教程概述,特别是对于开放世界应用程序。因此,本文为开放世界EEG解码提供了对DL方法的全面调查,并确定了有前途的研究方向,以激发现实世界应用中的脑电图解码的未来研究。
translated by 谷歌翻译
图像文本检索(ITR)在桥接视觉和舌形式方面具有挑战性。对比度学习已被大多数先前的艺术所采用。除了有限的负面图像文本对外,约束学习的能力受到手动加权负对以及对外部知识的不认识的限制。在本文中,我们提出了新型耦合多样性敏感的动量约束学习(编码器),以改善跨模式表示。首先,发明了一种新颖的多样性对比度学习(DCL)体系结构。我们引入了两种模式的动态词典,以扩大图像文本对的比例,并且通过自适应负面对加权实现多样性敏感性。此外,编码器设计了两个分支。一个人从图像/文本中学习实例级的嵌入式,它还基于其嵌入为其输入图像/文本生成伪在线聚类标签。同时,另一个分支学会从常识知识图中查询以形成两种模式的概念级描述符。之后,两个分支都利用DCL来对齐跨模式嵌入空间,而额外的伪聚类标签预测损失则用于促进第二个分支的概念级表示学习。在两个流行的基准测试(即Mscoco和Flicker30k)上进行的广泛实验,验证编码器的表现明显优于最先进的方法。
translated by 谷歌翻译
睡眠是一种基本的生理过程,对于维持健康的身心至关重要。临床睡眠监测的黄金标准是多核桃摄影(PSG),基于哪个睡眠可以分为五个阶段,包括尾脉冲睡眠(REM睡眠)/非REM睡眠1(N1)/非REM睡眠2 (n2)/非REM睡眠3(n3)。然而,PSG昂贵,繁重,不适合日常使用。对于长期睡眠监测,无处不在的感测可以是解决方案。最近,心脏和运动感测在分类三阶段睡眠方面变得流行,因为两种方式都可以从研究级或消费者级设备中获得(例如,Apple Watch)。但是,为最大准确性融合数据的最佳仍然是一个打开的问题。在这项工作中,我们综合地研究了深度学习(DL)的高级融合技术,包括三种融合策略,三个融合方法以及三级睡眠分类,基于两个公共数据集。实验结果表明,通过融合心脏/运动传感方式可以可靠地分类三阶段睡眠,这可能成为在睡眠中进行大规模睡眠阶段评估研究或长期自动跟踪的实用工具。为了加快普遍存在/可穿戴计算社区的睡眠研究的进展,我们制作了该项目开源,可以在:https://github.com/bzhai/ubi-sleepnet找到代码。
translated by 谷歌翻译
视频突出显示检测是一个至关重要但充满挑战的问题,旨在识别未修剪视频中有趣的时刻。该任务的关键在于有效的视频表示形式共同追求两个目标,即\ textit {i.e。},跨模式表示学习和精细元素特征歧视。在本文中,这两个挑战不仅通过丰富表示建模的模式内部和跨模式关系来应对,而且还以歧视性的方式塑造了这些特征。我们提出的方法主要利用模式内编码和交叉模式共发生编码来完全表示建模。具体而言,编码的模式内模式可以增强模态特征,并通过音频和视觉信号中的模式关系学习来抑制无关的模态。同时,跨模式的共同发生编码着重于同时模式间关系,并选择性地捕获了多模式之间的有效信息。从本地上下文中抽象的全局信息进一步增强了多模式表示。此外,我们使用硬对对比度学习(HPCL)方案扩大了特征嵌入的判别能力。进一步采用了硬对采样策略来开采硬样品,以改善HPCL中的特征歧视。与其他最新方法相比,在两个基准上进行的广泛实验证明了我们提出的方法的有效性和优势。
translated by 谷歌翻译
视频自我监督的学习是一项挑战的任务,这需要模型的显着表达力量来利用丰富的空间时间知识,并从大量未标记的视频产生有效的监督信号。但是,现有方法未能提高未标记视频的时间多样性,并以明确的方式忽略精心建模的多尺度时间依赖性。为了克服这些限制,我们利用视频中的多尺度时间依赖性,并提出了一个名为时间对比图学习(TCGL)的新型视频自我监督学习框架,该框架共同模拟了片段间和片段间的时间依赖性用混合图对比学习策略学习的时间表示学习。具体地,首先引入空间 - 时间知识发现(STKD)模块以基于离散余弦变换的频域分析从视频中提取运动增强的空间时间表。为了显式模拟未标记视频的多尺度时间依赖性,我们的TCGL将关于帧和片段命令的先前知识集成到图形结构中,即片段/间隙间时间对比图(TCG)。然后,特定的对比学习模块旨在最大化不同图形视图中节点之间的协议。为了为未标记的视频生成监控信号,我们介绍了一种自适应片段订购预测(ASOP)模块,它利用视频片段之间的关系知识来学习全局上下文表示并自适应地重新校准通道明智的功能。实验结果表明我们的TCGL在大规模行动识别和视频检索基准上的最先进方法中的优势。
translated by 谷歌翻译
在3D动作识别中,存在骨骼模式之间的丰富互补信息。然而,如何建模和利用这些信息仍然是一个充满挑战的3D动作表示学习的问题。在这项工作中,我们将交叉模式相互作用作为双向知识蒸馏问题。不同于经典的蒸馏解决方案,这些解决方案将固定和预训练的教师的知识转移到学生中,在这项工作中,知识在模式之间不断更新和双向蒸馏。为此,我们提出了一个新的跨模式相互蒸馏(CMD)框架,并采用以下设计。一方面,引入了相邻的相似性分布来对每种模式中学习的知识进行建模,其中关系信息自然适合对比框架。另一方面,不对称的配置用于教师和学生来稳定蒸馏过程并在模式之间传递高信心信息。通过派生,我们发现以前作品中的跨模式阳性采矿可以被视为我们CMD的退化版本。我们对NTU RGB+D 60,NTU RGB+D 120和PKU-MMD II数据集执行了广泛的实验。我们的方法的表现优于现有的自我监督方法,并设置了一系列新记录。该代码可在以下网址找到:https://github.com/maoyunyao/cmd
translated by 谷歌翻译
目前借助脑电图(EEG)信号目前进行自动睡眠分期研究。最近,基于深度学习(DL)的方法在该领域实现了重大进展,允许在自动睡眠分段中近的人类准确性。然而,基于EEG的睡眠分段需要广泛的以及昂贵的临床设置。此外,在研究下,对课程的专家和增加不便的要求呈现在护理点中不利。心电图(ECG)是脑电图的不引人注目的替代品,更适合,但其性能不成本,与基于EEG的睡眠分段相比,亚比例仍然存在。当然,将知识从EEG转移到ECG,最终提高了基于ECG的投入的模型的性能有助于。知识蒸馏(KD)是DL中的着名概念,用于看起来将知识从更好但潜在的繁琐的教师模型转移到紧凑的学生模型。在这一概念上,我们提出了一个跨模型KD框架,以便通过通过在eeg上培训的型号学习的功能的帮助来提高基于ECG的睡眠分期性能。此外,我们还对所提出的模型的各个组成部分进行多次实验,以便更好地了解蒸馏方法。梦想研究(质量)蒙特利尔档案的200个科目的数据用于我们的研究。所提出的模型分别在4级和3级睡眠分段中分别增加了14.3×%和13.4 \%。这证明了KD在4级(W-L-D-R)和3级(W-N-R)分类中的单通道ECG基于睡眠分段的性能改进的可行性。
translated by 谷歌翻译
Electroencephalogram (EEG) has been one of the common neuromonitoring modalities for real-world brain-computer interfaces (BCIs) because of its non-invasiveness, low cost, and high temporal resolution. Recently, light-weight and portable EEG wearable devices based on low-density montages have increased the convenience and usability of BCI applications. However, loss of EEG decoding performance is often inevitable due to reduced number of electrodes and coverage of scalp regions of a low-density EEG montage. To address this issue, we introduce knowledge distillation (KD), a learning mechanism developed for transferring knowledge/information between neural network models, to enhance the performance of low-density EEG decoding. Our framework includes a newly proposed similarity-keeping (SK) teacher-student KD scheme that encourages a low-density EEG student model to acquire the inter-sample similarity as in a pre-trained teacher model trained on high-density EEG data. The experimental results validate that our SK-KD framework consistently improves motor-imagery EEG decoding accuracy when number of electrodes deceases for the input EEG data. For both common low-density headphone-like and headband-like montages, our method outperforms state-of-the-art KD methods across various EEG decoding model architectures. As the first KD scheme developed for enhancing EEG decoding, we foresee the proposed SK-KD framework to facilitate the practicality of low-density EEG-based BCI in real-world applications.
translated by 谷歌翻译
目的:在本文中,我们旨在从大量未标记的脑电图(EEG)信号中学习强大的向量表示,以使学习的表示(1)表现得足以替代睡眠分期任务中的原始信号; (2)在较少的标签和嘈杂样本的情况下,提供了比监督模型更好的预测性能。材料和方法:我们提出了一个自我监督的模型,称为与世界表示形式(Contrawr)相比,用于EEG信号表示学习,该模型使用数据集中的全局统计信息来区分与不同睡眠阶段相关的信号。在包括在家中的三个现实世界EEG数据集上评估了Contrawr模型,这些模型既包括在家中录制设置。结果:Contrawr在三个数据集中的睡眠登台任务上,Moco,Simclr,Byol,Simsiam胜过最新的自我监督学习方法。当可用的培训标签较少时,Contrawr还会击败受监督的学习(例如,标记不到2%的数据时,精度提高了4%)。此外,该模型在2D投影中提供了信息表示。讨论:建议的模型可以推广到其他无监督的生理信号学习任务。未来的方向包括探索特定于任务的数据增强,并将自我监督与监督方法结合起来,这是基于本文自我监督学习的最初成功。结论:我们表明,Contrawr对噪声是强大的,并且可以为下游预测任务提供高质量的EEG表示。在低标签场景(例如,只有2%的数据具有标签),Contrawr的预测能力(例如,睡眠分期准确性提高了4%)比监督的基线要好得多。
translated by 谷歌翻译
在深度学习研究中,自学学习(SSL)引起了极大的关注,引起了计算机视觉和遥感社区的兴趣。尽管计算机视觉取得了很大的成功,但SSL在地球观测领域的大部分潜力仍然锁定。在本文中,我们对在遥感的背景下为计算机视觉的SSL概念和最新发展提供了介绍,并回顾了SSL中的概念和最新发展。此外,我们在流行的遥感数据集上提供了现代SSL算法的初步基准,从而验证了SSL在遥感中的潜力,并提供了有关数据增强的扩展研究。最后,我们确定了SSL未来研究的有希望的方向的地球观察(SSL4EO),以铺平了两个领域的富有成效的相互作用。
translated by 谷歌翻译