In this paper, we address the problem of multimodal emotion recognition from multiple physiological signals. We demonstrate that a Transformer-based approach is suitable for this task. In addition, we present how such models may be pretrained in a multimodal scenario to improve emotion recognition performances. We evaluate the benefits of using multimodal inputs and pre-training with our approach on a state-ofthe-art dataset.
translated by 谷歌翻译
我们提出了跨模式的细心连接,这是一种从可穿戴数据中学习的新型动态和有效技术。我们的解决方案可以集成到管道的任何阶段,即在任何卷积层或块之后,以在负责处理每种模式的单个流之间创建中间连接。此外,我们的方法受益于两个属性。首先,它可以单向共享信息(从一种方式到另一种方式)或双向分别。其次,可以同时将其集成到多个阶段中,以进一步允许以几个接触点交换网络梯度。我们对三个公共多模式可穿戴数据集(Wesad,Swell-KW和案例)进行了广泛的实验,并证明我们的方法可以有效地调节不同模式之间的信息,以学习更好的表示。我们的实验进一步表明,一旦整合到基于CNN的多模式溶液(2、3或4模态)中,我们的方法就会导致卓越或竞争性的性能,而不是最先进的表现,并且表现优于各种基线模式和经典的多模式方法。
translated by 谷歌翻译
多模式情绪识别的研究和应用最近变得越来越流行。但是,多模式情绪识别面临缺乏数据的挑战。为了解决这个问题,我们建议使用转移学习,哪些人利用最先进的预培训模型,包括WAV2VEC 2.0和BERT来执行此任务。探索了多级融合方法,包括基于共发的早期融合和与在两个嵌入训练的模型的后期融合。此外,还提出了一个多范围的框架,它不仅提取了帧级的语音嵌入,还提出了细分级别的嵌入,包括电话,音节和文字级语音嵌入,以进一步提高性能。通过将基于同时的早期融合模型和晚期融合模型与多粒性特征提取框架相结合,我们获得的结果使IEMOCAP数据集上的最佳基线方法优于最佳基线方法未加权准确性(UA)。
translated by 谷歌翻译
在本文中,我们介绍了2022年多模式情感分析挑战(MUSE)的解决方案,其中包括Muse-Humor,Muse-Rection和Muse Surns Sub-Challenges。 2022年穆斯穆斯(Muse 2022)着重于幽默检测,情绪反应和多模式的情感压力,利用不同的方式和数据集。在我们的工作中,提取了不同种类的多模式特征,包括声学,视觉,文本和生物学特征。这些功能由Temma和Gru融合到自发机制框架中。在本文中,1)提取了一些新的音频功能,面部表达功能和段落级文本嵌入以进行准确的改进。 2)我们通过挖掘和融合多模式特征来显着提高多模式情感预测的准确性和可靠性。 3)在模型培训中应用有效的数据增强策略,以减轻样本不平衡问题并防止模型形成学习有偏见的主题字符。对于博物馆的子挑战,我们的模型获得了0.8932的AUC分数。对于Muse Rection子挑战,我们在测试集上的Pearson相关系数为0.3879,它的表现优于所有其他参与者。对于Muse Surst Sub-Challenge,我们的方法在测试数据集上的唤醒和价值都优于基线,达到了0.5151的最终综合结果。
translated by 谷歌翻译
自我监督学习(SSL)是一个新的范式,用于学习判别性表示没有标记的数据,并且与受监督的对手相比,已经达到了可比甚至最新的结果。对比度学习(CL)是SSL中最著名的方法之一,试图学习一般性的信息表示数据。 CL方法主要是针对仅使用单个传感器模态的计算机视觉和自然语言处理应用程序开发的。但是,大多数普遍的计算应用程序都从各种不同的传感器模式中利用数据。虽然现有的CL方法仅限于从一个或两个数据源学习,但我们提出了可可(Crockoa)(交叉模态对比度学习),这是一种自我监督的模型,该模型采用新颖的目标函数来通过计算多功能器数据来学习质量表示形式不同的数据方式,并最大程度地减少了无关实例之间的相似性。我们评估可可对八个最近引入最先进的自我监督模型的有效性,以及五个公共数据集中的两个受监督的基线。我们表明,可可与所有其他方法相比,可可的分类表现出色。同样,可可比其他可用标记数据的十分之一的基线(包括完全监督的模型)的标签高得多。
translated by 谷歌翻译
情绪识别涉及几个现实世界应用。随着可用方式的增加,对情绪的自动理解正在更准确地进行。多模式情感识别(MER)的成功主要依赖于监督的学习范式。但是,数据注释昂贵,耗时,并且由于情绪表达和感知取决于几个因素(例如,年龄,性别,文化),获得具有高可靠性的标签很难。由这些动机,我们专注于MER的无监督功能学习。我们考虑使用离散的情绪,并用作模式文本,音频和视觉。我们的方法是基于成对方式之间的对比损失,是MER文献中的第一次尝试。与现有的MER方法相比,我们的端到端特征学习方法具有几种差异(和优势):i)无监督,因此学习缺乏数据标记成本; ii)它不需要数据空间增强,模态对准,大量批量大小或时期; iii)它仅在推理时应用数据融合; iv)它不需要对情绪识别任务进行预训练的骨干。基准数据集上的实验表明,我们的方法优于MER中应用的几种基线方法和无监督的学习方法。特别是,它甚至超过了一些有监督的MER最先进的。
translated by 谷歌翻译
学习模当融合的表示和处理未对准的多模式序列在多式联情绪识别中是有意义的,具有挑战性。现有方法使用定向成对注意力或消息中心到熔丝语言,视觉和音频模态。然而,这些方法在融合特征时介绍信息冗余,并且在不考虑方式的互补性的情况下效率低效。在本文中,我们提出了一种高效的神经网络,以学习与CB变压器(LMR-CBT)的模型融合表示,用于从未对准的多模式序列进行多峰情绪识别。具体地,我们首先为三种方式执行特征提取,以获得序列的局部结构。然后,我们设计具有跨模块块(CB变压器)的新型变压器,其能够实现不同模式的互补学习,主要分为局部时间学习,跨模型特征融合和全球自我关注表示。此外,我们将融合功能与原始特征拼接以对序列的情绪进行分类。最后,我们在三个具有挑战性的数据集,IEMocap,CMU-MOSI和CMU-MOSEI进行词语对齐和未对准的实验。实验结果表明我们在两个设置中提出的方法的优势和效率。与主流方法相比,我们的方法以最小数量的参数达到最先进的。
translated by 谷歌翻译
创伤后应激障碍(PTSD)是一种长期衰弱的精神状况,是针对灾难性生活事件(例如军事战斗,性侵犯和自然灾害)而发展的。 PTSD的特征是过去的创伤事件,侵入性思想,噩梦,过度维护和睡眠障碍的闪回,所有这些都会影响一个人的生活,并导致相当大的社会,职业和人际关系障碍。 PTSD的诊断是由医学专业人员使用精神障碍诊断和统计手册(DSM)中定义的PTSD症状的自我评估问卷进行的。在本文中,这是我们第一次收集,注释并为公共发行准备了一个新的视频数据库,用于自动PTSD诊断,在野生数据集中称为PTSD。该数据库在采集条件下表现出“自然”和巨大的差异,面部表达,照明,聚焦,分辨率,年龄,性别,种族,遮挡和背景。除了描述数据集集合的详细信息外,我们还提供了评估野生数据集中PTSD的基于计算机视觉和机器学习方法的基准。此外,我们建议并评估基于深度学习的PTSD检测方法。提出的方法显示出非常有希望的结果。有兴趣的研究人员可以从:http://www.lissi.fr/ptsd-dataset/下载PTSD-in-wild数据集的副本
translated by 谷歌翻译
多模式分析最近对情感计算的兴趣很大,因为它可以提高情感识别对孤立的单模态方法的整体准确性。多式联情绪识别最有效的技术有效地利用各种和互补的信息来源,例如面部,声带和生理方式,提供全面的特征表示。在本文中,我们专注于基于视频中提取的面部和声乐方式的融合的尺寸情感识别,其中可以捕获复杂的时空关系。大多数现有的融合技术依赖于经常性网络或传统的注意机制,这些机制没有有效地利用视听(A-V)方式的互补性质。我们介绍了一种跨关注融合方法来提取A-V模式的显着特征,允许准确地预测连续值的价值和唤醒。我们的新的跨关节A-V融合模型有效利用了模态关系。特别地,它计算跨关注权重,以专注于各个模态跨越更贡献的特征,从而组合贡献特征表示,然后将其馈送到完全连接的层以用于预测价和唤醒。所提出的方法的有效性在通过Recolat和疲劳(私人)数据集中的视频上进行了实验验证。结果表明,我们的跨关节A-V融合模型是一种经济高效的方法,优于最先进的融合方法。代码可用:\ url {https://github.com/praveena2j/cross-attentional-av-fusion}
translated by 谷歌翻译
最近利用多模式数据旨在建立面部动作单元(AU)检测模型的研究。但是,由于多模式数据的异质性,多模式表示学习成为主要挑战之一。一方面,很难通过仅通过一个特征提取器从多模式中提取相关特征,另一方面,先前的研究并未完全探索多模式融合策略的潜力。例如,早期融合通常需要在推理期间存在所有方式,而晚期融合和中间融合则增加了特征学习的网络大小。与晚期融合的大量工作相反,早期融合探索渠道信息的作品很少。本文提出了一个新型的多模式网络,称为多模式通道混合(MCM),作为一种预训练的模型,以学习强大的表示形式,以促进多模式融合。我们在自动面部动作单元检测的下游任务上评估学习的表示形式。具体而言,它是一个单个流编码器网络,该网络在早期融合中使用频道混合模块,在下游检测任务中仅需要一种模态。我们还利用蒙版的VIT编码器从融合图像中学习特征,并使用两个VIT解码器重建两个模式。我们已经在两个公共数据集(称为BP4D和DISFA)上进行了广泛的实验,以评估所提出的多模式框架的有效性和鲁棒性。结果表明我们的方法是可比或优越的,它与最新的基线方法相当。
translated by 谷歌翻译
本文提出了一个多模式的情感识别系统,即视觉口语文本添加剂网(Vista Net),以将包含图像,语音和文本的多模式输入反映的情绪分类为离散类。还开发了一种新的可解释性技术,即K平均添加剂解释(KAAP),以确定重要的视觉,口语和文本特征,从而预测特定的情感类别。 Vista Net使用早期和晚期融合的混合体从图像,语音和文本方式融合信息。它会自动调整其中间输出的权重,同时在不干预的情况下计算加权平均值。 KAAP技术计算每种方式和相应特征在预测特定情绪类别的贡献。为了减轻带有离散情绪类别标记的多模式情感数据集的不足,我们构建了一个大规模的IIT-R MMEMOREC数据集,该数据集由现实生活中的图像,相应的语音和文本和情感标签(“愤怒,'快乐,''happy,''快乐,'' “恨,”和“悲伤”。)。 Vista Net在考虑图像,语音和文本方式上导致了95.99%的情绪识别精度,这比考虑任何一种或两种方式的输入的表现要好。
translated by 谷歌翻译
多模式分类是人类以人为本的机器学习中的核心任务。我们观察到信息跨多模式融合在多模式融合之前,信息在偶像中具有高度互补的信息,因此在多模式融合之前可以彻底稀释。为此,我们呈现稀疏的融合变压器(SFT),一种用于现有最先进的方法的变压器的新型多模式融合方法,同时具有大大降低了内存占用和计算成本。我们想法的关键是稀疏池块,可在跨模式建模之前减少单峰令牌集合。评估在多个多模式基准数据集上进行,用于广泛的分类任务。在类似的实验条件下的多个基准上获得最先进的性能,同时报告计算成本和内存要求降低六倍。广泛的消融研究展示了在天真的方法中结合稀疏和多式化学习的好处。这铺平了在低资源设备上实现多模级学习的方式。
translated by 谷歌翻译
本文提出了一个基于混合融合的多模式情感识别系统,该系统将语音话语和相应图像描绘的情绪分类为离散类。已经开发了一种新的可解释性技术,以确定重要的语音和图像特征,从而预测特定的情感类别。拟议的系统的体系结构是通过大量消融研究确定的。它融合了语音和图像特征,然后结合了语音,图像和中间融合输出。提出的可解释性技术结合了划分和征服方法,以计算表示每个语音和图像特征的重要性的刻薄值。我们还构建了一个大规模数据集(IIT-R较小的数据集),包括语音话语,相应的图像和班级标签,即“愤怒”,“快乐”,“仇恨”和“悲伤”。拟议的系统已达到83.29%的情绪识别精度。提出的系统的增强性能提倡利用多种模式中的互补信息来识别情绪的重要性。
translated by 谷歌翻译
睡眠是一种基本的生理过程,对于维持健康的身心至关重要。临床睡眠监测的黄金标准是多核桃摄影(PSG),基于哪个睡眠可以分为五个阶段,包括尾脉冲睡眠(REM睡眠)/非REM睡眠1(N1)/非REM睡眠2 (n2)/非REM睡眠3(n3)。然而,PSG昂贵,繁重,不适合日常使用。对于长期睡眠监测,无处不在的感测可以是解决方案。最近,心脏和运动感测在分类三阶段睡眠方面变得流行,因为两种方式都可以从研究级或消费者级设备中获得(例如,Apple Watch)。但是,为最大准确性融合数据的最佳仍然是一个打开的问题。在这项工作中,我们综合地研究了深度学习(DL)的高级融合技术,包括三种融合策略,三个融合方法以及三级睡眠分类,基于两个公共数据集。实验结果表明,通过融合心脏/运动传感方式可以可靠地分类三阶段睡眠,这可能成为在睡眠中进行大规模睡眠阶段评估研究或长期自动跟踪的实用工具。为了加快普遍存在/可穿戴计算社区的睡眠研究的进展,我们制作了该项目开源,可以在:https://github.com/bzhai/ubi-sleepnet找到代码。
translated by 谷歌翻译
近年来,基于脑电图的情绪识别的进步已受到人机相互作用和认知科学领域的广泛关注。但是,如何用有限的标签识别情绪已成为一种新的研究和应用瓶颈。为了解决这个问题,本文提出了一个基于人类中刺激一致的脑电图信号的自我监督组减数分裂对比学习框架(SGMC)。在SGMC中,开发了一种新型遗传学启发的数据增强方法,称为减数分裂。它利用了组中脑电图样品之间的刺激对齐,通过配对,交换和分离来生成增强组。该模型采用组投影仪,从相同的情感视频刺激触发的脑电图样本中提取组级特征表示。然后,使用对比度学习来最大程度地提高具有相同刺激的增强群体的组级表示的相似性。 SGMC在公开可用的DEAP数据集上实现了最先进的情感识别结果,其价值为94.72%和95.68%的价和唤醒维度,并且在公共种子数据集上的竞争性能也具有94.04的竞争性能。 %。值得注意的是,即使使用有限的标签,SGMC也会显示出明显的性能。此外,功能可视化的结果表明,该模型可能已经学习了与情感相关的特征表示,以改善情绪识别。在超级参数分析中进一步评估了组大小的影响。最后,进行了对照实验和消融研究以检查建筑的合理性。该代码是在线公开提供的。
translated by 谷歌翻译
在情感计算领域的基于生理信号的情感识别,已经支付了相当大的关注。对于可靠性和用户友好的采集,电卸电子活动(EDA)在实际应用中具有很大的优势。然而,基于EDA的情感识别与数百个科目仍然缺乏有效的解决方案。在本文中,我们的工作试图融合主题的各个EDA功能和外部诱发的音乐功能。我们提出了端到端的多模式框架,1维剩余时间和通道注意网络(RTCAN-1D)。对于EDA特征,基于新型的基于凸优化的EDA(CVXEDA)方法被应用于将EDA信号分解为PAHSIC和TONC信号,以进行动态和稳定的功能。首先涉及基于EDA的情感识别的渠道时间关注机制,以改善时间和渠道明智的表示。对于音乐功能,我们将音乐信号与开源工具包opensmile处理,以获取外部特征向量。来自EDA信号和来自音乐的外部情绪基准的个体情感特征在分类层中融合。我们对三个多模式数据集(PMEMO,DEAP,AMIGOS)进行了系统的比较,适用于2级薪酬/唤醒情感识别。我们提出的RTCAN-1D优于现有的最先进的模型,这也验证了我们的工作为大规模情感认可提供了可靠和有效的解决方案。我们的代码已在https://github.com/guanghaoyin/rtcan-1发布。
translated by 谷歌翻译
我们提出了Parse,这是一种新颖的半监督结构,用于学习强大的脑电图表现以进行情感识别。为了减少大量未标记数据与标记数据有限的潜在分布不匹配,Parse使用成对表示对准。首先,我们的模型执行数据增强,然后标签猜测大量原始和增强的未标记数据。然后将其锐化的标签和标记数据的凸组合锐化。最后,进行表示对准和情感分类。为了严格测试我们的模型,我们将解析与我们实施并适应脑电图学习的几种最先进的半监督方法进行了比较。我们对四个基于公共EEG的情绪识别数据集,种子,种子IV,种子V和Amigos(价和唤醒)进行这些实验。该实验表明,我们提出的框架在种子,种子-IV和Amigos(Valence)中的标记样品有限的情况下,取得了总体最佳效果,同时接近种子V和Amigos中的总体最佳结果(达到第二好) (唤醒)。分析表明,我们的成对表示对齐方式通过减少未标记数据和标记数据之间的分布比对来大大提高性能,尤其是当每类仅1个样本被标记时。
translated by 谷歌翻译
识别和理解文本中的潜在情绪或情绪是多种自然语言处理应用程序的关键组成部分。虽然简单的极性情感分析是一个良好研究的主题,但在识别使用文本数据的更复杂,更精细的情绪方面取得了更少的进步。在本文中,我们介绍了一种基于变压器的模型,具有适配器层的融合,它利用更简单的情绪分析任务来改善大规模数据集(例如CMU-MOSEI)上的情绪检测任务,仅使用文本方式。结果表明,我们的建议方法与其他方法具有竞争力。即使使用仅使用文本方式,我们也能为CMU-MOSEI的情感识别获得最先进的结果。
translated by 谷歌翻译
自动识别面部和声音的明显情绪很难,部分原因是各种不确定性来源,包括输入数据和机器学习框架中使用的标签。本文介绍了一种不确定性感知的视听融合方法,该方法量化了对情绪预测的模态不确定性。为此,我们提出了一个新颖的融合框架,在该框架中,我们首先通过视听时间上下文向量学习潜在分布,然后限制单峰潜在分布的方差向量,以便它们表示每种模式的信息量,以提供W.R.T.情绪识别。特别是,我们对视听潜在分布的方差向量施加了校准和序数排名约束。当经过良好校准时,将模态不确定性得分表明它们的相应预测可能与地面真实标签有多大不同。排名良好的不确定性得分允许在模式中对不同框架进行顺序排名。为了共同施加这两种约束,我们提出了软马克斯分布匹配损失。在分类和回归设置中,我们将不确定性感知的融合模型与标准模型 - 静态融合基线进行了比较。我们对两个情绪识别语料库(AVEC 2019 CES和IEMOCAP)的评估表明,视听情绪识别可以从良好的和良好的潜在不确定性度量中受益匪浅。
translated by 谷歌翻译
基于音频视频的多模式情绪识别由于其强大的性能引起了很多人。大多数现有方法都侧重于提出不同的跨模态融合策略。然而,这些策略在不同模式的特征中引入了冗余,而无需完全考虑模态信息之间的互补特性,并且这些方法不保证在跨跨和间间交互期间的原始语义信息的非损失。在本文中,我们提出了一种基于自我关注和残余结构(CFN-SR)的新型跨模型融合网络,用于多式联情绪识别。首先,我们对音频和视频模型执行表示学习,以通过有效的ResNext和1D CNN获得两个模态的语义特征。其次,我们将两个模态的特征分别馈送到跨模块块中,以确保通过自我关注机制和残余结构来确保信息的有效互补性和完整性。最后,我们通过用原始表示拼接获得的融合表示来获得情绪的产出。为了验证所提出的方法的有效性,我们对Ravdess数据集进行实验。实验结果表明,拟议的CFN-SR实现了最先进的,并以26.30M参数获得75.76%的精度。我们的代码可在https://github.com/skeletonnn/cfn-sr获得。
translated by 谷歌翻译