人格计算和情感计算最近在许多研究领域获得了兴趣。任务的数据集通常具有视频,音频,语言和生物信号等多种方式。在本文中,我们提出了一种灵活的型号,用于利用所有可用数据的任务。该任务涉及复杂的关系,并避免使用大型模型进行视频处理,我们提出了使用行为编码,该行为编码具有对模型的最小变化的性能提升性能。近期使用变压器的横向感到流行,并且用于融合不同的方式。由于可能存在长期关系,因此不希望将输入破坏到块中,因此所提出的模型将整个输入处理在一起。我们的实验表明了上述每个贡献的重要性
translated by 谷歌翻译
Human behavior understanding requires looking at minute details in the large context of a scene containing multiple input modalities. It is necessary as it allows the design of more human-like machines. While transformer approaches have shown great improvements, they face multiple challenges such as lack of data or background noise. To tackle these, we introduce the Forced Attention (FAt) Transformer which utilize forced attention with a modified backbone for input encoding and a use of additional inputs. In addition to improving the performance on different tasks and inputs, the modification requires less time and memory resources. We provide a model for a generalised feature extraction for tasks concerning social signals and behavior analysis. Our focus is on understanding behavior in videos where people are interacting with each other or talking into the camera which simulates the first person point of view in social interaction. FAt Transformers are applied to two downstream tasks: personality recognition and body language recognition. We achieve state-of-the-art results for Udiva v0.5, First Impressions v2 and MPII Group Interaction datasets. We further provide an extensive ablation study of the proposed architecture.
translated by 谷歌翻译
在本文中,我们介绍了2022年多模式情感分析挑战(MUSE)的解决方案,其中包括Muse-Humor,Muse-Rection和Muse Surns Sub-Challenges。 2022年穆斯穆斯(Muse 2022)着重于幽默检测,情绪反应和多模式的情感压力,利用不同的方式和数据集。在我们的工作中,提取了不同种类的多模式特征,包括声学,视觉,文本和生物学特征。这些功能由Temma和Gru融合到自发机制框架中。在本文中,1)提取了一些新的音频功能,面部表达功能和段落级文本嵌入以进行准确的改进。 2)我们通过挖掘和融合多模式特征来显着提高多模式情感预测的准确性和可靠性。 3)在模型培训中应用有效的数据增强策略,以减轻样本不平衡问题并防止模型形成学习有偏见的主题字符。对于博物馆的子挑战,我们的模型获得了0.8932的AUC分数。对于Muse Rection子挑战,我们在测试集上的Pearson相关系数为0.3879,它的表现优于所有其他参与者。对于Muse Surst Sub-Challenge,我们的方法在测试数据集上的唤醒和价值都优于基线,达到了0.5151的最终综合结果。
translated by 谷歌翻译
自动情绪识别(ER)最近由于其在许多实际应用中的潜力而引起了很多兴趣。在这种情况下,已经证明多模式方法可以通过结合多样化和互补的信息来源,从而提高性能(超过单峰方法),从而为嘈杂和缺失的方式提供了一些鲁棒性。在本文中,我们根据从视频中提取的面部和声音方式融合的尺寸ER专注于尺寸,其中探索了互补的视听(A-V)关系,以预测个人在价值空间中的情绪状态。大多数最先进的融合技术都依赖于反复的网络或常规的注意机制,这些机制无法有效利用A-V模式的互补性。为了解决这个问题,我们引入了A-V融合的联合跨注意模型,该模型在A-V模态上提取显着特征,从而可以有效利用模式间关系,同时保留模式内关系。特别是,它根据联合特征表示与单个模式的相关性计算交叉意义权重。通过将联合A-V特征表示形式部署到交叉意见模块中,它有助于同时利用内模式和模态关系,从而显着改善系统的性能,而不是香草交叉意见模块。我们提出的方法的有效性是在Recola和AffWild2数据集的挑战性视频中通过实验验证的。结果表明,我们的跨注意A-V融合模型提供了一种具有成本效益的解决方案,即使模式是嘈杂或不存在的,也可以超越最先进的方法。
translated by 谷歌翻译
多模式分析最近对情感计算的兴趣很大,因为它可以提高情感识别对孤立的单模态方法的整体准确性。多式联情绪识别最有效的技术有效地利用各种和互补的信息来源,例如面部,声带和生理方式,提供全面的特征表示。在本文中,我们专注于基于视频中提取的面部和声乐方式的融合的尺寸情感识别,其中可以捕获复杂的时空关系。大多数现有的融合技术依赖于经常性网络或传统的注意机制,这些机制没有有效地利用视听(A-V)方式的互补性质。我们介绍了一种跨关注融合方法来提取A-V模式的显着特征,允许准确地预测连续值的价值和唤醒。我们的新的跨关节A-V融合模型有效利用了模态关系。特别地,它计算跨关注权重,以专注于各个模态跨越更贡献的特征,从而组合贡献特征表示,然后将其馈送到完全连接的层以用于预测价和唤醒。所提出的方法的有效性在通过Recolat和疲劳(私人)数据集中的视频上进行了实验验证。结果表明,我们的跨关节A-V融合模型是一种经济高效的方法,优于最先进的融合方法。代码可用:\ url {https://github.com/praveena2j/cross-attentional-av-fusion}
translated by 谷歌翻译
已经普遍研究了具有精确唇部同步的语音驱动的3D面部动画。然而,在演讲中为整个面部的综合制造动作很少被探索。在这项工作中,我们介绍了一个联合音频文本模型,用于捕捉表达语音驱动的3D面部动画的上下文信息。收集现有数据集以覆盖尽可能多的不同音素而不是句子,从而限制了基于音频的模型的能力,以了解更多不同的上下文。为解决此问题,我们建议利用从强大的预先培训的语言模型中提取的上下文文本嵌入,该模型从大规模文本数据中学习了丰富的上下文表示。我们的假设是文本特征可以消除上面表达式的变化,这与音频没有强烈相关。与从文本中学习音素级别功能的先前方法相比,我们调查语音驱动3D面部动画的高级上下文文本特征。我们表明,组合的声学和文本方式可以在维持抖动同步的同时综合现实的面部表达式。我们进行定量和定性评估以及感知用户学习。结果展示了我们模型对现有最先进的方法的卓越表现。
translated by 谷歌翻译
Human language is often multimodal, which comprehends a mixture of natural language, facial gestures, and acoustic behaviors. However, two major challenges in modeling such multimodal human language time-series data exist: 1) inherent data non-alignment due to variable sampling rates for the sequences from each modality; and 2) long-range dependencies between elements across modalities. In this paper, we introduce the Multimodal Transformer (MulT) to generically address the above issues in an end-to-end manner without explicitly aligning the data. At the heart of our model is the directional pairwise crossmodal attention, which attends to interactions between multimodal sequences across distinct time steps and latently adapt streams from one modality to another. Comprehensive experiments on both aligned and non-aligned multimodal time-series show that our model outperforms state-of-the-art methods by a large margin. In addition, empirical analysis suggests that correlated crossmodal signals are able to be captured by the proposed crossmodal attention mechanism in MulT.
translated by 谷歌翻译
在本文中,我们将解决方案介绍给Muse-Humor的多模式情感挑战(MUSE)2022的邮件,库穆尔人子挑战的目标是发现幽默并从德国足球馆的视听录音中计算出AUC新闻发布会。它是针对教练表现出的幽默的注释。对于此子挑战,我们首先使用变压器模块和BilstM模块构建一个判别模型,然后提出一种混合融合策略,以使用每种模式的预测结果来提高模型的性能。我们的实验证明了我们提出的模型和混合融合策略对多模式融合的有效性,并且我们在测试集中提出的模型的AUC为0.8972。
translated by 谷歌翻译
在最新的社交网络中,越来越多的人喜欢通过文字,语音和丰富的面部表情在视频中表达自己的情绪。多模式的视频情感分析技术可以根据图像中的人类表情和手势,声音和公认的自然语言自动理解用户的内部世界。但是,在现有研究中,与视觉和文本方式相比,声学方式长期以来一直处于边缘位置。也就是说,改善声学方式对整个多模式识别任务的贡献往往更加困难。此外,尽管可以通过引入常见的深度学习方法来获得更好的性能,但是这些训练模型的复杂结构始终会导致推理效率低,尤其是在暴露于高分辨率和长长视频时。此外,缺乏完全端到端的多模式视频情感识别系统阻碍了其应用。在本文中,我们为快速而有效的识别推断设计了一个完全多模式的视频对情感系统(名称为FV2E),其好处是三倍:(1)在声音中,通过有限的贡献,采用了层次结构注意方法。在声学模态上,在IEMOCAP和CMU-MOSEI数据集上胜过现有模型的性能; (2)引入视觉提取的多尺度的想法,而单一用于推理的想法会带来更高的效率,并同时保持预测准确性; (3)将预处理数据的数据进一步集成到对齐的多模式学习模型中,可以显着降低计算成本和存储空间。
translated by 谷歌翻译
在对抗环境中识别有说服力的扬声器是一项关键任务。在全国选举中,政客们希望代表他们有说服力的发言人。当一家公司面临不利的宣传时,他们希望在对他们批评的对手存在的对手存在中,他们希望有说服力的倡导者。辩论代表了这些形式的对抗性劝说的共同平台。本文解决了两个问题:辩论结果预测(DOP)问题预测谁赢得了辩论的争论,而劝说预测强度(IPP)问题预测发言者发言前后投票数量的变化。虽然DOP先前已经研究过,但我们是第一个研究IPP的研究。关于DOP的过去的研究未能利用多模式数据的两个重要方面:1)多种方式通常是语义对齐,而2)不同的方式可以提供用于预测的不同信息。我们的M2P2(多模式说服预测)框架是第一个使用多模式(声学,视觉,语言)数据来解决IPP问题的框架。为了利用不同方式的对准,同时保持所提供的提示的多样性,M2P2设计了一种新的自适应融合学习框架,其保留了从两个模块获得的嵌入式的嵌入式 - 一种对准模块,其提取模态和学习的异构性模块之间的共享信息。具有三种单独培训的单峰参考模型的指导的不同方式的重量。我们在为DOP设计的流行IQ2US数据集中测试M2P2。我们还介绍了一个名为QPS的新数据集(来自QIPASHUO,一个受欢迎的中国辩论电视节目)为IPP。 M2P2显着优于两个数据集上的4个最近基线。
translated by 谷歌翻译
双相情感障碍是一种心理健康障碍,导致情绪波动,从令人沮丧到狂热。双相障碍的诊断通常是根据患者访谈进行的,并从患者的护理人员获得的报告。随后,诊断取决于专家的经验,并且可以与其他精神障碍的疾病混淆。双极性障碍诊断中的自动化过程可以帮助提供定量指标,并让患者的更容易观察较长的时间。此外,在Covid-19大流行期间,对遥控和诊断的需求变得尤为重要。在本论文中,我们根据声学,语言和视觉方式的患者录制来创建一种多模态决策系统。该系统培养在双极障碍语料库上。进行综合分析单峰和多模式系统,以及各种融合技术。除了使用单向特征处理整个患者会话外,还研究了剪辑的任务级调查。在多模式融合系统中使用声学,语言和视觉特征,我们实现了64.8%的未加权平均召回得分,这提高了在该数据集上实现的最先进的性能。
translated by 谷歌翻译
我们提出了一个双向连续连接的双通路网络(BCCN),以实现有效的手势识别。BCCN由两个路径组成:(i)关键帧途径和(ii)暂时关注途径。使用基于骨架的关键帧选择模块配置关键帧路径。关键帧通过路径以提取自身的空间特征,并且时间关注路径提取时间语义。我们的模型在视频中提高了手势识别性能,并获得了更好的激活图,用于空间和时间特性。在Chalearn DataSet,ETRI-Activity 3D DataSet和Toyota智能家庭数据集上执行测试。
translated by 谷歌翻译
人类的情感和心理状态以自动化的方式估计,面临许多困难,包括从差或没有时间分辨率的标签中学习,从很少有数据的数据集中学习(通常是由于机密性约束),并且(非常)很长 - 野外视频。由于这些原因,深度学习方法倾向于过度合适,也就是说,在最终回归任务上获得概括性差的潜在表示。为了克服这一点,在这项工作中,我们介绍了两个互补的贡献。首先,我们引入了一种新型的关系损失,以解决多标签回归和序数问题,该问题规则学习并导致更好的概括。拟议的损失使用标签矢量间歇间信息来通过将批次标签距离与潜在特征空间中的距离进行对齐,从而学习更好的潜在表示。其次,我们利用了两个阶段的注意体系结构,该体系结构通过使用相邻夹中的功能作为时间上下文来估计每个剪辑的目标。我们评估了关于连续影响和精神分裂症严重程度估计问题的提议方法,因为两者之间存在方法论和背景相似之处。实验结果表明,所提出的方法的表现优于所有基准。在精神分裂症的领域中,拟议的方法学优于先前的最先进的利润率,其PCC的PCC绩效高达78%的绩效(85%)(85%),并且比以前的工作高得多(Uplift FiftLift最多40%)。在情感识别的情况下,我们在OMG和AMIGOS数据集上都以CCC为基础的先前基于以前的方法。对于Amigos而言,我们的唤醒和价值分别均优于先前的SOTA CCC,分别为9%和13%,在OMG数据集中,我们的效果均优于先前的视力,唤醒和价值均高达5%。
translated by 谷歌翻译
学习模当融合的表示和处理未对准的多模式序列在多式联情绪识别中是有意义的,具有挑战性。现有方法使用定向成对注意力或消息中心到熔丝语言,视觉和音频模态。然而,这些方法在融合特征时介绍信息冗余,并且在不考虑方式的互补性的情况下效率低效。在本文中,我们提出了一种高效的神经网络,以学习与CB变压器(LMR-CBT)的模型融合表示,用于从未对准的多模式序列进行多峰情绪识别。具体地,我们首先为三种方式执行特征提取,以获得序列的局部结构。然后,我们设计具有跨模块块(CB变压器)的新型变压器,其能够实现不同模式的互补学习,主要分为局部时间学习,跨模型特征融合和全球自我关注表示。此外,我们将融合功能与原始特征拼接以对序列的情绪进行分类。最后,我们在三个具有挑战性的数据集,IEMocap,CMU-MOSI和CMU-MOSEI进行词语对齐和未对准的实验。实验结果表明我们在两个设置中提出的方法的优势和效率。与主流方法相比,我们的方法以最小数量的参数达到最先进的。
translated by 谷歌翻译
情绪识别涉及几个现实世界应用。随着可用方式的增加,对情绪的自动理解正在更准确地进行。多模式情感识别(MER)的成功主要依赖于监督的学习范式。但是,数据注释昂贵,耗时,并且由于情绪表达和感知取决于几个因素(例如,年龄,性别,文化),获得具有高可靠性的标签很难。由这些动机,我们专注于MER的无监督功能学习。我们考虑使用离散的情绪,并用作模式文本,音频和视觉。我们的方法是基于成对方式之间的对比损失,是MER文献中的第一次尝试。与现有的MER方法相比,我们的端到端特征学习方法具有几种差异(和优势):i)无监督,因此学习缺乏数据标记成本; ii)它不需要数据空间增强,模态对准,大量批量大小或时期; iii)它仅在推理时应用数据融合; iv)它不需要对情绪识别任务进行预训练的骨干。基准数据集上的实验表明,我们的方法优于MER中应用的几种基线方法和无监督的学习方法。特别是,它甚至超过了一些有监督的MER最先进的。
translated by 谷歌翻译
视觉变压器正在成为解决计算机视觉问题的强大工具。最近的技术还证明了超出图像域之外的变压器来解决许多与视频相关的任务的功效。其中,由于其广泛的应用,人类的行动识别是从研究界受到特别关注。本文提供了对动作识别的视觉变压器技术的首次全面调查。我们朝着这个方向分析并总结了现有文献和新兴文献,同时突出了适应变形金刚以进行动作识别的流行趋势。由于其专业应用,我们将这些方法统称为``动作变压器''。我们的文献综述根据其架构,方式和预期目标为动作变压器提供了适当的分类法。在动作变压器的背景下,我们探讨了编码时空数据,降低维度降低,框架贴片和时空立方体构造以及各种表示方法的技术。我们还研究了变压器层中时空注意的优化,以处理更长的序列,通常通过减少单个注意操作中的令牌数量。此外,我们还研究了不同的网络学习策略,例如自我监督和零局学习,以及它们对基于变压器的行动识别的相关损失。这项调查还总结了在具有动作变压器重要基准的评估度量评分方面取得的进步。最后,它提供了有关该研究方向的挑战,前景和未来途径的讨论。
translated by 谷歌翻译
多模式分类是人类以人为本的机器学习中的核心任务。我们观察到信息跨多模式融合在多模式融合之前,信息在偶像中具有高度互补的信息,因此在多模式融合之前可以彻底稀释。为此,我们呈现稀疏的融合变压器(SFT),一种用于现有最先进的方法的变压器的新型多模式融合方法,同时具有大大降低了内存占用和计算成本。我们想法的关键是稀疏池块,可在跨模式建模之前减少单峰令牌集合。评估在多个多模式基准数据集上进行,用于广泛的分类任务。在类似的实验条件下的多个基准上获得最先进的性能,同时报告计算成本和内存要求降低六倍。广泛的消融研究展示了在天真的方法中结合稀疏和多式化学习的好处。这铺平了在低资源设备上实现多模级学习的方式。
translated by 谷歌翻译
这项工作对最近的努力进行了系统的综述(自2010年以来),旨在自动分析面对面共同关联的人类社交互动中显示的非语言提示。专注于非语言提示的主要原因是,这些是社会和心理现象的物理,可检测到的痕迹。因此,检测和理解非语言提示至少在一定程度上意味着检测和理解社会和心理现象。所涵盖的主题分为三个:a)建模社会特征,例如领导力,主导,人格特质,b)社会角色认可和社会关系检测以及c)群体凝聚力,同情,rapport和so的互动动态分析向前。我们针对共同的相互作用,其中相互作用的人永远是人类。该调查涵盖了各种各样的环境和场景,包括独立的互动,会议,室内和室外社交交流,二元对话以及人群动态。对于他们每个人,调查都考虑了非语言提示分析的三个主要要素,即数据,传感方法和计算方法。目的是突出显示过去十年的主要进步,指出现有的限制并概述未来的方向。
translated by 谷歌翻译
In vision and linguistics; the main input modalities are facial expressions, speech patterns, and the words uttered. The issue with analysis of any one mode of expression (Visual, Verbal or Vocal) is that lot of contextual information can get lost. This asks researchers to inspect multiple modalities to get a thorough understanding of the cross-modal dependencies and temporal context of the situation to analyze the expression. This work attempts at preserving the long-range dependencies within and across different modalities, which would be bottle-necked by the use of recurrent networks and adds the concept of delta-attention to focus on local differences per modality to capture the idiosyncrasy of different people. We explore a cross-attention fusion technique to get the global view of the emotion expressed through these delta-self-attended modalities, in order to fuse all the local nuances and global context together. The addition of attention is new to the multi-modal fusion field and currently being scrutinized for on what stage the attention mechanism should be used, this work achieves competitive accuracy for overall and per-class classification which is close to the current state-of-the-art with almost half number of parameters.
translated by 谷歌翻译
本文提出了一个多模式的情感识别系统,即视觉口语文本添加剂网(Vista Net),以将包含图像,语音和文本的多模式输入反映的情绪分类为离散类。还开发了一种新的可解释性技术,即K平均添加剂解释(KAAP),以确定重要的视觉,口语和文本特征,从而预测特定的情感类别。 Vista Net使用早期和晚期融合的混合体从图像,语音和文本方式融合信息。它会自动调整其中间输出的权重,同时在不干预的情况下计算加权平均值。 KAAP技术计算每种方式和相应特征在预测特定情绪类别的贡献。为了减轻带有离散情绪类别标记的多模式情感数据集的不足,我们构建了一个大规模的IIT-R MMEMOREC数据集,该数据集由现实生活中的图像,相应的语音和文本和情感标签(“愤怒,'快乐,''happy,''快乐,'' “恨,”和“悲伤”。)。 Vista Net在考虑图像,语音和文本方式上导致了95.99%的情绪识别精度,这比考虑任何一种或两种方式的输入的表现要好。
translated by 谷歌翻译