多模式语言分析是一个苛刻的研究领域,因为它与两个要求相关:组合不同的方式和捕获时间信息。在过去几年中,该地区已经提出了几项作品,主要以下游任务为中心的监督学习。在本文中,我们提出提取普遍的无监督的多峰语言表示,并且可以应用于不同的任务。在此目的,我们将单词级别对齐的多模式序列映射到2-D矩阵,然后使用卷积自动码器通过组合多个数据集来学习嵌入。广泛的情感分析实验(MOSEI)和情感识别(IEMocap)表明学习的表示可以利用用于下游分类的逻辑回归算法来实现近最先进的性能。还表明,我们的方法非常轻,可以轻松地推广到其他任务和不均匀数据,具有小的性能下降和几乎相同的参数。所提出的多模式表示模型是开放性的,并有助于延长多模式语言的适用性。
translated by 谷歌翻译
情绪识别涉及几个现实世界应用。随着可用方式的增加,对情绪的自动理解正在更准确地进行。多模式情感识别(MER)的成功主要依赖于监督的学习范式。但是,数据注释昂贵,耗时,并且由于情绪表达和感知取决于几个因素(例如,年龄,性别,文化),获得具有高可靠性的标签很难。由这些动机,我们专注于MER的无监督功能学习。我们考虑使用离散的情绪,并用作模式文本,音频和视觉。我们的方法是基于成对方式之间的对比损失,是MER文献中的第一次尝试。与现有的MER方法相比,我们的端到端特征学习方法具有几种差异(和优势):i)无监督,因此学习缺乏数据标记成本; ii)它不需要数据空间增强,模态对准,大量批量大小或时期; iii)它仅在推理时应用数据融合; iv)它不需要对情绪识别任务进行预训练的骨干。基准数据集上的实验表明,我们的方法优于MER中应用的几种基线方法和无监督的学习方法。特别是,它甚至超过了一些有监督的MER最先进的。
translated by 谷歌翻译
学习模当融合的表示和处理未对准的多模式序列在多式联情绪识别中是有意义的,具有挑战性。现有方法使用定向成对注意力或消息中心到熔丝语言,视觉和音频模态。然而,这些方法在融合特征时介绍信息冗余,并且在不考虑方式的互补性的情况下效率低效。在本文中,我们提出了一种高效的神经网络,以学习与CB变压器(LMR-CBT)的模型融合表示,用于从未对准的多模式序列进行多峰情绪识别。具体地,我们首先为三种方式执行特征提取,以获得序列的局部结构。然后,我们设计具有跨模块块(CB变压器)的新型变压器,其能够实现不同模式的互补学习,主要分为局部时间学习,跨模型特征融合和全球自我关注表示。此外,我们将融合功能与原始特征拼接以对序列的情绪进行分类。最后,我们在三个具有挑战性的数据集,IEMocap,CMU-MOSI和CMU-MOSEI进行词语对齐和未对准的实验。实验结果表明我们在两个设置中提出的方法的优势和效率。与主流方法相比,我们的方法以最小数量的参数达到最先进的。
translated by 谷歌翻译
人类通过不同的渠道表达感受或情绪。以语言为例,它在不同的视觉声学上下文下需要不同的情绪。为了精确了解人类意图,并减少歧义和讽刺引起的误解,我们应该考虑多式联路信号,包括文本,视觉和声学信号。至关重要的挑战是融合不同的特征模式以进行情绪分析。为了有效地融合不同的方式携带的信息,更好地预测情绪,我们设计了一种基于新的多主题的融合网络,这是由任何两个对方式之间的相互作用不同的观察来启发,它们是不同的,并且它们不同样有助于最终的情绪预测。通过分配具有合理关注和利用残余结构的声学 - 视觉,声学 - 文本和视觉文本特征,我们参加了重要的特征。我们对四个公共多模式数据集进行了广泛的实验,包括中文和三种英文中的一个。结果表明,我们的方法优于现有的方法,并可以解释双模相互作用在多种模式中的贡献。
translated by 谷歌翻译
Human language is often multimodal, which comprehends a mixture of natural language, facial gestures, and acoustic behaviors. However, two major challenges in modeling such multimodal human language time-series data exist: 1) inherent data non-alignment due to variable sampling rates for the sequences from each modality; and 2) long-range dependencies between elements across modalities. In this paper, we introduce the Multimodal Transformer (MulT) to generically address the above issues in an end-to-end manner without explicitly aligning the data. At the heart of our model is the directional pairwise crossmodal attention, which attends to interactions between multimodal sequences across distinct time steps and latently adapt streams from one modality to another. Comprehensive experiments on both aligned and non-aligned multimodal time-series show that our model outperforms state-of-the-art methods by a large margin. In addition, empirical analysis suggests that correlated crossmodal signals are able to be captured by the proposed crossmodal attention mechanism in MulT.
translated by 谷歌翻译
现有的多模式情感计算任务的工作,例如情感识别,通常采用两相管线,首先用手工制作算法提取每个单个模态的特征表示,然后用提取的特征执行端到端学习。然而,提取的特征是固定的,并且不能在不同的目标任务上进一步微调,并且手动查找特征提取算法不概括或缩放到不同的任务,这可能导致次优性能。在本文中,我们开发了一个完全端到端的模型,可以联系两个阶段并共同优化它们。此外,我们还会重新计算当前数据集以启用完全结束的培训。此外,为了减少端到端模型所带来的计算开销,我们引入了一种特征提取的稀疏跨模型注意机制。实验结果表明,我们全面的端到端模型基于两相管道显着超越了当前的最先进模型。此外,通过增加稀疏的跨模型注意力,我们的模型可以在特征提取部分中的计算中保持性能。
translated by 谷歌翻译
视频中的多模式情感分析是许多现实世界应用中的关键任务,通常需要集成多模式流,包括视觉,言语和声学行为。为了提高多模式融合的鲁棒性,某些现有方法使不同的模态相互通信,并通过变压器模态跨模式相互作用。但是,这些方法仅在交互期间使用单尺度表示,但忘记利用包含不同语义信息级别的多尺度表示。结果,对于未对齐的多模式数据,变压器学到的表示形式可能会偏差。在本文中,我们提出了多模式情感分析的多尺度合作多模式变压器(MCMULT)体系结构。总体而言,“多尺度”机制能够利用每种模式的不同语义信息级别,用于细粒度的跨模式相互作用。同时,每种模式通过从其源模式的多个级别特征集成了交叉模式的交互来学习其特征层次结构。这样,每对方式分别以合作的方式逐步构建特征层次结构。经验结果表明,我们的MCMULT模型不仅在未对齐的多模式序列上胜过现有的方法,而且在对齐的多模式序列上具有强烈的性能。
translated by 谷歌翻译
分类组级情绪是由于视频的复杂性,其中不仅是视觉的,而且应该考虑音频信息。对多模式情感识别的现有工作是使用庞大的方法,其中使用掠夺性神经网络作为特征提取器,然后提取的特征被融合。然而,这种方法不考虑多模式数据的属性,并且特征提取器不能用于对整体模型精度不利的特定任务的微调。为此,我们的影响是双重的:(i)我们训练模型端到端,这允许早期的神经网络层考虑到后来的两种方式的融合层; (ii)我们模型的所有层都针对情感认可的下游任务进行了微调,因此无需从头划伤训练神经网络。我们的模型实现了最佳验证精度为60.37%,比VGAF数据集基线更高,比VGAF数据集基线更高,并且与现有工程,音频和视频模式具有竞争力。
translated by 谷歌翻译
融合技术是多模式情绪分析中的关键研究主题。最近的关注的融合表明了基于简单的操作融合的进步。然而,这些融合作品采用单规模,即令牌级或话语水平,单峰代表。这种单尺度融合是次优,因为不同的模态应该以不同的粒度对齐。本文提出了名为Scalevlad的融合模型,从文本,视频和音频中收集多尺度表示,与本地聚合描述符的共享向量,以改善未对准的多模式情绪分析。这些共享向量可以被视为共享主题以对齐不同的模态。此外,我们提出了一种自我监督的移位聚类损失,以保持样本之间的融合特征差异化。底部是对应于三个模态的三个变压器编码器,并且从融合模块产生的聚合特征将馈送到变压器加上完成任务预测的完全连接。在三个流行的情感分析基准,IEMocap,MOSI和MOSEI的实验,证明了基准的显着收益。
translated by 谷歌翻译
情绪识别(ER)旨在将人的话语分类为不同的情感类别。基于本文和声学模式之间的早期融合和基于自我注意力的多模式相互作用,在本文中,我们提出了一种多模式多任务学习方法,用于从孤立的单个话语中进行ER。Iemocap基准测试的实验表明,我们提出的模型的表现要比我们对最新的改性的重新实现要好,并且比文献中所有其他单峰和多模式方法更好地实现了性能。此外,强大的基准和消融研究证明了我们提出的方法的有效性。我们在GitHub上公开提供所有代码。
translated by 谷歌翻译
多模式情绪分析(MSA)是一种基本复杂的研究问题,因为不同方式与人类情绪表达的模糊性之间的异质性差距。虽然已经成功地建造了MSA的多模式表示,但仍有两个挑战需要解决:1)需要构建更强大的多模式表示来弥合异质性间隙并应对复杂的多模式相互作用和2)必须在整个信息流中有效地建模上下文动态。在这项工作中,我们提出了一种基于相互信息最大化和最小化和身份嵌入(MMMIE)的多模式表示模型。我们将模态对之间的相互信息最大化以及输入数据和相应功能之间的相互信息最小化,以挖掘模态不变和任务相关信息。此外,提出了身份嵌入,以提示下游网络来感知语境信息。两个公共数据集的实验结果证明了所提出的模型的有效性。
translated by 谷歌翻译
基于音频视频的多模式情绪识别由于其强大的性能引起了很多人。大多数现有方法都侧重于提出不同的跨模态融合策略。然而,这些策略在不同模式的特征中引入了冗余,而无需完全考虑模态信息之间的互补特性,并且这些方法不保证在跨跨和间间交互期间的原始语义信息的非损失。在本文中,我们提出了一种基于自我关注和残余结构(CFN-SR)的新型跨模型融合网络,用于多式联情绪识别。首先,我们对音频和视频模型执行表示学习,以通过有效的ResNext和1D CNN获得两个模态的语义特征。其次,我们将两个模态的特征分别馈送到跨模块块中,以确保通过自我关注机制和残余结构来确保信息的有效互补性和完整性。最后,我们通过用原始表示拼接获得的融合表示来获得情绪的产出。为了验证所提出的方法的有效性,我们对Ravdess数据集进行实验。实验结果表明,拟议的CFN-SR实现了最先进的,并以26.30M参数获得75.76%的精度。我们的代码可在https://github.com/skeletonnn/cfn-sr获得。
translated by 谷歌翻译
The task of emotion recognition in conversations (ERC) benefits from the availability of multiple modalities, as offered, for example, in the video-based MELD dataset. However, only a few research approaches use both acoustic and visual information from the MELD videos. There are two reasons for this: First, label-to-video alignments in MELD are noisy, making those videos an unreliable source of emotional speech data. Second, conversations can involve several people in the same scene, which requires the detection of the person speaking the utterance. In this paper we demonstrate that by using recent automatic speech recognition and active speaker detection models, we are able to realign the videos of MELD, and capture the facial expressions from uttering speakers in 96.92% of the utterances provided in MELD. Experiments with a self-supervised voice recognition model indicate that the realigned MELD videos more closely match the corresponding utterances offered in the dataset. Finally, we devise a model for emotion recognition in conversations trained on the face and audio information of the MELD realigned videos, which outperforms state-of-the-art models for ERC based on vision alone. This indicates that active speaker detection is indeed effective for extracting facial expressions from the uttering speakers, and that faces provide more informative visual cues than the visual features state-of-the-art models have been using so far.
translated by 谷歌翻译
Modality representation learning is an important problem for multimodal sentiment analysis (MSA), since the highly distinguishable representations can contribute to improving the analysis effect. Previous works of MSA have usually focused on multimodal fusion strategies, and the deep study of modal representation learning was given less attention. Recently, contrastive learning has been confirmed effective at endowing the learned representation with stronger discriminate ability. Inspired by this, we explore the improvement approaches of modality representation with contrastive learning in this study. To this end, we devise a three-stages framework with multi-view contrastive learning to refine representations for the specific objectives. At the first stage, for the improvement of unimodal representations, we employ the supervised contrastive learning to pull samples within the same class together while the other samples are pushed apart. At the second stage, a self-supervised contrastive learning is designed for the improvement of the distilled unimodal representations after cross-modal interaction. At last, we leverage again the supervised contrastive learning to enhance the fused multimodal representation. After all the contrast trainings, we next achieve the classification task based on frozen representations. We conduct experiments on three open datasets, and results show the advance of our model.
translated by 谷歌翻译
在本文中,我们介绍了2022年多模式情感分析挑战(MUSE)的解决方案,其中包括Muse-Humor,Muse-Rection和Muse Surns Sub-Challenges。 2022年穆斯穆斯(Muse 2022)着重于幽默检测,情绪反应和多模式的情感压力,利用不同的方式和数据集。在我们的工作中,提取了不同种类的多模式特征,包括声学,视觉,文本和生物学特征。这些功能由Temma和Gru融合到自发机制框架中。在本文中,1)提取了一些新的音频功能,面部表达功能和段落级文本嵌入以进行准确的改进。 2)我们通过挖掘和融合多模式特征来显着提高多模式情感预测的准确性和可靠性。 3)在模型培训中应用有效的数据增强策略,以减轻样本不平衡问题并防止模型形成学习有偏见的主题字符。对于博物馆的子挑战,我们的模型获得了0.8932的AUC分数。对于Muse Rection子挑战,我们在测试集上的Pearson相关系数为0.3879,它的表现优于所有其他参与者。对于Muse Surst Sub-Challenge,我们的方法在测试数据集上的唤醒和价值都优于基线,达到了0.5151的最终综合结果。
translated by 谷歌翻译
In vision and linguistics; the main input modalities are facial expressions, speech patterns, and the words uttered. The issue with analysis of any one mode of expression (Visual, Verbal or Vocal) is that lot of contextual information can get lost. This asks researchers to inspect multiple modalities to get a thorough understanding of the cross-modal dependencies and temporal context of the situation to analyze the expression. This work attempts at preserving the long-range dependencies within and across different modalities, which would be bottle-necked by the use of recurrent networks and adds the concept of delta-attention to focus on local differences per modality to capture the idiosyncrasy of different people. We explore a cross-attention fusion technique to get the global view of the emotion expressed through these delta-self-attended modalities, in order to fuse all the local nuances and global context together. The addition of attention is new to the multi-modal fusion field and currently being scrutinized for on what stage the attention mechanism should be used, this work achieves competitive accuracy for overall and per-class classification which is close to the current state-of-the-art with almost half number of parameters.
translated by 谷歌翻译
音乐信息检索的音频表示通常通过以特定于任务的方式通过监督学习来学习。虽然有效地产生最先进的结果,但该方案对于模型可以具有并且需要广泛的注释数据集的应用范围缺乏灵活性。在这项工作中,我们构成了是否可以利用弱对齐文本作为唯一用于学习通用音频音频表示的监督信号的问题。为了解决这个问题,我们设计了通过一组代理任务优化的音乐和语言预训练(Mulap)的多模式架构。弱监管以嘈杂的自然语言描述形式传达轨道的整体音乐纪念。在预训练之后,我们将模型的音频骨干转换为一组音乐音频分类和回归任务。我们通过比较通过不同培训策略产生的相同音频骨干声音产生的音频表示的性能并表明我们的预训练方法始终如一地实现所有任务和数据集所考虑的可比分数,因此证明了我们的方法。我们的实验还证实,Mulap有效利用音频标题对,以学习与文献中的音频和跨模型自我监督方法具有竞争力的表示。
translated by 谷歌翻译
在最新的社交网络中,越来越多的人喜欢通过文字,语音和丰富的面部表情在视频中表达自己的情绪。多模式的视频情感分析技术可以根据图像中的人类表情和手势,声音和公认的自然语言自动理解用户的内部世界。但是,在现有研究中,与视觉和文本方式相比,声学方式长期以来一直处于边缘位置。也就是说,改善声学方式对整个多模式识别任务的贡献往往更加困难。此外,尽管可以通过引入常见的深度学习方法来获得更好的性能,但是这些训练模型的复杂结构始终会导致推理效率低,尤其是在暴露于高分辨率和长长视频时。此外,缺乏完全端到端的多模式视频情感识别系统阻碍了其应用。在本文中,我们为快速而有效的识别推断设计了一个完全多模式的视频对情感系统(名称为FV2E),其好处是三倍:(1)在声音中,通过有限的贡献,采用了层次结构注意方法。在声学模态上,在IEMOCAP和CMU-MOSEI数据集上胜过现有模型的性能; (2)引入视觉提取的多尺度的想法,而单一用于推理的想法会带来更高的效率,并同时保持预测准确性; (3)将预处理数据的数据进一步集成到对齐的多模式学习模型中,可以显着降低计算成本和存储空间。
translated by 谷歌翻译
在这项研究中,我们提出了使用深度学习方法进行多模式模因分类的特征提取。模因通常是一张照片或视频,其中年轻一代在社交媒体平台上共享文本,表达了与文化相关的想法。由于它们是表达情感和感受的有效方法,因此可以对模因背后的情绪进行分类的好分类器很重要。为了使学习过程更有效,请减少过度拟合的可能性,并提高模型的普遍性,需要一种良好的方法来从所有模式中提取共同特征。在这项工作中,我们建议使用不同的多模式神经网络方法进行多模式特征提取,并使用提取的功能来训练分类器以识别模因中的情感。
translated by 谷歌翻译
在对抗环境中识别有说服力的扬声器是一项关键任务。在全国选举中,政客们希望代表他们有说服力的发言人。当一家公司面临不利的宣传时,他们希望在对他们批评的对手存在的对手存在中,他们希望有说服力的倡导者。辩论代表了这些形式的对抗性劝说的共同平台。本文解决了两个问题:辩论结果预测(DOP)问题预测谁赢得了辩论的争论,而劝说预测强度(IPP)问题预测发言者发言前后投票数量的变化。虽然DOP先前已经研究过,但我们是第一个研究IPP的研究。关于DOP的过去的研究未能利用多模式数据的两个重要方面:1)多种方式通常是语义对齐,而2)不同的方式可以提供用于预测的不同信息。我们的M2P2(多模式说服预测)框架是第一个使用多模式(声学,视觉,语言)数据来解决IPP问题的框架。为了利用不同方式的对准,同时保持所提供的提示的多样性,M2P2设计了一种新的自适应融合学习框架,其保留了从两个模块获得的嵌入式的嵌入式 - 一种对准模块,其提取模态和学习的异构性模块之间的共享信息。具有三种单独培训的单峰参考模型的指导的不同方式的重量。我们在为DOP设计的流行IQ2US数据集中测试M2P2。我们还介绍了一个名为QPS的新数据集(来自QIPASHUO,一个受欢迎的中国辩论电视节目)为IPP。 M2P2显着优于两个数据集上的4个最近基线。
translated by 谷歌翻译