Learning effective joint embedding for cross-modal data has always been a focus in the field of multimodal machine learning. We argue that during multimodal fusion, the generated multimodal embedding may be redundant, and the discriminative unimodal information may be ignored, which often interferes with accurate prediction and leads to a higher risk of overfitting. Moreover, unimodal representations also contain noisy information that negatively influences the learning of cross-modal dynamics. To this end, we introduce the multimodal information bottleneck (MIB), aiming to learn a powerful and sufficient multimodal representation that is free of redundancy and to filter out noisy information in unimodal representations. Specifically, inheriting from the general information bottleneck (IB), MIB aims to learn the minimal sufficient representation for a given task by maximizing the mutual information between the representation and the target and simultaneously constraining the mutual information between the representation and the input data. Different from general IB, our MIB regularizes both the multimodal and unimodal representations, which is a comprehensive and flexible framework that is compatible with any fusion methods. We develop three MIB variants, namely, early-fusion MIB, late-fusion MIB, and complete MIB, to focus on different perspectives of information constraints. Experimental results suggest that the proposed method reaches state-of-the-art performance on the tasks of multimodal sentiment analysis and multimodal emotion recognition across three widely used datasets. The codes are available at \url{https://github.com/TmacMai/Multimodal-Information-Bottleneck}.
translated by 谷歌翻译
多模式情绪分析(MSA)是一种基本复杂的研究问题,因为不同方式与人类情绪表达的模糊性之间的异质性差距。虽然已经成功地建造了MSA的多模式表示,但仍有两个挑战需要解决:1)需要构建更强大的多模式表示来弥合异质性间隙并应对复杂的多模式相互作用和2)必须在整个信息流中有效地建模上下文动态。在这项工作中,我们提出了一种基于相互信息最大化和最小化和身份嵌入(MMMIE)的多模式表示模型。我们将模态对之间的相互信息最大化以及输入数据和相应功能之间的相互信息最小化,以挖掘模态不变和任务相关信息。此外,提出了身份嵌入,以提示下游网络来感知语境信息。两个公共数据集的实验结果证明了所提出的模型的有效性。
translated by 谷歌翻译
人类通过不同的渠道表达感受或情绪。以语言为例,它在不同的视觉声学上下文下需要不同的情绪。为了精确了解人类意图,并减少歧义和讽刺引起的误解,我们应该考虑多式联路信号,包括文本,视觉和声学信号。至关重要的挑战是融合不同的特征模式以进行情绪分析。为了有效地融合不同的方式携带的信息,更好地预测情绪,我们设计了一种基于新的多主题的融合网络,这是由任何两个对方式之间的相互作用不同的观察来启发,它们是不同的,并且它们不同样有助于最终的情绪预测。通过分配具有合理关注和利用残余结构的声学 - 视觉,声学 - 文本和视觉文本特征,我们参加了重要的特征。我们对四个公共多模式数据集进行了广泛的实验,包括中文和三种英文中的一个。结果表明,我们的方法优于现有的方法,并可以解释双模相互作用在多种模式中的贡献。
translated by 谷歌翻译
基于信息瓶颈(IB)的多视图学习提供了一种信息理论原则,用于寻找异质数据描述中包含的共享信息。但是,它的巨大成功通常归因于估计网络变得复杂时棘手的多元互助信息。此外,表示折衷的表示,{\ it},预测压缩和足够的一致性权衡,使IB难以同时满足这两个要求。在本文中,我们设计了几种变分信息瓶颈,以利用两个关键特征({\ it,即},充分性和一致性)用于多视图表示学习。具体而言,我们提出了一种多视图变量蒸馏(MV $^2 $ d)策略,以通过给出观点的任意输入,但没有明确估算它,从而为拟合MI提供了可扩展,灵活和分析的解决方案。在严格的理论保证下,我们的方法使IB能够掌握观测和语义标签之间的内在相关性,从而自然产生预测性和紧凑的表示。同样,我们的信息理论约束可以通过消除任务 - 求核和特定信息的信息来有效地中和对异质数据的敏感性,从而阻止在多种视图情况下两种权衡。为了验证理论上的策略,我们将方法应用于三种不同应用下的各种基准。广泛的定量和定性实验证明了我们对最新方法的方法的有效性。
translated by 谷歌翻译
Humans are sophisticated at reading interlocutors' emotions from multimodal signals, such as speech contents, voice tones and facial expressions. However, machines might struggle to understand various emotions due to the difficulty of effectively decoding emotions from the complex interactions between multimodal signals. In this paper, we propose a multimodal emotion analysis framework, InterMulti, to capture complex multimodal interactions from different views and identify emotions from multimodal signals. Our proposed framework decomposes signals of different modalities into three kinds of multimodal interaction representations, including a modality-full interaction representation, a modality-shared interaction representation, and three modality-specific interaction representations. Additionally, to balance the contribution of different modalities and learn a more informative latent interaction representation, we developed a novel Text-dominated Hierarchical High-order Fusion(THHF) module. THHF module reasonably integrates the above three kinds of representations into a comprehensive multimodal interaction representation. Extensive experimental results on widely used datasets, (i.e.) MOSEI, MOSI and IEMOCAP, demonstrate that our method outperforms the state-of-the-art.
translated by 谷歌翻译
随着用户生成的在线视频的扩散,多模式情感分析(MSA)最近引起了越来越多的关注。尽管取得了重大进展,但在稳健的MSA方面仍然存在两个主要挑战:1)在未对准的多模式数据中对跨模式相互作用进行建模时效率低下; 2)通常在现实设置中出现的随机模态特征的脆弱性。在本文中,我们提出了一个通用和统一的框架来解决它们,以双级特征恢复(EMT-DLFR)为有效的多模式变压器。具体而言,EMT采用了从每种模式的语音级表示作为全球多模式上下文,以与局部单峰特征相互作用并相互促进。它不仅避免了以前本地局部跨模式相互作用方法的二次缩放成本,而且还可以提高性能。一方面,为了提高模型鲁棒性,DLFR执行低级功能重建,以隐式鼓励模型从不完整的数据中学习语义信息。另一方面,它是一种创新的,将完整的数据视为一个样本的两个不同视图,并利用暹罗代表学学习明确吸引其高级表示。在三个流行数据集上进行的全面实验表明,我们的方法在完整和不完整的模态设置中都能达到卓越的性能。
translated by 谷歌翻译
多模式情感分析由于其在多模式相互作用中的信息互补性而具有广泛的应用。以前的作品更多地着重于研究有效的联合表示,但他们很少考虑非峰值提取和多模层融合的数据冗余性的不足。在本文中,提出了一个基于视频的跨模式辅助网络(VCAN),该网络由音频特征映射模块和跨模式选择模块组成。第一个模块旨在大大提高音频功能提取的特征多样性,旨在通过提供更全面的声学表示来提高分类精度。为了授权该模型处理冗余视觉功能,第二个模块是在集成视听数据时有效地过滤冗余视觉框架的。此外,引入了由几个图像分类网络组成的分类器组,以预测情感极性和情感类别。关于RAVDESS,CMU-MOSI和CMU-MOSEI基准的广泛实验结果表明,VCAN明显优于提高多模式情感分析的分类准确性的最新方法。
translated by 谷歌翻译
In the field of multimodal sentiment analysis (MSA), a few studies have leveraged the inherent modality correlation information stored in samples for self-supervised learning. However, they feed the training pairs in a random order without consideration of difficulty. Without human annotation, the generated training pairs of self-supervised learning often contain noise. If noisy or hard pairs are used for training at the easy stage, the model might be stuck in bad local optimum. In this paper, we inject curriculum learning into weakly supervised modality correlation learning. The weakly supervised correlation learning leverages the label information to generate scores for negative pairs to learn a more discriminative embedding space, where negative pairs are defined as two unimodal embeddings from different samples. To assist the correlation learning, we feed the training pairs to the model according to difficulty by the proposed curriculum learning, which consists of elaborately designed scoring and feeding functions. The scoring function computes the difficulty of pairs using pre-trained and current correlation predictors, where the pairs with large losses are defined as hard pairs. Notably, the hardest pairs are discarded in our algorithm, which are assumed as noisy pairs. Moreover, the feeding function takes the difference of correlation losses as feedback to determine the feeding actions (`stay', `step back', or `step forward'). The proposed method reaches state-of-the-art performance on MSA.
translated by 谷歌翻译
融合技术是多模式情绪分析中的关键研究主题。最近的关注的融合表明了基于简单的操作融合的进步。然而,这些融合作品采用单规模,即令牌级或话语水平,单峰代表。这种单尺度融合是次优,因为不同的模态应该以不同的粒度对齐。本文提出了名为Scalevlad的融合模型,从文本,视频和音频中收集多尺度表示,与本地聚合描述符的共享向量,以改善未对准的多模式情绪分析。这些共享向量可以被视为共享主题以对齐不同的模态。此外,我们提出了一种自我监督的移位聚类损失,以保持样本之间的融合特征差异化。底部是对应于三个模态的三个变压器编码器,并且从融合模块产生的聚合特征将馈送到变压器加上完成任务预测的完全连接。在三个流行的情感分析基准,IEMocap,MOSI和MOSEI的实验,证明了基准的显着收益。
translated by 谷歌翻译
学习模当融合的表示和处理未对准的多模式序列在多式联情绪识别中是有意义的,具有挑战性。现有方法使用定向成对注意力或消息中心到熔丝语言,视觉和音频模态。然而,这些方法在融合特征时介绍信息冗余,并且在不考虑方式的互补性的情况下效率低效。在本文中,我们提出了一种高效的神经网络,以学习与CB变压器(LMR-CBT)的模型融合表示,用于从未对准的多模式序列进行多峰情绪识别。具体地,我们首先为三种方式执行特征提取,以获得序列的局部结构。然后,我们设计具有跨模块块(CB变压器)的新型变压器,其能够实现不同模式的互补学习,主要分为局部时间学习,跨模型特征融合和全球自我关注表示。此外,我们将融合功能与原始特征拼接以对序列的情绪进行分类。最后,我们在三个具有挑战性的数据集,IEMocap,CMU-MOSI和CMU-MOSEI进行词语对齐和未对准的实验。实验结果表明我们在两个设置中提出的方法的优势和效率。与主流方法相比,我们的方法以最小数量的参数达到最先进的。
translated by 谷歌翻译
Humans are skilled in reading the interlocutor's emotion from multimodal signals, including spoken words, simultaneous speech, and facial expressions. It is still a challenge to effectively decode emotions from the complex interactions of multimodal signals. In this paper, we design three kinds of multimodal latent representations to refine the emotion analysis process and capture complex multimodal interactions from different views, including a intact three-modal integrating representation, a modality-shared representation, and three modality-individual representations. Then, a modality-semantic hierarchical fusion is proposed to reasonably incorporate these representations into a comprehensive interaction representation. The experimental results demonstrate that our EffMulti outperforms the state-of-the-art methods. The compelling performance benefits from its well-designed framework with ease of implementation, lower computing complexity, and less trainable parameters.
translated by 谷歌翻译
在多模式情绪分析(MSA)中,模型的性能高度取决于合成嵌入的质量。这些嵌入来自称为多模式融合的上游进程,旨在提取并结合输入的单向原始数据以产生更丰富的多峰表示。以前的工作要么返回传播任务丢失或操纵要素空间的几何属性,以产生有利的融合结果,它忽略了从输入到融合结果的关键任务相关信息的保存。在这项工作中,我们提出了一个名为多模式InfoMax(MMIM)的框架,该框架是分层地最大化单向输入对(互别级别)的互信息(MI),以及多模式融合结果和单向输入之间以便通过多模式融合。该框架与主要任务(MSA)共同培训,以提高下游MSA任务的性能。为了解决MI界限的棘手问题,我们进一步制定了一组计算简单的参数和非参数方法来近似于其真实值。两个广泛使用的数据集上的实验结果表明了我们的方法的功效。此工作的实施是公开可用的,在https://github.com/declare-lab/multimodal-infomax上。
translated by 谷歌翻译
The Information Bottleneck (IB) provides an information theoretic principle for representation learning, by retaining all information relevant for predicting label while minimizing the redundancy. Though IB principle has been applied to a wide range of applications, its optimization remains a challenging problem which heavily relies on the accurate estimation of mutual information. In this paper, we present a new strategy, Variational Self-Distillation (VSD), which provides a scalable, flexible and analytic solution to essentially fitting the mutual information but without explicitly estimating it. Under rigorously theoretical guarantee, VSD enables the IB to grasp the intrinsic correlation between representation and label for supervised training. Furthermore, by extending VSD to multi-view learning, we introduce two other strategies, Variational Cross-Distillation (VCD) and Variational Mutual-Learning (VML), which significantly improve the robustness of representation to view-changes by eliminating view-specific and task-irrelevant information. To verify our theoretically grounded strategies, we apply our approaches to cross-modal person Re-ID, and conduct extensive experiments, where the superior performance against state-of-the-art methods are demonstrated. Our intriguing findings highlight the need to rethink the way to estimate mutual
translated by 谷歌翻译
视频中的多模式情感分析是许多现实世界应用中的关键任务,通常需要集成多模式流,包括视觉,言语和声学行为。为了提高多模式融合的鲁棒性,某些现有方法使不同的模态相互通信,并通过变压器模态跨模式相互作用。但是,这些方法仅在交互期间使用单尺度表示,但忘记利用包含不同语义信息级别的多尺度表示。结果,对于未对齐的多模式数据,变压器学到的表示形式可能会偏差。在本文中,我们提出了多模式情感分析的多尺度合作多模式变压器(MCMULT)体系结构。总体而言,“多尺度”机制能够利用每种模式的不同语义信息级别,用于细粒度的跨模式相互作用。同时,每种模式通过从其源模式的多个级别特征集成了交叉模式的交互来学习其特征层次结构。这样,每对方式分别以合作的方式逐步构建特征层次结构。经验结果表明,我们的MCMULT模型不仅在未对齐的多模式序列上胜过现有的方法,而且在对齐的多模式序列上具有强烈的性能。
translated by 谷歌翻译
Modality representation learning is an important problem for multimodal sentiment analysis (MSA), since the highly distinguishable representations can contribute to improving the analysis effect. Previous works of MSA have usually focused on multimodal fusion strategies, and the deep study of modal representation learning was given less attention. Recently, contrastive learning has been confirmed effective at endowing the learned representation with stronger discriminate ability. Inspired by this, we explore the improvement approaches of modality representation with contrastive learning in this study. To this end, we devise a three-stages framework with multi-view contrastive learning to refine representations for the specific objectives. At the first stage, for the improvement of unimodal representations, we employ the supervised contrastive learning to pull samples within the same class together while the other samples are pushed apart. At the second stage, a self-supervised contrastive learning is designed for the improvement of the distilled unimodal representations after cross-modal interaction. At last, we leverage again the supervised contrastive learning to enhance the fused multimodal representation. After all the contrast trainings, we next achieve the classification task based on frozen representations. We conduct experiments on three open datasets, and results show the advance of our model.
translated by 谷歌翻译
现有的多模式情感计算任务的工作,例如情感识别,通常采用两相管线,首先用手工制作算法提取每个单个模态的特征表示,然后用提取的特征执行端到端学习。然而,提取的特征是固定的,并且不能在不同的目标任务上进一步微调,并且手动查找特征提取算法不概括或缩放到不同的任务,这可能导致次优性能。在本文中,我们开发了一个完全端到端的模型,可以联系两个阶段并共同优化它们。此外,我们还会重新计算当前数据集以启用完全结束的培训。此外,为了减少端到端模型所带来的计算开销,我们引入了一种特征提取的稀疏跨模型注意机制。实验结果表明,我们全面的端到端模型基于两相管道显着超越了当前的最先进模型。此外,通过增加稀疏的跨模型注意力,我们的模型可以在特征提取部分中的计算中保持性能。
translated by 谷歌翻译
多模式情感分析是一项重要的研究任务,可以根据特定意见视频的不同模式数据来预测情绪得分。以前的许多研究都证明了利用不同模式的共享和独特信息的重要性。但是,来自多模式数据的高阶组合信号也将有助于提取满足表示形式。在本文中,我们提出了CMGA,这是MSA的跨模式门控注意融合模型,倾向于在不同的模态对上进行足够的相互作用。CMGA还添加了一个忘记的门来过滤交互过程中引入的嘈杂和冗余信号。我们在MSA,MOSI和MOSEI的两个基准数据集上进行了实验,以说明CMGA在几种基线模型上的性能。我们还进行了消融研究,以证明CMGA内部不同组件的功能。
translated by 谷歌翻译
谈话中的情感认可(ERC)是一个重要而积极的研究问题。最近的工作表明了ERC任务使用多种方式(例如,文本,音频和视频)的好处。在谈话中,除非一些外部刺激唤起改变,否则参与者倾向于维持特定的情绪状态。在谈话中持续的潮起潮落和情绪流动。灵感来自这种观察,我们提出了一种多模式ERC模型,并通过情感转换组件增强。所提出的情感移位组件是模块化的,可以添加到任何现有的多模式ERC模型(具有几种修改),以改善情绪识别。我们尝试模型的不同变体,结果表明,包含情感移位信号有助于模型以优于ERC的现有多模型模型,从而展示了MOSEI和IEMOCAP数据集的最先进的性能。
translated by 谷歌翻译
基于音频视频的多模式情绪识别由于其强大的性能引起了很多人。大多数现有方法都侧重于提出不同的跨模态融合策略。然而,这些策略在不同模式的特征中引入了冗余,而无需完全考虑模态信息之间的互补特性,并且这些方法不保证在跨跨和间间交互期间的原始语义信息的非损失。在本文中,我们提出了一种基于自我关注和残余结构(CFN-SR)的新型跨模型融合网络,用于多式联情绪识别。首先,我们对音频和视频模型执行表示学习,以通过有效的ResNext和1D CNN获得两个模态的语义特征。其次,我们将两个模态的特征分别馈送到跨模块块中,以确保通过自我关注机制和残余结构来确保信息的有效互补性和完整性。最后,我们通过用原始表示拼接获得的融合表示来获得情绪的产出。为了验证所提出的方法的有效性,我们对Ravdess数据集进行实验。实验结果表明,拟议的CFN-SR实现了最先进的,并以26.30M参数获得75.76%的精度。我们的代码可在https://github.com/skeletonnn/cfn-sr获得。
translated by 谷歌翻译
自动识别面部和声音的明显情绪很难,部分原因是各种不确定性来源,包括输入数据和机器学习框架中使用的标签。本文介绍了一种不确定性感知的视听融合方法,该方法量化了对情绪预测的模态不确定性。为此,我们提出了一个新颖的融合框架,在该框架中,我们首先通过视听时间上下文向量学习潜在分布,然后限制单峰潜在分布的方差向量,以便它们表示每种模式的信息量,以提供W.R.T.情绪识别。特别是,我们对视听潜在分布的方差向量施加了校准和序数排名约束。当经过良好校准时,将模态不确定性得分表明它们的相应预测可能与地面真实标签有多大不同。排名良好的不确定性得分允许在模式中对不同框架进行顺序排名。为了共同施加这两种约束,我们提出了软马克斯分布匹配损失。在分类和回归设置中,我们将不确定性感知的融合模型与标准模型 - 静态融合基线进行了比较。我们对两个情绪识别语料库(AVEC 2019 CES和IEMOCAP)的评估表明,视听情绪识别可以从良好的和良好的潜在不确定性度量中受益匪浅。
translated by 谷歌翻译