智能论文笔记

A Multimodal Approach for Dementia Detection from Spontaneous Speech with Tensor Fusion Layer

Loukas Ilias , Dimitris Askounis , John Psarras

分类：自然语言处理 | 计算机视觉

2022-11-08

Alzheimer's disease (AD) is a progressive neurological disorder, meaning that the symptoms develop gradually throughout the years. It is also the main cause of dementia, which affects memory, thinking skills, and mental abilities. Nowadays, researchers have moved their interest towards AD detection from spontaneous speech, since it constitutes a time-effective procedure. However, existing state-of-the-art works proposing multimodal approaches do not take into consideration the inter- and intra-modal interactions and propose early and late fusion approaches. To tackle these limitations, we propose deep neural networks, which can be trained in an end-to-end trainable way and capture the inter- and intra-modal interactions. Firstly, each audio file is converted to an image consisting of three channels, i.e., log-Mel spectrogram, delta, and delta-delta. Next, each transcript is passed through a BERT model followed by a gated self-attention layer. Similarly, each image is passed through a Swin Transformer followed by an independent gated self-attention layer. Acoustic features are extracted also from each audio file. Finally, the representation vectors from the different modalities are fed to a tensor fusion layer for capturing the inter-modal interactions. Extensive experiments conducted on the ADReSS Challenge dataset indicate that our introduced approaches obtain valuable advantages over existing research initiatives reaching Accuracy and F1-score up to 86.25% and 85.48% respectively.

translated by 谷歌翻译

Detecting Dementia from Speech and Transcripts using Transformers

Loukas Ilias , Dimitris Askounis , John Psarras

分类：自然语言处理 | 计算机视觉

2021-10-27

阿尔茨海默氏病（AD）构成了一种神经退行性疾病，对人们的日常生活造成了严重后果，如果没有可用的治愈方法，请及早诊断出来。阿尔茨海默氏症是痴呆症的最常见原因，它构成了记忆丧失的一般术语。由于痴呆症会影响言语，因此现有的研究计划着重于检测自发言语的痴呆症。然而，关于语音数据转换为对数 - 梅尔频谱图和梅尔频率cepstral系数（MFCC）以及预验证模型的使用，几乎没有做出的工作。同时，关于变压器网络的使用以及两种模式（即语音和笔录）的方式，几乎没有完成工作。为了解决这些局限性，首先我们采用了几个验证的模型，而视觉变压器（VIT）则取得了最高的评估结果。其次，我们提出了多模型模型。更具体地说，我们引入的模型包括封闭式的多模式单元，以控制每种模态对最终分类和跨模式关注的影响，以便以有效的方式捕获两种模态之间的关系。在Adress挑战数据集上进行的广泛实验证明了所提出的模型的有效性及其优于最先进的方法。

translated by 谷歌翻译

Explainable Identification of Dementia from Transcripts using Transformer Networks

Loukas Ilias , Dimitris Askounis

分类：自然语言处理 | 机器学习

2021-09-14

阿尔茨海默氏病（AD）是痴呆症的主要原因，伴随着记忆力的丧失，如果未按时诊断，可能会导致人们的日常生活造成严重后果。很少有作品利用基于变压器的网络，尽管获得了高度的精度，但在模型可解释性方面几乎没有完成工作。此外，尽管迷你精神状态考试（MMSE）分数与痴呆症的识别密不可分，但研究工作面临着痴呆症鉴定的任务以及将MMSE分数作为两个独立任务的预测任务。为了解决这些局限性，我们采用了几种基于变压器的模型，伯特（Bert）的准确性最高为87.50％。同时，我们提出了一种可解释的方法来检测基于暹罗网络的准确性高达83.75％的患者。接下来，我们介绍了两个多任务学习模型，其中主要任务是指痴呆症的识别（二进制分类），而辅助辅助学则对应于痴呆症的严重程度（多类分类）。我们的模型在多任务学习环境中检测AD患者的准确度等于86.25％。最后，我们提出了一些新方法，以识别AD患者和非AD的语言模式，包括文本统计，词汇唯一性，单词用法，通过详细的语言分析和解释性技术（LIME）（LIME）。发现表明AD和非AD患者之间的语言差异显着差异。

translated by 谷歌翻译

Hybrid Multimodal Fusion for Humor Detection

Haojie Xu , Weifeng Liu , Jingwei Liu , Mingzheng Li , Yu Feng , Yasi Peng , Yunwei Shi , Xiao Sun , Meng Wang

分类：机器学习 | 人工智能 | 自然语言处理

2022-09-24

在本文中，我们将解决方案介绍给Muse-Humor的多模式情感挑战（MUSE）2022的邮件，库穆尔人子挑战的目标是发现幽默并从德国足球馆的视听录音中计算出AUC新闻发布会。它是针对教练表现出的幽默的注释。对于此子挑战，我们首先使用变压器模块和BilstM模块构建一个判别模型，然后提出一种混合融合策略，以使用每种模式的预测结果来提高模型的性能。我们的实验证明了我们提出的模型和混合融合策略对多模式融合的有效性，并且我们在测试集中提出的模型的AUC为0.8972。

translated by 谷歌翻译

An Efficient End-to-End Transformer with Progressive Tri-modal Attention for Multi-modal Emotion Recognition

Yang Wu , Pai Peng , Zhenyu Zhang , Yanyan Zhao , Bing Qin

分类：自然语言处理

2022-09-20

关于多模式情绪识别的最新作品转向端到端模型，该模型可以提取与两阶段管道相比，目标任务监督的特定任务特征。但是，以前的方法仅模拟文本和声学和视觉方式之间的特征相互作用，而忽略了捕获声学和视觉方式之间的特征相互作用。在本文中，我们提出了多模式的端到端变压器（ME2ET），该变压器可以有效地对低级和高级水平的文本，声学和视觉方式之间的三模式特征进行建模。在低水平，我们提出了进行性三模式的注意，可以通过采用两次通行策略来对三模式特征相互作用进行建模，并可以进一步利用这种相互作用，以通过降低输入令牌来显着降低计算和记忆复杂性长度。在高水平上，我们引入了三模式特征融合层，以明确汇总三种模式的语义表示。 CMU-MOSEI和IEMOCAP数据集的实验结果表明，ME2ET实现了最新性能。进一步的深入分析证明了拟议的渐进三模式关注的有效性，效率和解释性，这可以帮助我们的模型实现更好的性能，同时显着降低计算和记忆成本。我们的代码将公开可用。

translated by 谷歌翻译

Comparing Acoustic-based Approaches for Alzheimer's Disease Detection

Aparna Balagopalan , Jekaterina Novikova

分类：自然语言处理

2021-06-03

鉴于AD的高流行，对阿尔茨海默氏病（AD）检测的强大策略很重要。在本文中，我们研究了来自最近的Adresso挑战数据集的三种AD检测方法的性能和概括性：1）使用常规声学特征2）使用新型的预训练的声学嵌入式3）结合声学特征和嵌入。我们发现，尽管基于特征的方法具有更高的精度，但依赖于预训练的嵌入的分类方法证明在多个性能的多个指标中具有更高且更平衡的交叉验证性能。此外，仅嵌入方法更具概括性。我们的最佳模型在挑战中优于声学基线2.8％。

translated by 谷歌翻译

Video Sentiment Analysis with Bimodal Information-augmented Multi-Head Attention

Ting Wu , Junjie Peng , Wenqiang Zhang , Huiran Zhang , Chuanshuai Ma , Yansong Huang

分类：人工智能

2021-03-03

人类通过不同的渠道表达感受或情绪。以语言为例，它在不同的视觉声学上下文下需要不同的情绪。为了精确了解人类意图，并减少歧义和讽刺引起的误解，我们应该考虑多式联路信号，包括文本，视觉和声学信号。至关重要的挑战是融合不同的特征模式以进行情绪分析。为了有效地融合不同的方式携带的信息，更好地预测情绪，我们设计了一种基于新的多主题的融合网络，这是由任何两个对方式之间的相互作用不同的观察来启发，它们是不同的，并且它们不同样有助于最终的情绪预测。通过分配具有合理关注和利用残余结构的声学 - 视觉，声学 - 文本和视觉文本特征，我们参加了重要的特征。我们对四个公共多模式数据集进行了广泛的实验，包括中文和三种英文中的一个。结果表明，我们的方法优于现有的方法，并可以解释双模相互作用在多种模式中的贡献。

translated by 谷歌翻译

A Comparative Study of Speaker Role Identification in Air Traffic Communication Using Deep Learning Approaches

Dongyue Guo , Jianwei Zhang , Bo Yang , Yi Lin

分类：自然语言处理

2021-11-03

在空中交通管制（ATC）控制器飞行员谈话的自动语音指令的理解（SIU）不仅需要认识到的演讲词和语义，但也确定了演讲者的角色。然而，很少有在空中交通通信专注于扬声器的作用识别（SRI）自动认识系统发表的作品。在本文中，我们制定管制员 - 驾驶员通信的SRI任务作为二元分类问题。提出此外，基于文本的，基于语音和语音和文本为基础的多模态的方法来达到SRI任务的全面比较。消融的比较方法的影响，各种先进的神经网络架构应用进行优化的，基于语音的基于文本和方法的实现。最重要的是，多模态扬声器的作用识别网络（MMSRINet）设计同时考虑语音和文本模式功能实现的SRI任务。聚集形态特征，模态融合模块提出了保险丝和模态注意机制和自我关注池层，分别挤声音和文本表示。最后，比较的方法进行验证从现实世界ATC环境中收集的语料库ATCSpeech。实验结果表明，所有的比较方法是对SRI任务分别工作，并提议MMSRINet显示出比上都看到和看不到数据的其他方法的有竞争力的性能和稳定性，达到98.56％，98.08和％的准确度。

translated by 谷歌翻译

CubeMLP: A MLP-based Model for Multimodal Sentiment Analysis and Depression Estimation

Hao Sun , Hongyi Wang , Jiaqing Liu , Yen-Wei Chen , Lanfen Lin

分类：自然语言处理 | 计算机视觉

2022-07-28

多模式情感分析和抑郁估计是两个重要的研究主题，旨在使用多模式数据预测人类精神状态。先前的研究重点是制定有效的融合策略，以交换和整合不同模式的与思想有关的信息。一些基于MLP的技术最近在各种计算机视觉任务中取得了巨大的成功。受到这一点的启发，我们探索了本研究中具有混合视角的多模式方法。为此，我们介绍了完全基于MLP的多模式特征处理框架CubeMLP。 CUBEMLP由三个独立的MLP单元组成，每个单元都有两个仿射转换。 CUBEMLP接受所有相关的模态特征作为输入，并在三个轴上混合它们。使用CubeMLP提取特性后，将混合的多模式特征扁平以进行任务预测。我们的实验是在情感分析数据集上进行的：CMU-MOSI和CMU-MOSEI，以及抑郁估计数据集：AVEC2019。结果表明，CUBEMLP可以以低得多的计算成本来实现最先进的性能。

translated by 谷歌翻译

Multimodal Attention-based Deep Learning for Alzheimer's Disease Diagnosis

Michal Golovanevsky , Carsten Eickhoff , Ritambhara Singh

分类：机器学习 | 计算机视觉

2022-06-17

阿尔茨海默氏病（AD）是最常见的神经退行性疾病，具有最复杂的病原体之一，使有效且临床上可行的决策变得困难。这项研究的目的是开发一个新型的多模式深度学习框架，以帮助医疗专业人员进行AD诊断。我们提出了一个多模式的阿尔茨海默氏病诊断框架（MADDI），以准确检测成像，遗传和临床数据中的AD和轻度认知障碍（MCI）。 Maddi是新颖的，因为我们使用跨模式的注意力，它捕获了模态之间的相互作用 - 这种域中未探讨的方法。我们执行多级分类，这是一项艰巨的任务，考虑到MCI和AD之间的相似之处。我们与以前的最先进模型进行比较，评估注意力的重要性，并检查每种模式对模型性能的贡献。 Maddi在持有的测试集中对MCI，AD和控件进行了96.88％的精度分类。在检查不同注意力方案的贡献时，我们发现跨模式关注与自我注意力的组合表现出了最佳状态，并且模型中没有注意力层表现最差，而F1分数差异为7.9％。我们的实验强调了结构化临床数据的重要性，以帮助机器学习模型将其背景化和解释其余模式化。广泛的消融研究表明，未访问结构化临床信息的任何多模式混合物都遭受了明显的性能损失。这项研究证明了通过跨模式的注意组合多种输入方式的优点，以提供高度准确的AD诊断决策支持。

translated by 谷歌翻译

A Multimodal Approach for Automatic Mania Assessment in Bipolar Disorder

Pınar Baki

分类：自然语言处理 | 机器学习

2021-12-17

双相情感障碍是一种心理健康障碍，导致情绪波动，从令人沮丧到狂热。双相障碍的诊断通常是根据患者访谈进行的，并从患者的护理人员获得的报告。随后，诊断取决于专家的经验，并且可以与其他精神障碍的疾病混淆。双极性障碍诊断中的自动化过程可以帮助提供定量指标，并让患者的更容易观察较长的时间。此外，在Covid-19大流行期间，对遥控和诊断的需求变得尤为重要。在本论文中，我们根据声学，语言和视觉方式的患者录制来创建一种多模态决策系统。该系统培养在双极障碍语料库上。进行综合分析单峰和多模式系统，以及各种融合技术。除了使用单向特征处理整个患者会话外，还研究了剪辑的任务级调查。在多模式融合系统中使用声学，语言和视觉特征，我们实现了64.8％的未加权平均召回得分，这提高了在该数据集上实现的最先进的性能。

translated by 谷歌翻译

Multimodal Hate Speech Detection from Bengali Memes and Texts

Md. Rezaul Karim , Sumon Kanti Dey , Tanhim Islam , Md. Shajalal , Bharathi Raja Chakravarthi

分类：自然语言处理 | 人工智能

2022-04-19

Numerous machine learning (ML) and deep learning (DL)-based approaches have been proposed to utilize textual data from social media for anti-social behavior analysis like cyberbullying, fake news detection, and identification of hate speech mainly for highly-resourced languages such as English. However, despite having a lot of diversity and millions of native speakers, some languages like Bengali are under-resourced, which is due to a lack of computational resources for natural language processing (NLP). Similar to other languages, Bengali social media contents also include images along with texts (e.g., multimodal memes are posted by embedding short texts into images on Facebook). Therefore, only the textual data is not enough to judge them since images might give extra context to make a proper judgement. This paper is about hate speech detection from multimodal Bengali memes and texts. We prepared the only multimodal hate speech dataset for-a-kind of problem for Bengali, which we use to train state-of-the-art neural architectures (e.g., Bi-LSTM/Conv-LSTM with word embeddings, ConvNets + pre-trained language models, e.g., monolingual Bangla BERT, multilingual BERT-cased/uncased, and XLM-RoBERTa) to jointly analyze textual and visual information for hate speech detection. Conv-LSTM and XLM-RoBERTa models performed best for texts, yielding F1 scores of 0.78 and 0.82, respectively. As of memes, ResNet-152 and DenseNet-161 models yield F1 scores of 0.78 and 0.79, respectively. As for multimodal fusion, XLM-RoBERTa + DenseNet-161 performed the best, yielding an F1 score of 0.83. Our study suggests that text modality is most useful for hate speech detection, while memes are moderately useful.

translated by 谷歌翻译

Hybrid Multimodal Feature Extraction, Mining and Fusion for Sentiment Analysis

Jia Li , Ziyang Zhang , Junjie Lang , Yueqi Jiang , Liuwei An , Peng Zou , Yangyang Xu , Sheng Gao , Jie Lin , Chunxiao Fan

分类：计算机视觉 | 自然语言处理

2022-08-05

在本文中，我们介绍了2022年多模式情感分析挑战（MUSE）的解决方案，其中包括Muse-Humor，Muse-Rection和Muse Surns Sub-Challenges。 2022年穆斯穆斯（Muse 2022）着重于幽默检测，情绪反应和多模式的情感压力，利用不同的方式和数据集。在我们的工作中，提取了不同种类的多模式特征，包括声学，视觉，文本和生物学特征。这些功能由Temma和Gru融合到自发机制框架中。在本文中，1）提取了一些新的音频功能，面部表达功能和段落级文本嵌入以进行准确的改进。 2）我们通过挖掘和融合多模式特征来显着提高多模式情感预测的准确性和可靠性。 3）在模型培训中应用有效的数据增强策略，以减轻样本不平衡问题并防止模型形成学习有偏见的主题字符。对于博物馆的子挑战，我们的模型获得了0.8932的AUC分数。对于Muse Rection子挑战，我们在测试集上的Pearson相关系数为0.3879，它的表现优于所有其他参与者。对于Muse Surst Sub-Challenge，我们的方法在测试数据集上的唤醒和价值都优于基线，达到了0.5151的最终综合结果。

translated by 谷歌翻译

FV2ES: A Fully End2End Multimodal System for Fast Yet Effective Video Emotion Recognition Inference

Qinglan Wei , Xuling Huang , Yuan Zhang

分类：计算机视觉

2022-09-21

在最新的社交网络中，越来越多的人喜欢通过文字，语音和丰富的面部表情在视频中表达自己的情绪。多模式的视频情感分析技术可以根据图像中的人类表情和手势，声音和公认的自然语言自动理解用户的内部世界。但是，在现有研究中，与视觉和文本方式相比，声学方式长期以来一直处于边缘位置。也就是说，改善声学方式对整个多模式识别任务的贡献往往更加困难。此外，尽管可以通过引入常见的深度学习方法来获得更好的性能，但是这些训练模型的复杂结构始终会导致推理效率低，尤其是在暴露于高分辨率和长长视频时。此外，缺乏完全端到端的多模式视频情感识别系统阻碍了其应用。在本文中，我们为快速而有效的识别推断设计了一个完全多模式的视频对情感系统（名称为FV2E），其好处是三倍：（1）在声音中，通过有限的贡献，采用了层次结构注意方法。在声学模态上，在IEMOCAP和CMU-MOSEI数据集上胜过现有模型的性能；（2）引入视觉提取的多尺度的想法，而单一用于推理的想法会带来更高的效率，并同时保持预测准确性；（3）将预处理数据的数据进一步集成到对齐的多模式学习模型中，可以显着降低计算成本和存储空间。

translated by 谷歌翻译

LMR-CBT: Learning Modality-fused Representations with CB-Transformer for Multimodal Emotion Recognition from Unaligned Multimodal Sequences

Ziwang Fu , Feng Liu , Hanyang Wang , Siyuan Shen , Jiahao Zhang , Jiayin Qi , Xiangling Fu , Aimin Zhou

分类：计算机视觉 | 自然语言处理 | 机器学习

2021-12-03

学习模当融合的表示和处理未对准的多模式序列在多式联情绪识别中是有意义的，具有挑战性。现有方法使用定向成对注意力或消息中心到熔丝语言，视觉和音频模态。然而，这些方法在融合特征时介绍信息冗余，并且在不考虑方式的互补性的情况下效率低效。在本文中，我们提出了一种高效的神经网络，以学习与CB变压器（LMR-CBT）的模型融合表示，用于从未对准的多模式序列进行多峰情绪识别。具体地，我们首先为三种方式执行特征提取，以获得序列的局部结构。然后，我们设计具有跨模块块（CB变压器）的新型变压器，其能够实现不同模式的互补学习，主要分为局部时间学习，跨模型特征融合和全球自我关注表示。此外，我们将融合功能与原始特征拼接以对序列的情绪进行分类。最后，我们在三个具有挑战性的数据集，IEMocap，CMU-MOSI和CMU-MOSEI进行词语对齐和未对准的实验。实验结果表明我们在两个设置中提出的方法的优势和效率。与主流方法相比，我们的方法以最小数量的参数达到最先进的。

translated by 谷歌翻译

Multi-modal Depression Estimation based on Sub-attentional Fusion

Ping-Cheng Wei , Kunyu Peng , Alina Roitberg , Kailun Yang , Jiaming Zhang , Rainer Stiefelhagen

分类：计算机视觉 | 机器人

2022-07-13

未能及时诊断并有效治疗抑郁症会导致全世界有超过2.8亿人患有这种心理障碍。抑郁症的信息提示可以从不同的异质资源（例如音频，视觉和文本数据）中收获，从而提高了对自动估计的新有效多模式融合方法的需求。在这项工作中，我们解决了从多模式数据中自动识别抑郁症的任务，并引入了一种接触机制，以连接异质信息，同时利用卷积双向LSTM作为我们的骨架。为了验证这一想法，我们对公共DAIC-WOZ基准进行了广泛的实验，以进行抑郁评估，该评估具有不同的评估模式，并考虑了特定性别的偏见。提出的模型在检测严重抑郁症和4.92 MAE时以0.89的精度和0.70 F1得分产生有效的结果。我们基于注意力的融合模块始终优于常规的晚期融合方法，并且与先前发表的抑郁估计框架相比，取得了竞争性能，同时学习诊断端到端的疾病并依靠较少的预处理步骤。

translated by 谷歌翻译

Attention Bottlenecks for Multimodal Fusion

Arsha Nagrani , Shan Yang , Anurag Arnab , Aren Jansen , Cordelia Schmid , Chen Sun

分类：计算机视觉

2021-06-30

Humans perceive the world by concurrently processing and fusing high-dimensional inputs from multiple modalities such as vision and audio. Machine perception models, in stark contrast, are typically modality-specific and optimised for unimodal benchmarks, and hence late-stage fusion of final representations or predictions from each modality (`late-fusion') is still a dominant paradigm for multimodal video classification. Instead, we introduce a novel transformer based architecture that uses `fusion bottlenecks' for modality fusion at multiple layers. Compared to traditional pairwise self-attention, our model forces information between different modalities to pass through a small number of bottleneck latents, requiring the model to collate and condense the most relevant information in each modality and only share what is necessary. We find that such a strategy improves fusion performance, at the same time reducing computational cost. We conduct thorough ablation studies, and achieve state-of-the-art results on multiple audio-visual classification benchmarks including Audioset, Epic-Kitchens and VGGSound. All code and models will be released.

translated by 谷歌翻译

Multimodal End-to-End Sparse Model for Emotion Recognition

Wenliang Dai , Samuel Cahyawijaya , Zihan Liu , Pascale Fung

分类：自然语言处理

2021-03-17

现有的多模式情感计算任务的工作，例如情感识别，通常采用两相管线，首先用手工制作算法提取每个单个模态的特征表示，然后用提取的特征执行端到端学习。然而，提取的特征是固定的，并且不能在不同的目标任务上进一步微调，并且手动查找特征提取算法不概括或缩放到不同的任务，这可能导致次优性能。在本文中，我们开发了一个完全端到端的模型，可以联系两个阶段并共同优化它们。此外，我们还会重新计算当前数据集以启用完全结束的培训。此外，为了减少端到端模型所带来的计算开销，我们引入了一种特征提取的稀疏跨模型注意机制。实验结果表明，我们全面的端到端模型基于两相管道显着超越了当前的最先进模型。此外，通过增加稀疏的跨模型注意力，我们的模型可以在特征提取部分中的计算中保持性能。

translated by 谷歌翻译

A cross-modal fusion network based on self-attention and residual structure for multimodal emotion recognition

Ziwang Fu , Feng Liu , Hanyang Wang , Jiayin Qi , Xiangling Fu , Aimin Zhou , Zhibin Li

分类：计算机视觉 | 自然语言处理

2021-11-03

基于音频视频的多模式情绪识别由于其强大的性能引起了很多人。大多数现有方法都侧重于提出不同的跨模态融合策略。然而，这些策略在不同模式的特征中引入了冗余，而无需完全考虑模态信息之间的互补特性，并且这些方法不保证在跨跨和间间交互期间的原始语义信息的非损失。在本文中，我们提出了一种基于自我关注和残余结构（CFN-SR）的新型跨模型融合网络，用于多式联情绪识别。首先，我们对音频和视频模型执行表示学习，以通过有效的ResNext和1D CNN获得两个模态的语义特征。其次，我们将两个模态的特征分别馈送到跨模块块中，以确保通过自我关注机制和残余结构来确保信息的有效互补性和完整性。最后，我们通过用原始表示拼接获得的融合表示来获得情绪的产出。为了验证所提出的方法的有效性，我们对Ravdess数据集进行实验。实验结果表明，拟议的CFN-SR实现了最先进的，并以26.30M参数获得75.76％的精度。我们的代码可在https://github.com/skeletonnn/cfn-sr获得。

translated by 谷歌翻译

Multi-scale Cooperative Multimodal Transformers for Multimodal Sentiment Analysis in Videos

Lianyang Ma , Yu Yao , Tao Liang , Tongliang Liu

分类：计算机视觉

2022-06-16

视频中的多模式情感分析是许多现实世界应用中的关键任务，通常需要集成多模式流，包括视觉，言语和声学行为。为了提高多模式融合的鲁棒性，某些现有方法使不同的模态相互通信，并通过变压器模态跨模式相互作用。但是，这些方法仅在交互期间使用单尺度表示，但忘记利用包含不同语义信息级别的多尺度表示。结果，对于未对齐的多模式数据，变压器学到的表示形式可能会偏差。在本文中，我们提出了多模式情感分析的多尺度合作多模式变压器（MCMULT）体系结构。总体而言，“多尺度”机制能够利用每种模式的不同语义信息级别，用于细粒度的跨模式相互作用。同时，每种模式通过从其源模式的多个级别特征集成了交叉模式的交互来学习其特征层次结构。这样，每对方式分别以合作的方式逐步构建特征层次结构。经验结果表明，我们的MCMULT模型不仅在未对齐的多模式序列上胜过现有的方法，而且在对齐的多模式序列上具有强烈的性能。

translated by 谷歌翻译