关于多模式情绪识别的最新作品转向端到端模型,该模型可以提取与两阶段管道相比,目标任务监督的特定任务特征。但是,以前的方法仅模拟文本和声学和视觉方式之间的特征相互作用,而忽略了捕获声学和视觉方式之间的特征相互作用。在本文中,我们提出了多模式的端到端变压器(ME2ET),该变压器可以有效地对低级和高级水平的文本,声学和视觉方式之间的三模式特征进行建模。在低水平,我们提出了进行性三模式的注意,可以通过采用两次通行策略来对三模式特征相互作用进行建模,并可以进一步利用这种相互作用,以通过降低输入令牌来显着降低计算和记忆复杂性长度。在高水平上,我们引入了三模式特征融合层,以明确汇总三种模式的语义表示。 CMU-MOSEI和IEMOCAP数据集的实验结果表明,ME2ET实现了最新性能。进一步的深入分析证明了拟议的渐进三模式关注的有效性,效率和解释性,这可以帮助我们的模型实现更好的性能,同时显着降低计算和记忆成本。我们的代码将公开可用。
translated by 谷歌翻译