在各种Web应用程序(例如数字广告和电子商务)中使用多模式数据的兴趣越来越大。从多模式数据中提取重要信息的典型方法取决于结合了来自多个编码器的特征表示的中型架构。但是,随着模态数量的增加,中融合模型结构的几个潜在问题会出现,例如串联多模式特征和缺失模态的维度增加。为了解决这些问题,我们提出了一个新概念,该概念将多模式输入视为一组序列,即深度多模式序列集(DM $^2 $ S $^2 $)。我们的设置感知概念由三个组成部分组成,这些组件捕获了多种模式之间的关系:(a)基于BERT的编码器来处理序列中元素间和内级内和内级的编码器,(b)模式内的残留物(Intramra)(Intramra) )捕获元素在模态中的重要性,以及(c)模式间残留的关注(Intermra),以进一步增强具有模态水平粒度的元素的重要性。我们的概念表现出与以前的设置感知模型相当或更好的性能。此外,我们证明了学识渊博的Intermra和Intramra权重的可视化可以提供对预测结果的解释。
translated by 谷歌翻译