智能论文笔记

Domain-specific Learning of Multi-scale Facial Dynamics for Apparent Personality Traits Prediction

Fang Li

分类：计算机视觉

2022-09-09

人格决定其日常生活和工作行为的各个方面。由于人格特征随着时间的流逝而相对稳定，并且对于每个主题而言是独一无二的，因此以前的方法经常从单一框架或短期行为推断性格。此外，他们中的大多数人未能专门提取特定于人格的人格认可。在本文中，我们提出了一种基于视频的新型自动人格特质识别方法，该方法包括：（1）A \ TextBf {域特异性面部行为模型}模块，该模块提取了与人格相关的多规模短期人类面部行为特征; （2）a \ textbf {长期行为建模}模块，该模块总结了视频的所有短期特征作为长期/视频级别的个性表示，并且（3）a \ textbf {多任务个性人格特征预测模块}该模型在所有特征之间的基本关系中，并根据视频级别的个性表示共同预测它们。我们在Chalearn First Ampression数据集上进行了实验，我们的方法与最先进的结果相当。重要的是，我们表明所有三个提议的模块都为人格认可带来了重要的好处。

translated by 谷歌翻译

Two-stage Temporal Modelling Framework for Video-based Depression Recognition using Graph Representation

Jiaqi Xu , Siyang Song , Keerthy Kusumam , Hatice Gunes , Michel Valstar

分类：计算机视觉

2021-11-30

基于视频的自动抑郁分析提供了一种快速，客观和可重复的自我评估解决方案，近年来已被广泛发展。虽然抑郁线索可能被各个时间尺度的人类面部行为反映，但大多数现有方法都集中在短期或视频级面部行为中的模拟抑郁症。从这个意义上讲，我们提出了一个两级框架，模拟了从多尺度短期和视频级面部行为模拟了抑郁严重程度。短期抑郁行为建模阶段首先学习来自多个短时间尺度的抑郁相关的面部行为特征，其中提出了一种凹陷特征增强（DFE）模块来增强所有时间尺度的抑郁相关线索并去除非抑郁症噪音。然后，视频级抑郁行为建模阶段提出了两个新颖的曲线图编码策略，即顺序图形表示（SEG）和频谱图表示（SPG），以将目标视频的所有短期特征重新编码为视频 - 级别图形表示，总结抑郁相关的多尺度视频级时间信息。结果，所产生的图表表示使用短期和长期面部Beahviour模式预测抑郁严重程度。 AVEC 2013和AVEC 2014数据集上的实验结果表明，所提出的DFE模块不断增强各种CNN模型的抑郁严重性估计性能，而SPG优于其他视频级建模方法。更重要的是，与拟议的两级框架实现的结果表明，与广泛使用的单阶段建模方法相比，其有前景和坚实的性能。

translated by 谷歌翻译

Short and Long Range Relation Based Spatio-Temporal Transformer for Micro-Expression Recognition

Liangfei Zhang , Xiaopeng Hong , Ognjen Arandjelovic , Guoying Zhao

分类：计算机视觉

2021-12-10

无意识和自发的，微小表达在一个人的真实情绪的推动中是有用的，即使尝试隐藏它们。由于它们短的持续时间和低强度，对微表达的识别是情感计算中的艰巨任务。基于手工制作的时空特征的早期工作最近被不同的深度学习方法取代了现在竞争最先进的性能。然而，捕获本地和全球时空模式的问题仍然挑战。为此，本文我们提出了一种新颖的时空变压器架构 - 据我们所知，是微表达识别的第一种纯粹变压器的方法（即任何卷积网络使用的方法）。该架构包括用于学习空间模式的空间编码器，用于时间维度分析的时间聚合器和分类头。三种广泛使用的自发性微表达数据集，即Smic-HS，Casme II和SAMM的综合评估表明，该方法始终如一地优于现有技术，是发表在微表达上发表文献中的第一个框架在任何上述数据集上识别以实现未加权的F1分数大于0.9。

translated by 谷歌翻译

Deep Learning for Micro-expression Recognition: A Survey

Yante Li , Jinsheng Wei , Yang Liu , Janne Kauttonen , Guoying Zhao

分类：计算机视觉

2021-07-06

微表达（MES）是非自愿的面部运动，揭示了人们在高利害情况下隐藏的感受，并对医疗，国家安全，审讯和许多人机交互系统具有实际重要性。早期的MER方法主要基于传统的外观和几何特征。最近，随着各种领域的深度学习（DL）的成功，神经网络已得到MER的兴趣。不同于宏观表达，MES是自发的，微妙的，快速的面部运动，导致数据收集困难，因此具有小规模的数据集。由于上述我的角色，基于DL的MER变得挑战。迄今为止，已提出各种DL方法来解决我的问题并提高MER表现。在本调查中，我们对深度微表达识别（MER）进行了全面的审查，包括数据集，深度MER管道和最具影响力方法的基准标记。本调查定义了该领域的新分类法，包括基于DL的MER的所有方面。对于每个方面，总结和讨论了基本方法和高级发展。此外，我们得出了坚固的深层MER系统设计的剩余挑战和潜在方向。据我们所知，这是对深度MEL方法的第一次调查，该调查可以作为未来MER研究的参考点。

translated by 谷歌翻译

Learning Multi-dimensional Edge Feature-based AU Relation Graph for Facial Action Unit Recognition

Cheng Luo , Siyang Song , Weicheng Xie , Linlin Shen , Hatice Gunes

分类：计算机视觉 | 人工智能

2022-05-02

面部动作单位（AUS）的激活相互影响。尽管一对AU之间的关系可能是复杂且独特的，但现有方法无法具体而明确地代表每个面部显示中每对AUS的此类提示。本文提出了一种AU关系建模方法，该方法深入了解独特的图表，以明确描述目标面部显示的每对AU之间的关系。我们的方法首先将每个AU的激活状态及其与其他AU的关联编码为节点功能。然后，它学习了一对多维边缘功能，以描述每对AUS之间的多个特定于任务的关系线索。在节点和边缘功能学习期间，我们的方法还考虑了独特的面部展示对AUS关系的影响，通过将完整的面部表示作为输入。 BP4D和DISFA数据集的实验结果表明，节点和边缘特征学习模块都为CNN和基于变压器的骨架提供了巨大的性能改进，我们的最佳系统可实现最先进的AU识别结果。我们的方法不仅具有强大的AU识别建模关系线索的能力，而且可以轻松地将其纳入各种骨架中。我们的Pytorch代码可用。

translated by 谷歌翻译

Non-contact Pain Recognition from Video Sequences with Remote Physiological Measurements Prediction

Ruijing Yang , Ziyu Guan , Zitong Yu , Xiaoyi Feng , Jinye Peng , Guoying Zhao

分类：计算机视觉

2021-05-18

自动疼痛识别对于医学诊断和治疗至关重要。现有工程分为三类：评估面部外观变化，利用生理线索，或以多模态的方式融合它们。然而，（1）外观变化很容易受到阻碍客观疼痛识别的主观因素的影响。此外，基于外观的方法忽略了对于随时间建模表达的远程空间依赖性。（2）通过在人体上附着传感器来获得生理学提示，这不方便和不舒服。在本文中，我们提出了一种新的多任务学习框架，其以非接触方式编码外观变化和生理线索以进行疼痛识别。该框架能够通过所学习的外观表示的提出的注意机制来捕获局部和远程依赖性，这是通过在辅助任务中从视频中恢复的恢复的时间上富集的富集。该框架被称为RPPG的时空关注网络（RSTAN），并允许我们在公开的止痛数据库上建立非接触疼痛识别的最先进的性能。它展示了RPPG预测可以用作辅助任务，以便于非接触自动疼痛识别。

translated by 谷歌翻译

An end-to-end multi-scale network for action prediction in videos

Xiaofa Liu , Jianqin Yin , Yuan Sun , Zhicheng Zhang , Jin Tang

分类：计算机视觉

2022-12-31

In this paper, we develop an efficient multi-scale network to predict action classes in partial videos in an end-to-end manner. Unlike most existing methods with offline feature generation, our method directly takes frames as input and further models motion evolution on two different temporal scales.Therefore, we solve the complexity problems of the two stages of modeling and the problem of insufficient temporal and spatial information of a single scale. Our proposed End-to-End MultiScale Network (E2EMSNet) is composed of two scales which are named segment scale and observed global scale. The segment scale leverages temporal difference over consecutive frames for finer motion patterns by supplying 2D convolutions. For observed global scale, a Long Short-Term Memory (LSTM) is incorporated to capture motion features of observed frames. Our model provides a simple and efficient modeling framework with a small computational cost. Our E2EMSNet is evaluated on three challenging datasets: BIT, HMDB51, and UCF101. The extensive experiments demonstrate the effectiveness of our method for action prediction in videos.

translated by 谷歌翻译

EAN: Event Adaptive Network for Enhanced Action Recognition

Yuan Tian , Yichao Yan , Guangtao Zhai , Guodong Guo , Zhiyong Gao

分类：计算机视觉

2021-07-22

有效地对视频中的空间信息进行建模对于动作识别至关重要。为了实现这一目标，最先进的方法通常采用卷积操作员和密集的相互作用模块，例如非本地块。但是，这些方法无法准确地符合视频中的各种事件。一方面，采用的卷积是有固定尺度的，因此在各种尺度的事件中挣扎。另一方面，密集的相互作用建模范式仅在动作 - 欧元零件时实现次优性能，给最终预测带来了其他噪音。在本文中，我们提出了一个统一的动作识别框架，以通过引入以下设计来研究视频内容的动态性质。首先，在提取本地提示时，我们会生成动态尺度的时空内核，以适应各种事件。其次，为了将这些线索准确地汇总为全局视频表示形式，我们建议仅通过变压器在一些选定的前景对象之间进行交互，从而产生稀疏的范式。我们将提出的框架称为事件自适应网络（EAN），因为这两个关键设计都适应输入视频内容。为了利用本地细分市场内的短期运动，我们提出了一种新颖有效的潜在运动代码（LMC）模块，进一步改善了框架的性能。在几个大规模视频数据集上进行了广泛的实验，例如，某种东西，动力学和潜水48，验证了我们的模型是否在低拖鞋上实现了最先进或竞争性的表演。代码可在：https：//github.com/tianyuan168326/ean-pytorch中找到。

translated by 谷歌翻译

Intensity-Aware Loss for Dynamic Facial Expression Recognition in the Wild

Hanting Li , Hongjing Niu , Zhaoqing Zhu , Feng Zhao

分类：计算机视觉

2022-08-19

与基于图像的静态面部表达识别（SFER）任务相比，基于视频序列的动态面部表达识别（DFER）任务更接近自然表达识别场景。但是，DFE通常更具挑战性。主要原因之一是，视频序列通常包含具有不同表达强度的框架，尤其是对于现实世界中的面部表情，而SFER中的图像经常呈现均匀和高表达强度。但是，如果同样处理具有不同强度的表达式，则网络学到的特征将具有较大的阶层和小类间差异，这对DFER有害。为了解决这个问题，我们建议全球卷积注意区（GCA）重新列出特征地图的渠道。此外，我们在训练过程中介绍了强度感知的损失（IAL），以帮助网络区分具有相对较低表达强度的样品。在两个野外动态面部表达数据集（即DFEW和FERV39K）上进行实验表明，我们的方法表现优于最先进的DFER方法。源代码将公开可用。

translated by 谷歌翻译

Exploiting Segment-level Semantics for Online Phase Recognition from Surgical Videos

Xinpeng Ding , Xiaomeng Li

分类：计算机视觉

2021-11-22

自动外科阶段识别在机器人辅助手术中起着重要作用。现有方法忽略了一个关键问题，即外科阶段应该通过学习段级语义来分类，而不是仅仅依赖于框架明智的信息。在本文中，我们提出了一种段 - 细分分层一致性网络（SAHC），用于来自视频的外科阶段识别。关键的想法是提取分层高级语义 - 一致的段，并使用它们来优化由暧昧帧引起的错误预测。为实现它，我们设计一个时间分层网络以生成分层高级段。然后，我们引入分层段帧注意力（SFA）模块，以捕获低级帧和高级段之间的关系。通过通过一致性损耗来规则地规范帧及其对应段的预测，网络可以生成语义 - 一致的段，然后纠正由模糊的低级帧引起的错误分类预测。我们在两个公共外科视频数据集上验证SAHC，即M2CAI16挑战数据集和CholeC80数据集。实验结果表明，我们的方法优于以前的最先进的余量，显着达到M2Cai16的4.1％。代码将在验收时在Github发布。

translated by 谷歌翻译

Learning from Label Relationships in Human Affect

Niki Maria Foteinopoulou , Ioannis Patras

分类：计算机视觉

2022-07-12

人类的情感和心理状态以自动化的方式估计，面临许多困难，包括从差或没有时间分辨率的标签中学习，从很少有数据的数据集中学习（通常是由于机密性约束），并且（非常）很长 - 野外视频。由于这些原因，深度学习方法倾向于过度合适，也就是说，在最终回归任务上获得概括性差的潜在表示。为了克服这一点，在这项工作中，我们介绍了两个互补的贡献。首先，我们引入了一种新型的关系损失，以解决多标签回归和序数问题，该问题规则学习并导致更好的概括。拟议的损失使用标签矢量间歇间信息来通过将批次标签距离与潜在特征空间中的距离进行对齐，从而学习更好的潜在表示。其次，我们利用了两个阶段的注意体系结构，该体系结构通过使用相邻夹中的功能作为时间上下文来估计每个剪辑的目标。我们评估了关于连续影响和精神分裂症严重程度估计问题的提议方法，因为两者之间存在方法论和背景相似之处。实验结果表明，所提出的方法的表现优于所有基准。在精神分裂症的领域中，拟议的方法学优于先前的最先进的利润率，其PCC的PCC绩效高达78％的绩效（85％）（85％），并且比以前的工作高得多（Uplift FiftLift最多40％）。在情感识别的情况下，我们在OMG和AMIGOS数据集上都以CCC为基础的先前基于以前的方法。对于Amigos而言，我们的唤醒和价值分别均优于先前的SOTA CCC，分别为9％和13％，在OMG数据集中，我们的效果均优于先前的视力，唤醒和价值均高达5％。

translated by 谷歌翻译

Multi-Stage Spatio-Temporal Aggregation Transformer for Video Person Re-identification

Ziyi Tang , Ruimao Zhang , Zhanglin Peng , Jinrui Chen , Liang Lin

分类：计算机视觉

2023-01-02

In recent years, the Transformer architecture has shown its superiority in the video-based person re-identification task. Inspired by video representation learning, these methods mainly focus on designing modules to extract informative spatial and temporal features. However, they are still limited in extracting local attributes and global identity information, which are critical for the person re-identification task. In this paper, we propose a novel Multi-Stage Spatial-Temporal Aggregation Transformer (MSTAT) with two novel designed proxy embedding modules to address the above issue. Specifically, MSTAT consists of three stages to encode the attribute-associated, the identity-associated, and the attribute-identity-associated information from the video clips, respectively, achieving the holistic perception of the input person. We combine the outputs of all the stages for the final identification. In practice, to save the computational cost, the Spatial-Temporal Aggregation (STA) modules are first adopted in each stage to conduct the self-attention operations along the spatial and temporal dimensions separately. We further introduce the Attribute-Aware and Identity-Aware Proxy embedding modules (AAP and IAP) to extract the informative and discriminative feature representations at different stages. All of them are realized by employing newly designed self-attention operations with specific meanings. Moreover, temporal patch shuffling is also introduced to further improve the robustness of the model. Extensive experimental results demonstrate the effectiveness of the proposed modules in extracting the informative and discriminative information from the videos, and illustrate the MSTAT can achieve state-of-the-art accuracies on various standard benchmarks.

translated by 谷歌翻译

Deep Learning meets Liveness Detection: Recent Advancements and Challenges

Arian Sabaghi , Marzieh Oghbaie , Kooshan Hashemifard , Mohammad Akbari

分类：计算机视觉

2021-12-29

最近，面部生物识别是对传统认证系统的方便替代的巨大关注。因此，检测恶意尝试已经发现具有重要意义，导致面部抗欺骗〜（FAS），即面部呈现攻击检测。与手工制作的功能相反，深度特色学习和技术已经承诺急剧增加FAS系统的准确性，解决了实现这种系统的真实应用的关键挑战。因此，处理更广泛的发展以及准确的模型的新研究区越来越多地引起了研究界和行业的关注。在本文中，我们为自2017年以来对与基于深度特征的FAS方法相关的文献综合调查。在这一主题上阐明，基于各种特征和学习方法的语义分类。此外，我们以时间顺序排列，其进化进展和评估标准（数据集内集和数据集互联集合中集）覆盖了FAS的主要公共数据集。最后，我们讨论了开放的研究挑战和未来方向。

translated by 谷歌翻译

MSA-GCN:Multiscale Adaptive Graph Convolution Network for Gait Emotion Recognition

Yunfei Yin , Li Jing , Faliang Huang , Guangchao Yang , Zhuowei Wang

分类：计算机视觉 | 机器学习

2022-09-19

步态情绪识别在智能系统中起着至关重要的作用。大多数现有方法通过随着时间的推移专注于当地行动来识别情绪。但是，他们忽略了时间域中不同情绪的有效距离是不同的，而且步行过程中的当地行动非常相似。因此，情绪应由全球状态而不是间接的本地行动代表。为了解决这些问题，这项工作通过构建动态的时间接受场并设计多尺度信息聚集以识别情绪，从而在这项工作中介绍了新型的多量表自适应图卷积网络（MSA-GCN）。在我们的模型中，自适应选择性时空图卷积旨在动态选择卷积内核，以获得不同情绪的软时空特征。此外，跨尺度映射融合机制（CSFM）旨在构建自适应邻接矩阵，以增强信息相互作用并降低冗余。与以前的最先进方法相比，所提出的方法在两个公共数据集上实现了最佳性能，将地图提高了2 \％。我们还进行了广泛的消融研究，以显示不同组件在我们的方法中的有效性。

translated by 谷歌翻译

Landmark Enhanced Multimodal Graph Learning for Deepfake Video Detection

Zhiyuan Yan , Peng Sun , Yubo Lang , Shuo Du , Shanzhuo Zhang , Wei Wang

分类：计算机视觉

2022-09-12

随着面部伪造技术的快速发展，DeepFake视频在数字媒体上引起了广泛的关注。肇事者大量利用这些视频来传播虚假信息并发表误导性陈述。大多数现有的DeepFake检测方法主要集中于纹理特征，纹理特征可能会受到外部波动（例如照明和噪声）的影响。此外，基于面部地标的检测方法对外部变量更强大，但缺乏足够的细节。因此，如何在空间，时间和频域中有效地挖掘独特的特征，并将其与面部地标融合以进行伪造视频检测仍然是一个悬而未决的问题。为此，我们提出了一个基于多种模式的信息和面部地标的几何特征，提出了地标增强的多模式图神经网络（LEM-GNN）。具体而言，在框架级别上，我们设计了一种融合机制来挖掘空间和频域元素的联合表示，同时引入几何面部特征以增强模型的鲁棒性。在视频级别，我们首先将视频中的每个帧视为图中的节点，然后将时间信息编码到图表的边缘。然后，通过应用图形神经网络（GNN）的消息传递机制，将有效合并多模式特征，以获得视频伪造的全面表示。广泛的实验表明，我们的方法始终优于广泛使用的基准上的最先进（SOTA）。

translated by 谷歌翻译

TCGL: Temporal Contrastive Graph for Self-supervised Video Representation Learning

Yang Liu , Keze Wang , Lingbo Liu , Haoyuan Lan , Liang Lin

分类：计算机视觉

2021-12-07

视频自我监督的学习是一项挑战的任务，这需要模型的显着表达力量来利用丰富的空间时间知识，并从大量未标记的视频产生有效的监督信号。但是，现有方法未能提高未标记视频的时间多样性，并以明确的方式忽略精心建模的多尺度时间依赖性。为了克服这些限制，我们利用视频中的多尺度时间依赖性，并提出了一个名为时间对比图学习（TCGL）的新型视频自我监督学习框架，该框架共同模拟了片段间和片段间的时间依赖性用混合图对比学习策略学习的时间表示学习。具体地，首先引入空间 - 时间知识发现（STKD）模块以基于离散余弦变换的频域分析从视频中提取运动增强的空间时间表。为了显式模拟未标记视频的多尺度时间依赖性，我们的TCGL将关于帧和片段命令的先前知识集成到图形结构中，即片段/间隙间时间对比图（TCG）。然后，特定的对比学习模块旨在最大化不同图形视图中节点之间的协议。为了为未标记的视频生成监控信号，我们介绍了一种自适应片段订购预测（ASOP）模块，它利用视频片段之间的关系知识来学习全局上下文表示并自适应地重新校准通道明智的功能。实验结果表明我们的TCGL在大规模行动识别和视频检索基准上的最先进方法中的优势。

translated by 谷歌翻译

Video-based Human Action Recognition using Deep Learning: A Review

Hieu H. Pham , Louahdi Khoudour , Alain Crouzil , Pablo Zegers , Sergio A. Velastin

分类：计算机视觉

2022-08-07

人类行动识别是计算机视觉中的重要应用领域。它的主要目的是准确地描述人类的行为及其相互作用，从传感器获得的先前看不见的数据序列中。识别，理解和预测复杂人类行动的能力能够构建许多重要的应用，例如智能监视系统，人力计算机界面，医疗保健，安全和军事应用。近年来，计算机视觉社区特别关注深度学习。本文使用深度学习技术的视频分析概述了当前的动作识别最新识别。我们提出了识别人类行为的最重要的深度学习模型，并分析它们，以提供用于解决人类行动识别问题的深度学习算法的当前进展，以突出其优势和缺点。基于文献中报道的识别精度的定量分析，我们的研究确定了动作识别中最新的深层体系结构，然后为该领域的未来工作提供当前的趋势和开放问题。

translated by 谷歌翻译

Multimodal Personality Recognition using Cross-Attention Transformer and Behaviour Encoding

Tanay Agrawal , Dhruv Agarwal , Michal Balazia , Neelabh Sinha , Francois Bremond

分类：计算机视觉 | 人工智能

2021-12-22

人格计算和情感计算最近在许多研究领域获得了兴趣。任务的数据集通常具有视频，音频，语言和生物信号等多种方式。在本文中，我们提出了一种灵活的型号，用于利用所有可用数据的任务。该任务涉及复杂的关系，并避免使用大型模型进行视频处理，我们提出了使用行为编码，该行为编码具有对模型的最小变化的性能提升性能。近期使用变压器的横向感到流行，并且用于融合不同的方式。由于可能存在长期关系，因此不希望将输入破坏到块中，因此所提出的模型将整个输入处理在一起。我们的实验表明了上述每个贡献的重要性

translated by 谷歌翻译

Hand Hygiene Assessment via Joint Step Segmentation and Key Action Scorer

Chenglong Li , Qiwen Zhu , Tubiao Liu , Jin Tang , Yu Su

分类：计算机视觉

2022-09-25

手卫生是世界卫生组织（WHO）提出的标准六步洗手行动。但是，没有很好的方法来监督医务人员进行手卫生，这带来了疾病传播的潜在风险。在这项工作中，我们提出了一项新的计算机视觉任务，称为手动卫生评估，以为医务人员提供手动卫生的明智监督。现有的行动评估工作通常在整个视频上做出总体质量预测。但是，手动卫生作用的内部结构在手工卫生评估中很重要。因此，我们提出了一个新颖的细粒学习框架，以联合方式进行步骤分割和关键动作得分手，以进行准确的手部卫生评估。现有的时间分割方法通常采用多阶段卷积网络来改善分割的鲁棒性，但由于缺乏远距离依赖性，因此很容易导致过度分割。为了解决此问题，我们设计了一个多阶段卷积转换器网络，以进行步骤细分。基于这样的观察，每个手洗步骤都涉及确定手洗质量的几个关键动作，我们设计了一组关键的动作得分手，以评估每个步骤中关键动作的质量。此外，在手工卫生评估中缺乏统一的数据集。因此，在医务人员的监督下，我们贡献了一个视频数据集，其中包含300个带有细粒注释的视频序列。数据集上的广泛实验表明，我们的方法很好地评估了手动卫生视频并取得了出色的性能。

translated by 谷歌翻译

Audio-Visual Fusion for Emotion Recognition in the Valence-Arousal Space Using Joint Cross-Attention

R Gnana Praveen , Eric Granger , Patrick Cardinal

分类：计算机视觉

2022-09-19

自动情绪识别（ER）最近由于其在许多实际应用中的潜力而引起了很多兴趣。在这种情况下，已经证明多模式方法可以通过结合多样化和互补的信息来源，从而提高性能（超过单峰方法），从而为嘈杂和缺失的方式提供了一些鲁棒性。在本文中，我们根据从视频中提取的面部和声音方式融合的尺寸ER专注于尺寸，其中探索了互补的视听（A-V）关系，以预测个人在价值空间中的情绪状态。大多数最先进的融合技术都依赖于反复的网络或常规的注意机制，这些机制无法有效利用A-V模式的互补性。为了解决这个问题，我们引入了A-V融合的联合跨注意模型，该模型在A-V模态上提取显着特征，从而可以有效利用模式间关系，同时保留模式内关系。特别是，它根据联合特征表示与单个模式的相关性计算交叉意义权重。通过将联合A-V特征表示形式部署到交叉意见模块中，它有助于同时利用内模式和模态关系，从而显着改善系统的性能，而不是香草交叉意见模块。我们提出的方法的有效性是在Recola和AffWild2数据集的挑战性视频中通过实验验证的。结果表明，我们的跨注意A-V融合模型提供了一种具有成本效益的解决方案，即使模式是嘈杂或不存在的，也可以超越最先进的方法。

translated by 谷歌翻译