智能论文笔记

Learning Multi-dimensional Edge Feature-based AU Relation Graph for Facial Action Unit Recognition

Cheng Luo , Siyang Song , Weicheng Xie , Linlin Shen , Hatice Gunes

分类：计算机视觉 | 人工智能

2022-05-02

面部动作单位（AUS）的激活相互影响。尽管一对AU之间的关系可能是复杂且独特的，但现有方法无法具体而明确地代表每个面部显示中每对AUS的此类提示。本文提出了一种AU关系建模方法，该方法深入了解独特的图表，以明确描述目标面部显示的每对AU之间的关系。我们的方法首先将每个AU的激活状态及其与其他AU的关联编码为节点功能。然后，它学习了一对多维边缘功能，以描述每对AUS之间的多个特定于任务的关系线索。在节点和边缘功能学习期间，我们的方法还考虑了独特的面部展示对AUS关系的影响，通过将完整的面部表示作为输入。 BP4D和DISFA数据集的实验结果表明，节点和边缘特征学习模块都为CNN和基于变压器的骨架提供了巨大的性能改进，我们的最佳系统可实现最先进的AU识别结果。我们的方法不仅具有强大的AU识别建模关系线索的能力，而且可以轻松地将其纳入各种骨架中。我们的Pytorch代码可用。

translated by 谷歌翻译

Occlusion-Robust FAU Recognition by Mining Latent Space of Masked Autoencoders

Minyang Jiang , Yongwei Wang , Martin J. McKeown , Z. Jane Wang

分类：计算机视觉

2022-12-08

Facial action units (FAUs) are critical for fine-grained facial expression analysis. Although FAU detection has been actively studied using ideally high quality images, it was not thoroughly studied under heavily occluded conditions. In this paper, we propose the first occlusion-robust FAU recognition method to maintain FAU detection performance under heavy occlusions. Our novel approach takes advantage of rich information from the latent space of masked autoencoder (MAE) and transforms it into FAU features. Bypassing the occlusion reconstruction step, our model efficiently extracts FAU features of occluded faces by mining the latent space of a pretrained masked autoencoder. Both node and edge-level knowledge distillation are also employed to guide our model to find a mapping between latent space vectors and FAU features. Facial occlusion conditions, including random small patches and large blocks, are thoroughly studied. Experimental results on BP4D and DISFA datasets show that our method can achieve state-of-the-art performances under the studied facial occlusion, significantly outperforming existing baseline methods. In particular, even under heavy occlusion, the proposed method can achieve comparable performance as state-of-the-art methods under normal conditions.

translated by 谷歌翻译

Two-stage Temporal Modelling Framework for Video-based Depression Recognition using Graph Representation

Jiaqi Xu , Siyang Song , Keerthy Kusumam , Hatice Gunes , Michel Valstar

分类：计算机视觉

2021-11-30

基于视频的自动抑郁分析提供了一种快速，客观和可重复的自我评估解决方案，近年来已被广泛发展。虽然抑郁线索可能被各个时间尺度的人类面部行为反映，但大多数现有方法都集中在短期或视频级面部行为中的模拟抑郁症。从这个意义上讲，我们提出了一个两级框架，模拟了从多尺度短期和视频级面部行为模拟了抑郁严重程度。短期抑郁行为建模阶段首先学习来自多个短时间尺度的抑郁相关的面部行为特征，其中提出了一种凹陷特征增强（DFE）模块来增强所有时间尺度的抑郁相关线索并去除非抑郁症噪音。然后，视频级抑郁行为建模阶段提出了两个新颖的曲线图编码策略，即顺序图形表示（SEG）和频谱图表示（SPG），以将目标视频的所有短期特征重新编码为视频 - 级别图形表示，总结抑郁相关的多尺度视频级时间信息。结果，所产生的图表表示使用短期和长期面部Beahviour模式预测抑郁严重程度。 AVEC 2013和AVEC 2014数据集上的实验结果表明，所提出的DFE模块不断增强各种CNN模型的抑郁严重性估计性能，而SPG优于其他视频级建模方法。更重要的是，与拟议的两级框架实现的结果表明，与广泛使用的单阶段建模方法相比，其有前景和坚实的性能。

translated by 谷歌翻译

Multi-task Cross Attention Network in Facial Behavior Analysis

Dang-Khanh Nguyen , Sudarshan Pant , Ngoc-Huynh Ho , Guee-Sang Lee , Soo-Huyng Kim , Hyung-Jeong Yang

分类：计算机视觉

2022-07-21

面部行为分析是一个广泛的主题，具有各种类别，例如面部情绪识别，年龄和性别认识，……许多研究都集中在单个任务上，而多任务学习方法仍然开放，需要更多的研究。在本文中，我们为情感行为分析在野外竞争中的多任务学习挑战提供了解决方案和实验结果。挑战是三个任务的组合：动作单元检测，面部表达识别和偶像估计。为了应对这一挑战，我们引入了一个跨集团模块，以提高多任务学习绩效。此外，还应用面部图来捕获动作单元之间的关联。结果，我们在组织者提供的验证数据上实现了1.24的评估度量，这比0.30的基线结果要好。

translated by 谷歌翻译

Domain-specific Learning of Multi-scale Facial Dynamics for Apparent Personality Traits Prediction

Fang Li

分类：计算机视觉

2022-09-09

人格决定其日常生活和工作行为的各个方面。由于人格特征随着时间的流逝而相对稳定，并且对于每个主题而言是独一无二的，因此以前的方法经常从单一框架或短期行为推断性格。此外，他们中的大多数人未能专门提取特定于人格的人格认可。在本文中，我们提出了一种基于视频的新型自动人格特质识别方法，该方法包括：（1）A \ TextBf {域特异性面部行为模型}模块，该模块提取了与人格相关的多规模短期人类面部行为特征; （2）a \ textbf {长期行为建模}模块，该模块总结了视频的所有短期特征作为长期/视频级别的个性表示，并且（3）a \ textbf {多任务个性人格特征预测模块}该模型在所有特征之间的基本关系中，并根据视频级别的个性表示共同预测它们。我们在Chalearn First Ampression数据集上进行了实验，我们的方法与最先进的结果相当。重要的是，我们表明所有三个提议的模块都为人格认可带来了重要的好处。

translated by 谷歌翻译

Uncertain Facial Expression Recognition via Multi-task Assisted Correction

Yang Liu , Xingming Zhang , Janne Kauttonen , Guoying Zhao

分类：计算机视觉

2022-12-14

Deep models for facial expression recognition achieve high performance by training on large-scale labeled data. However, publicly available datasets contain uncertain facial expressions caused by ambiguous annotations or confusing emotions, which could severely decline the robustness. Previous studies usually follow the bias elimination method in general tasks without considering the uncertainty problem from the perspective of different corresponding sources. In this paper, we propose a novel method of multi-task assisted correction in addressing uncertain facial expression recognition called MTAC. Specifically, a confidence estimation block and a weighted regularization module are applied to highlight solid samples and suppress uncertain samples in every batch. In addition, two auxiliary tasks, i.e., action unit detection and valence-arousal measurement, are introduced to learn semantic distributions from a data-driven AU graph and mitigate category imbalance based on latent dependencies between discrete and continuous emotions, respectively. Moreover, a re-labeling strategy guided by feature-level similarity constraint further generates new labels for identified uncertain samples to promote model learning. The proposed method can flexibly combine with existing frameworks in a fully-supervised or weakly-supervised manner. Experiments on RAF-DB, AffectNet, and AffWild2 datasets demonstrate that the MTAC obtains substantial improvements over baselines when facing synthetic and real uncertainties and outperforms the state-of-the-art methods.

translated by 谷歌翻译

FAN-Trans: Online Knowledge Distillation for Facial Action Unit Detection

Jing Yang , Jie Shen , Yiming Lin , Yordan Hristov , Maja Pantic

分类：计算机视觉

2022-11-11

Due to its importance in facial behaviour analysis, facial action unit (AU) detection has attracted increasing attention from the research community. Leveraging the online knowledge distillation framework, we propose the ``FANTrans" method for AU detection. Our model consists of a hybrid network of convolution and transformer blocks to learn per-AU features and to model AU co-occurrences. The model uses a pre-trained face alignment network as the feature extractor. After further transformation by a small learnable add-on convolutional subnet, the per-AU features are fed into transformer blocks to enhance their representation. As multiple AUs often appear together, we propose a learnable attention drop mechanism in the transformer block to learn the correlation between the features for different AUs. We also design a classifier that predicts AU presence by considering all AUs' features, to explicitly capture label dependencies. Finally, we make the attempt of adapting online knowledge distillation in the training stage for this task, further improving the model's performance. Experiments on the BP4D and DISFA datasets demonstrating the effectiveness of proposed method.

translated by 谷歌翻译

Uncertain Label Correction via Auxiliary Action Unit Graphs for Facial Expression Recognition

Yang Liu , Xingming Zhang , Janne Kauttonen , Guoying Zhao

分类：计算机视觉

2022-04-23

High-quality annotated images are significant to deep facial expression recognition (FER) methods. However, uncertain labels, mostly existing in large-scale public datasets, often mislead the training process. In this paper, we achieve uncertain label correction of facial expressions using auxiliary action unit (AU) graphs, called ULC-AG. Specifically, a weighted regularization module is introduced to highlight valid samples and suppress category imbalance in every batch. Based on the latent dependency between emotions and AUs, an auxiliary branch using graph convolutional layers is added to extract the semantic information from graph topologies. Finally, a re-labeling strategy corrects the ambiguous annotations by comparing their feature similarities with semantic templates. Experiments show that our ULC-AG achieves 89.31% and 61.57% accuracy on RAF-DB and AffectNet datasets, respectively, outperforming the baseline and state-of-the-art methods.

translated by 谷歌翻译

Are 3D Face Shapes Expressive Enough for Recognising Continuous Emotions and Action Unit Intensities?

Mani Kumar Tellamekala , Ömer Sümer , Björn W. Schuller , Elisabeth André , Timo Giesbrecht , Michel Valstar

分类：计算机视觉

2022-07-03

识别面部视频的连续情绪和动作单元（AU）强度需要对表达动态的空间和时间理解。现有作品主要依赖2D面的外观来提取这种动态。这项工作着重于基于参数3D面向形状模型的有希望的替代方案，该模型解散了不同的变异因素，包括表达诱导的形状变化。我们旨在了解与最先进的2D外观模型相比，在估计价值和AU强度方面表现性3D面部形状如何。我们基准了四个最近的3D面对准模型：Expnet，3DDFA-V2，DECA和EMOCA。在价值估计中，3D面模型的表达特征始终超过以前的作品，并在SEWA和AVEC 2019 CES CORPORA上的平均一致性相关性分别为.739和.574。我们还研究了BP4D和DISFA数据集的AU强度估计的3D面形状如何执行，并报告说3D脸部功能在AUS 4、6、10、12和25中与2D外观特征相当，但没有整个集合。 aus。为了理解这种差异，我们在价值和AUS之间进行了对应分析，该分析指出，准确的价值预测可能仅需要少数AU的知识。

translated by 谷歌翻译

Image-based Contextual Pill Recognition with Medical Knowledge Graph Assistance

Anh Duy Nguyen , Thuy Dung Nguyen , Huy Hieu Pham , Thanh Hung Nguyen , Phi Le Nguyen

分类：计算机视觉

2022-08-04

鉴于在各种条件和背景下捕获的图像的识别药物已经变得越来越重要。已经致力于利用基于深度学习的方法来解决文献中的药丸识别问题。但是，由于药丸的外观之间的相似性很高，因此经常发生错误识别，因此识别药丸是一个挑战。为此，在本文中，我们介绍了一种名为Pika的新颖方法，该方法利用外部知识来增强药丸识别精度。具体来说，我们解决了一种实用的情况（我们称之为上下文药丸识别），旨在在患者药丸摄入量的情况下识别药丸。首先，我们提出了一种新的方法，用于建模在存在外部数据源的情况下，在这种情况下，在存在外部处方的情况下，药丸之间的隐式关联。其次，我们提出了一个基于步行的图形嵌入模型，该模型从图形空间转换为矢量空间，并提取药丸的凝结关系。第三，提供了最终框架，该框架利用基于图像的视觉和基于图的关系特征来完成药丸识别任务。在此框架内，每种药丸的视觉表示形式都映射到图形嵌入空间，然后用来通过图表执行注意力，从而产生了有助于最终分类的语义丰富的上下文矢量。据我们所知，这是第一项使用外部处方数据来建立药物之间的关联并使用此帮助信息对其进行分类的研究。皮卡（Pika）的体系结构轻巧，并且具有将识别骨架纳入任何识别骨架的灵活性。实验结果表明，通过利用外部知识图，与基线相比，PIKA可以将识别精度从4.8％提高到34.1％。

translated by 谷歌翻译

Multi-label image recognition with graph convolutional networks

分类：

The task of multi-label image recognition is to predict a set of object labels that present in an image. As objects normally co-occur in an image, it is desirable to model the label dependencies to improve the recognition performance. To capture and explore such important dependencies, we propose a multi-label classification model based on Graph Convolutional Network (GCN). The model builds a directed graph over the object labels, where each node (label) is represented by word embeddings of a label, and GCN is learned to map this label graph into a set of inter-dependent object classifiers. These classifiers are applied to the image descriptors extracted by another sub-net, enabling the whole network to be end-to-end trainable. Furthermore, we propose a novel re-weighted scheme to create an effective label correlation matrix to guide information propagation among the nodes in GCN. Experiments on two multi-label image recognition datasets show that our approach obviously outperforms other existing state-of-the-art methods. In addition, visualization analyses reveal that the classifiers learned by our model maintain meaningful semantic topology.

translated by 谷歌翻译

Deep Learning for Micro-expression Recognition: A Survey

Yante Li , Jinsheng Wei , Yang Liu , Janne Kauttonen , Guoying Zhao

分类：计算机视觉

2021-07-06

微表达（MES）是非自愿的面部运动，揭示了人们在高利害情况下隐藏的感受，并对医疗，国家安全，审讯和许多人机交互系统具有实际重要性。早期的MER方法主要基于传统的外观和几何特征。最近，随着各种领域的深度学习（DL）的成功，神经网络已得到MER的兴趣。不同于宏观表达，MES是自发的，微妙的，快速的面部运动，导致数据收集困难，因此具有小规模的数据集。由于上述我的角色，基于DL的MER变得挑战。迄今为止，已提出各种DL方法来解决我的问题并提高MER表现。在本调查中，我们对深度微表达识别（MER）进行了全面的审查，包括数据集，深度MER管道和最具影响力方法的基准标记。本调查定义了该领域的新分类法，包括基于DL的MER的所有方面。对于每个方面，总结和讨论了基本方法和高级发展。此外，我们得出了坚固的深层MER系统设计的剩余挑战和潜在方向。据我们所知，这是对深度MEL方法的第一次调查，该调查可以作为未来MER研究的参考点。

translated by 谷歌翻译

FaceTopoNet: Facial Expression Recognition using Face Topology Learning

Mojtaba Kolahdouzi , Alireza Sepas-Moghaddam , Ali Etemad

分类：计算机视觉

2022-09-13

先前的工作表明，使用顺序学习者学习面部不同组成部分的顺序可以在面部表达识别系统的性能中发挥重要作用。我们提出了Facetoponet，这是面部表达识别的端到端深层模型，它能够学习面部有效的树拓扑。然后，我们的模型遍历学习的树以生成序列，然后将其用于形成嵌入以喂养顺序学习者。设计的模型采用一个流进行学习结构，并为学习纹理提供一个流。结构流着重于面部地标的位置，而纹理流的主要重点是在地标周围的斑块上学习纹理信息。然后，我们通过利用有效的基于注意力的融合策略来融合两个流的输出。我们对四个大型内部面部表达数据集进行了广泛的实验 - 即Alltionnet，FER2013，ExpW和RAF-DB，以及一个实验室控制的数据集（CK+）来评估我们的方法。 Facetoponet在五个数据集中的三个数据集中达到了最新的性能，并在其他两个数据集中获得了竞争结果。我们还执行严格的消融和灵敏度实验，以评估模型中不同组件和参数的影响。最后，我们执行鲁棒性实验，并证明与该地区其他领先方法相比，Facetoponet对阻塞更具稳健性。

translated by 谷歌翻译

AuE-IPA: An AU Engagement Based Infant Pain Assessment Method

Mingze Sun , Haoxiang Wang , Wei Yao , Jiawang Liu

分类：机器学习

2022-12-09

Recent studies have found that pain in infancy has a significant impact on infant development, including psychological problems, possible brain injury, and pain sensitivity in adulthood. However, due to the lack of specialists and the fact that infants are unable to express verbally their experience of pain, it is difficult to assess infant pain. Most existing infant pain assessment systems directly apply adult methods to infants ignoring the differences between infant expressions and adult expressions. Meanwhile, as the study of facial action coding system continues to advance, the use of action units (AUs) opens up new possibilities for expression recognition and pain assessment. In this paper, a novel AuE-IPA method is proposed for assessing infant pain by leveraging different engagement levels of AUs. First, different engagement levels of AUs in infant pain are revealed, by analyzing the class activation map of an end-to-end pain assessment model. The intensities of top-engaged AUs are then used in a regression model for achieving automatic infant pain assessment. The model proposed is trained and experimented on YouTube Immunization dataset, YouTube Blood Test dataset, and iCOPEVid dataset. The experimental results show that our AuE-IPA method is more applicable to infants and possesses stronger generalization ability than end-to-end assessment model and the classic PSPI metric.

translated by 谷歌翻译

Short and Long Range Relation Based Spatio-Temporal Transformer for Micro-Expression Recognition

Liangfei Zhang , Xiaopeng Hong , Ognjen Arandjelovic , Guoying Zhao

分类：计算机视觉

2021-12-10

无意识和自发的，微小表达在一个人的真实情绪的推动中是有用的，即使尝试隐藏它们。由于它们短的持续时间和低强度，对微表达的识别是情感计算中的艰巨任务。基于手工制作的时空特征的早期工作最近被不同的深度学习方法取代了现在竞争最先进的性能。然而，捕获本地和全球时空模式的问题仍然挑战。为此，本文我们提出了一种新颖的时空变压器架构 - 据我们所知，是微表达识别的第一种纯粹变压器的方法（即任何卷积网络使用的方法）。该架构包括用于学习空间模式的空间编码器，用于时间维度分析的时间聚合器和分类头。三种广泛使用的自发性微表达数据集，即Smic-HS，Casme II和SAMM的综合评估表明，该方法始终如一地优于现有技术，是发表在微表达上发表文献中的第一个框架在任何上述数据集上识别以实现未加权的F1分数大于0.9。

translated by 谷歌翻译

Graph Convolutional Module for Temporal Action Localization in Videos

Runhao Zeng , Wenbing Huang , Mingkui Tan , Yu Rong , Peilin Zhao , Junzhou Huang , Chuang Gan

分类：计算机视觉

2021-12-01

在计算机视觉中长期以来一直研究了时间行动定位。现有的最先进的动作定位方法将每个视频划分为多个动作单位（即，在一级方法中的两级方法和段中的提案），然后单独地对每个视频进行操作，而不明确利用他们在学习期间的关系。在本文中，我们声称，动作单位之间的关系在行动定位中发挥着重要作用，并且更强大的动作探测器不仅应捕获每个动作单元的本地内容，还应允许更广泛的视野与相关的上下文它。为此，我们提出了一般图表卷积模块（GCM），可以轻松插入现有的动作本地化方法，包括两阶段和单级范式。具体而言，我们首先构造一个图形，其中每个动作单元被表示为节点，并且两个动作单元之间作为边缘之间的关系。在这里，我们使用两种类型的关系，一个类型的关系，用于捕获不同动作单位之间的时间连接，另一类是用于表征其语义关系的另一个关系。特别是对于两级方法中的时间连接，我们进一步探索了两种不同的边缘，一个连接重叠动作单元和连接周围但脱节的单元的另一个。在我们构建的图表上，我们将图形卷积网络（GCNS）应用于模拟不同动作单位之间的关系，这能够了解更有信息的表示来增强动作本地化。实验结果表明，我们的GCM始终如一地提高了现有行动定位方法的性能，包括两阶段方法（例如，CBR和R-C3D）和一级方法（例如，D-SSAD），验证我们的一般性和有效性GCM。

translated by 谷歌翻译

Co-segmentation Inspired Attention Module for Video-based Computer Vision Tasks

Arulkumar Subramaniam , Jayesh Vaidya , Muhammed Abdul Majeed Ameen , Athira Nambiar , Anurag Mittal

分类：计算机视觉

2021-11-14

计算机视觉任务可以从估计突出物区域和这些对象区域之间的相互作用中受益。识别对象区域涉及利用预借鉴模型来执行对象检测，对象分割和/或对象姿势估计。但是，由于以下原因，在实践中不可行：1）预用模型的训练数据集的对象类别可能不会涵盖一般计算机视觉任务的所有对象类别，2）佩戴型模型训练数据集之间的域间隙并且目标任务的数据集可能会影响性能，3）预磨模模型中存在的偏差和方差可能泄漏到导致无意中偏置的目标模型的目标任务中。为了克服这些缺点，我们建议利用一系列视频帧捕获一组公共对象和它们之间的相互作用的公共基本原理，因此视频帧特征之间的共分割的概念可以用自动的能力装配模型专注于突出区域，以最终的方式提高潜在的任务的性能。在这方面，我们提出了一种称为“共分割激活模块”（COSAM）的通用模块，其可以被插入任何CNN，以促进基于CNN的任何CNN的概念在一系列视频帧特征中的关注。我们在三个基于视频的任务中展示Cosam的应用即1）基于视频的人Re-ID，2）视频字幕分类，并证明COSAM能够在视频帧中捕获突出区域，从而引导对于显着的性能改进以及可解释的关注图。

translated by 谷歌翻译

Spatial Parsing and Dynamic Temporal Pooling networks for Human-Object Interaction detection

Hongsheng Li , Guangming Zhu , Wu Zhen , Lan Ni , Peiyi Shen , Liang Zhang , Ning Wang , Cong Hua

分类：计算机视觉

2022-06-07

人类对象相互作用（HOI）识别的关键是推断人与物体之间的关系。最近，该图像的人类对象相互作用（HOI）检测取得了重大进展。但是，仍然有改善视频HOI检测性能的空间。现有的一阶段方法使用精心设计的端到端网络来检测视频段并直接预测交互。它使网络的模型学习和进一步的优化更加复杂。本文介绍了空间解析和动态时间池（SPDTP）网络，该网络将整个视频作为时空图作为人类和对象节点作为输入。与现有方法不同，我们提出的网络通过显式空间解析预测交互式和非相互作用对之间的差异，然后执行交互识别。此外，我们提出了一个可学习且可区分的动态时间模块（DTM），以强调视频的关键帧并抑制冗余帧。此外，实验结果表明，SPDTP可以更多地关注主动的人类对象对和有效的密钥帧。总体而言，我们在CAD-1220数据集和某些ELSE数据集上实现了最先进的性能。

translated by 谷歌翻译

Global-Local Attention for Emotion Recognition

Nhat Le , Khanh Nguyen , Anh Nguyen , Bac Le

分类：计算机视觉

2021-11-07

人类的情感认可是人工智能的积极研究领域，在过去几年中取得了实质性的进展。许多最近的作品主要关注面部区域以推断人类的情感，而周围的上下文信息没有有效地利用。在本文中，我们提出了一种新的深网络，有效地识别使用新的全球局部注意机制的人类情绪。我们的网络旨在独立地从两个面部和上下文区域提取特征，然后使用注意模块一起学习它们。以这种方式，面部和上下文信息都用于推断人类的情绪，从而增强分类器的歧视。密集实验表明，我们的方法超越了最近的最先进的方法，最近的情感数据集是公平的保证金。定性地，我们的全球局部注意力模块可以提取比以前的方法更有意义的注意图。我们网络的源代码和培训模型可在https://github.com/minhnhatvt/glamor-net上获得

translated by 谷歌翻译

Multimodal Learning with Channel-Mixing and Masked Autoencoder on Facial Action Unit Detection

Xiang Zhang , Huiyuan Yang , Taoyue Wang , Xiaotian Li , Lijun Yin

分类：计算机视觉

2022-09-25

最近利用多模式数据旨在建立面部动作单元（AU）检测模型的研究。但是，由于多模式数据的异质性，多模式表示学习成为主要挑战之一。一方面，很难通过仅通过一个特征提取器从多模式中提取相关特征，另一方面，先前的研究并未完全探索多模式融合策略的潜力。例如，早期融合通常需要在推理期间存在所有方式，而晚期融合和中间融合则增加了特征学习的网络大小。与晚期融合的大量工作相反，早期融合探索渠道信息的作品很少。本文提出了一个新型的多模式网络，称为多模式通道混合（MCM），作为一种预训练的模型，以学习强大的表示形式，以促进多模式融合。我们在自动面部动作单元检测的下游任务上评估学习的表示形式。具体而言，它是一个单个流编码器网络，该网络在早期融合中使用频道混合模块，在下游检测任务中仅需要一种模态。我们还利用蒙版的VIT编码器从融合图像中学习特征，并使用两个VIT解码器重建两个模式。我们已经在两个公共数据集（称为BP4D和DISFA）上进行了广泛的实验，以评估所提出的多模式框架的有效性和鲁棒性。结果表明我们的方法是可比或优越的，它与最新的基线方法相当。

translated by 谷歌翻译