本文描述了我们对第四个情感行为分析(ABAW)竞争的提交。我们提出了一个用于多任务学习(MTL)的混合CNN转换模型,并从合成数据(LSD)任务中学习。验证数据集的实验结果表明,我们的方法比基线模型获得了更好的性能,该模型验证了提出的网络的有效性。
translated by 谷歌翻译
面部影响分析仍然是一项艰巨的任务,其设置从实验室控制到野外情况。在本文中,我们提出了新的框架,以应对第四次情感行为分析(ABAW)竞争的两个挑战:i)多任务学习(MTL)挑战和II)从合成数据(LSD)中学习挑战。对于MTL挑战,我们采用SMM-EmotionNet具有更好的特征向量策略。对于LSD挑战,我们建议采用各自的方法来应对单个标签,不平衡分布,微调限制和模型体系结构的选择。竞争的官方验证集的实验结果表明,我们提出的方法的表现优于基线。该代码可在https://github.com/sylyoung/abaw4-hust-ant上找到。
translated by 谷歌翻译
野外表达对于各种交互式计算域至关重要。特别是,“从合成数据学习”(LSD)是面部表达识别任务中的重要主题。在本文中,我们提出了一种基于多任务的面部表达识别方法,该方法由情感和外观学习分支组成,可以共享所有面部信息,并为第四个情感行为分析中引入的LSD挑战提供初步结果。-Wild(ABAW)比赛。我们的方法达到的平均F1得分为0.71。
translated by 谷歌翻译
面价/唤醒,表达和动作单元是面部情感分析中的相关任务。但是,由于各种收集的条件,这些任务仅在野外的性能有限。野外情感行为分析的第四次竞争(ABAW)提供了价值/唤醒,表达和动作单元标签的图像。在本文中,我们介绍了多任务学习框架,以增强野外三个相关任务的性能。功能共享和标签融合用于利用它们的关系。我们对提供的培训和验证数据进行实验。
translated by 谷歌翻译
在本文中,我们介绍了HSE-NN团队在第四次竞争中有关情感行为分析(ABAW)的结果。新型的多任务效率网络模型经过训练,可以同时识别面部表情以及对静态照片的价和唤醒的预测。由此产生的MT-Emotieffnet提取了视觉特征,这些特征在多任务学习挑战中被馈入简单的前馈神经网络。我们在验证集上获得了性能度量1.3,与基线(0.3)的性能或仅在S-AFF-WILD2数据库中训练的现有模型相比,这要大大更大。在从合成数据挑战中学习中,使用超分辨率技术(例如Real-Esrgan)提高了原始合成训练集的质量。接下来,在新的培训套件中对MT-Emotieffnet进行了微调。最终预测是预先训练和微调的MT-Emotieffnets的简单混合集合。我们的平均验证F1得分比基线卷积神经网络高18%。
translated by 谷歌翻译
本文介绍了与欧洲计算机视觉会议(ECCV)共同举行的第四次情感行为分析(ABAW)竞赛,2022年。第四次ABAW竞赛是IEEE CVPR 2022,ICCV举行的比赛的延续。 2021年,IEEE FG 2020和IEEE CVPR 2017会议,旨在自动分析影响。在这场比赛的先前跑步中,挑战针对的价值估计,表达分类和动作单位检测。今年的竞争包括两个不同的挑战:i)多任务学习的挑战,其目标是同时学习(即在多任务学习环境中)所有上述三个任务; ii)从合成数据中学习一个,即目标是学会识别人为生成的数据并推广到真实数据的基本表达。 AFF-WILD2数据库是一个大规模的野外数据库,第一个包含价和唤醒,表达式和动作单元的注释。该数据库是上述挑战的基础。更详细地:i)S-Aff-Wild2(AFF-WILD2数据库的静态版本)已被构造和利用,以实现多任务学习挑战的目的; ii)已使用AFF-WILD2数据库中的一些特定帧图像以表达操作方式来创建合成数据集,这是从合成数据挑战中学习的基础。在本文中,首先,我们提出了两个挑战,以及利用的语料库,然后概述了评估指标,并最终提出了每个挑战的基线系统及其派生结果。有关比赛的更多信息,请参见竞争的网站:https://ibug.doc.ic.ac.uk/resources/eccv-2023-4th-abaw/。
translated by 谷歌翻译
面部行为分析是一个广泛的主题,具有各种类别,例如面部情绪识别,年龄和性别认识,……许多研究都集中在单个任务上,而多任务学习方法仍然开放,需要更多的研究。在本文中,我们为情感行为分析在野外竞争中的多任务学习挑战提供了解决方案和实验结果。挑战是三个任务的组合:动作单元检测,面部表达识别和偶像估计。为了应对这一挑战,我们引入了一个跨集团模块,以提高多任务学习绩效。此外,还应用面部图来捕获动作单元之间的关联。结果,我们在组织者提供的验证数据上实现了1.24的评估度量,这比0.30的基线结果要好。
translated by 谷歌翻译
本文介绍了我们对第四次情感行为分析(ABAW)竞争的多任务学习(MTL)挑战的提交。基于视觉功能表示,我们利用三种类型的时间编码器来捕获视频中的时间上下文信息,包括基于变压器的编码器,基于LSTM的编码器和基于GRU的编码器。使用时间上下文感知表示,我们采用多任务框架来预测图像的价,唤醒,表达和AU值。此外,将平滑处理用于完善初始价和唤醒预测,并使用模型集成策略来结合不同模型设置的多个结果。我们的系统在MTL挑战验证数据集上实现了$ 1.742 $的性能。
translated by 谷歌翻译
本文说明了我们对第四个情感行为分析(ABAW)竞争的提交方法。该方法用于多任务学习挑战。我们不使用面部信息,而是使用所提供的包含面部和面部上下文的数据集中的完整信息。我们利用InceptionNet V3模型提取深度特征,然后应用了注意机制来完善特征。之后,我们将这些功能放入变压器块和多层感知器网络中,以获得最终的多种情感。我们的模型预测唤醒和价,对情绪表达进行分类,并同时估算动作单元。提出的系统在MTL挑战验证数据集上实现了0.917的性能。
translated by 谷歌翻译
由于其广泛的应用,情感行为分析引起了研究人员的关注。但是,获得大量面部图像的准确注释是详尽的。因此,我们建议通过在未标记的面部图像上预处理的蒙版自动编码器(MAE)利用先前的面部信息。此外,我们结合了MAE预处理的视觉变压器(VIT)和AffectNet预处理的CNN,以执行多任务情绪识别。我们注意到表达和动作单元(AU)得分是价值(VA)回归的纯粹和完整的特征。结果,我们利用AffectNet预处理的CNN提取与表达和来自VIT的AU评分相连的表达评分,以获得最终的VA特征。此外,我们还提出了一个共同训练框架,该框架与两个平行的MAE预估计的VIT进行表达识别任务。为了使这两个视图独立,我们在训练过程中随机掩盖了大多数补丁。然后,执行JS差异以使两种视图的预测尽可能一致。 ABAW4上的结果表明我们的方法是有效的。
translated by 谷歌翻译
本文介绍了我们针对六个基本表达分类的方法论情感行为分析(ABAW)竞赛2022年的曲目。从人为生成的数据中表达并概括为真实数据。由于合成数据和面部动作单元(AU)的客观性的模棱两可,我们求助于AU信息以提高性能,并做出如下贡献。首先,为了使模型适应合成场景,我们使用了预先训练的大规模面部识别数据中的知识。其次,我们提出了一个概念上的框架,称为Au-persuped卷积视觉变压器(AU-CVT),该框架通过与AU或Pseudo Au标签共同训练辅助数据集来显然改善了FER的性能。我们的AU-CVT在验证集上的F1分数为0.6863美元,准确性为$ 0.7433 $。我们工作的源代码在线公开可用:https://github.com/msy1412/abaw4
translated by 谷歌翻译
自动情感识别在许多领域都有应用,例如教育,游戏,软件开发,汽车,医疗保健等。但是,在野外数据集上实现可观的绩效是无琐的任务。野外数据集虽然比合成数据集更好地代表了现实世界中的情况,但前者遇到了不完整标签的问题。受到半监督学习的启发,在本文中,我们在第四次情感行为分析(ABAW)2022竞赛中介绍了提交的多任务学习挑战。在这项挑战中考虑的三个任务是价估计(VA)估计,表达式分为6个基本(愤怒,厌恶,恐惧,幸福,悲伤,惊喜),中立和“其他”类别和12个行动单位(au)编号au - \ {1,2,4,6,7,10,12,15,15,23,24,25,26 \}。我们的方法半监督的多任务面部情感情感识别标题为\ textbf {ss-mfar}使用一个深层残留网络,每个任务都具有特定任务分类器以及每个表达式类别的自适应阈值,每个表达式类别和半监督学习。源代码可从https://github.com/1980x/abaw202​​22dmacs获得。
translated by 谷歌翻译
从合成图像中学习由于标记真实图像的困难而在面部表达识别任务中起着重要作用,并且由于合成图像和真实图像之间存在差距而具有挑战性。第四次情感行为分析在野外竞争增加了挑战,并提供了Aff-Wild2数据集生成的合成图像。在本文中,我们提出了一种手工辅助表达识别方法,以减少合成数据和真实数据之间的差距。我们的方法由两个部分组成:表达识别模块和手部预测模块。表达识别模块提取表达信息,并预测模块预测图像是否包含手。决策模式用于结合两个模块的结果,并使用后延伸来改善结果。F1分数用于验证我们方法的有效性。
translated by 谷歌翻译
在本文中,我们提出了第四个情感行为分析(ABAW)竞争的多任务学习(MTL)挑战的解决方案。ABAW的任务是从视频中预测框架级的情感描述:离散的情绪状态;价和唤醒;和行动单位。尽管研究人员提出了几种方法,并在ABAW中取得了有希望的结果,但目前在此任务中的作品很少考虑不同的情感描述符之间的相互作用。为此,我们提出了一种新颖的端到端体系结构,以实现不同类型的信息的完整集成。实验结果证明了我们提出的解决方案的有效性。
translated by 谷歌翻译
面部表达是传达人类情绪状态和意图的重要因素。尽管在面部表达识别任务(FER)任务中已经取得了显着进步,但由于表达模式的巨大变化和不可避免的数据不确定性而引起的挑战仍然存在。在本文中,我们提出了中级表示增强(MRE)和嵌入图形抑制(GUS)的图表,以解决这些问题。一方面,引入MRE是为了避免表达表示学习以有限数量的高度歧视模式主导。另一方面,引入GUS以抑制表示空间中的特征歧义。所提出的方法不仅具有更强的概括能力来处理表达模式的不同变化,而且具有更强的稳健性来捕获表达表示。对AFF-WILD2的实验评估已验证了该方法的有效性。
translated by 谷歌翻译
基于面部的情感计算包括检测面部图像的情绪。它可以更好地自动理解人类行为是有用的,并且可以为改善人机相互作用铺平道路。但是,它涉及设计情绪的计算表示的挑战。到目前为止,情绪已经在2D价/唤醒空间中连续地表示,或者以Ekman的7种基本情绪为单位。另外,Ekman的面部动作单元(AU)系统也已被用来使用单一肌肉激活的代码手册来粘附情绪。 ABAW3和ABAW4多任务挑战是第一项提供用这三种标签注释的大规模数据库的工作。在本文中,我们提出了一种基于变压器的多任务方法,用于共同学习以预测唤醒,动作单位和基本情绪。从体系结构的角度来看,我们的方法使用任务的令牌方法来有效地建模任务之间的相似性。从学习的角度来看,我们使用不确定性加权损失来建模三个任务注释之间的随机性差异。
translated by 谷歌翻译
Facial Expression Recognition (FER) in the wild is an extremely challenging task. Recently, some Vision Transformers (ViT) have been explored for FER, but most of them perform inferiorly compared to Convolutional Neural Networks (CNN). This is mainly because the new proposed modules are difficult to converge well from scratch due to lacking inductive bias and easy to focus on the occlusion and noisy areas. TransFER, a representative transformer-based method for FER, alleviates this with multi-branch attention dropping but brings excessive computations. On the contrary, we present two attentive pooling (AP) modules to pool noisy features directly. The AP modules include Attentive Patch Pooling (APP) and Attentive Token Pooling (ATP). They aim to guide the model to emphasize the most discriminative features while reducing the impacts of less relevant features. The proposed APP is employed to select the most informative patches on CNN features, and ATP discards unimportant tokens in ViT. Being simple to implement and without learnable parameters, the APP and ATP intuitively reduce the computational cost while boosting the performance by ONLY pursuing the most discriminative features. Qualitative results demonstrate the motivations and effectiveness of our attentive poolings. Besides, quantitative results on six in-the-wild datasets outperform other state-of-the-art methods.
translated by 谷歌翻译
多任务学习是基于深度学习的面部表情识别任务的有效学习策略。但是,当在不同任务之间传输信息时,大多数现有方法都考虑了特征选择,这可能在培训多任务网络时可能导致任务干扰。为了解决这个问题,我们提出了一种新颖的选择性特征共享方法,并建立一个用于面部表情识别和面部表达合成的多任务网络。该方法可以有效地转移不同任务之间的有益特征,同时过滤无用和有害信息。此外,我们采用了面部表情综合任务来扩大并平衡训练数据集以进一步提高所提出的方法的泛化能力。实验结果表明,该方法在那些常用的面部表情识别基准上实现了最先进的性能,这使其成为现实世界面部表情识别问题的潜在解决方案。
translated by 谷歌翻译
根据数据集构建成本的深度学习和生成模型的发展的问题,正在进行越来越多的研究,以使用合成数据进行培训,并使用真实数据进行推理。我们建议使用ABAW的学习综合数据(LSD)数据集提出情感意识到的自我监督学习。我们将我们的方法预先培训为LSD数据集作为一种自我监督的学习,然后使用相同的LSD数据集来对情绪分类任务进行下游培训作为监督学习。结果,获得了比基线(0.5)更高的结果(0.63)。
translated by 谷歌翻译
Deep models for facial expression recognition achieve high performance by training on large-scale labeled data. However, publicly available datasets contain uncertain facial expressions caused by ambiguous annotations or confusing emotions, which could severely decline the robustness. Previous studies usually follow the bias elimination method in general tasks without considering the uncertainty problem from the perspective of different corresponding sources. In this paper, we propose a novel method of multi-task assisted correction in addressing uncertain facial expression recognition called MTAC. Specifically, a confidence estimation block and a weighted regularization module are applied to highlight solid samples and suppress uncertain samples in every batch. In addition, two auxiliary tasks, i.e., action unit detection and valence-arousal measurement, are introduced to learn semantic distributions from a data-driven AU graph and mitigate category imbalance based on latent dependencies between discrete and continuous emotions, respectively. Moreover, a re-labeling strategy guided by feature-level similarity constraint further generates new labels for identified uncertain samples to promote model learning. The proposed method can flexibly combine with existing frameworks in a fully-supervised or weakly-supervised manner. Experiments on RAF-DB, AffectNet, and AffWild2 datasets demonstrate that the MTAC obtains substantial improvements over baselines when facing synthetic and real uncertainties and outperforms the state-of-the-art methods.
translated by 谷歌翻译