面部表达是传达人类情绪状态和意图的重要因素。尽管在面部表达识别任务(FER)任务中已经取得了显着进步,但由于表达模式的巨大变化和不可避免的数据不确定性而引起的挑战仍然存在。在本文中,我们提出了中级表示增强(MRE)和嵌入图形抑制(GUS)的图表,以解决这些问题。一方面,引入MRE是为了避免表达表示学习以有限数量的高度歧视模式主导。另一方面,引入GUS以抑制表示空间中的特征歧义。所提出的方法不仅具有更强的概括能力来处理表达模式的不同变化,而且具有更强的稳健性来捕获表达表示。对AFF-WILD2的实验评估已验证了该方法的有效性。
translated by 谷歌翻译
野外表达对于各种交互式计算域至关重要。特别是,“从合成数据学习”(LSD)是面部表达识别任务中的重要主题。在本文中,我们提出了一种基于多任务的面部表达识别方法,该方法由情感和外观学习分支组成,可以共享所有面部信息,并为第四个情感行为分析中引入的LSD挑战提供初步结果。-Wild(ABAW)比赛。我们的方法达到的平均F1得分为0.71。
translated by 谷歌翻译
Recognition of facial expression is a challenge when it comes to computer vision. The primary reasons are class imbalance due to data collection and uncertainty due to inherent noise such as fuzzy facial expressions and inconsistent labels. However, current research has focused either on the problem of class imbalance or on the problem of uncertainty, ignoring the intersection of how to address these two problems. Therefore, in this paper, we propose a framework based on Resnet and Attention to solve the above problems. We design weight for each class. Through the penalty mechanism, our model will pay more attention to the learning of small samples during training, and the resulting decrease in model accuracy can be improved by a Convolutional Block Attention Module (CBAM). Meanwhile, our backbone network will also learn an uncertain feature for each sample. By mixing uncertain features between samples, the model can better learn those features that can be used for classification, thus suppressing uncertainty. Experiments show that our method surpasses most basic methods in terms of accuracy on facial expression data sets (e.g., AffectNet, RAF-DB), and it also solves the problem of class imbalance well.
translated by 谷歌翻译
本文描述了我们对第四个情感行为分析(ABAW)竞争的提交。我们提出了一个用于多任务学习(MTL)的混合CNN转换模型,并从合成数据(LSD)任务中学习。验证数据集的实验结果表明,我们的方法比基线模型获得了更好的性能,该模型验证了提出的网络的有效性。
translated by 谷歌翻译
Deep models for facial expression recognition achieve high performance by training on large-scale labeled data. However, publicly available datasets contain uncertain facial expressions caused by ambiguous annotations or confusing emotions, which could severely decline the robustness. Previous studies usually follow the bias elimination method in general tasks without considering the uncertainty problem from the perspective of different corresponding sources. In this paper, we propose a novel method of multi-task assisted correction in addressing uncertain facial expression recognition called MTAC. Specifically, a confidence estimation block and a weighted regularization module are applied to highlight solid samples and suppress uncertain samples in every batch. In addition, two auxiliary tasks, i.e., action unit detection and valence-arousal measurement, are introduced to learn semantic distributions from a data-driven AU graph and mitigate category imbalance based on latent dependencies between discrete and continuous emotions, respectively. Moreover, a re-labeling strategy guided by feature-level similarity constraint further generates new labels for identified uncertain samples to promote model learning. The proposed method can flexibly combine with existing frameworks in a fully-supervised or weakly-supervised manner. Experiments on RAF-DB, AffectNet, and AffWild2 datasets demonstrate that the MTAC obtains substantial improvements over baselines when facing synthetic and real uncertainties and outperforms the state-of-the-art methods.
translated by 谷歌翻译
面部影响分析仍然是一项艰巨的任务,其设置从实验室控制到野外情况。在本文中,我们提出了新的框架,以应对第四次情感行为分析(ABAW)竞争的两个挑战:i)多任务学习(MTL)挑战和II)从合成数据(LSD)中学习挑战。对于MTL挑战,我们采用SMM-EmotionNet具有更好的特征向量策略。对于LSD挑战,我们建议采用各自的方法来应对单个标签,不平衡分布,微调限制和模型体系结构的选择。竞争的官方验证集的实验结果表明,我们提出的方法的表现优于基线。该代码可在https://github.com/sylyoung/abaw4-hust-ant上找到。
translated by 谷歌翻译
面部表达识别(FER)遭受由含糊不清的面部图像和注释者的主观性引起的数据不确定性,导致了文化语义和特征协变量转移问题。现有作品通常通过估计噪声分布或通过从干净的数据中学到的知识引导网络培训来纠正标签错误的数据,从而忽略了表达式的关联关系。在这项工作中,我们提出了一种基于自适应的特征归一化(AGFN)方法,以通过将特征分布与表达式结合标准化,以保护FER模型免受数据不确定性。具体而言,我们提出了一个泊松图生成器,以通过采样过程在每个迷你批次中自适应地构造样品的拓扑图,并相应地设计了坐标下降策略来优化提出的网络。我们的方法优于最先进的方法,在基准数据集Ferplus和RAF-DB上,精度为91.84%和91.11%,当错误标记的数据的百分比增加(例如20%)时,我们的网络超越了。现有的工作量显着占3.38%和4.52%。
translated by 谷歌翻译
本文介绍了与欧洲计算机视觉会议(ECCV)共同举行的第四次情感行为分析(ABAW)竞赛,2022年。第四次ABAW竞赛是IEEE CVPR 2022,ICCV举行的比赛的延续。 2021年,IEEE FG 2020和IEEE CVPR 2017会议,旨在自动分析影响。在这场比赛的先前跑步中,挑战针对的价值估计,表达分类和动作单位检测。今年的竞争包括两个不同的挑战:i)多任务学习的挑战,其目标是同时学习(即在多任务学习环境中)所有上述三个任务; ii)从合成数据中学习一个,即目标是学会识别人为生成的数据并推广到真实数据的基本表达。 AFF-WILD2数据库是一个大规模的野外数据库,第一个包含价和唤醒,表达式和动作单元的注释。该数据库是上述挑战的基础。更详细地:i)S-Aff-Wild2(AFF-WILD2数据库的静态版本)已被构造和利用,以实现多任务学习挑战的目的; ii)已使用AFF-WILD2数据库中的一些特定帧图像以表达操作方式来创建合成数据集,这是从合成数据挑战中学习的基础。在本文中,首先,我们提出了两个挑战,以及利用的语料库,然后概述了评估指标,并最终提出了每个挑战的基线系统及其派生结果。有关比赛的更多信息,请参见竞争的网站:https://ibug.doc.ic.ac.uk/resources/eccv-2023-4th-abaw/。
translated by 谷歌翻译
人类的情感认可是人工智能的积极研究领域,在过去几年中取得了实质性的进展。许多最近的作品主要关注面部区域以推断人类的情感,而周围的上下文信息没有有效地利用。在本文中,我们提出了一种新的深网络,有效地识别使用新的全球局部注意机制的人类情绪。我们的网络旨在独立地从两个面部和上下文区域提取特征,然后使用注意模块一起学习它们。以这种方式,面部和上下文信息都用于推断人类的情绪,从而增强分类器的歧视。密集实验表明,我们的方法超越了最近的最先进的方法,最近的情感数据集是公平的保证金。定性地,我们的全球局部注意力模块可以提取比以前的方法更有意义的注意图。我们网络的源代码和培训模型可在https://github.com/minhnhatvt/glamor-net上获得
translated by 谷歌翻译
High-quality annotated images are significant to deep facial expression recognition (FER) methods. However, uncertain labels, mostly existing in large-scale public datasets, often mislead the training process. In this paper, we achieve uncertain label correction of facial expressions using auxiliary action unit (AU) graphs, called ULC-AG. Specifically, a weighted regularization module is introduced to highlight valid samples and suppress category imbalance in every batch. Based on the latent dependency between emotions and AUs, an auxiliary branch using graph convolutional layers is added to extract the semantic information from graph topologies. Finally, a re-labeling strategy corrects the ambiguous annotations by comparing their feature similarities with semantic templates. Experiments show that our ULC-AG achieves 89.31% and 61.57% accuracy on RAF-DB and AffectNet datasets, respectively, outperforming the baseline and state-of-the-art methods.
translated by 谷歌翻译
在本文中,我们介绍了HSE-NN团队在第四次竞争中有关情感行为分析(ABAW)的结果。新型的多任务效率网络模型经过训练,可以同时识别面部表情以及对静态照片的价和唤醒的预测。由此产生的MT-Emotieffnet提取了视觉特征,这些特征在多任务学习挑战中被馈入简单的前馈神经网络。我们在验证集上获得了性能度量1.3,与基线(0.3)的性能或仅在S-AFF-WILD2数据库中训练的现有模型相比,这要大大更大。在从合成数据挑战中学习中,使用超分辨率技术(例如Real-Esrgan)提高了原始合成训练集的质量。接下来,在新的培训套件中对MT-Emotieffnet进行了微调。最终预测是预先训练和微调的MT-Emotieffnets的简单混合集合。我们的平均验证F1得分比基线卷积神经网络高18%。
translated by 谷歌翻译
Understanding the facial expressions of our interlocutor is important to enrich the communication and to give it a depth that goes beyond the explicitly expressed. In fact, studying one's facial expression gives insight into their hidden emotion state. However, even as humans, and despite our empathy and familiarity with the human emotional experience, we are only able to guess what the other might be feeling. In the fields of artificial intelligence and computer vision, Facial Emotion Recognition (FER) is a topic that is still in full growth mostly with the advancement of deep learning approaches and the improvement of data collection. The main purpose of this paper is to compare the performance of three state-of-the-art networks, each having their own approach to improve on FER tasks, on three FER datasets. The first and second sections respectively describe the three datasets and the three studied network architectures designed for an FER task. The experimental protocol, the results and their interpretation are outlined in the remaining sections.
translated by 谷歌翻译
本文介绍了我们针对六个基本表达分类的方法论情感行为分析(ABAW)竞赛2022年的曲目。从人为生成的数据中表达并概括为真实数据。由于合成数据和面部动作单元(AU)的客观性的模棱两可,我们求助于AU信息以提高性能,并做出如下贡献。首先,为了使模型适应合成场景,我们使用了预先训练的大规模面部识别数据中的知识。其次,我们提出了一个概念上的框架,称为Au-persuped卷积视觉变压器(AU-CVT),该框架通过与AU或Pseudo Au标签共同训练辅助数据集来显然改善了FER的性能。我们的AU-CVT在验证集上的F1分数为0.6863美元,准确性为$ 0.7433 $。我们工作的源代码在线公开可用:https://github.com/msy1412/abaw4
translated by 谷歌翻译
面部表达识别(FER)是一个具有挑战性的问题,因为表达成分始终与其他无关的因素(例如身份和头部姿势)纠缠在一起。在这项工作中,我们提出了一个身份,并构成了分离的面部表达识别(IPD-fer)模型,以了解更多的判别特征表示。我们认为整体面部表征是身份,姿势和表达的组合。这三个组件用不同的编码器编码。对于身份编码器,在培训期间使用和固定了一个经过良好训练的面部识别模型,这可以减轻对先前工作中对特定表达训练数据的限制,并使野外数据集的分离可行。同时,用相应的标签优化了姿势和表达编码器。结合身份和姿势特征,解码器应生成输入个体的中性面。添加表达功能时,应重建输入图像。通过比较同一个体的合成中性图像和表达图像之间的差异,表达成分与身份和姿势进一步分离。实验结果验证了我们方法对实验室控制和野外数据库的有效性,并实现了最新的识别性能。
translated by 谷歌翻译
面价/唤醒,表达和动作单元是面部情感分析中的相关任务。但是,由于各种收集的条件,这些任务仅在野外的性能有限。野外情感行为分析的第四次竞争(ABAW)提供了价值/唤醒,表达和动作单元标签的图像。在本文中,我们介绍了多任务学习框架,以增强野外三个相关任务的性能。功能共享和标签融合用于利用它们的关系。我们对提供的培训和验证数据进行实验。
translated by 谷歌翻译
来自静态图像的面部表情识别是计算机视觉应用中的一个具有挑战性的问题。卷积神经网络(CNN),用于各种计算机视觉任务的最先进的方法,在预测具有极端姿势,照明和闭塞条件的面部的表达式中已经有限。为了缓解这个问题,CNN通常伴随着传输,多任务或集合学习等技术,这些技术通常以增加的计算复杂性的成本提供高精度。在这项工作中,我们提出了一种基于零件的集合转移学习网络,其模型通过将面部特征的空间方向模式与特定表达相关来模拟人类如何识别面部表达。它由5个子网络组成,每个子网络从面部地标的五个子集中执行转移学习:眉毛,眼睛,鼻子,嘴巴或颌骨表达分类。我们表明我们所提出的集合网络使用从面部肌肉的电机运动发出的视觉模式来预测表达,并展示从面部地标定位转移到面部表情识别的实用性。我们在CK +,Jaffe和SFew数据集上测试所提出的网络,并且它分别优于CK +和Jaffe数据集的基准,分别为0.51%和5.34%。此外,所提出的集合网络仅包括1.65M的型号参数,确保在培训和实时部署期间的计算效率。我们所提出的集合的Grad-Cam可视化突出了其子网的互补性质,是有效集合网络的关键设计参数。最后,交叉数据集评估结果表明,我们建议的集合具有高泛化能力,使其适合现实世界使用。
translated by 谷歌翻译
从合成图像中学习由于标记真实图像的困难而在面部表达识别任务中起着重要作用,并且由于合成图像和真实图像之间存在差距而具有挑战性。第四次情感行为分析在野外竞争增加了挑战,并提供了Aff-Wild2数据集生成的合成图像。在本文中,我们提出了一种手工辅助表达识别方法,以减少合成数据和真实数据之间的差距。我们的方法由两个部分组成:表达识别模块和手部预测模块。表达识别模块提取表达信息,并预测模块预测图像是否包含手。决策模式用于结合两个模块的结果,并使用后延伸来改善结果。F1分数用于验证我们方法的有效性。
translated by 谷歌翻译
尽管在过去的几年中取得了重大进展,但歧义仍然是面部表情识别(FER)的关键挑战。它可能导致嘈杂和不一致的注释,这阻碍了现实世界中深度学习模型的性能。在本文中,我们提出了一种新的不确定性标签分布学习方法,以提高深层模型的鲁棒性,以防止不确定性和歧义。我们利用价值空间中的邻里信息来适应培训训练样本的情绪分布。我们还考虑提供的标签将其纳入标签分布时的不确定性。我们的方法可以轻松地集成到深层网络中,以获得更多的培训监督并提高识别准确性。在各种嘈杂和模棱两可的环境下,在几个数据集上进行了密集的实验表明,我们的方法取得了竞争成果,并且超出了最新的最新方法。我们的代码和模型可在https://github.com/minhnhatvt/label-distribution-learning-fer-tf上找到。
translated by 谷歌翻译
多任务学习是基于深度学习的面部表情识别任务的有效学习策略。但是,当在不同任务之间传输信息时,大多数现有方法都考虑了特征选择,这可能在培训多任务网络时可能导致任务干扰。为了解决这个问题,我们提出了一种新颖的选择性特征共享方法,并建立一个用于面部表情识别和面部表达合成的多任务网络。该方法可以有效地转移不同任务之间的有益特征,同时过滤无用和有害信息。此外,我们采用了面部表情综合任务来扩大并平衡训练数据集以进一步提高所提出的方法的泛化能力。实验结果表明,该方法在那些常用的面部表情识别基准上实现了最先进的性能,这使其成为现实世界面部表情识别问题的潜在解决方案。
translated by 谷歌翻译
先前的工作表明,使用顺序学习者学习面部不同组成部分的顺序可以在面部表达识别系统的性能中发挥重要作用。我们提出了Facetoponet,这是面部表达识别的端到端深层模型,它能够学习面部有效的树拓扑。然后,我们的模型遍历学习的树以生成序列,然后将其用于形成嵌入以喂养顺序学习者。设计的模型采用一个流进行学习结构,并为学习纹理提供一个流。结构流着重于面部地标的位置,而纹理流的主要重点是在地标周围的斑块上学习纹理信息。然后,我们通过利用有效的基于注意力的融合策略来融合两个流的输出。我们对四个大型内部面部表达数据集进行了广泛的实验 - 即Alltionnet,FER2013,ExpW和RAF-DB,以及一个实验室控制的数据集(CK+)来评估我们的方法。 Facetoponet在五个数据集中的三个数据集中达到了最新的性能,并在其他两个数据集中获得了竞争结果。我们还执行严格的消融和灵敏度实验,以评估模型中不同组件和参数的影响。最后,我们执行鲁棒性实验,并证明与该地区其他领先方法相比,Facetoponet对阻塞更具稳健性。
translated by 谷歌翻译