本文介绍了与欧洲计算机视觉会议(ECCV)共同举行的第四次情感行为分析(ABAW)竞赛,2022年。第四次ABAW竞赛是IEEE CVPR 2022,ICCV举行的比赛的延续。 2021年,IEEE FG 2020和IEEE CVPR 2017会议,旨在自动分析影响。在这场比赛的先前跑步中,挑战针对的价值估计,表达分类和动作单位检测。今年的竞争包括两个不同的挑战:i)多任务学习的挑战,其目标是同时学习(即在多任务学习环境中)所有上述三个任务; ii)从合成数据中学习一个,即目标是学会识别人为生成的数据并推广到真实数据的基本表达。 AFF-WILD2数据库是一个大规模的野外数据库,第一个包含价和唤醒,表达式和动作单元的注释。该数据库是上述挑战的基础。更详细地:i)S-Aff-Wild2(AFF-WILD2数据库的静态版本)已被构造和利用,以实现多任务学习挑战的目的; ii)已使用AFF-WILD2数据库中的一些特定帧图像以表达操作方式来创建合成数据集,这是从合成数据挑战中学习的基础。在本文中,首先,我们提出了两个挑战,以及利用的语料库,然后概述了评估指标,并最终提出了每个挑战的基线系统及其派生结果。有关比赛的更多信息,请参见竞争的网站:https://ibug.doc.ic.ac.uk/resources/eccv-2023-4th-abaw/。
translated by 谷歌翻译
在本文中,我们介绍了HSE-NN团队在第四次竞争中有关情感行为分析(ABAW)的结果。新型的多任务效率网络模型经过训练,可以同时识别面部表情以及对静态照片的价和唤醒的预测。由此产生的MT-Emotieffnet提取了视觉特征,这些特征在多任务学习挑战中被馈入简单的前馈神经网络。我们在验证集上获得了性能度量1.3,与基线(0.3)的性能或仅在S-AFF-WILD2数据库中训练的现有模型相比,这要大大更大。在从合成数据挑战中学习中,使用超分辨率技术(例如Real-Esrgan)提高了原始合成训练集的质量。接下来,在新的培训套件中对MT-Emotieffnet进行了微调。最终预测是预先训练和微调的MT-Emotieffnets的简单混合集合。我们的平均验证F1得分比基线卷积神经网络高18%。
translated by 谷歌翻译
野外表达对于各种交互式计算域至关重要。特别是,“从合成数据学习”(LSD)是面部表达识别任务中的重要主题。在本文中,我们提出了一种基于多任务的面部表达识别方法,该方法由情感和外观学习分支组成,可以共享所有面部信息,并为第四个情感行为分析中引入的LSD挑战提供初步结果。-Wild(ABAW)比赛。我们的方法达到的平均F1得分为0.71。
translated by 谷歌翻译
面部影响分析仍然是一项艰巨的任务,其设置从实验室控制到野外情况。在本文中,我们提出了新的框架,以应对第四次情感行为分析(ABAW)竞争的两个挑战:i)多任务学习(MTL)挑战和II)从合成数据(LSD)中学习挑战。对于MTL挑战,我们采用SMM-EmotionNet具有更好的特征向量策略。对于LSD挑战,我们建议采用各自的方法来应对单个标签,不平衡分布,微调限制和模型体系结构的选择。竞争的官方验证集的实验结果表明,我们提出的方法的表现优于基线。该代码可在https://github.com/sylyoung/abaw4-hust-ant上找到。
translated by 谷歌翻译
面部行为分析是一个广泛的主题,具有各种类别,例如面部情绪识别,年龄和性别认识,……许多研究都集中在单个任务上,而多任务学习方法仍然开放,需要更多的研究。在本文中,我们为情感行为分析在野外竞争中的多任务学习挑战提供了解决方案和实验结果。挑战是三个任务的组合:动作单元检测,面部表达识别和偶像估计。为了应对这一挑战,我们引入了一个跨集团模块,以提高多任务学习绩效。此外,还应用面部图来捕获动作单元之间的关联。结果,我们在组织者提供的验证数据上实现了1.24的评估度量,这比0.30的基线结果要好。
translated by 谷歌翻译
本文描述了我们对第四个情感行为分析(ABAW)竞争的提交。我们提出了一个用于多任务学习(MTL)的混合CNN转换模型,并从合成数据(LSD)任务中学习。验证数据集的实验结果表明,我们的方法比基线模型获得了更好的性能,该模型验证了提出的网络的有效性。
translated by 谷歌翻译
面价/唤醒,表达和动作单元是面部情感分析中的相关任务。但是,由于各种收集的条件,这些任务仅在野外的性能有限。野外情感行为分析的第四次竞争(ABAW)提供了价值/唤醒,表达和动作单元标签的图像。在本文中,我们介绍了多任务学习框架,以增强野外三个相关任务的性能。功能共享和标签融合用于利用它们的关系。我们对提供的培训和验证数据进行实验。
translated by 谷歌翻译
自动情感识别在许多领域都有应用,例如教育,游戏,软件开发,汽车,医疗保健等。但是,在野外数据集上实现可观的绩效是无琐的任务。野外数据集虽然比合成数据集更好地代表了现实世界中的情况,但前者遇到了不完整标签的问题。受到半监督学习的启发,在本文中,我们在第四次情感行为分析(ABAW)2022竞赛中介绍了提交的多任务学习挑战。在这项挑战中考虑的三个任务是价估计(VA)估计,表达式分为6个基本(愤怒,厌恶,恐惧,幸福,悲伤,惊喜),中立和“其他”类别和12个行动单位(au)编号au - \ {1,2,4,6,7,10,12,15,15,23,24,25,26 \}。我们的方法半监督的多任务面部情感情感识别标题为\ textbf {ss-mfar}使用一个深层残留网络,每个任务都具有特定任务分类器以及每个表达式类别的自适应阈值,每个表达式类别和半监督学习。源代码可从https://github.com/1980x/abaw202​​22dmacs获得。
translated by 谷歌翻译
本文说明了我们对第四个情感行为分析(ABAW)竞争的提交方法。该方法用于多任务学习挑战。我们不使用面部信息,而是使用所提供的包含面部和面部上下文的数据集中的完整信息。我们利用InceptionNet V3模型提取深度特征,然后应用了注意机制来完善特征。之后,我们将这些功能放入变压器块和多层感知器网络中,以获得最终的多种情感。我们的模型预测唤醒和价,对情绪表达进行分类,并同时估算动作单元。提出的系统在MTL挑战验证数据集上实现了0.917的性能。
translated by 谷歌翻译
本文介绍了我们针对六个基本表达分类的方法论情感行为分析(ABAW)竞赛2022年的曲目。从人为生成的数据中表达并概括为真实数据。由于合成数据和面部动作单元(AU)的客观性的模棱两可,我们求助于AU信息以提高性能,并做出如下贡献。首先,为了使模型适应合成场景,我们使用了预先训练的大规模面部识别数据中的知识。其次,我们提出了一个概念上的框架,称为Au-persuped卷积视觉变压器(AU-CVT),该框架通过与AU或Pseudo Au标签共同训练辅助数据集来显然改善了FER的性能。我们的AU-CVT在验证集上的F1分数为0.6863美元,准确性为$ 0.7433 $。我们工作的源代码在线公开可用:https://github.com/msy1412/abaw4
translated by 谷歌翻译
根据数据集构建成本的深度学习和生成模型的发展的问题,正在进行越来越多的研究,以使用合成数据进行培训,并使用真实数据进行推理。我们建议使用ABAW的学习综合数据(LSD)数据集提出情感意识到的自我监督学习。我们将我们的方法预先培训为LSD数据集作为一种自我监督的学习,然后使用相同的LSD数据集来对情绪分类任务进行下游培训作为监督学习。结果,获得了比基线(0.5)更高的结果(0.63)。
translated by 谷歌翻译
几乎所有现有的基于面部动作编码系统的数据集包括面部动作单元(AU)强度信息使用A-E级别分层地向强度值注释。然而,面部表情连续变化,并将从一个状态变为另一个状态。因此,将局部面部AU的强度值重新播出以表示整个面部表情的变化更有效,特别是在表达转移和面部动画的领域。我们将Feafa的扩展与重新标记的DISFA数据库相结合,可在HTTPS://www.iiplab.net/feafa+ /现在提供。扩展Feafa(Feafa +)包括来自Feafa和Disfa的150个视频序列,总共230,184帧,使用表达式定量工具手动注释24重新定义AU的浮点强度值。我们还列出了针对构成和自发子集的粗略数值结果,并为AU强度回归任务提供基线比较。
translated by 谷歌翻译
与人类相互作用的机器人和人造代理应该能够在没有偏见和不平等的情况下这样做,但是众所周知,面部感知系统对某些人来说比其他人的工作更差。在我们的工作中,我们旨在建立一个可以以更透明和包容的方式感知人类的系统。具体而言,我们专注于对人脸的动态表达,由于隐私问题以及面部本质上可识别的事实,这很难为广泛的人收集。此外,从互联网收集的数据集不一定代表一般人群。我们通过提供SIM2REAL方法来解决这个问题,在该方法中,我们使用一套3D模拟的人类模型,使我们能够创建一个可审核的合成数据集覆盖1)在六种基本情绪之外,代表性不足的面部表情(例如混乱); 2)种族或性别少数群体; 3)机器人可能在现实世界中遇到人类的广泛视角。通过增强包含包含4536个样本的合成数据集的123个样本的小型动态情感表达数据集,我们在自己的数据集上的准确性提高了15%,与外部基准数据集的11%相比,我们的精度为11%,与同一模型体系结构的性能相比没有合成训练数据。我们还表明,当体系结构的特征提取权重从头开始训练时,这一额外的步骤专门针对种族少数群体的准确性。
translated by 谷歌翻译
由于昂贵的数据收集过程,微表达数据集的规模通常小得多,而不是其他计算机视觉领域的数据集,渲染大规模的训练较小稳定和可行。在本文中,我们的目标是制定一个协议,以自动综合1)的微型表达培训数据,其中2)允许我们在现实世界测试集上具有强烈准确性的培训模型。具体来说,我们发现了三种类型的动作单位(AUS),可以很好地构成培训的微表达式。这些AU来自真实世界的微表达式,早期宏观表达式,以及人类知识定义的AU和表达标签之间的关系。随着这些AU,我们的协议随后采用大量的面部图像,具有各种身份和用于微表达合成的现有面生成方法。微表达式识别模型在生成的微表达数据集上培训并在真实世界测试集上进行评估,其中获得非常竞争力和稳定的性能。实验结果不仅验证了这些AU和我们的数据集合合成协议的有效性,还揭示了微表达式的一些关键属性:它们横跨面部概括,靠近早期宏观表达式,可以手动定义。
translated by 谷歌翻译
基于面部的情感计算包括检测面部图像的情绪。它可以更好地自动理解人类行为是有用的,并且可以为改善人机相互作用铺平道路。但是,它涉及设计情绪的计算表示的挑战。到目前为止,情绪已经在2D价/唤醒空间中连续地表示,或者以Ekman的7种基本情绪为单位。另外,Ekman的面部动作单元(AU)系统也已被用来使用单一肌肉激活的代码手册来粘附情绪。 ABAW3和ABAW4多任务挑战是第一项提供用这三种标签注释的大规模数据库的工作。在本文中,我们提出了一种基于变压器的多任务方法,用于共同学习以预测唤醒,动作单位和基本情绪。从体系结构的角度来看,我们的方法使用任务的令牌方法来有效地建模任务之间的相似性。从学习的角度来看,我们使用不确定性加权损失来建模三个任务注释之间的随机性差异。
translated by 谷歌翻译
由于其广泛的应用,情感行为分析引起了研究人员的关注。但是,获得大量面部图像的准确注释是详尽的。因此,我们建议通过在未标记的面部图像上预处理的蒙版自动编码器(MAE)利用先前的面部信息。此外,我们结合了MAE预处理的视觉变压器(VIT)和AffectNet预处理的CNN,以执行多任务情绪识别。我们注意到表达和动作单元(AU)得分是价值(VA)回归的纯粹和完整的特征。结果,我们利用AffectNet预处理的CNN提取与表达和来自VIT的AU评分相连的表达评分,以获得最终的VA特征。此外,我们还提出了一个共同训练框架,该框架与两个平行的MAE预估计的VIT进行表达识别任务。为了使这两个视图独立,我们在训练过程中随机掩盖了大多数补丁。然后,执行JS差异以使两种视图的预测尽可能一致。 ABAW4上的结果表明我们的方法是有效的。
translated by 谷歌翻译
Studying facial expressions is a notoriously difficult endeavor. Recent advances in the field of affective computing have yielded impressive progress in automatically detecting facial expressions from pictures and videos. However, much of this work has yet to be widely disseminated in social science domains such as psychology. Current state of the art models require considerable domain expertise that is not traditionally incorporated into social science training programs. Furthermore, there is a notable absence of user-friendly and open-source software that provides a comprehensive set of tools and functions that support facial expression research. In this paper, we introduce Py-Feat, an open-source Python toolbox that provides support for detecting, preprocessing, analyzing, and visualizing facial expression data. Py-Feat makes it easy for domain experts to disseminate and benchmark computer vision models and also for end users to quickly process, analyze, and visualize face expression data. We hope this platform will facilitate increased use of facial expression data in human behavior research.
translated by 谷歌翻译
识别面部视频的连续情绪和动作单元(AU)强度需要对表达动态的空间和时间理解。现有作品主要依赖2D面的外观来提取这种动态。这项工作着重于基于参数3D面向形状模型的有希望的替代方案,该模型解散了不同的变异因素,包括表达诱导的形状变化。我们旨在了解与最先进的2D外观模型相比,在估计价值和AU强度方面表现性3D面部形状如何。我们基准了四个最近的3D面对准模型:Expnet,3DDFA-V2,DECA和EMOCA。在价值估计中,3D面模型的表达特征始终超过以前的作品,并在SEWA和AVEC 2019 CES CORPORA上的平均一致性相关性分别为.739和.574。我们还研究了BP4D和DISFA数据集的AU强度估计的3D面形状如何执行,并报告说3D脸部功能在AUS 4、6、10、12和25中与2D外观特征相当,但没有整个集合。 aus。为了理解这种差异,我们在价值和AUS之间进行了对应分析,该分析指出,准确的价值预测可能仅需要少数AU的知识。
translated by 谷歌翻译
微表达(MES)是非自愿的面部运动,揭示了人们在高利害情况下隐藏的感受,并对医疗,国家安全,审讯和许多人机交互系统具有实际重要性。早期的MER方法主要基于传统的外观和几何特征。最近,随着各种领域的深度学习(DL)的成功,神经网络已得到MER的兴趣。不同于宏观表达,MES是自发的,微妙的,快速的面部运动,导致数据收集困难,因此具有小规模的数据集。由于上述我的角色,基于DL的MER变得挑战。迄今为止,已提出各种DL方法来解决我的问题并提高MER表现。在本调查中,我们对深度微表达识别(MER)进行了全面的审查,包括数据集,深度MER管道和最具影响力方法的基准标记。本调查定义了该领域的新分类法,包括基于DL的MER的所有方面。对于每个方面,总结和讨论了基本方法和高级发展。此外,我们得出了坚固的深层MER系统设计的剩余挑战和潜在方向。据我们所知,这是对深度MEL方法的第一次调查,该调查可以作为未来MER研究的参考点。
translated by 谷歌翻译
我们介绍了Daisee,这是第一个多标签视频分类数据集,该数据集由112个用户捕获的9068个视频片段,用于识别野外无聊,混乱,参与度和挫败感的用户情感状态。该数据集具有四个级别的标签 - 每个情感状态都非常低,低,高和很高,它们是人群注释并与使用专家心理学家团队创建的黄金标准注释相关的。我们还使用当今可用的最先进的视频分类方法在此数据集上建立了基准结果。我们认为,黛西(Daisee)将为研究社区提供特征提取,基于上下文的推理以及为相关任务开发合适的机器学习方法的挑战,从而为进一步的研究提供了跳板。该数据集可在https://people.iith.ac.in/vineethnb/resources/daisee/daisee/index.html下载。
translated by 谷歌翻译