本文介绍了我们对第四次情感行为分析(ABAW)竞争的多任务学习(MTL)挑战的提交。基于视觉功能表示,我们利用三种类型的时间编码器来捕获视频中的时间上下文信息,包括基于变压器的编码器,基于LSTM的编码器和基于GRU的编码器。使用时间上下文感知表示,我们采用多任务框架来预测图像的价,唤醒,表达和AU值。此外,将平滑处理用于完善初始价和唤醒预测,并使用模型集成策略来结合不同模型设置的多个结果。我们的系统在MTL挑战验证数据集上实现了$ 1.742 $的性能。
translated by 谷歌翻译
本文描述了我们对第四个情感行为分析(ABAW)竞争的提交。我们提出了一个用于多任务学习(MTL)的混合CNN转换模型,并从合成数据(LSD)任务中学习。验证数据集的实验结果表明,我们的方法比基线模型获得了更好的性能,该模型验证了提出的网络的有效性。
translated by 谷歌翻译
在本文中,我们介绍了HSE-NN团队在第四次竞争中有关情感行为分析(ABAW)的结果。新型的多任务效率网络模型经过训练,可以同时识别面部表情以及对静态照片的价和唤醒的预测。由此产生的MT-Emotieffnet提取了视觉特征,这些特征在多任务学习挑战中被馈入简单的前馈神经网络。我们在验证集上获得了性能度量1.3,与基线(0.3)的性能或仅在S-AFF-WILD2数据库中训练的现有模型相比,这要大大更大。在从合成数据挑战中学习中,使用超分辨率技术(例如Real-Esrgan)提高了原始合成训练集的质量。接下来,在新的培训套件中对MT-Emotieffnet进行了微调。最终预测是预先训练和微调的MT-Emotieffnets的简单混合集合。我们的平均验证F1得分比基线卷积神经网络高18%。
translated by 谷歌翻译
面价/唤醒,表达和动作单元是面部情感分析中的相关任务。但是,由于各种收集的条件,这些任务仅在野外的性能有限。野外情感行为分析的第四次竞争(ABAW)提供了价值/唤醒,表达和动作单元标签的图像。在本文中,我们介绍了多任务学习框架,以增强野外三个相关任务的性能。功能共享和标签融合用于利用它们的关系。我们对提供的培训和验证数据进行实验。
translated by 谷歌翻译
面部影响分析仍然是一项艰巨的任务,其设置从实验室控制到野外情况。在本文中,我们提出了新的框架,以应对第四次情感行为分析(ABAW)竞争的两个挑战:i)多任务学习(MTL)挑战和II)从合成数据(LSD)中学习挑战。对于MTL挑战,我们采用SMM-EmotionNet具有更好的特征向量策略。对于LSD挑战,我们建议采用各自的方法来应对单个标签,不平衡分布,微调限制和模型体系结构的选择。竞争的官方验证集的实验结果表明,我们提出的方法的表现优于基线。该代码可在https://github.com/sylyoung/abaw4-hust-ant上找到。
translated by 谷歌翻译
由于其广泛的应用,情感行为分析引起了研究人员的关注。但是,获得大量面部图像的准确注释是详尽的。因此,我们建议通过在未标记的面部图像上预处理的蒙版自动编码器(MAE)利用先前的面部信息。此外,我们结合了MAE预处理的视觉变压器(VIT)和AffectNet预处理的CNN,以执行多任务情绪识别。我们注意到表达和动作单元(AU)得分是价值(VA)回归的纯粹和完整的特征。结果,我们利用AffectNet预处理的CNN提取与表达和来自VIT的AU评分相连的表达评分,以获得最终的VA特征。此外,我们还提出了一个共同训练框架,该框架与两个平行的MAE预估计的VIT进行表达识别任务。为了使这两个视图独立,我们在训练过程中随机掩盖了大多数补丁。然后,执行JS差异以使两种视图的预测尽可能一致。 ABAW4上的结果表明我们的方法是有效的。
translated by 谷歌翻译
在本文中,我们提出了第四个情感行为分析(ABAW)竞争的多任务学习(MTL)挑战的解决方案。ABAW的任务是从视频中预测框架级的情感描述:离散的情绪状态;价和唤醒;和行动单位。尽管研究人员提出了几种方法,并在ABAW中取得了有希望的结果,但目前在此任务中的作品很少考虑不同的情感描述符之间的相互作用。为此,我们提出了一种新颖的端到端体系结构,以实现不同类型的信息的完整集成。实验结果证明了我们提出的解决方案的有效性。
translated by 谷歌翻译
基于面部的情感计算包括检测面部图像的情绪。它可以更好地自动理解人类行为是有用的,并且可以为改善人机相互作用铺平道路。但是,它涉及设计情绪的计算表示的挑战。到目前为止,情绪已经在2D价/唤醒空间中连续地表示,或者以Ekman的7种基本情绪为单位。另外,Ekman的面部动作单元(AU)系统也已被用来使用单一肌肉激活的代码手册来粘附情绪。 ABAW3和ABAW4多任务挑战是第一项提供用这三种标签注释的大规模数据库的工作。在本文中,我们提出了一种基于变压器的多任务方法,用于共同学习以预测唤醒,动作单位和基本情绪。从体系结构的角度来看,我们的方法使用任务的令牌方法来有效地建模任务之间的相似性。从学习的角度来看,我们使用不确定性加权损失来建模三个任务注释之间的随机性差异。
translated by 谷歌翻译
在本文中,我们介绍了2022年多模式情感分析挑战(MUSE)的解决方案,其中包括Muse-Humor,Muse-Rection和Muse Surns Sub-Challenges。 2022年穆斯穆斯(Muse 2022)着重于幽默检测,情绪反应和多模式的情感压力,利用不同的方式和数据集。在我们的工作中,提取了不同种类的多模式特征,包括声学,视觉,文本和生物学特征。这些功能由Temma和Gru融合到自发机制框架中。在本文中,1)提取了一些新的音频功能,面部表达功能和段落级文本嵌入以进行准确的改进。 2)我们通过挖掘和融合多模式特征来显着提高多模式情感预测的准确性和可靠性。 3)在模型培训中应用有效的数据增强策略,以减轻样本不平衡问题并防止模型形成学习有偏见的主题字符。对于博物馆的子挑战,我们的模型获得了0.8932的AUC分数。对于Muse Rection子挑战,我们在测试集上的Pearson相关系数为0.3879,它的表现优于所有其他参与者。对于Muse Surst Sub-Challenge,我们的方法在测试数据集上的唤醒和价值都优于基线,达到了0.5151的最终综合结果。
translated by 谷歌翻译
面部行为分析是一个广泛的主题,具有各种类别,例如面部情绪识别,年龄和性别认识,……许多研究都集中在单个任务上,而多任务学习方法仍然开放,需要更多的研究。在本文中,我们为情感行为分析在野外竞争中的多任务学习挑战提供了解决方案和实验结果。挑战是三个任务的组合:动作单元检测,面部表达识别和偶像估计。为了应对这一挑战,我们引入了一个跨集团模块,以提高多任务学习绩效。此外,还应用面部图来捕获动作单元之间的关联。结果,我们在组织者提供的验证数据上实现了1.24的评估度量,这比0.30的基线结果要好。
translated by 谷歌翻译
本文说明了我们对第四个情感行为分析(ABAW)竞争的提交方法。该方法用于多任务学习挑战。我们不使用面部信息,而是使用所提供的包含面部和面部上下文的数据集中的完整信息。我们利用InceptionNet V3模型提取深度特征,然后应用了注意机制来完善特征。之后,我们将这些功能放入变压器块和多层感知器网络中,以获得最终的多种情感。我们的模型预测唤醒和价,对情绪表达进行分类,并同时估算动作单元。提出的系统在MTL挑战验证数据集上实现了0.917的性能。
translated by 谷歌翻译
最近利用多模式数据旨在建立面部动作单元(AU)检测模型的研究。但是,由于多模式数据的异质性,多模式表示学习成为主要挑战之一。一方面,很难通过仅通过一个特征提取器从多模式中提取相关特征,另一方面,先前的研究并未完全探索多模式融合策略的潜力。例如,早期融合通常需要在推理期间存在所有方式,而晚期融合和中间融合则增加了特征学习的网络大小。与晚期融合的大量工作相反,早期融合探索渠道信息的作品很少。本文提出了一个新型的多模式网络,称为多模式通道混合(MCM),作为一种预训练的模型,以学习强大的表示形式,以促进多模式融合。我们在自动面部动作单元检测的下游任务上评估学习的表示形式。具体而言,它是一个单个流编码器网络,该网络在早期融合中使用频道混合模块,在下游检测任务中仅需要一种模态。我们还利用蒙版的VIT编码器从融合图像中学习特征,并使用两个VIT解码器重建两个模式。我们已经在两个公共数据集(称为BP4D和DISFA)上进行了广泛的实验,以评估所提出的多模式框架的有效性和鲁棒性。结果表明我们的方法是可比或优越的,它与最新的基线方法相当。
translated by 谷歌翻译
多任务学习是基于深度学习的面部表情识别任务的有效学习策略。但是,当在不同任务之间传输信息时,大多数现有方法都考虑了特征选择,这可能在培训多任务网络时可能导致任务干扰。为了解决这个问题,我们提出了一种新颖的选择性特征共享方法,并建立一个用于面部表情识别和面部表达合成的多任务网络。该方法可以有效地转移不同任务之间的有益特征,同时过滤无用和有害信息。此外,我们采用了面部表情综合任务来扩大并平衡训练数据集以进一步提高所提出的方法的泛化能力。实验结果表明,该方法在那些常用的面部表情识别基准上实现了最先进的性能,这使其成为现实世界面部表情识别问题的潜在解决方案。
translated by 谷歌翻译
人类通过不同的渠道表达感受或情绪。以语言为例,它在不同的视觉声学上下文下需要不同的情绪。为了精确了解人类意图,并减少歧义和讽刺引起的误解,我们应该考虑多式联路信号,包括文本,视觉和声学信号。至关重要的挑战是融合不同的特征模式以进行情绪分析。为了有效地融合不同的方式携带的信息,更好地预测情绪,我们设计了一种基于新的多主题的融合网络,这是由任何两个对方式之间的相互作用不同的观察来启发,它们是不同的,并且它们不同样有助于最终的情绪预测。通过分配具有合理关注和利用残余结构的声学 - 视觉,声学 - 文本和视觉文本特征,我们参加了重要的特征。我们对四个公共多模式数据集进行了广泛的实验,包括中文和三种英文中的一个。结果表明,我们的方法优于现有的方法,并可以解释双模相互作用在多种模式中的贡献。
translated by 谷歌翻译
人类的情感和心理状态以自动化的方式估计,面临许多困难,包括从差或没有时间分辨率的标签中学习,从很少有数据的数据集中学习(通常是由于机密性约束),并且(非常)很长 - 野外视频。由于这些原因,深度学习方法倾向于过度合适,也就是说,在最终回归任务上获得概括性差的潜在表示。为了克服这一点,在这项工作中,我们介绍了两个互补的贡献。首先,我们引入了一种新型的关系损失,以解决多标签回归和序数问题,该问题规则学习并导致更好的概括。拟议的损失使用标签矢量间歇间信息来通过将批次标签距离与潜在特征空间中的距离进行对齐,从而学习更好的潜在表示。其次,我们利用了两个阶段的注意体系结构,该体系结构通过使用相邻夹中的功能作为时间上下文来估计每个剪辑的目标。我们评估了关于连续影响和精神分裂症严重程度估计问题的提议方法,因为两者之间存在方法论和背景相似之处。实验结果表明,所提出的方法的表现优于所有基准。在精神分裂症的领域中,拟议的方法学优于先前的最先进的利润率,其PCC的PCC绩效高达78%的绩效(85%)(85%),并且比以前的工作高得多(Uplift FiftLift最多40%)。在情感识别的情况下,我们在OMG和AMIGOS数据集上都以CCC为基础的先前基于以前的方法。对于Amigos而言,我们的唤醒和价值分别均优于先前的SOTA CCC,分别为9%和13%,在OMG数据集中,我们的效果均优于先前的视力,唤醒和价值均高达5%。
translated by 谷歌翻译
未来的活动预期是在Egocentric视觉中具有挑战性问题。作为标准的未来活动预期范式,递归序列预测遭受错误的累积。为了解决这个问题,我们提出了一个简单有效的自我监管的学习框架,旨在使中间表现为连续调节中间代表性,以产生表示(a)与先前观察到的对比的当前时间戳框架中的新颖信息内容和(b)反映其与先前观察到的帧的相关性。前者通过最小化对比损失来实现,并且后者可以通过动态重量机制来实现在观察到的内容中的信息帧中,具有当前帧的特征与观察到的帧之间的相似性比较。通过多任务学习可以进一步增强学习的最终视频表示,该多任务学习在目标活动标签上执行联合特征学习和自动检测到的动作和对象类令牌。在大多数自我传统视频数据集和两个第三人称视频数据集中,SRL在大多数情况下急剧表现出现有的现有最先进。通过实验性事实,还可以准确识别支持活动语义的行动和对象概念的实验性。
translated by 谷歌翻译
在本文中,首先,研究了Imagenet预训练对细粒度面部情感识别(FER)的影响,这表明当应用图像的足够增强时,从头开始的训练比ImageNet Pre的微调提供了更好的结果。 -训练。接下来,我们提出了一种改善细粒度和野外FER的方法,称为混合多任务学习(HMTL)。 HMTL以多任务学习(MTL)的形式使用自我监督学习(SSL)作为经典监督学习(SL)期间的辅助任务。在训练过程中利用SSL可以从图像中获得其他信息,以完成主要细粒度SL任务。我们研究了如何在FER域中使用所提出的HMTL,通过设计两种定制版本的普通文本任务技术,令人困惑和涂漆。我们通过两种类型的HMTL在不利用其他数据的情况下,通过两种类型的HMTL在altimnet基准测试上实现了最新的结果。关于常见SSL预训练和提出的HMTL的实验结果证明了我们工作的差异和优势。但是,HMTL不仅限于FER域。对两种类型的细粒面部任务(即头部姿势估计和性别识别)进行的实验揭示了使用HMTL改善细粒度面部表示的潜力。
translated by 谷歌翻译
自动情感识别在许多领域都有应用,例如教育,游戏,软件开发,汽车,医疗保健等。但是,在野外数据集上实现可观的绩效是无琐的任务。野外数据集虽然比合成数据集更好地代表了现实世界中的情况,但前者遇到了不完整标签的问题。受到半监督学习的启发,在本文中,我们在第四次情感行为分析(ABAW)2022竞赛中介绍了提交的多任务学习挑战。在这项挑战中考虑的三个任务是价估计(VA)估计,表达式分为6个基本(愤怒,厌恶,恐惧,幸福,悲伤,惊喜),中立和“其他”类别和12个行动单位(au)编号au - \ {1,2,4,6,7,10,12,15,15,23,24,25,26 \}。我们的方法半监督的多任务面部情感情感识别标题为\ textbf {ss-mfar}使用一个深层残留网络,每个任务都具有特定任务分类器以及每个表达式类别的自适应阈值,每个表达式类别和半监督学习。源代码可从https://github.com/1980x/abaw202​​22dmacs获得。
translated by 谷歌翻译
由于视频序列中的大量嘈杂框架,野外动态面部表达识别(DFER)是一项极具挑战性的任务。以前的作品着重于提取更多的判别特征,但忽略了将关键帧与嘈杂框架区分开来。为了解决这个问题,我们提出了一个噪声动态的面部表达识别网络(NR-DFERNET),该网络可以有效地减少嘈杂框架对DFER任务的干扰。具体而言,在空间阶段,我们设计了一个动态静态融合模块(DSF),该模块(DSF)将动态特征引入静态特征,以学习更多的判别空间特征。为了抑制目标无关框架的影响,我们在时间阶段引入了针对变压器的新型动态类令牌(DCT)。此外,我们在决策阶段设计了基于摘要的滤镜(SF),以减少过多中性帧对非中性序列分类的影响。广泛的实验结果表明,我们的NR-dfernet优于DFEW和AFEW基准的最先进方法。
translated by 谷歌翻译
识别面部视频的连续情绪和动作单元(AU)强度需要对表达动态的空间和时间理解。现有作品主要依赖2D面的外观来提取这种动态。这项工作着重于基于参数3D面向形状模型的有希望的替代方案,该模型解散了不同的变异因素,包括表达诱导的形状变化。我们旨在了解与最先进的2D外观模型相比,在估计价值和AU强度方面表现性3D面部形状如何。我们基准了四个最近的3D面对准模型:Expnet,3DDFA-V2,DECA和EMOCA。在价值估计中,3D面模型的表达特征始终超过以前的作品,并在SEWA和AVEC 2019 CES CORPORA上的平均一致性相关性分别为.739和.574。我们还研究了BP4D和DISFA数据集的AU强度估计的3D面形状如何执行,并报告说3D脸部功能在AUS 4、6、10、12和25中与2D外观特征相当,但没有整个集合。 aus。为了理解这种差异,我们在价值和AUS之间进行了对应分析,该分析指出,准确的价值预测可能仅需要少数AU的知识。
translated by 谷歌翻译