在本文中,我们通过利用全新监督学习来推进面部表情识别(FER)的表现。本领域技术的当前状态通常旨在通过具有有限数量的样本的培训模型来识别受控环境中的面部表达。为了增强学习模型的各种场景的稳健性,我们建议通过利用标记的样本以及大量未标记的数据来执行全能监督学习。特别是,我们首先使用MS-CeleB-1M作为面部池,其中包括大约5,822k未标记的面部图像。然后,采用基于少量标记样品的原始模型来通过进行基于特征的相似性比较来选择具有高度自信心的样本。我们发现以这种全局监督方式构建的新数据集可以显着提高学习的FER模型的泛化能力,并因此提高了性能。然而,随着使用更多的训练样本,需要更多的计算资源和培训时间,在许多情况下通常不能实惠。为了减轻计算资源的要求,我们进一步采用了数据集蒸馏策略,以将目标任务相关知识从新的开采样本中蒸馏,并将其压缩成一组非常小的图像。这种蒸馏的数据集能够提高FER的性能,额外的额外计算成本。我们在五个流行的基准和新构造的数据集中执行广泛的实验,其中可以使用所提出的框架在各种设置下实现一致的收益。我们希望这项工作作为一个坚实的基线,并帮助缓解FER的未来研究。
translated by 谷歌翻译
面部表达识别(FER)是一个具有挑战性的问题,因为表达成分始终与其他无关的因素(例如身份和头部姿势)纠缠在一起。在这项工作中,我们提出了一个身份,并构成了分离的面部表达识别(IPD-fer)模型,以了解更多的判别特征表示。我们认为整体面部表征是身份,姿势和表达的组合。这三个组件用不同的编码器编码。对于身份编码器,在培训期间使用和固定了一个经过良好训练的面部识别模型,这可以减轻对先前工作中对特定表达训练数据的限制,并使野外数据集的分离可行。同时,用相应的标签优化了姿势和表达编码器。结合身份和姿势特征,解码器应生成输入个体的中性面。添加表达功能时,应重建输入图像。通过比较同一个体的合成中性图像和表达图像之间的差异,表达成分与身份和姿势进一步分离。实验结果验证了我们方法对实验室控制和野外数据库的有效性,并实现了最新的识别性能。
translated by 谷歌翻译
不同的人以不同的方式衰老。为每个人学习个性化的年龄估计器是年龄估计的有前途的方向,因为它可以更好地建模衰老过程的个性化。但是,由于高级要求,大多数现有的个性化方法都缺乏大规模数据集:身份标签和足够的样本使每个人形成长期衰老模式。在本文中,我们旨在学习没有上述要求的个性化年龄估计量,并提出一种元学习方法,称为年龄估计。与大多数现有的个性化方法不同,这些方法学习了培训集中每个人的个性化估计器的参数,我们的方法将映射从身份信息到年龄估计器参数学习。具体而言,我们引入了个性化的估算器元学习器,该估计量元学习器将身份功能作为输入并输出定制估算器的参数。这样,我们的方法就可以学习元知识而没有上述要求,并无缝将学习的元知识转移到测试集中,这使我们能够利用现有的大规模年龄数据集,而无需任何其他注释。在包括Morph II,Chalearn Lap 2015和Chalearn Lap 2016数据库在内的三个基准数据集上进行的大量实验结果表明,我们的元大大提高了现有的个性化方法的性能,并优于最先进的方法。
translated by 谷歌翻译
学习普遍面孔表示的最佳方法是什么?在面部分析领域进行深度学习的最新工作集中在监督方面的学习特定任务(例如面部识别,面部地标本地化等),但忽略了如何找到可以轻松适应面部表征的总体问题到几个面部分析任务和数据集。为此,我们做出以下4个贡献:(a)我们首次介绍面部表示学习的全面评估基准,该基准由5个重要​​的面部分析任务组成。 (b)我们系统地研究了应用于面孔的大规模表示学习的两种方式:受监督和无监督的预训练。重要的是,我们将评估重点放在几乎没有面部学习的情况下。 (c)我们研究了培训数据集的重要特性,包括其大小和质量(标记,未标记甚至未经保育)。 (d)为了得出结论,我们进行了大量实验。我们的主要两个发现是:(1)完全在野外的未经监督的预培训,未经保育的数据提供了一致的,在某些情况下,对所有面部任务进行了显着准确的改进。 (2)许多现有的面部视频数据集似乎具有大量冗余。我们将发布代码和预先培训的模型,以促进未来的研究。
translated by 谷歌翻译
培训深层神经网络以识别图像识别通常需要大规模的人类注释数据。为了减少深神经溶液对标记数据的依赖,文献中已经提出了最先进的半监督方法。尽管如此,在面部表达识别领域(FER)领域,使用这种半监督方法非常罕见。在本文中,我们介绍了一项关于最近提出的在FER背景下的最先进的半监督学习方法的全面研究。我们对八种半监督学习方法进行了比较研究当使用各种标记的样品时。我们还将这些方法的性能与完全监督的培训进行了比较。我们的研究表明,当培训现有的半监督方法时,每类标记的样本只有250个标记的样品可以产生可比的性能,而在完整标记的数据集中训练的完全监督的方法。为了促进该领域的进一步研究,我们在:https://github.com/shuvenduroy/ssl_fer上公开提供代码
translated by 谷歌翻译
为了解决不同面部表情识别(FER)数据集之间的数据不一致的问题,近年来许多跨域FER方法(CD-FERS)已被广泛设计。虽然每个声明要实现卓越的性能,但由于源/目标数据集和特征提取器的不一致选择,缺乏公平的比较。在这项工作中,我们首先分析了这些不一致的选择造成的性能效果,然后重新实施了一些良好的CD-FER和最近发布的域适应算法。我们确保所有这些算法采用相同的源数据集和特征提取器,以便进行公平CD-FER评估。我们发现大多数主要的领先算法使用对抗性学习来学习整体域的不变功能来缓解域移位。然而,这些算法忽略了局部特征,这些功能在不同的数据集中更可转换,并为细粒度适应提供更详细的内容。为了解决这些问题,我们通过开发新的对抗图表示适应(AGRA)框架,将图形表示传播与对抗域整体局部特征共同适应的对抗。具体地,它首先构建两个图形,以分别在每个域内和跨不同的域内相关的全部和局部区域。然后,它从输入图像中提取整体本地特征,并使用可学习的每类统计分布来初始化相应的图形节点。最后,采用两个堆叠的图形卷积网络(GCNS)在每个域内传播全部本地功能,以探索它们的交互和整体域的不同域,用于全部局部功能共同适应。我们对几个流行的基准进行了广泛和公平的评估,并表明建议的AGRA框架优于以前的最先进的方法。
translated by 谷歌翻译
Deep models for facial expression recognition achieve high performance by training on large-scale labeled data. However, publicly available datasets contain uncertain facial expressions caused by ambiguous annotations or confusing emotions, which could severely decline the robustness. Previous studies usually follow the bias elimination method in general tasks without considering the uncertainty problem from the perspective of different corresponding sources. In this paper, we propose a novel method of multi-task assisted correction in addressing uncertain facial expression recognition called MTAC. Specifically, a confidence estimation block and a weighted regularization module are applied to highlight solid samples and suppress uncertain samples in every batch. In addition, two auxiliary tasks, i.e., action unit detection and valence-arousal measurement, are introduced to learn semantic distributions from a data-driven AU graph and mitigate category imbalance based on latent dependencies between discrete and continuous emotions, respectively. Moreover, a re-labeling strategy guided by feature-level similarity constraint further generates new labels for identified uncertain samples to promote model learning. The proposed method can flexibly combine with existing frameworks in a fully-supervised or weakly-supervised manner. Experiments on RAF-DB, AffectNet, and AffWild2 datasets demonstrate that the MTAC obtains substantial improvements over baselines when facing synthetic and real uncertainties and outperforms the state-of-the-art methods.
translated by 谷歌翻译
微表达(MES)是非自愿的面部运动,揭示了人们在高利害情况下隐藏的感受,并对医疗,国家安全,审讯和许多人机交互系统具有实际重要性。早期的MER方法主要基于传统的外观和几何特征。最近,随着各种领域的深度学习(DL)的成功,神经网络已得到MER的兴趣。不同于宏观表达,MES是自发的,微妙的,快速的面部运动,导致数据收集困难,因此具有小规模的数据集。由于上述我的角色,基于DL的MER变得挑战。迄今为止,已提出各种DL方法来解决我的问题并提高MER表现。在本调查中,我们对深度微表达识别(MER)进行了全面的审查,包括数据集,深度MER管道和最具影响力方法的基准标记。本调查定义了该领域的新分类法,包括基于DL的MER的所有方面。对于每个方面,总结和讨论了基本方法和高级发展。此外,我们得出了坚固的深层MER系统设计的剩余挑战和潜在方向。据我们所知,这是对深度MEL方法的第一次调查,该调查可以作为未来MER研究的参考点。
translated by 谷歌翻译
最近,面部生物识别是对传统认证系统的方便替代的巨大关注。因此,检测恶意尝试已经发现具有重要意义,导致面部抗欺骗〜(FAS),即面部呈现攻击检测。与手工制作的功能相反,深度特色学习和技术已经承诺急剧增加FAS系统的准确性,解决了实现这种系统的真实应用的关键挑战。因此,处理更广泛的发展以及准确的模型的新研究区越来越多地引起了研究界和行业的关注。在本文中,我们为自2017年以来对与基于深度特征的FAS方法相关的文献综合调查。在这一主题上阐明,基于各种特征和学习方法的语义分类。此外,我们以时间顺序排列,其进化进展和评估标准(数据集内集和数据集互联集合中集)覆盖了FAS的主要公共数据集。最后,我们讨论了开放的研究挑战和未来方向。
translated by 谷歌翻译
先前的工作表明,使用顺序学习者学习面部不同组成部分的顺序可以在面部表达识别系统的性能中发挥重要作用。我们提出了Facetoponet,这是面部表达识别的端到端深层模型,它能够学习面部有效的树拓扑。然后,我们的模型遍历学习的树以生成序列,然后将其用于形成嵌入以喂养顺序学习者。设计的模型采用一个流进行学习结构,并为学习纹理提供一个流。结构流着重于面部地标的位置,而纹理流的主要重点是在地标周围的斑块上学习纹理信息。然后,我们通过利用有效的基于注意力的融合策略来融合两个流的输出。我们对四个大型内部面部表达数据集进行了广泛的实验 - 即Alltionnet,FER2013,ExpW和RAF-DB,以及一个实验室控制的数据集(CK+)来评估我们的方法。 Facetoponet在五个数据集中的三个数据集中达到了最新的性能,并在其他两个数据集中获得了竞争结果。我们还执行严格的消融和灵敏度实验,以评估模型中不同组件和参数的影响。最后,我们执行鲁棒性实验,并证明与该地区其他领先方法相比,Facetoponet对阻塞更具稳健性。
translated by 谷歌翻译
横梁面部识别(CFR)旨在识别个体,其中比较面部图像源自不同的感测模式,例如红外与可见的。虽然CFR由于与模态差距相关的面部外观的显着变化,但CFR具有比经典的面部识别更具挑战性,但它在具有有限或挑战的照明的场景中,以及在呈现攻击的情况下,它是优越的。与卷积神经网络(CNNS)相关的人工智能最近的进展使CFR的显着性能提高了。由此激励,这项调查的贡献是三倍。我们提供CFR的概述,目标是通过首先正式化CFR然后呈现具体相关的应用来比较不同光谱中捕获的面部图像。其次,我们探索合适的谱带进行识别和讨论最近的CFR方法,重点放在神经网络上。特别是,我们提出了提取和比较异构特征以及数据集的重新访问技术。我们枚举不同光谱和相关算法的优势和局限性。最后,我们讨论了研究挑战和未来的研究线。
translated by 谷歌翻译
尽管在过去的几年中取得了重大进展,但歧义仍然是面部表情识别(FER)的关键挑战。它可能导致嘈杂和不一致的注释,这阻碍了现实世界中深度学习模型的性能。在本文中,我们提出了一种新的不确定性标签分布学习方法,以提高深层模型的鲁棒性,以防止不确定性和歧义。我们利用价值空间中的邻里信息来适应培训训练样本的情绪分布。我们还考虑提供的标签将其纳入标签分布时的不确定性。我们的方法可以轻松地集成到深层网络中,以获得更多的培训监督并提高识别准确性。在各种嘈杂和模棱两可的环境下,在几个数据集上进行了密集的实验表明,我们的方法取得了竞争成果,并且超出了最新的最新方法。我们的代码和模型可在https://github.com/minhnhatvt/label-distribution-learning-fer-tf上找到。
translated by 谷歌翻译
我们提出了Parse,这是一种新颖的半监督结构,用于学习强大的脑电图表现以进行情感识别。为了减少大量未标记数据与标记数据有限的潜在分布不匹配,Parse使用成对表示对准。首先,我们的模型执行数据增强,然后标签猜测大量原始和增强的未标记数据。然后将其锐化的标签和标记数据的凸组合锐化。最后,进行表示对准和情感分类。为了严格测试我们的模型,我们将解析与我们实施并适应脑电图学习的几种最先进的半监督方法进行了比较。我们对四个基于公共EEG的情绪识别数据集,种子,种子IV,种子V和Amigos(价和唤醒)进行这些实验。该实验表明,我们提出的框架在种子,种子-IV和Amigos(Valence)中的标记样品有限的情况下,取得了总体最佳效果,同时接近种子V和Amigos中的总体最佳结果(达到第二好) (唤醒)。分析表明,我们的成对表示对齐方式通过减少未标记数据和标记数据之间的分布比对来大大提高性能,尤其是当每类仅1个样本被标记时。
translated by 谷歌翻译
深度神经网络在人类分析中已经普遍存在,增强了应用的性能,例如生物识别识别,动作识别以及人重新识别。但是,此类网络的性能通过可用的培训数据缩放。在人类分析中,对大规模数据集的需求构成了严重的挑战,因为数据收集乏味,廉价,昂贵,并且必须遵守数据保护法。当前的研究研究了\ textit {合成数据}的生成,作为在现场收集真实数据的有效且具有隐私性的替代方案。这项调查介绍了基本定义和方法,在生成和采用合成数据进行人类分析时必不可少。我们进行了一项调查,总结了当前的最新方法以及使用合成数据的主要好处。我们还提供了公开可用的合成数据集和生成模型的概述。最后,我们讨论了该领域的局限性以及开放研究问题。这项调查旨在为人类分析领域的研究人员和从业人员提供。
translated by 谷歌翻译
来自静态图像的面部表情识别是计算机视觉应用中的一个具有挑战性的问题。卷积神经网络(CNN),用于各种计算机视觉任务的最先进的方法,在预测具有极端姿势,照明和闭塞条件的面部的表达式中已经有限。为了缓解这个问题,CNN通常伴随着传输,多任务或集合学习等技术,这些技术通常以增加的计算复杂性的成本提供高精度。在这项工作中,我们提出了一种基于零件的集合转移学习网络,其模型通过将面部特征的空间方向模式与特定表达相关来模拟人类如何识别面部表达。它由5个子网络组成,每个子网络从面部地标的五个子集中执行转移学习:眉毛,眼睛,鼻子,嘴巴或颌骨表达分类。我们表明我们所提出的集合网络使用从面部肌肉的电机运动发出的视觉模式来预测表达,并展示从面部地标定位转移到面部表情识别的实用性。我们在CK +,Jaffe和SFew数据集上测试所提出的网络,并且它分别优于CK +和Jaffe数据集的基准,分别为0.51%和5.34%。此外,所提出的集合网络仅包括1.65M的型号参数,确保在培训和实时部署期间的计算效率。我们所提出的集合的Grad-Cam可视化突出了其子网的互补性质,是有效集合网络的关键设计参数。最后,交叉数据集评估结果表明,我们建议的集合具有高泛化能力,使其适合现实世界使用。
translated by 谷歌翻译
Despite significant advances, the performance of state-of-the-art continual learning approaches hinges on the unrealistic scenario of fully labeled data. In this paper, we tackle this challenge and propose an approach for continual semi-supervised learning -- a setting where not all the data samples are labeled. An underlying issue in this scenario is the model forgetting representations of unlabeled data and overfitting the labeled ones. We leverage the power of nearest-neighbor classifiers to non-linearly partition the feature space and learn a strong representation for the current task, as well as distill relevant information from previous tasks. We perform a thorough experimental evaluation and show that our method outperforms all the existing approaches by large margins, setting a strong state of the art on the continual semi-supervised learning paradigm. For example, on CIFAR100 we surpass several others even when using at least 30 times less supervision (0.8% vs. 25% of annotations).
translated by 谷歌翻译
实例对象检测在智能监视,视觉导航,人机交互,智能服务和其他字段中扮演重要作用。灵感来自深度卷积神经网络(DCNN)的巨大成功,基于DCNN的实例对象检测已成为一个有前途的研究主题。为了解决DCNN始终需要大规模注释数据集来监督其培训的问题,而手动注释是耗尽和耗时的,我们提出了一种基于共同训练的新框架,称为克自我标记和检测(Gram-SLD) 。建议的克拉姆-SLD可以自动注释大量数据,具有非常有限的手动标记的关键数据并实现竞争性能。在我们的框架中,克朗损失被定义并用于构造两个完全冗余和独立的视图和一个关键的样本选择策略以及自动注释策略,可以全面考虑精度并回忆,以产生高质量的伪标签。 Public Gmu厨房数据集的实验,活动视觉数据集和自制的Bhid-Item DataSetDemonstrite,只有5%的标记训练数据,我们的克斯LLD比较了对象检测中的竞争性能(少于2%的地图丢失)通过完全监督的方法。在具有复杂和变化环境的实际应用中,所提出的方法可以满足实例对象检测的实时和准确性要求。
translated by 谷歌翻译
Recent years witnessed the breakthrough of face recognition with deep convolutional neural networks. Dozens of papers in the field of FR are published every year. Some of them were applied in the industrial community and played an important role in human life such as device unlock, mobile payment, and so on. This paper provides an introduction to face recognition, including its history, pipeline, algorithms based on conventional manually designed features or deep learning, mainstream training, evaluation datasets, and related applications. We have analyzed and compared state-of-the-art works as many as possible, and also carefully designed a set of experiments to find the effect of backbone size and data distribution. This survey is a material of the tutorial named The Practical Face Recognition Technology in the Industrial World in the FG2023.
translated by 谷歌翻译
在本文中,首先,研究了Imagenet预训练对细粒度面部情感识别(FER)的影响,这表明当应用图像的足够增强时,从头开始的训练比ImageNet Pre的微调提供了更好的结果。 -训练。接下来,我们提出了一种改善细粒度和野外FER的方法,称为混合多任务学习(HMTL)。 HMTL以多任务学习(MTL)的形式使用自我监督学习(SSL)作为经典监督学习(SL)期间的辅助任务。在训练过程中利用SSL可以从图像中获得其他信息,以完成主要细粒度SL任务。我们研究了如何在FER域中使用所提出的HMTL,通过设计两种定制版本的普通文本任务技术,令人困惑和涂漆。我们通过两种类型的HMTL在不利用其他数据的情况下,通过两种类型的HMTL在altimnet基准测试上实现了最新的结果。关于常见SSL预训练和提出的HMTL的实验结果证明了我们工作的差异和优势。但是,HMTL不仅限于FER域。对两种类型的细粒面部任务(即头部姿势估计和性别识别)进行的实验揭示了使用HMTL改善细粒度面部表示的潜力。
translated by 谷歌翻译
This work tackles the problem of semi-supervised learning of image classifiers. Our main insight is that the field of semi-supervised learning can benefit from the quickly advancing field of self-supervised visual representation learning. Unifying these two approaches, we propose the framework of self-supervised semi-supervised learning (S 4 L) and use it to derive two novel semi-supervised image classification methods. We demonstrate the effectiveness of these methods in comparison to both carefully tuned baselines, and existing semi-supervised learning methods. We then show that S 4 L and existing semi-supervised methods can be jointly trained, yielding a new state-of-the-art result on semi-supervised ILSVRC-2012 with 10% of labels.
translated by 谷歌翻译