在面部地标定位任务中,各种遮挡由于面部特征的部分可观察性,各种闭塞性严重降低了定位精度。本文提出了一种用于遮挡强大的地标定位的结构关系网络(SRN)。与只需利用形状约束的大多数现有方法不同,所提出的SRN旨在捕捉不同面部部件之间的结构关系。这些关系可以被认为是对遮挡的更强大的形状约束。为实现这一点,分层结构关系模块(HSRM)被设计成分层原因,结构关系代表长距离空间依赖性的结构关系。与现有网络架构相比,HSRM可以通过利用其几何感知网络架构有效地模拟空间关系,这减少了由遮挡引起的语义模糊性。此外,SRN通过合成封闭面来增强训练数据。为了进一步扩展我们的SRN以进行遮挡视频数据,我们将闭塞面为Markov决策过程(MDP)制定。具体地,它计划基于与预训练的SRN的性能劣化相关的累积奖励来移动动态遮挡的移动。此程序增加了强大的面部地标跟踪的硬样品。广泛的实验结果表明,该方法在遮挡和遮蔽面上取得了出色的性能。代码在https://github.com/zhuccly/srn获得。
translated by 谷歌翻译
目前全面监督的面部地标检测方法迅速进行,实现了显着性能。然而,当在大型姿势和重闭合的面孔和重闭合时仍然遭受痛苦,以进行不准确的面部形状约束,并且标记的训练样本不足。在本文中,我们提出了一个半监督框架,即自我校准的姿势注意网络(SCPAN),以实现更具挑战性的情景中的更强大和精确的面部地标检测。具体地,建议通过定影边界和地标强度场信息来模拟更有效的面部形状约束的边界意识的地标强度(BALI)字段。此外,设计了一种自我校准的姿势注意力(SCPA)模型,用于提供自学习的目标函数,该功能通过引入自校准机制和姿势注意掩模而无需标签信息而无需标签信息。我们认为,通过将巴厘岛领域和SCPA模型集成到新颖的自我校准的姿势网络中,可以了解更多的面部现有知识,并且我们的面孔方法的检测精度和稳健性得到了改善。获得具有挑战性的基准数据集获得的实验结果表明,我们的方法优于文献中最先进的方法。
translated by 谷歌翻译
准确的面部标志是许多与人面孔有关的任务的重要先决条件。在本文中,根据级联变压器提出了精确的面部标志性检测器。我们将面部标志性检测作为坐标回归任务,以便可以端对端训练该模型。通过在变压器中的自我注意力,我们的模型可以固有地利用地标之间的结构化关系,这将受益于在挑战性条件(例如大姿势和遮挡)下具有里程碑意义的检测。在级联精炼期间,我们的模型能够根据可变形的注意机制提取目标地标周围的最相关图像特征,以进行坐标预测,从而带来更准确的对齐。此外,我们提出了一个新颖的解码器,可以同时完善图像特征和地标性位置。随着参数增加,检测性能进一步提高。我们的模型在几个标准的面部标准检测基准上实现了新的最新性能,并在跨数据库评估中显示出良好的概括能力。
translated by 谷歌翻译
The recent progress of CNN has dramatically improved face alignment performance. However, few works have paid attention to the error-bias with respect to error distribution of facial landmarks. In this paper, we investigate the error-bias issue in face alignment, where the distributions of landmark errors tend to spread along the tangent line to landmark curves. This error-bias is not trivial since it is closely connected to the ambiguous landmark labeling task. Inspired by this observation, we seek a way to leverage the error-bias property for better convergence of CNN model. To this end, we propose anisotropic direction loss (ADL) and anisotropic attention module (AAM) for coordinate and heatmap regression, respectively. ADL imposes strong binding force in normal direction for each landmark point on facial boundaries. On the other hand, AAM is an attention module which can get anisotropic attention mask focusing on the region of point and its local edge connected by adjacent points, it has a stronger response in tangent than in normal, which means relaxed constraints in the tangent. These two methods work in a complementary manner to learn both facial structures and texture details. Finally, we integrate them into an optimized end-to-end training pipeline named ADNet. Our ADNet achieves state-of-the-art results on 300W, WFLW and COFW datasets, which demonstrates the effectiveness and robustness.
translated by 谷歌翻译
本文提出了一种名为定位变压器(LOTR)的新型变压器的面部地标定位网络。所提出的框架是一种直接坐标回归方法,利用变压器网络以更好地利用特征图中的空间信息。 LOTR模型由三个主要模块组成:1)将输入图像转换为特征图的视觉骨干板,2)改进Visual Backone的特征表示,以及3)直接预测的地标预测头部的变压器模块来自变压器的代表的地标坐标。给定裁剪和对齐的面部图像,所提出的LOTR可以训练结束到底,而无需任何后处理步骤。本文还介绍了光滑翼损失功能,它解决了机翼损耗的梯度不连续性,导致比L1,L2和机翼损耗等标准损耗功能更好地收敛。通过106点面部地标定位的第一个大挑战提供的JD地标数据集的实验结果表明了LOTR在排行榜上的现有方法和最近基于热爱的方法的优势。在WFLW DataSet上,所提出的Lotr框架与若干最先进的方法相比,展示了有希望的结果。此外,我们在使用我们提出的LOTRS面向对齐时,我们报告了最先进的面部识别性能的提高。
translated by 谷歌翻译
来自静态图像的面部表情识别是计算机视觉应用中的一个具有挑战性的问题。卷积神经网络(CNN),用于各种计算机视觉任务的最先进的方法,在预测具有极端姿势,照明和闭塞条件的面部的表达式中已经有限。为了缓解这个问题,CNN通常伴随着传输,多任务或集合学习等技术,这些技术通常以增加的计算复杂性的成本提供高精度。在这项工作中,我们提出了一种基于零件的集合转移学习网络,其模型通过将面部特征的空间方向模式与特定表达相关来模拟人类如何识别面部表达。它由5个子网络组成,每个子网络从面部地标的五个子集中执行转移学习:眉毛,眼睛,鼻子,嘴巴或颌骨表达分类。我们表明我们所提出的集合网络使用从面部肌肉的电机运动发出的视觉模式来预测表达,并展示从面部地标定位转移到面部表情识别的实用性。我们在CK +,Jaffe和SFew数据集上测试所提出的网络,并且它分别优于CK +和Jaffe数据集的基准,分别为0.51%和5.34%。此外,所提出的集合网络仅包括1.65M的型号参数,确保在培训和实时部署期间的计算效率。我们所提出的集合的Grad-Cam可视化突出了其子网的互补性质,是有效集合网络的关键设计参数。最后,交叉数据集评估结果表明,我们建议的集合具有高泛化能力,使其适合现实世界使用。
translated by 谷歌翻译
我们提出了一种用于多图像域和小型数据集面部定位的多个图像定义学习的新方法。培训小型数据集和大型(R)数据集并为前者提供了强大的学习,并为新标准数据集提供了面部地标本地化的通用机制。为此,我们提出了一个具有新颖的解码器的视觉变压器编码器,其定义不可知的具有里程碑意义的语义群体结构为先验,这是在我们同时在多个数据集上进行训练时所学的。由于我们新颖的定义不可知论群体,数据集可能在具有里程碑意义的定义和域上有所不同。在解码器阶段,我们使用交叉和自我注意力,其输出后来将其输入到域/定义特定的头部,从而最大程度地减少了laplacian-log类损失。当使用较大的数据集接受培训时,我们在标准地标本地化数据集(例如COFW和WFLW)上实现了最先进的性能。我们还在几个不同的图像域上显示了最先进的性能,用于动物,漫画和面部肖像画。此外,我们为Pareidolias的一个小数据集(150张图像)贡献了我们方法的功效。最后,我们提供了几项分析和消融研究,以证明我们的主张是合理的。
translated by 谷歌翻译
本文调查了2D全身人类姿势估计的任务,该任务旨在将整个人体(包括身体,脚,脸部和手)局部定位在整个人体上。我们提出了一种称为Zoomnet的单网络方法,以考虑到完整人体的层次结构,并解决不同身体部位的规模变化。我们进一步提出了一个称为Zoomnas的神经体系结构搜索框架,以促进全身姿势估计的准确性和效率。Zoomnas共同搜索模型体系结构和不同子模块之间的连接,并自动为搜索的子模块分配计算复杂性。为了训练和评估Zoomnas,我们介绍了第一个大型2D人类全身数据集,即可可叶全体V1.0,它注释了133个用于野外图像的关键点。广泛的实验证明了Zoomnas的有效性和可可叶v1.0的重要性。
translated by 谷歌翻译
Recent years have witnessed significant growth of face alignment. Though dense facial landmark is highly demanded in various scenarios, e.g., cosmetic medicine and facial beautification, most works only consider sparse face alignment. To address this problem, we present a framework that can enrich landmark density by existing sparse landmark datasets, e.g., 300W with 68 points and WFLW with 98 points. Firstly, we observe that the local patches along each semantic contour are highly similar in appearance. Then, we propose a weakly-supervised idea of learning the refinement ability on original sparse landmarks and adapting this ability to enriched dense landmarks. Meanwhile, several operators are devised and organized together to implement the idea. Finally, the trained model is applied as a plug-and-play module to the existing face alignment networks. To evaluate our method, we manually label the dense landmarks on 300W testset. Our method yields state-of-the-art accuracy not only in newly-constructed dense 300W testset but also in the original sparse 300W and WFLW testsets without additional cost.
translated by 谷歌翻译
Face Restoration (FR) aims to restore High-Quality (HQ) faces from Low-Quality (LQ) input images, which is a domain-specific image restoration problem in the low-level computer vision area. The early face restoration methods mainly use statistic priors and degradation models, which are difficult to meet the requirements of real-world applications in practice. In recent years, face restoration has witnessed great progress after stepping into the deep learning era. However, there are few works to study deep learning-based face restoration methods systematically. Thus, this paper comprehensively surveys recent advances in deep learning techniques for face restoration. Specifically, we first summarize different problem formulations and analyze the characteristic of the face image. Second, we discuss the challenges of face restoration. Concerning these challenges, we present a comprehensive review of existing FR methods, including prior based methods and deep learning-based methods. Then, we explore developed techniques in the task of FR covering network architectures, loss functions, and benchmark datasets. We also conduct a systematic benchmark evaluation on representative methods. Finally, we discuss future directions, including network designs, metrics, benchmark datasets, applications,etc. We also provide an open-source repository for all the discussed methods, which is available at https://github.com/TaoWangzj/Awesome-Face-Restoration.
translated by 谷歌翻译
Fine-grained semantic segmentation of a person's face and head, including facial parts and head components, has progressed a great deal in recent years. However, it remains a challenging task, whereby considering ambiguous occlusions and large pose variations are particularly difficult. To overcome these difficulties, we propose a novel framework termed Mask-FPAN. It uses a de-occlusion module that learns to parse occluded faces in a semi-supervised way. In particular, face landmark localization, face occlusionstimations, and detected head poses are taken into account. A 3D morphable face model combined with the UV GAN improves the robustness of 2D face parsing. In addition, we introduce two new datasets named FaceOccMask-HQ and CelebAMaskOcc-HQ for face paring work. The proposed Mask-FPAN framework addresses the face parsing problem in the wild and shows significant performance improvements with MIOU from 0.7353 to 0.9013 compared to the state-of-the-art on challenging face datasets.
translated by 谷歌翻译
Recent years witnessed the breakthrough of face recognition with deep convolutional neural networks. Dozens of papers in the field of FR are published every year. Some of them were applied in the industrial community and played an important role in human life such as device unlock, mobile payment, and so on. This paper provides an introduction to face recognition, including its history, pipeline, algorithms based on conventional manually designed features or deep learning, mainstream training, evaluation datasets, and related applications. We have analyzed and compared state-of-the-art works as many as possible, and also carefully designed a set of experiments to find the effect of backbone size and data distribution. This survey is a material of the tutorial named The Practical Face Recognition Technology in the Industrial World in the FG2023.
translated by 谷歌翻译
从单个图像的面部图像动画取得了显着的进展。然而,当只有稀疏的地标作为驱动信号时,它仍然具有挑战性。鉴于源人面部图像和一系列稀疏面部地标,我们的目标是生成模仿地标运动的脸部的视频。我们开发了一种高效有效的方法,用于从稀疏地标到面部图像的运动转移。然后,我们将全局和局部运动估计结合在统一的模型中以忠实地传输运动。该模型可以学习从背景中分割移动前景并不仅产生全局运动,例如面部的旋转和翻译,还可以微妙地进行诸如凝视变化的局部运动。我们进一步改善了视频的面部地标检测。随着时间上更好地对齐的训练的标志性序列,我们的方法可以产生具有更高视觉质量的时间相干视频。实验表明,我们实现了与最先进的图像驱动方法相当的结果,在相同的身份测试和交叉标识测试上的更好结果。
translated by 谷歌翻译
基于Heatmap回归的深度学习模型彻底改变了面部地标定位的任务,现有模型在大型姿势,非均匀照明和阴影,闭塞和自闭合,低分辨率和模糊。然而,尽管采用了广泛的采用,Heatmap回归方法遭受与热图编码和解码过程相关的离散化引起的误差。在这项工作中,我们表明这些误差对面部对准精度具有令人惊讶的大量负面影响。为了减轻这个问题,我们通过利用底层连续分布提出了一种热爱编码和解码过程的新方法。为了充分利用新提出的编码解码机制,我们还介绍了基于暹罗的训练,该训练能够在各种几何图像变换上实施热线图一致性。我们的方法在多个数据集中提供了明显的增益,在面部地标本地化中设置新的最先进的结果。旁边的代码将在https://www.adrianbulat.com/face-alignment上提供
translated by 谷歌翻译
本文提出了一个改进金字塔变压器(复制器),以进行健壮的面部标志性检测。大多数面部地标探测器都专注于学习代表性图像特征。但是,这些基于CNN的功能表示不足以处理复杂的现实世界情景,因为忽略了地标的内部结构以及地标和环境之间的关系。在这项工作中,我们制定了面部标志性检测任务,作为沿金字塔记忆的提炼里程碑式的查询。具体而言,引入了金字塔变压器头(PTH),以在地标之间建立同源关系,以及地标和跨尺度环境之间的异源关系。此外,动态里程碑改进(DLR)模块旨在将地标回归分解为端到端的细化过程,其中动态聚合的查询被转换为残留坐标预测。对四个面部标志检测基准及其各种子集进行的广泛实验结果表明,我们的框架具有卓越的性能和较高的鲁棒性。
translated by 谷歌翻译
面部地标检测是许多面部图像分析应用的重要步骤。虽然基于深入的学习的方法在此任务中取得了良好的性能,但它们通常不适合在移动设备上运行。这些方法依赖于具有许多参数的网络,这使得训练和推动耗时。培训轻量级神经网络,如移动单元往往是具有挑战性的,并且模型可能具有低的准确性。通过知识蒸馏(KD)的启发,本文提出了一种新的损失函数,用于培养用于面部地标检测的轻量级学生网络(例如MobileNetv2)。我们与学生网络一起使用两个教师网络,宽容教师和艰难的老师。宽容老师使用主动形状模型创建的软标志培训,而艰难的老师使用地面真理(AKA硬质标)训练。为了利用教师网络预测的面部地标点,我们为每个教师网络定义辅助丢失(alloss)。此外,我们定义称为KD损失的损失函数,它利用两个预先训练的教师网络(AfficesTET-B3)预测的面部地标点来指导轻量级学生网络朝向预测硬质标志。我们对三个挑战性面部数据集的实验结果表明,拟议的架构将导致培训的学生网络,可以高精度提取面部地标点。
translated by 谷歌翻译
生成对抗网络(GAN)的最近成功在面部动画任务方面取得了很大进展。然而,面部图像的复杂场景结构仍然使得产生具有显着偏离源图像的面部姿势的视频的挑战。一方面,在不知道面部几何结构的情况下,生成的面部图像可能被扭曲不当。另一方面,所生成的图像的一些区域可以在源图像中封闭,这使得GaN难以产生现实的外观。为了解决这些问题,我们提出了一种结构意识的面部动画(SAFA)方法,其构造特定的几何结构,以模拟面部图像的不同组件。在识别良好的基于​​运动的面部动画技术之后,我们使用3D可变模型(3dmm)来模拟面部,多个仿射变换,以模拟其他前景组件,如头发和胡须,以及模拟背景的身份变换。 3DMM几何嵌入不仅有助于为驾驶场景产生现实结构,而且有助于更好地感知所生成的图像中的遮挡区域。此外,我们进一步建议利用广泛研究的初探技术忠实地恢复封闭的图像区域。定量和定性实验结果都显示出我们方法的优越性。代码可在https://github.com/qiulin-w/safa获得。
translated by 谷歌翻译
先前的工作表明,使用顺序学习者学习面部不同组成部分的顺序可以在面部表达识别系统的性能中发挥重要作用。我们提出了Facetoponet,这是面部表达识别的端到端深层模型,它能够学习面部有效的树拓扑。然后,我们的模型遍历学习的树以生成序列,然后将其用于形成嵌入以喂养顺序学习者。设计的模型采用一个流进行学习结构,并为学习纹理提供一个流。结构流着重于面部地标的位置,而纹理流的主要重点是在地标周围的斑块上学习纹理信息。然后,我们通过利用有效的基于注意力的融合策略来融合两个流的输出。我们对四个大型内部面部表达数据集进行了广泛的实验 - 即Alltionnet,FER2013,ExpW和RAF-DB,以及一个实验室控制的数据集(CK+)来评估我们的方法。 Facetoponet在五个数据集中的三个数据集中达到了最新的性能,并在其他两个数据集中获得了竞争结果。我们还执行严格的消融和灵敏度实验,以评估模型中不同组件和参数的影响。最后,我们执行鲁棒性实验,并证明与该地区其他领先方法相比,Facetoponet对阻塞更具稳健性。
translated by 谷歌翻译
微表达(MES)是非自愿的面部运动,揭示了人们在高利害情况下隐藏的感受,并对医疗,国家安全,审讯和许多人机交互系统具有实际重要性。早期的MER方法主要基于传统的外观和几何特征。最近,随着各种领域的深度学习(DL)的成功,神经网络已得到MER的兴趣。不同于宏观表达,MES是自发的,微妙的,快速的面部运动,导致数据收集困难,因此具有小规模的数据集。由于上述我的角色,基于DL的MER变得挑战。迄今为止,已提出各种DL方法来解决我的问题并提高MER表现。在本调查中,我们对深度微表达识别(MER)进行了全面的审查,包括数据集,深度MER管道和最具影响力方法的基准标记。本调查定义了该领域的新分类法,包括基于DL的MER的所有方面。对于每个方面,总结和讨论了基本方法和高级发展。此外,我们得出了坚固的深层MER系统设计的剩余挑战和潜在方向。据我们所知,这是对深度MEL方法的第一次调查,该调查可以作为未来MER研究的参考点。
translated by 谷歌翻译