Recent years have witnessed significant growth of face alignment. Though dense facial landmark is highly demanded in various scenarios, e.g., cosmetic medicine and facial beautification, most works only consider sparse face alignment. To address this problem, we present a framework that can enrich landmark density by existing sparse landmark datasets, e.g., 300W with 68 points and WFLW with 98 points. Firstly, we observe that the local patches along each semantic contour are highly similar in appearance. Then, we propose a weakly-supervised idea of learning the refinement ability on original sparse landmarks and adapting this ability to enriched dense landmarks. Meanwhile, several operators are devised and organized together to implement the idea. Finally, the trained model is applied as a plug-and-play module to the existing face alignment networks. To evaluate our method, we manually label the dense landmarks on 300W testset. Our method yields state-of-the-art accuracy not only in newly-constructed dense 300W testset but also in the original sparse 300W and WFLW testsets without additional cost.
translated by 谷歌翻译
The recent progress of CNN has dramatically improved face alignment performance. However, few works have paid attention to the error-bias with respect to error distribution of facial landmarks. In this paper, we investigate the error-bias issue in face alignment, where the distributions of landmark errors tend to spread along the tangent line to landmark curves. This error-bias is not trivial since it is closely connected to the ambiguous landmark labeling task. Inspired by this observation, we seek a way to leverage the error-bias property for better convergence of CNN model. To this end, we propose anisotropic direction loss (ADL) and anisotropic attention module (AAM) for coordinate and heatmap regression, respectively. ADL imposes strong binding force in normal direction for each landmark point on facial boundaries. On the other hand, AAM is an attention module which can get anisotropic attention mask focusing on the region of point and its local edge connected by adjacent points, it has a stronger response in tangent than in normal, which means relaxed constraints in the tangent. These two methods work in a complementary manner to learn both facial structures and texture details. Finally, we integrate them into an optimized end-to-end training pipeline named ADNet. Our ADNet achieves state-of-the-art results on 300W, WFLW and COFW datasets, which demonstrates the effectiveness and robustness.
translated by 谷歌翻译
我们提出了一种新的面部锚和轮廓估计框架,ACE-Net,用于细级面向对准任务。 ACE-NET预测面部锚和轮廓比传统的面部地标更丰富,同时克服了他们的定义中的含糊不清和不一致。我们介绍了一个弱监督的损失,使ACE-Net能够从现有的面部地标数据集中学习,而无需进口。相反,在训练期间使用从该合成数据,从该合成数据可以容易地获得GT轮廓,以弥合地标和真正的面部轮廓之间的密度差距。我们对Helen DataSet的ACE-Net的面对对准精度进行了评估,其中具有194个注释的面部地标,而且它仅培训了来自300 W数据集的68或36个地标。我们表明ACE-Net生成的轮廓优于直接来自68 GT地标和ACE-NET的轮廓更优于从GT地标的轮廓的完全监督培训的型号。
translated by 谷歌翻译
本文提出了一种名为定位变压器(LOTR)的新型变压器的面部地标定位网络。所提出的框架是一种直接坐标回归方法,利用变压器网络以更好地利用特征图中的空间信息。 LOTR模型由三个主要模块组成:1)将输入图像转换为特征图的视觉骨干板,2)改进Visual Backone的特征表示,以及3)直接预测的地标预测头部的变压器模块来自变压器的代表的地标坐标。给定裁剪和对齐的面部图像,所提出的LOTR可以训练结束到底,而无需任何后处理步骤。本文还介绍了光滑翼损失功能,它解决了机翼损耗的梯度不连续性,导致比L1,L2和机翼损耗等标准损耗功能更好地收敛。通过106点面部地标定位的第一个大挑战提供的JD地标数据集的实验结果表明了LOTR在排行榜上的现有方法和最近基于热爱的方法的优势。在WFLW DataSet上,所提出的Lotr框架与若干最先进的方法相比,展示了有希望的结果。此外,我们在使用我们提出的LOTRS面向对齐时,我们报告了最先进的面部识别性能的提高。
translated by 谷歌翻译
目前全面监督的面部地标检测方法迅速进行,实现了显着性能。然而,当在大型姿势和重闭合的面孔和重闭合时仍然遭受痛苦,以进行不准确的面部形状约束,并且标记的训练样本不足。在本文中,我们提出了一个半监督框架,即自我校准的姿势注意网络(SCPAN),以实现更具挑战性的情景中的更强大和精确的面部地标检测。具体地,建议通过定影边界和地标强度场信息来模拟更有效的面部形状约束的边界意识的地标强度(BALI)字段。此外,设计了一种自我校准的姿势注意力(SCPA)模型,用于提供自学习的目标函数,该功能通过引入自校准机制和姿势注意掩模而无需标签信息而无需标签信息。我们认为,通过将巴厘岛领域和SCPA模型集成到新颖的自我校准的姿势网络中,可以了解更多的面部现有知识,并且我们的面孔方法的检测精度和稳健性得到了改善。获得具有挑战性的基准数据集获得的实验结果表明,我们的方法优于文献中最先进的方法。
translated by 谷歌翻译
面部地标检测是许多面部图像分析应用的重要步骤。虽然基于深入的学习的方法在此任务中取得了良好的性能,但它们通常不适合在移动设备上运行。这些方法依赖于具有许多参数的网络,这使得训练和推动耗时。培训轻量级神经网络,如移动单元往往是具有挑战性的,并且模型可能具有低的准确性。通过知识蒸馏(KD)的启发,本文提出了一种新的损失函数,用于培养用于面部地标检测的轻量级学生网络(例如MobileNetv2)。我们与学生网络一起使用两个教师网络,宽容教师和艰难的老师。宽容老师使用主动形状模型创建的软标志培训,而艰难的老师使用地面真理(AKA硬质标)训练。为了利用教师网络预测的面部地标点,我们为每个教师网络定义辅助丢失(alloss)。此外,我们定义称为KD损失的损失函数,它利用两个预先训练的教师网络(AfficesTET-B3)预测的面部地标点来指导轻量级学生网络朝向预测硬质标志。我们对三个挑战性面部数据集的实验结果表明,拟议的架构将导致培训的学生网络,可以高精度提取面部地标点。
translated by 谷歌翻译
在面部地标定位任务中,各种遮挡由于面部特征的部分可观察性,各种闭塞性严重降低了定位精度。本文提出了一种用于遮挡强大的地标定位的结构关系网络(SRN)。与只需利用形状约束的大多数现有方法不同,所提出的SRN旨在捕捉不同面部部件之间的结构关系。这些关系可以被认为是对遮挡的更强大的形状约束。为实现这一点,分层结构关系模块(HSRM)被设计成分层原因,结构关系代表长距离空间依赖性的结构关系。与现有网络架构相比,HSRM可以通过利用其几何感知网络架构有效地模拟空间关系,这减少了由遮挡引起的语义模糊性。此外,SRN通过合成封闭面来增强训练数据。为了进一步扩展我们的SRN以进行遮挡视频数据,我们将闭塞面为Markov决策过程(MDP)制定。具体地,它计划基于与预训练的SRN的性能劣化相关的累积奖励来移动动态遮挡的移动。此程序增加了强大的面部地标跟踪的硬样品。广泛的实验结果表明,该方法在遮挡和遮蔽面上取得了出色的性能。代码在https://github.com/zhuccly/srn获得。
translated by 谷歌翻译
Though tremendous strides have been made in uncontrolled face detection, accurate and efficient 2D face alignment and 3D face reconstruction in-the-wild remain an open challenge. In this paper, we present a novel singleshot, multi-level face localisation method, named Reti-naFace, which unifies face box prediction, 2D facial landmark localisation and 3D vertices regression under one common target: point regression on the image plane. To fill the data gap, we manually annotated five facial landmarks on the WIDER FACE dataset and employed a semiautomatic annotation pipeline to generate 3D vertices for face images from the WIDER FACE, AFLW and FDDB datasets. Based on extra annotations, we propose a mutually beneficial regression target for 3D face reconstruction, that is predicting 3D vertices projected on the image plane constrained by a common 3D topology. The proposed 3D face reconstruction branch can be easily incorporated, without any optimisation difficulty, in parallel with the existing box and 2D landmark regression branches during joint training. Extensive experimental results show that Reti-naFace can simultaneously achieve stable face detection, accurate 2D face alignment and robust 3D face reconstruction while being efficient through single-shot inference.
translated by 谷歌翻译
准确的面部标志是许多与人面孔有关的任务的重要先决条件。在本文中,根据级联变压器提出了精确的面部标志性检测器。我们将面部标志性检测作为坐标回归任务,以便可以端对端训练该模型。通过在变压器中的自我注意力,我们的模型可以固有地利用地标之间的结构化关系,这将受益于在挑战性条件(例如大姿势和遮挡)下具有里程碑意义的检测。在级联精炼期间,我们的模型能够根据可变形的注意机制提取目标地标周围的最相关图像特征,以进行坐标预测,从而带来更准确的对齐。此外,我们提出了一个新颖的解码器,可以同时完善图像特征和地标性位置。随着参数增加,检测性能进一步提高。我们的模型在几个标准的面部标准检测基准上实现了新的最新性能,并在跨数据库评估中显示出良好的概括能力。
translated by 谷歌翻译
解剖标志的本地化对于临床诊断,治疗计划和研究至关重要。在本文中,我们提出了一种新的深网络,名为特征聚合和细化网络(Farnet),用于自动检测解剖标记。为了减轻医疗领域的培训数据有限的问题,我们的网络采用了在自然图像上预先培训的深网络,因为骨干网络和几个流行的网络进行了比较。我们的FARNET还包括多尺度特征聚合模块,用于多尺度特征融合和用于高分辨率热图回归的特征精制模块。粗细的监督应用于两个模块,以方便端到端培训。我们进一步提出了一种名为指数加权中心损耗的新型损失函数,用于准确的热爱回归,这侧重于地标附近的像素的损失并抑制了远处的损失。我们的网络已经在三个公开的解剖学地标检测数据集中进行了评估,包括头部测量射线照片,手射线照片和脊柱射线照相,并在所有三个数据集上实现最先进的性能。代码可用:\ url {https://github.com/juvenileinwind/farnet}
translated by 谷歌翻译
我们提出了一种新颖的形状意识的关系网络,用于内窥镜粘膜颌下粘膜释放(ESD)手术中的准确和实时地标检测。这项任务具有很大的临床意义,但由于复杂的手术环境中出血,照明反射和运动模糊而极其挑战。与现有解决方案相比,通过使用复杂的聚合方案忽略靶向对象之间的几何关系或捕获关系,所提出的网络能够实现令人满意的精度,同时通过充分利用地标之间的空间关系来保持实时性能。我们首先设计一种算法来自动生成关系关键点热量表,其能够直观地代表地标之间的空间关系的先验知识,而无需使用任何额外的手动注释工作。然后,我们开发两个互补正规计划,以逐步将先验知识纳入培训过程。虽然一个方案通过多任务学习引入像素级正则化,但另一个方案通过利用新设计的分组的一致性评估器来实现全局级正则化,该评估将关系约束以越野方式添加到所提出的网络。这两个方案都有利于训练模型,并且可以随时推动才能卸载,以实现实时检测。我们建立了一个大型内部数据集的ESD手术,用于食管癌,以验证我们提出的方法的有效性。广泛的实验结果表明,我们的方法在准确性和效率方面优于最先进的方法,更快地实现了更好的检测结果。在两个下游应用的有希望的结果进一步证实了我们在ESD临床实践中的方法的巨大潜力。
translated by 谷歌翻译
本文提出了一个改进金字塔变压器(复制器),以进行健壮的面部标志性检测。大多数面部地标探测器都专注于学习代表性图像特征。但是,这些基于CNN的功能表示不足以处理复杂的现实世界情景,因为忽略了地标的内部结构以及地标和环境之间的关系。在这项工作中,我们制定了面部标志性检测任务,作为沿金字塔记忆的提炼里程碑式的查询。具体而言,引入了金字塔变压器头(PTH),以在地标之间建立同源关系,以及地标和跨尺度环境之间的异源关系。此外,动态里程碑改进(DLR)模块旨在将地标回归分解为端到端的细化过程,其中动态聚合的查询被转换为残留坐标预测。对四个面部标志检测基准及其各种子集进行的广泛实验结果表明,我们的框架具有卓越的性能和较高的鲁棒性。
translated by 谷歌翻译
本文调查了2D全身人类姿势估计的任务,该任务旨在将整个人体(包括身体,脚,脸部和手)局部定位在整个人体上。我们提出了一种称为Zoomnet的单网络方法,以考虑到完整人体的层次结构,并解决不同身体部位的规模变化。我们进一步提出了一个称为Zoomnas的神经体系结构搜索框架,以促进全身姿势估计的准确性和效率。Zoomnas共同搜索模型体系结构和不同子模块之间的连接,并自动为搜索的子模块分配计算复杂性。为了训练和评估Zoomnas,我们介绍了第一个大型2D人类全身数据集,即可可叶全体V1.0,它注释了133个用于野外图像的关键点。广泛的实验证明了Zoomnas的有效性和可可叶v1.0的重要性。
translated by 谷歌翻译
我们考虑了多视图3D面部重建(MVR)的问题,该问题具有弱监督的学习,该学习利用有限数量的2D脸部图像(例如3)生成具有非常光注释的高质量3D面部模型。尽管其表现令人鼓舞,但现在的MVR方法简单地加入了多视图图像特征,而对关键区域(例如眼睛,眉毛,鼻子和嘴巴)的关注更少。为此,我们提出了一个名为Deep Fusion MVR(DF-MVR)的新型模型,并设计了具有跳过连接的单个解码框架的多视图编码,能够提取,集成和补偿深层特征,并从多视图中注意图片。此外,我们开发了一个多视图面对解析网络,以学习,识别和强调关键的共同面部领域。最后,尽管我们的模型经过了几个2D图像的训练,但即使输入一个2D图像,它也可以重建准确的3D模型。我们进行了广泛的实验,以评估各种多视图3D面部重建方法。对像素面和Bosphorus数据集的实验表明了我们的模型的优势。如果没有3D地标注释,DF-MVR分别比现有最佳弱监督的MVR在像素 - 脸和Bosphorus数据集上分别实现了5.2%和3.0%的RMSE改善;有了3D地标注释,DF-MVR在Pixel-Face数据集上的表现出色,与最佳弱监督MVR模型相比,RMSE改善13.4%。
translated by 谷歌翻译
尽管深度神经网络在解决面部对齐方面取得了合理的准确性,但它仍然是一项艰巨的任务,特别是当我们处理面部图像,闭塞或极端头部姿势时。基于热图的回归(HBR)和基于坐标的回归(CBR)是面部比对的两种主要使用方法之一。 CBR方法需要更少的计算机内存,尽管它们的性能小于HBR方法。在本文中,我们提出了一种基于自适应坐标的回归(ACR)损失,以提高CBR对面对对准的准确性。受主动形状模型(ASM)的启发,我们生成平滑面对象,与地面真相标记点相比,一组面部标志点具有更少的变化。然后,我们引入了一种方法来估计通过比较地面真相标记点和相应的平滑面对象的分布来预测网络的每个地标点的难度水平。我们提出的ACR损失可以根据预测面部中每个地标点的难度水平来适应其曲率和损失的影响。因此,ACR损失指导网络朝着具有挑战性的点而不是更容易的点,这提高了面部对齐任务的准确性。我们的广泛评估表明,拟议的ACR损失在预测各种面部图像中的面部标志点方面的能力。
translated by 谷歌翻译
人工智能(AI)技术越来越多地用于数字正畸性,但其中一个挑战是自动准确地检测牙齿标志和轴。这部分是因为它们的复杂几何定义,部分原因是各个齿之间的大变化以及跨越不同类型的牙齿。因此,我们提出了一种深入的学习方法,通过专业牙医与标签数据集进行标记的数据集,以对牙齿模型的牙齿地标/轴检测,这对正畸治疗至关重要。我们的方法可以不仅提取点(例如CUSP)的形式提取牙齿地标,而且还可以提取牙齿地标,而且还可以测量牙齿角度和倾斜的轴。所提出的网络作为输入3D齿模型,并预测各种类型的牙齿地标和轴。具体地,我们将地标和轴编码为在齿模型表面上定义的致密字段。这种设计选择和一组添加的组件使得所提出的网络更适合于从给定的3D齿模型提取稀疏地标。对所提出的方法进行广泛评估,在经验丰富的牙医制备的一套牙科模型上进行。结果表明,我们的方法可以高精度地生产牙齿地标。我们通过与最先进的方法以及烧蚀研究进行了研究和证明我们的方法。
translated by 谷歌翻译
Face Restoration (FR) aims to restore High-Quality (HQ) faces from Low-Quality (LQ) input images, which is a domain-specific image restoration problem in the low-level computer vision area. The early face restoration methods mainly use statistic priors and degradation models, which are difficult to meet the requirements of real-world applications in practice. In recent years, face restoration has witnessed great progress after stepping into the deep learning era. However, there are few works to study deep learning-based face restoration methods systematically. Thus, this paper comprehensively surveys recent advances in deep learning techniques for face restoration. Specifically, we first summarize different problem formulations and analyze the characteristic of the face image. Second, we discuss the challenges of face restoration. Concerning these challenges, we present a comprehensive review of existing FR methods, including prior based methods and deep learning-based methods. Then, we explore developed techniques in the task of FR covering network architectures, loss functions, and benchmark datasets. We also conduct a systematic benchmark evaluation on representative methods. Finally, we discuss future directions, including network designs, metrics, benchmark datasets, applications,etc. We also provide an open-source repository for all the discussed methods, which is available at https://github.com/TaoWangzj/Awesome-Face-Restoration.
translated by 谷歌翻译
基于Heatmap回归的深度学习模型彻底改变了面部地标定位的任务,现有模型在大型姿势,非均匀照明和阴影,闭塞和自闭合,低分辨率和模糊。然而,尽管采用了广泛的采用,Heatmap回归方法遭受与热图编码和解码过程相关的离散化引起的误差。在这项工作中,我们表明这些误差对面部对准精度具有令人惊讶的大量负面影响。为了减轻这个问题,我们通过利用底层连续分布提出了一种热爱编码和解码过程的新方法。为了充分利用新提出的编码解码机制,我们还介绍了基于暹罗的训练,该训练能够在各种几何图像变换上实施热线图一致性。我们的方法在多个数据集中提供了明显的增益,在面部地标本地化中设置新的最先进的结果。旁边的代码将在https://www.adrianbulat.com/face-alignment上提供
translated by 谷歌翻译
在本文中,我们考虑了同时找到和从单个2D图像中恢复多手的具有挑战性的任务。先前的研究要么关注单手重建,要么以多阶段的方式解决此问题。此外,常规的两阶段管道首先检测到手部区域,然后估计每个裁剪贴片的3D手姿势。为了减少预处理和特征提取中的计算冗余,我们提出了一条简洁但有效的单阶段管道。具体而言,我们为多手重建设计了多头自动编码器结构,每个HEAD网络分别共享相同的功能图并分别输出手动中心,姿势和纹理。此外,我们采用了一个弱监督的计划来减轻昂贵的3D现实世界数据注释的负担。为此,我们提出了一系列通过舞台训练方案优化的损失,其中根据公开可用的单手数据集生成具有2D注释的多手数据集。为了进一步提高弱监督模型的准确性,我们在单手和多个手设置中采用了几个功能一致性约束。具体而言,从本地功能估算的每只手的关键点应与全局功能预测的重新投影点一致。在包括Freihand,HO3D,Interhand 2.6M和RHD在内的公共基准测试的广泛实验表明,我们的方法在弱监督和完全监督的举止中优于基于最先进的模型方法。代码和模型可在{\ url {https://github.com/zijinxuxu/smhr}}上获得。
translated by 谷歌翻译
大多数现有方法将化妆转移视为不同面部区域的颜色分布,而忽略了眼影和腮红等细节。此外,它们仅在预定义的固定区域内实现可控的转移。本文强调了化妆细节和朝着更灵活的控制措施的转移。为此,我们提出了精致且本地可编辑的gan化妆转移(优雅)。它将面部属性编码为锥体特征图,以保留高频信息。它利用注意力从参考中提取化妆特征并将其调整到源面上,我们引入了一个新颖的SOW意见模块,该模块将注意力应用于移动的重叠窗口中以降低计算成本。此外,Elegant是第一个通过在功能地图上进行对应编辑在任意区域内实现定制本地编辑的人。广泛的实验表明,Elegant可以通过精美的细节生成逼真的妆容面孔,并实现最先进的表现。该代码可从https://github.com/chenyu-yang-2000/elegant获得。
translated by 谷歌翻译