由于对人工智能的大量解释,我们日常生活的各个领域都使用了机器学习技术。在世界上,在许多情况下,可以预防简单的犯罪,甚至可能发生或找到对此负责的人。面孔是我们拥有的一个独特特征,并且可以轻松区分许多其他物种。但是,不仅不同的物种,它在确定与我们同一物种的人的人类中也起着重要作用。关于这个关键功能,如今最常发生一个问题。当相机指向时,它无法检测到一个人的脸,并且变成了糟糕的图像。另一方面,在安装了抢劫和安全摄像头的地方,由于较低的摄像头,强盗的身份几乎无法区分。但是,仅制作出出色的算法来工作和检测面部就会降低硬件的成本,而专注于该领域的成本并不多。面部识别,小部件控制等可以通过正确检测到面部来完成。这项研究旨在创建和增强正确识别面孔的机器学习模型。总共有627个数据是从孟加拉国不同的四个天使的面孔中收集的。在这项工作中,CNN,Harr Cascade,Cascaded CNN,Deep CNN和MTCNN是实施的五种机器学习方法,以获得我们数据集的最佳准确性。创建和运行模型后,多任务卷积神经网络(MTCNN)通过培训数据而不是其他机器学习模型实现了96.2%的最佳模型精度。
translated by 谷歌翻译
Though tremendous strides have been made in uncontrolled face detection, accurate and efficient 2D face alignment and 3D face reconstruction in-the-wild remain an open challenge. In this paper, we present a novel singleshot, multi-level face localisation method, named Reti-naFace, which unifies face box prediction, 2D facial landmark localisation and 3D vertices regression under one common target: point regression on the image plane. To fill the data gap, we manually annotated five facial landmarks on the WIDER FACE dataset and employed a semiautomatic annotation pipeline to generate 3D vertices for face images from the WIDER FACE, AFLW and FDDB datasets. Based on extra annotations, we propose a mutually beneficial regression target for 3D face reconstruction, that is predicting 3D vertices projected on the image plane constrained by a common 3D topology. The proposed 3D face reconstruction branch can be easily incorporated, without any optimisation difficulty, in parallel with the existing box and 2D landmark regression branches during joint training. Extensive experimental results show that Reti-naFace can simultaneously achieve stable face detection, accurate 2D face alignment and robust 3D face reconstruction while being efficient through single-shot inference.
translated by 谷歌翻译
随着服务机器人和监控摄像头的出现,近年来野外的动态面部识别(DFR)受到了很多关注。面部检测和头部姿势估计是DFR的两个重要步骤。经常,在面部检测后估计姿势。然而,这种顺序计算导致更高的延迟。在本文中,我们提出了一种低延迟和轻量级网络,用于同时脸部检测,地标定位和头部姿势估计。灵感来自观察,以大角度定位面部的面部地标更具挑战性,提出了一个姿势损失来限制学习。此外,我们还提出了不确定性的多任务损失,以便自动学习各个任务的权重。另一个挑战是,机器人通常使用武器基的计算核心等低计算单元,我们经常需要使用轻量级网络而不是沉重的网络,这导致性能下降,特别是对于小型和硬面。在本文中,我们提出了在线反馈采样来增加不同尺度的培训样本,这会自动增加培训数据的多样性。通过验证常用的更广泛的脸,AFLW和AFLW2000数据集,结果表明,该方法在低计算资源中实现了最先进的性能。代码和数据将在https://github.com/lyp-deeplearning/mos-multi-task-face-detect上使用。
translated by 谷歌翻译
Face detection is one of the most studied topics in the computer vision community. Much of the progresses have been made by the availability of face detection benchmark datasets. We show that there is a gap between current face detection performance and the real world requirements. To facilitate future face detection research, we introduce the WIDER FACE dataset, which is 10 times larger than existing datasets. The dataset contains rich annotations, including occlusions, poses, event categories, and face bounding boxes. Faces in the proposed dataset are extremely challenging due to large variations in scale, pose and occlusion, as shown in Fig. 1. Furthermore, we show that WIDER FACE dataset is an effective training source for face detection. We benchmark several representative detection systems, providing an overview of state-of-the-art performance and propose a solution to deal with large scale variation. Finally, we discuss common failure cases that worth to be further investigated. Dataset can be downloaded at: mmlab.ie.cuhk.edu.hk/projects/WIDERFace
translated by 谷歌翻译
旋转不变的面部检测,即用任意旋转平面(RIP)角度的检测面,广泛需要在无约束的应用中被广泛地需要,但由于面部出现的较大变化,仍然仍然是一个具有挑战性的任务。大多数现有方法符合速度或准确性以处理大的撕裂变体。为了更有效地解决这个问题,我们提出了逐步校准网络(PCN)以粗略的方式执行旋转不变的面部检测。 PCN由三个阶段组成,每个阶段不仅将面与非面孔区分开,而且还校准了每个面部候选者的RIP方向逐渐直立。通过将校准过程划分为几个渐进步骤,并且仅预测早期阶段中的粗定向,PCN可以实现精确且快速校准。通过对脸部与逐渐减小的RIP范围进行二进制分类,PCN可以准确地检测满360 ^ {\ rIC} $ RIP角度的面部。这种设计导致实时旋转不变面检测器。在野外的多面向FDDB的实验和疯狂旋转面的较宽面的具有挑战性的子集表明我们的PCN实现了非常有希望的性能。
translated by 谷歌翻译
面部检测是为了在图像中搜索面部的所有可能区域,并且如果有任何情况,则定位面部。包括面部识别,面部表情识别,面部跟踪和头部姿势估计的许多应用假设面部的位置和尺寸在图像中是已知的。近几十年来,研究人员从Viola-Jones脸上检测器创造了许多典型和有效的面部探测器到当前的基于CNN的CNN。然而,随着图像和视频的巨大增加,具有面部刻度的变化,外观,表达,遮挡和姿势,传统的面部探测器被挑战来检测野外面孔的各种“脸部。深度学习技术的出现带来了非凡的检测突破,以及计算的价格相当大的价格。本文介绍了代表性的深度学习的方法,并在准确性和效率方面提出了深度和全面的分析。我们进一步比较并讨论了流行的并挑战数据集及其评估指标。进行了几种成功的基于深度学习的面部探测器的全面比较,以使用两个度量来揭示其效率:拖鞋和延迟。本文可以指导为不同应用选择合适的面部探测器,也可以开发更高效和准确的探测器。
translated by 谷歌翻译
现代卷积神经网络(CNN)的面部探测器由于大量注释的数据集而取得了巨大的进步。但是,以高检测置信度未对准结果,但定位精度较低,限制了检测性能的进一步改善。在本文中,作者首先预测了训练集本身的高置信度检测结果。令人惊讶的是,其中相当一部分存在于同一未对准问题中。然后,作者仔细检查了这些案例,并指出注释未对准是主要原因。后来,对预测和注释的边界盒之间的替代合理性进行了全面讨论。最后,作者提出了一种新颖的边界盒深校准(BDC)方法,以通过模型预测的边界盒合理地替换未对准的注释,并为训练集提供校准的注释。在多个检测器和两个流行的基准数据集上进行了广泛的实验,显示了BDC对提高模型的精度和召回率的有效性,而无需添加额外的推理时间和记忆消耗。我们简单有效的方法为改善面部检测提供了一种一般策略,尤其是在实时情况下轻巧检测器的一般策略。
translated by 谷歌翻译
Due to object detection's close relationship with video analysis and image understanding, it has attracted much research attention in recent years. Traditional object detection methods are built on handcrafted features and shallow trainable architectures. Their performance easily stagnates by constructing complex ensembles which combine multiple low-level image features with high-level context from object detectors and scene classifiers. With the rapid development in deep learning, more powerful tools, which are able to learn semantic, high-level, deeper features, are introduced to address the problems existing in traditional architectures. These models behave differently in network architecture, training strategy and optimization function, etc. In this paper, we provide a review on deep learning based object detection frameworks. Our review begins with a brief introduction on the history of deep learning and its representative tool, namely Convolutional Neural Network (CNN). Then we focus on typical generic object detection architectures along with some modifications and useful tricks to improve detection performance further. As distinct specific detection tasks exhibit different characteristics, we also briefly survey several specific tasks, including salient object detection, face detection and pedestrian detection. Experimental analyses are also provided to compare various methods and draw some meaningful conclusions. Finally, several promising directions and tasks are provided to serve as guidelines for future work in both object detection and relevant neural network based learning systems.
translated by 谷歌翻译
2019年冠状病毒疾病(Covid-19)继续自爆发以来对世界产生巨大挑战。为了对抗这种疾病,开发了一系列人工智能(AI)技术,并应用于现实世界的情景,如安全监测,疾病诊断,感染风险评估,Covid-19 CT扫描的病变细分等。 Coronavirus流行病迫使人们佩戴面膜来抵消病毒的传播,这也带来了监控戴着面具的大群人群的困难。在本文中,我们主要关注蒙面面部检测和相关数据集的AI技术。从蒙面面部检测数据集的描述开始,我们调查了最近的进步。详细描述并详细讨论了十三可用数据集。然后,该方法大致分为两类:传统方法和基于神经网络的方法。常规方法通常通过用手工制作的特征升高算法来训练,该算法占少比例。基于神经网络的方法根据处理阶段的数量进一步归类为三个部分。详细描述了代表性算法,与一些简要描述的一些典型技术耦合。最后,我们总结了最近的基准测试结果,讨论了关于数据集和方法的局限性,并扩大了未来的研究方向。据我们所知,这是关于蒙面面部检测方法和数据集的第一次调查。希望我们的调查可以提供一些帮助对抗流行病的帮助。
translated by 谷歌翻译
本文提出了一种名为定位变压器(LOTR)的新型变压器的面部地标定位网络。所提出的框架是一种直接坐标回归方法,利用变压器网络以更好地利用特征图中的空间信息。 LOTR模型由三个主要模块组成:1)将输入图像转换为特征图的视觉骨干板,2)改进Visual Backone的特征表示,以及3)直接预测的地标预测头部的变压器模块来自变压器的代表的地标坐标。给定裁剪和对齐的面部图像,所提出的LOTR可以训练结束到底,而无需任何后处理步骤。本文还介绍了光滑翼损失功能,它解决了机翼损耗的梯度不连续性,导致比L1,L2和机翼损耗等标准损耗功能更好地收敛。通过106点面部地标定位的第一个大挑战提供的JD地标数据集的实验结果表明了LOTR在排行榜上的现有方法和最近基于热爱的方法的优势。在WFLW DataSet上,所提出的Lotr框架与若干最先进的方法相比,展示了有希望的结果。此外,我们在使用我们提出的LOTRS面向对齐时,我们报告了最先进的面部识别性能的提高。
translated by 谷歌翻译
面部地标检测是许多面部图像分析应用的重要步骤。虽然基于深入的学习的方法在此任务中取得了良好的性能,但它们通常不适合在移动设备上运行。这些方法依赖于具有许多参数的网络,这使得训练和推动耗时。培训轻量级神经网络,如移动单元往往是具有挑战性的,并且模型可能具有低的准确性。通过知识蒸馏(KD)的启发,本文提出了一种新的损失函数,用于培养用于面部地标检测的轻量级学生网络(例如MobileNetv2)。我们与学生网络一起使用两个教师网络,宽容教师和艰难的老师。宽容老师使用主动形状模型创建的软标志培训,而艰难的老师使用地面真理(AKA硬质标)训练。为了利用教师网络预测的面部地标点,我们为每个教师网络定义辅助丢失(alloss)。此外,我们定义称为KD损失的损失函数,它利用两个预先训练的教师网络(AfficesTET-B3)预测的面部地标点来指导轻量级学生网络朝向预测硬质标志。我们对三个挑战性面部数据集的实验结果表明,拟议的架构将导致培训的学生网络,可以高精度提取面部地标点。
translated by 谷歌翻译
目前全面监督的面部地标检测方法迅速进行,实现了显着性能。然而,当在大型姿势和重闭合的面孔和重闭合时仍然遭受痛苦,以进行不准确的面部形状约束,并且标记的训练样本不足。在本文中,我们提出了一个半监督框架,即自我校准的姿势注意网络(SCPAN),以实现更具挑战性的情景中的更强大和精确的面部地标检测。具体地,建议通过定影边界和地标强度场信息来模拟更有效的面部形状约束的边界意识的地标强度(BALI)字段。此外,设计了一种自我校准的姿势注意力(SCPA)模型,用于提供自学习的目标函数,该功能通过引入自校准机制和姿势注意掩模而无需标签信息而无需标签信息。我们认为,通过将巴厘岛领域和SCPA模型集成到新颖的自我校准的姿势网络中,可以了解更多的面部现有知识,并且我们的面孔方法的检测精度和稳健性得到了改善。获得具有挑战性的基准数据集获得的实验结果表明,我们的方法优于文献中最先进的方法。
translated by 谷歌翻译
近年来使用卷积神经网络对近年来的脸部检测进行了巨大进展。虽然许多面部探测器使用指定用于检测面的设计,但我们将面部检测视为通用对象检测任务。我们基于YOLOV5对象检测器实现了面部探测器,并调用它YOLO5FACE。我们对YOLOV5进行了一些关键修改,并优化了面部检测。这些修改包括在SPP中使用较小尺寸内核在骨干内使用杆块添加五点地标回归头,并在平移块中添加P6输出。我们从超大型模型设计不同型号大小的探测器,以实现对嵌入或移动设备的实时检测的超小型模型的最佳性能。实验结果在viderface数据集上显示,在VGA图像上,我们的脸部探测器可以在几乎所有简单,介质和硬的子集中实现最先进的性能,超过更复杂的指定面检测器。代码可用于\ url {https://github.com/deepcam-cn/yolov5-face}
translated by 谷歌翻译
Predicting face attributes in the wild is challenging due to complex face variations. We propose a novel deep learning framework for attribute prediction in the wild. It cascades two CNNs, LNet and ANet, which are finetuned jointly with attribute tags, but pre-trained differently. LNet is pre-trained by massive general object categories for face localization, while ANet is pre-trained by massive face identities for attribute prediction. This framework not only outperforms the state-of-the-art with a large margin, but also reveals valuable facts on learning face representation.(1) It shows how the performances of face localization (LNet) and attribute prediction (ANet) can be improved by different pre-training strategies. (2) It reveals that although the filters of LNet are fine-tuned only with imagelevel attribute tags, their response maps over entire images have strong indication of face locations. This fact enables training LNet for face localization with only image-level annotations, but without face bounding boxes or landmarks, which are required by all attribute recognition works. (3) It also demonstrates that the high-level hidden neurons of ANet automatically discover semantic concepts after pretraining with massive face identities, and such concepts are significantly enriched after fine-tuning with attribute tags. Each attribute can be well explained with a sparse linear combination of these concepts.
translated by 谷歌翻译
在面部地标定位任务中,各种遮挡由于面部特征的部分可观察性,各种闭塞性严重降低了定位精度。本文提出了一种用于遮挡强大的地标定位的结构关系网络(SRN)。与只需利用形状约束的大多数现有方法不同,所提出的SRN旨在捕捉不同面部部件之间的结构关系。这些关系可以被认为是对遮挡的更强大的形状约束。为实现这一点,分层结构关系模块(HSRM)被设计成分层原因,结构关系代表长距离空间依赖性的结构关系。与现有网络架构相比,HSRM可以通过利用其几何感知网络架构有效地模拟空间关系,这减少了由遮挡引起的语义模糊性。此外,SRN通过合成封闭面来增强训练数据。为了进一步扩展我们的SRN以进行遮挡视频数据,我们将闭塞面为Markov决策过程(MDP)制定。具体地,它计划基于与预训练的SRN的性能劣化相关的累积奖励来移动动态遮挡的移动。此程序增加了强大的面部地标跟踪的硬样品。广泛的实验结果表明,该方法在遮挡和遮蔽面上取得了出色的性能。代码在https://github.com/zhuccly/srn获得。
translated by 谷歌翻译
在SARS-COV-2大流行期间,戴着面膜穿着成为防止传播和收缩病毒的有效工具。监测人口中面膜速率的能力将用于确定对病毒的公共卫生策略。然而,用于检测面罩的人工智能技术尚未在现实​​生活中以大规模部署在公共场合的大规模中。在本文中,我们介绍了由两个单独的模块组成的两步​​面掩模检测方法:1)面部检测和对准,2)面掩模分类。这种方法使我们能够尝试不同的面部检测和面罩分类模块的组合。更具体地说,我们尝试使用金字塔和视网膜作为面部探测器,同时保持面罩分类模块的轻质骨干。此外,我们还提供了Aizoo数据集的测试集的重叠注释,在那里我们纠正了某些面部图像的错误标签。 Aizoo和Moxa 3K数据集的评估结果表明,所提出的面罩检测管道超越了最先进的方法。所提出的管道在AIZOO数据集的重叠测试组上也产生了比原始测试集更高的映射。由于我们使用野外的面部图像培训了所提出的模型,我们可以成功部署我们的模型来使用公共CCTV图像监控戴掩模速率。
translated by 谷歌翻译
物体检测通常需要在现代深度学习方法中基于传统或锚盒的滑动窗口分类器。但是,这些方法中的任何一个都需要框中的繁琐配置。在本文中,我们提供了一种新的透视图,其中检测对象被激励为高电平语义特征检测任务。与边缘,角落,斑点和其他特征探测器一样,所提出的探测器扫描到全部图像的特征点,卷积自然适合该特征点。但是,与这些传统的低级功能不同,所提出的探测器用于更高级别的抽象,即我们正在寻找有物体的中心点,而现代深层模型已经能够具有如此高级别的语义抽象。除了Blob检测之外,我们还预测了中心点的尺度,这也是直接的卷积。因此,在本文中,通过卷积简化了行人和面部检测作为直接的中心和规模预测任务。这样,所提出的方法享有一个无盒设置。虽然结构简单,但它对几个具有挑战性的基准呈现竞争准确性,包括行人检测和面部检测。此外,执行交叉数据集评估,证明所提出的方法的卓越泛化能力。可以访问代码和模型(https://github.com/liuwei16/csp和https://github.com/hasanirtiza/pedestron)。
translated by 谷歌翻译
本文调查了2D全身人类姿势估计的任务,该任务旨在将整个人体(包括身体,脚,脸部和手)局部定位在整个人体上。我们提出了一种称为Zoomnet的单网络方法,以考虑到完整人体的层次结构,并解决不同身体部位的规模变化。我们进一步提出了一个称为Zoomnas的神经体系结构搜索框架,以促进全身姿势估计的准确性和效率。Zoomnas共同搜索模型体系结构和不同子模块之间的连接,并自动为搜索的子模块分配计算复杂性。为了训练和评估Zoomnas,我们介绍了第一个大型2D人类全身数据集,即可可叶全体V1.0,它注释了133个用于野外图像的关键点。广泛的实验证明了Zoomnas的有效性和可可叶v1.0的重要性。
translated by 谷歌翻译
尽管深度神经网络在解决面部对齐方面取得了合理的准确性,但它仍然是一项艰巨的任务,特别是当我们处理面部图像,闭塞或极端头部姿势时。基于热图的回归(HBR)和基于坐标的回归(CBR)是面部比对的两种主要使用方法之一。 CBR方法需要更少的计算机内存,尽管它们的性能小于HBR方法。在本文中,我们提出了一种基于自适应坐标的回归(ACR)损失,以提高CBR对面对对准的准确性。受主动形状模型(ASM)的启发,我们生成平滑面对象,与地面真相标记点相比,一组面部标志点具有更少的变化。然后,我们引入了一种方法来估计通过比较地面真相标记点和相应的平滑面对象的分布来预测网络的每个地标点的难度水平。我们提出的ACR损失可以根据预测面部中每个地标点的难度水平来适应其曲率和损失的影响。因此,ACR损失指导网络朝着具有挑战性的点而不是更容易的点,这提高了面部对齐任务的准确性。我们的广泛评估表明,拟议的ACR损失在预测各种面部图像中的面部标志点方面的能力。
translated by 谷歌翻译