使用卷积神经网络,面部属性(例如,年龄和吸引力)估算性能得到了大大提高。然而,现有方法在培训目标和评估度量之间存在不一致,因此它们可能是次优。此外,这些方法始终采用具有大量参数的图像分类或面部识别模型,其携带昂贵的计算成本和存储开销。在本文中,我们首先分析了两种最新方法(排名CNN和DLDL)之间的基本关系,并表明排名方法实际上是隐含的学习标签分布。因此,该结果首先将两个现有的最新方法统一到DLDL框架中。其次,为了减轻不一致和降低资源消耗,我们设计了一种轻量级网络架构,并提出了一个统一的框架,可以共同学习面部属性分发和回归属性值。在面部年龄和吸引力估算任务中都证明了我们的方法的有效性。我们的方法使用单一模型实现新的最先进的结果,使用36美元\倍,参数减少3美元,在面部年龄/吸引力估算上的推动速度为3美元。此外,即使参数的数量进一步降低到0.9m(3.8MB磁盘存储),我们的方法也可以实现与最先进的结果。
translated by 谷歌翻译
Facial attractiveness prediction (FAP) aims to assess the facial attractiveness automatically based on human aesthetic perception. Previous methods using deep convolutional neural networks have boosted the performance, but their giant models lead to a deficiency in flexibility. Besides, most of them fail to take full advantage of the dataset. In this paper, we present a novel end-to-end FAP approach integrating dual label distribution and lightweight design. To make the best use of the dataset, the manual ratings, attractiveness score, and standard deviation are aggregated explicitly to construct a dual label distribution, including the attractiveness distribution and the rating distribution. Such distributions, as well as the attractiveness score, are optimized under a joint learning framework based on the label distribution learning (LDL) paradigm. As for the lightweight design, the data processing is simplified to minimum, and MobileNetV2 is selected as our backbone. Extensive experiments are conducted on two benchmark datasets, where our approach achieves promising results and succeeds in striking a balance between performance and efficiency. Ablation studies demonstrate that our delicately designed learning modules are indispensable and correlated. Additionally, the visualization indicates that our approach is capable of perceiving facial attractiveness and capturing attractive facial regions to facilitate semantic predictions.
translated by 谷歌翻译
不同的人以不同的方式衰老。为每个人学习个性化的年龄估计器是年龄估计的有前途的方向,因为它可以更好地建模衰老过程的个性化。但是,由于高级要求,大多数现有的个性化方法都缺乏大规模数据集:身份标签和足够的样本使每个人形成长期衰老模式。在本文中,我们旨在学习没有上述要求的个性化年龄估计量,并提出一种元学习方法,称为年龄估计。与大多数现有的个性化方法不同,这些方法学习了培训集中每个人的个性化估计器的参数,我们的方法将映射从身份信息到年龄估计器参数学习。具体而言,我们引入了个性化的估算器元学习器,该估计量元学习器将身份功能作为输入并输出定制估算器的参数。这样,我们的方法就可以学习元知识而没有上述要求,并无缝将学习的元知识转移到测试集中,这使我们能够利用现有的大规模年龄数据集,而无需任何其他注释。在包括Morph II,Chalearn Lap 2015和Chalearn Lap 2016数据库在内的三个基准数据集上进行的大量实验结果表明,我们的元大大提高了现有的个性化方法的性能,并优于最先进的方法。
translated by 谷歌翻译
人类的情感认可是人工智能的积极研究领域,在过去几年中取得了实质性的进展。许多最近的作品主要关注面部区域以推断人类的情感,而周围的上下文信息没有有效地利用。在本文中,我们提出了一种新的深网络,有效地识别使用新的全球局部注意机制的人类情绪。我们的网络旨在独立地从两个面部和上下文区域提取特征,然后使用注意模块一起学习它们。以这种方式,面部和上下文信息都用于推断人类的情绪,从而增强分类器的歧视。密集实验表明,我们的方法超越了最近的最先进的方法,最近的情感数据集是公平的保证金。定性地,我们的全球局部注意力模块可以提取比以前的方法更有意义的注意图。我们网络的源代码和培训模型可在https://github.com/minhnhatvt/glamor-net上获得
translated by 谷歌翻译
Due to object detection's close relationship with video analysis and image understanding, it has attracted much research attention in recent years. Traditional object detection methods are built on handcrafted features and shallow trainable architectures. Their performance easily stagnates by constructing complex ensembles which combine multiple low-level image features with high-level context from object detectors and scene classifiers. With the rapid development in deep learning, more powerful tools, which are able to learn semantic, high-level, deeper features, are introduced to address the problems existing in traditional architectures. These models behave differently in network architecture, training strategy and optimization function, etc. In this paper, we provide a review on deep learning based object detection frameworks. Our review begins with a brief introduction on the history of deep learning and its representative tool, namely Convolutional Neural Network (CNN). Then we focus on typical generic object detection architectures along with some modifications and useful tricks to improve detection performance further. As distinct specific detection tasks exhibit different characteristics, we also briefly survey several specific tasks, including salient object detection, face detection and pedestrian detection. Experimental analyses are also provided to compare various methods and draw some meaningful conclusions. Finally, several promising directions and tasks are provided to serve as guidelines for future work in both object detection and relevant neural network based learning systems.
translated by 谷歌翻译
随着卷积神经网络(CNNS)的普及日益普及,最近的面部年龄估计的作品雇用这些网络作为骨干。然而,最先进的基于CNN的方法同样地治疗每个面部区域,从而完全忽略了一些可能包含富年龄信息的面部斑块的重要性。在本文中,我们提出了一种基于面部的年龄估计框架,称为关注的动态补丁融合(ADPF)。在ADPF中,实现了两个单独的CNN,即IpperenceNet和FusionNet。 EpperenceNet通过采用新的排名引导的多头混合注意力(RMHHA)机制来动态定位并排名特定年龄的补丁。 FusionNet使用发现的补丁以及面部图像来预测主题的年龄。由于提出的RMHA机制根据其重要性排名发现的补丁,因此FusionNet中的每个补丁的学习路径的长度与其携带的信息量成比例(较长,更重要的)。 ADPF还介绍了一种新颖的多样性损失,以指导IppectionNet的培训,并减少补丁中的重叠,以便发现多样化和重要的补丁。通过广泛的实验,我们表明我们所提出的框架优于几个年龄估计基准数据集的最先进的方法。
translated by 谷歌翻译
我们研究了两种现实情景中的一系列识别任务,要求在强闭塞下分析面孔。一方面,我们的目标是识别佩戴虚拟现实(VR)耳机的人们的面部表情。另一方面,我们的目标是估计年龄并确定穿手术面具的人们的性别。对于所有这些任务,共同的地面是遮挡的一半面孔。在这一具有挑战性的环境中,我们表明,在完全可见的面上培训的卷积神经网络(CNNS)表现出非常低的性能水平。在微调遮挡面上的深度学习模型非常有用,我们表明可以通过从完全可见面上培训的模型蒸馏出来的知识来获得额外的性能增益。为此,我们研究了两种知识蒸馏方法,一个基于教师学生培训,一个基于三重态损失。我们的主要贡献包括基于三态损失的知识蒸馏的新方法,这遍历模型和任务。此外,我们考虑通过传统的师生培训或通过我们的小型教师学生培训来组合蒸馏模型,或通过基于三态损失的小说学生培训。我们提供了实证证据表明,在大多数情况下,个人和组合的知识蒸馏方法都会带来统计上显着的性能改进。我们在各种任务(面部表情识别,性别识别,年龄估计)上进行三种不同的神经模型(VGG-F,Vogg-Face,Reset-50)进行实验,而不管模型或任务如何,都显示出一致的改进。
translated by 谷歌翻译
Recent years witnessed the breakthrough of face recognition with deep convolutional neural networks. Dozens of papers in the field of FR are published every year. Some of them were applied in the industrial community and played an important role in human life such as device unlock, mobile payment, and so on. This paper provides an introduction to face recognition, including its history, pipeline, algorithms based on conventional manually designed features or deep learning, mainstream training, evaluation datasets, and related applications. We have analyzed and compared state-of-the-art works as many as possible, and also carefully designed a set of experiments to find the effect of backbone size and data distribution. This survey is a material of the tutorial named The Practical Face Recognition Technology in the Industrial World in the FG2023.
translated by 谷歌翻译
图像的美学质量被定义为图像美的度量或欣赏。美学本质上是一个主观性的财产,但是存在一些影响它的因素,例如图像的语义含量,描述艺术方面的属性,用于射击的摄影设置等。在本文中,我们提出了一种方法基于语义含量分析,艺术风格和图像的组成的图像自动预测图像的美学。所提出的网络包括:用于语义特征的预先训练的网络,提取(骨干网);依赖于骨干功能的多层的Perceptron(MLP)网络,用于预测图像属性(attributeNet);一种自适应的HyperNetwork,可利用以前编码到attributeNet生成的嵌入的属性以预测专用于美学估计的目标网络的参数(AestheticNet)。鉴于图像,所提出的多网络能够预测:风格和组成属性,以及美学分数分布。结果三个基准数据集展示了所提出的方法的有效性,而消融研究则更好地了解所提出的网络。
translated by 谷歌翻译
Recently, a popular line of research in face recognition is adopting margins in the well-established softmax loss function to maximize class separability. In this paper, we first introduce an Additive Angular Margin Loss (ArcFace), which not only has a clear geometric interpretation but also significantly enhances the discriminative power. Since ArcFace is susceptible to the massive label noise, we further propose sub-center ArcFace, in which each class contains K sub-centers and training samples only need to be close to any of the K positive sub-centers. Sub-center ArcFace encourages one dominant sub-class that contains the majority of clean faces and non-dominant sub-classes that include hard or noisy faces. Based on this self-propelled isolation, we boost the performance through automatically purifying raw web faces under massive real-world noise. Besides discriminative feature embedding, we also explore the inverse problem, mapping feature vectors to face images. Without training any additional generator or discriminator, the pre-trained ArcFace model can generate identity-preserved face images for both subjects inside and outside the training data only by using the network gradient and Batch Normalization (BN) priors. Extensive experiments demonstrate that ArcFace can enhance the discriminative feature embedding as well as strengthen the generative face synthesis.
translated by 谷歌翻译
2019年冠状病毒疾病(Covid-19)继续自爆发以来对世界产生巨大挑战。为了对抗这种疾病,开发了一系列人工智能(AI)技术,并应用于现实世界的情景,如安全监测,疾病诊断,感染风险评估,Covid-19 CT扫描的病变细分等。 Coronavirus流行病迫使人们佩戴面膜来抵消病毒的传播,这也带来了监控戴着面具的大群人群的困难。在本文中,我们主要关注蒙面面部检测和相关数据集的AI技术。从蒙面面部检测数据集的描述开始,我们调查了最近的进步。详细描述并详细讨论了十三可用数据集。然后,该方法大致分为两类:传统方法和基于神经网络的方法。常规方法通常通过用手工制作的特征升高算法来训练,该算法占少比例。基于神经网络的方法根据处理阶段的数量进一步归类为三个部分。详细描述了代表性算法,与一些简要描述的一些典型技术耦合。最后,我们总结了最近的基准测试结果,讨论了关于数据集和方法的局限性,并扩大了未来的研究方向。据我们所知,这是关于蒙面面部检测方法和数据集的第一次调查。希望我们的调查可以提供一些帮助对抗流行病的帮助。
translated by 谷歌翻译
来自静态图像的面部表情识别是计算机视觉应用中的一个具有挑战性的问题。卷积神经网络(CNN),用于各种计算机视觉任务的最先进的方法,在预测具有极端姿势,照明和闭塞条件的面部的表达式中已经有限。为了缓解这个问题,CNN通常伴随着传输,多任务或集合学习等技术,这些技术通常以增加的计算复杂性的成本提供高精度。在这项工作中,我们提出了一种基于零件的集合转移学习网络,其模型通过将面部特征的空间方向模式与特定表达相关来模拟人类如何识别面部表达。它由5个子网络组成,每个子网络从面部地标的五个子集中执行转移学习:眉毛,眼睛,鼻子,嘴巴或颌骨表达分类。我们表明我们所提出的集合网络使用从面部肌肉的电机运动发出的视觉模式来预测表达,并展示从面部地标定位转移到面部表情识别的实用性。我们在CK +,Jaffe和SFew数据集上测试所提出的网络,并且它分别优于CK +和Jaffe数据集的基准,分别为0.51%和5.34%。此外,所提出的集合网络仅包括1.65M的型号参数,确保在培训和实时部署期间的计算效率。我们所提出的集合的Grad-Cam可视化突出了其子网的互补性质,是有效集合网络的关键设计参数。最后,交叉数据集评估结果表明,我们建议的集合具有高泛化能力,使其适合现实世界使用。
translated by 谷歌翻译
儿童性滥用和剥削(CSAE)受害者的确切年龄估计是最重要的数字取证挑战之一。调查人员通常需要通过查看图像和解释性发展阶段和其他人类特征来确定受害者的年龄。主要优先事项 - 保障儿童 - 通常受到这项工作可能需要的巨大的法医反积云,认知偏见和巨大的心理压力的负面影响。本文评估了现有的面部图像数据集,并提出了一种针对类似数字法医研究贡献的需求而定制的新数据集。这个小型,不同的DataSet为0到20岁的个人包含245个图像,并与FG-Net DataSet的82个唯一图像合并,从而实现了具有高图像分集和低年龄范围密度的327个图像。在IMDB-Wiki DataSet上预先培训的深度期望(DEX)算法测试新数据集。 16至20岁的年轻青少年和年龄较大的青少年/成年人的整体成果非常令人鼓舞 - 达到1.79年的MAE,但也表明0至10岁儿童的准确性需要进一步的工作。为了确定原型的功效,已经考虑了四个数字法医专家的有价值输入,以提高年龄估计结果。需要进一步的研究来扩展关于图像密度的数据集和性别和种族分集等因素的平等分布。
translated by 谷歌翻译
在过去的几十年中,面部识别(FR)在计算机视觉和模式识别社会中进行了积极研究。最近,由于深度学习的进步,FR技术在大多数基准数据集中都显示出高性能。但是,当将FR算法应用于现实世界的情况时,该性能仍然不令人满意。这主要归因于训练和测试集之间的不匹配。在此类不匹配中,训练和测试面之间的面部不对对准是阻碍成功的FR的因素之一。为了解决这一限制,我们提出了一个脸型引导的深度特征对齐框架,以使fr稳健地对脸错位。基于面部形状的先验(例如,面部关键点),我们通过引入对齐方式和未对准的面部图像之间的对齐过程,即像素和特征对齐方式来训练所提出的深网。通过像从面部图像和面部形状提取的聚合特征解码的像素对齐过程,我们添加了辅助任务以重建良好的面部图像。由于汇总功能通过特征对齐过程链接到面部功能提取网络作为指南,因此我们将强大的面部功能训练到面部未对准。即使在训练阶段需要面部形状估计,通常在传统的FR管道中纳入的额外面部对齐过程在测试阶段不一定需要。通过比较实验,我们验证了提出的方法与FR数据集的面部未对准的有效性。
translated by 谷歌翻译
深度神经网络在人类分析中已经普遍存在,增强了应用的性能,例如生物识别识别,动作识别以及人重新识别。但是,此类网络的性能通过可用的培训数据缩放。在人类分析中,对大规模数据集的需求构成了严重的挑战,因为数据收集乏味,廉价,昂贵,并且必须遵守数据保护法。当前的研究研究了\ textit {合成数据}的生成,作为在现场收集真实数据的有效且具有隐私性的替代方案。这项调查介绍了基本定义和方法,在生成和采用合成数据进行人类分析时必不可少。我们进行了一项调查,总结了当前的最新方法以及使用合成数据的主要好处。我们还提供了公开可用的合成数据集和生成模型的概述。最后,我们讨论了该领域的局限性以及开放研究问题。这项调查旨在为人类分析领域的研究人员和从业人员提供。
translated by 谷歌翻译
通过卫星摄像机获取关于地球表面的大面积的信息使我们能够看到远远超过我们在地面上看到的更多。这有助于我们在检测和监测土地使用模式,大气条件,森林覆盖和许多非上市方面的地区的物理特征。所获得的图像不仅跟踪连续的自然现象,而且对解决严重森林砍伐的全球挑战也至关重要。其中亚马逊盆地每年占最大份额。适当的数据分析将有助于利用可持续健康的氛围来限制对生态系统和生物多样性的不利影响。本报告旨在通过不同的机器学习和优越的深度学习模型用大气和各种陆地覆盖或土地使用亚马逊雨林的卫星图像芯片。评估是基于F2度量完成的,而用于损耗函数,我们都有S形跨熵以及Softmax交叉熵。在使用预先训练的ImageNet架构中仅提取功能之后,图像被间接馈送到机器学习分类器。鉴于深度学习模型,通过传输学习使用微调Imagenet预训练模型的集合。到目前为止,我们的最佳分数与F2度量为0.927。
translated by 谷歌翻译
随着最近深度卷积神经网络的进步,一般面临的概念取得了重大进展。然而,最先进的一般面部识别模型对遮挡面部图像没有概括,这正是现实世界场景中的常见情况。潜在原因是用于训练和特定设计的大规模遮挡面部数据,用于解决闭塞所带来的损坏功能。本文提出了一种新颖的面部识别方法,其基于单端到端的深神经网络的闭塞是强大的。我们的方法(使用遮挡掩码)命名(面部识别),学会发现深度卷积神经网络的损坏功能,并通过动态学习的面具清洁它们。此外,我们构建了大规模的遮挡面部图像,从有效且有效地培训。与现有方法相比,依靠外部探测器发现遮挡或采用较少鉴别的浅模型的现有方法,从简单且功能强大。 LFW,Megaface挑战1,RMF2,AR数据集和其他模拟遮挡/掩蔽数据集的实验结果证实,从大幅提高了遮挡下的准确性,并概括了一般面部识别。
translated by 谷歌翻译
The International Workshop on Reading Music Systems (WoRMS) is a workshop that tries to connect researchers who develop systems for reading music, such as in the field of Optical Music Recognition, with other researchers and practitioners that could benefit from such systems, like librarians or musicologists. The relevant topics of interest for the workshop include, but are not limited to: Music reading systems; Optical music recognition; Datasets and performance evaluation; Image processing on music scores; Writer identification; Authoring, editing, storing and presentation systems for music scores; Multi-modal systems; Novel input-methods for music to produce written music; Web-based Music Information Retrieval services; Applications and projects; Use-cases related to written music. These are the proceedings of the 3rd International Workshop on Reading Music Systems, held in Alicante on the 23rd of July 2021.
translated by 谷歌翻译
面部检测是为了在图像中搜索面部的所有可能区域,并且如果有任何情况,则定位面部。包括面部识别,面部表情识别,面部跟踪和头部姿势估计的许多应用假设面部的位置和尺寸在图像中是已知的。近几十年来,研究人员从Viola-Jones脸上检测器创造了许多典型和有效的面部探测器到当前的基于CNN的CNN。然而,随着图像和视频的巨大增加,具有面部刻度的变化,外观,表达,遮挡和姿势,传统的面部探测器被挑战来检测野外面孔的各种“脸部。深度学习技术的出现带来了非凡的检测突破,以及计算的价格相当大的价格。本文介绍了代表性的深度学习的方法,并在准确性和效率方面提出了深度和全面的分析。我们进一步比较并讨论了流行的并挑战数据集及其评估指标。进行了几种成功的基于深度学习的面部探测器的全面比较,以使用两个度量来揭示其效率:拖鞋和延迟。本文可以指导为不同应用选择合适的面部探测器,也可以开发更高效和准确的探测器。
translated by 谷歌翻译
Face Restoration (FR) aims to restore High-Quality (HQ) faces from Low-Quality (LQ) input images, which is a domain-specific image restoration problem in the low-level computer vision area. The early face restoration methods mainly use statistic priors and degradation models, which are difficult to meet the requirements of real-world applications in practice. In recent years, face restoration has witnessed great progress after stepping into the deep learning era. However, there are few works to study deep learning-based face restoration methods systematically. Thus, this paper comprehensively surveys recent advances in deep learning techniques for face restoration. Specifically, we first summarize different problem formulations and analyze the characteristic of the face image. Second, we discuss the challenges of face restoration. Concerning these challenges, we present a comprehensive review of existing FR methods, including prior based methods and deep learning-based methods. Then, we explore developed techniques in the task of FR covering network architectures, loss functions, and benchmark datasets. We also conduct a systematic benchmark evaluation on representative methods. Finally, we discuss future directions, including network designs, metrics, benchmark datasets, applications,etc. We also provide an open-source repository for all the discussed methods, which is available at https://github.com/TaoWangzj/Awesome-Face-Restoration.
translated by 谷歌翻译