数据清洁,体系结构和损失功能设计是导致高性能面部识别的重要因素。以前,研究社区试图提高每个单个方面的性能,但未能在共同搜索所有三个方面的最佳设计时提出统一的解决方案。在本文中,我们首次确定这些方面彼此紧密结合。实际上,优化各个方面的设计实际上极大地限制了性能并偏向算法设计。具体而言,我们发现最佳模型体系结构或损耗函数与数据清洁紧密相结合。为了消除单一研究研究的偏见并提供对面部识别模型设计的总体理解,我们首先仔细设计了每个方面的搜索空间,然后引入了全面的搜索方法,以共同搜索最佳数据清洁,架构和损失功能设计。在我们的框架中,我们通过使用基于创新的增强学习方法来使拟议的全面搜索尽可能灵活。对百万级面部识别基准的广泛实验证明了我们新设计的搜索空间在每个方面和全面搜索的有效性。我们的表现要优于为每个研究轨道开发的专家算法。更重要的是,我们分析了我们搜索的最佳设计与单个因素的独立设计之间的差异。我们指出,强大的模型倾向于通过更困难的培训数据集和损失功能进行优化。我们的实证研究可以为未来的研究提供指导,以实现更健壮的面部识别系统。
translated by 谷歌翻译
基于软马克斯的损失函数及其变体(例如,界面,圆顶和弧形)可显着改善野生无约束场景中的面部识别性能。这些算法的一种常见实践是对嵌入特征和线性转换矩阵之间的乘法进行优化。但是,在大多数情况下,基于传统的设计经验给出了嵌入功能的尺寸,并且在给出固定尺寸时,使用该功能本身提高性能的研究较少。为了应对这一挑战,本文提出了一种称为subface的软关系近似方法,该方法采用了子空间功能来促进面部识别的性能。具体而言,我们在训练过程中动态选择每个批次中的非重叠子空间特征,然后使用子空间特征在基于软磁性的损失之间近似完整功能,因此,深层模型的可区分性可以显着增强,以增强面部识别。在基准数据集上进行的综合实验表明,我们的方法可以显着提高香草CNN基线的性能,这强烈证明了基于利润率的损失的子空间策略的有效性。
translated by 谷歌翻译
从大规模嘈杂的面孔中学习强大的特征表示是高性能面部识别的关键挑战之一。最近通过减轻了阶层内冲突和阶级冲突来应对这一挑战。但是,每种冲突中无约束的噪声类型仍然使这些算法难以表现良好。为了更好地理解这一点,我们将每个类别的噪声类型以更细粒度的方式重新制定为n-身份| k^c-clusters。可以通过调整\ nkc的值来生成不同类型的嘈杂面。基于这种统一的公式,我们发现噪声射击表示学习背后的主要障碍是在不同的N,K和C下算法的灵活性。对于此潜在问题,我们提出了一种新方法,称为Evolving子中心学习〜(ESL),找到最佳的超平面,以准确描述大型嘈杂面的潜在空间。更具体地说,我们将每个类的M子中心初始化,ESL鼓励它通过生产,合并和丢弃操作自动与n-身份| k^c-clusters面对面。嘈杂面上属于相同身份的图像可以有效地收敛到同一子中心,并且具有不同身份的样本将被推开。我们通过对具有不同n,k和C的合成噪声数据集进行了精心的消融研究来检查其有效性
translated by 谷歌翻译
Recently, a popular line of research in face recognition is adopting margins in the well-established softmax loss function to maximize class separability. In this paper, we first introduce an Additive Angular Margin Loss (ArcFace), which not only has a clear geometric interpretation but also significantly enhances the discriminative power. Since ArcFace is susceptible to the massive label noise, we further propose sub-center ArcFace, in which each class contains K sub-centers and training samples only need to be close to any of the K positive sub-centers. Sub-center ArcFace encourages one dominant sub-class that contains the majority of clean faces and non-dominant sub-classes that include hard or noisy faces. Based on this self-propelled isolation, we boost the performance through automatically purifying raw web faces under massive real-world noise. Besides discriminative feature embedding, we also explore the inverse problem, mapping feature vectors to face images. Without training any additional generator or discriminator, the pre-trained ArcFace model can generate identity-preserved face images for both subjects inside and outside the training data only by using the network gradient and Batch Normalization (BN) priors. Extensive experiments demonstrate that ArcFace can enhance the discriminative feature embedding as well as strengthen the generative face synthesis.
translated by 谷歌翻译
Recent years witnessed the breakthrough of face recognition with deep convolutional neural networks. Dozens of papers in the field of FR are published every year. Some of them were applied in the industrial community and played an important role in human life such as device unlock, mobile payment, and so on. This paper provides an introduction to face recognition, including its history, pipeline, algorithms based on conventional manually designed features or deep learning, mainstream training, evaluation datasets, and related applications. We have analyzed and compared state-of-the-art works as many as possible, and also carefully designed a set of experiments to find the effect of backbone size and data distribution. This survey is a material of the tutorial named The Practical Face Recognition Technology in the Industrial World in the FG2023.
translated by 谷歌翻译
Person re-identification (Re-ID) aims at retrieving a person of interest across multiple non-overlapping cameras. With the advancement of deep neural networks and increasing demand of intelligent video surveillance, it has gained significantly increased interest in the computer vision community. By dissecting the involved components in developing a person Re-ID system, we categorize it into the closed-world and open-world settings. The widely studied closed-world setting is usually applied under various research-oriented assumptions, and has achieved inspiring success using deep learning techniques on a number of datasets. We first conduct a comprehensive overview with in-depth analysis for closed-world person Re-ID from three different perspectives, including deep feature representation learning, deep metric learning and ranking optimization. With the performance saturation under closed-world setting, the research focus for person Re-ID has recently shifted to the open-world setting, facing more challenging issues. This setting is closer to practical applications under specific scenarios. We summarize the open-world Re-ID in terms of five different aspects. By analyzing the advantages of existing methods, we design a powerful AGW baseline, achieving state-of-the-art or at least comparable performance on twelve datasets for FOUR different Re-ID tasks. Meanwhile, we introduce a new evaluation metric (mINP) for person Re-ID, indicating the cost for finding all the correct matches, which provides an additional criteria to evaluate the Re-ID system for real applications. Finally, some important yet under-investigated open issues are discussed.
translated by 谷歌翻译
近年来,计算机视觉社区中最受欢迎的技术之一就是深度学习技术。作为一种数据驱动的技术,深层模型需要大量准确标记的培训数据,这在许多现实世界中通常是无法访问的。数据空间解决方案是数据增强(DA),可以人为地从原始样本中生成新图像。图像增强策略可能因数据集而有所不同,因为不同的数据类型可能需要不同的增强以促进模型培训。但是,DA策略的设计主要由具有领域知识的人类专家决定,这被认为是高度主观和错误的。为了减轻此类问题,一个新颖的方向是使用自动数据增强(AUTODA)技术自动从给定数据集中学习图像增强策略。 Autoda模型的目的是找到可以最大化模型性能提高的最佳DA策略。这项调查从图像分类的角度讨论了Autoda技术出现的根本原因。我们确定标准自动赛车模型的三个关键组件:搜索空间,搜索算法和评估功能。根据他们的架构,我们提供了现有图像AUTODA方法的系统分类法。本文介绍了Autoda领域的主要作品,讨论了他们的利弊,并提出了一些潜在的方向以进行未来的改进。
translated by 谷歌翻译
Face recognition has made extraordinary progress owing to the advancement of deep convolutional neural networks (CNNs). The central task of face recognition, including face verification and identification, involves face feature discrimination. However, the traditional softmax loss of deep CNNs usually lacks the power of discrimination. To address this problem, recently several loss functions such as center loss, large margin softmax loss, and angular softmax loss have been proposed. All these improved losses share the same idea: maximizing inter-class variance and minimizing intra-class variance. In this paper, we propose a novel loss function, namely large margin cosine loss (LMCL), to realize this idea from a different perspective. More specifically, we reformulate the softmax loss as a cosine loss by L 2 normalizing both features and weight vectors to remove radial variations, based on which a cosine margin term is introduced to further maximize the decision margin in the angular space. As a result, minimum intra-class variance and maximum inter-class variance are achieved by virtue of normalization and cosine decision margin maximization. We refer to our model trained with LMCL as CosFace. Extensive experimental evaluations are conducted on the most popular public-domain face recognition datasets such as MegaFace Challenge, Youtube Faces (YTF) and Labeled Face in the Wild (LFW). We achieve the state-of-the-art performance on these benchmarks, which confirms the effectiveness of our proposed approach.
translated by 谷歌翻译
随着最近深度卷积神经网络的进步,一般面临的概念取得了重大进展。然而,最先进的一般面部识别模型对遮挡面部图像没有概括,这正是现实世界场景中的常见情况。潜在原因是用于训练和特定设计的大规模遮挡面部数据,用于解决闭塞所带来的损坏功能。本文提出了一种新颖的面部识别方法,其基于单端到端的深神经网络的闭塞是强大的。我们的方法(使用遮挡掩码)命名(面部识别),学会发现深度卷积神经网络的损坏功能,并通过动态学习的面具清洁它们。此外,我们构建了大规模的遮挡面部图像,从有效且有效地培训。与现有方法相比,依靠外部探测器发现遮挡或采用较少鉴别的浅模型的现有方法,从简单且功能强大。 LFW,Megaface挑战1,RMF2,AR数据集和其他模拟遮挡/掩蔽数据集的实验结果证实,从大幅提高了遮挡下的准确性,并概括了一般面部识别。
translated by 谷歌翻译
最先进的面部识别方法通常采用多分类管道,并采用基于SoftMax的损耗进行优化。虽然这些方法取得了巨大的成功,但基于Softmax的损失在开放式分类的角度下有其限制:训练阶段的多分类目标并没有严格匹配开放式分类测试的目标。在本文中,我们派生了一个名为全局边界Cosface的新损失(GB-Cosface)。我们的GB-COSface介绍了自适应全局边界,以确定两个面积是否属于相同的身份,使得优化目标与从开放集分类的角度与测试过程对齐。同时,由于损失配方来自于基于软MAX的损失,因此我们的GB-COSFace保留了基于软MAX的损耗的优异性能,并且证明了COSFace是拟议损失的特殊情况。我们在几何上分析并解释了所提出的GB-Cosface。多面识别基准测试的综合实验表明,所提出的GB-Cosface优于主流面部识别任务中的当前最先进的面部识别损失。与Cosface相比,我们的GB-Cosface在Tar @ Far = 1E-6,1E-5,1E-4上提高了1.58%,0.57%和0.28%的IJB-C基准。
translated by 谷歌翻译
深度学习技术在各种任务中都表现出了出色的有效性,并且深度学习具有推进多种应用程序(包括在边缘计算中)的潜力,其中将深层模型部署在边缘设备上,以实现即时的数据处理和响应。一个关键的挑战是,虽然深层模型的应用通常会产生大量的内存和计算成本,但Edge设备通常只提供非常有限的存储和计算功能,这些功能可能会在各个设备之间差异很大。这些特征使得难以构建深度学习解决方案,以释放边缘设备的潜力,同时遵守其约束。应对这一挑战的一种有希望的方法是自动化有效的深度学习模型的设计,这些模型轻巧,仅需少量存储,并且仅产生低计算开销。该调查提供了针对边缘计算的深度学习模型设计自动化技术的全面覆盖。它提供了关键指标的概述和比较,这些指标通常用于量化模型在有效性,轻度和计算成本方面的水平。然后,该调查涵盖了深层设计自动化技术的三类最新技术:自动化神经体系结构搜索,自动化模型压缩以及联合自动化设计和压缩。最后,调查涵盖了未来研究的开放问题和方向。
translated by 谷歌翻译
In this paper, we propose a conceptually simple and geometrically interpretable objective function, i.e. additive margin Softmax (AM-Softmax), for deep face verification. In general, the face verification task can be viewed as a metric learning problem, so learning large-margin face features whose intra-class variation is small and inter-class difference is large is of great importance in order to achieve good performance. Recently, Large-margin Softmax [10] and Angular Softmax [9] have been proposed to incorporate the angular margin in a multiplicative manner. In this work, we introduce a novel additive angular margin for the Softmax loss, which is intuitively appealing and more interpretable than the existing works. We also emphasize and discuss the importance of feature normalization in the paper. Most importantly, our experiments on LFW and MegaFace show that our additive margin softmax loss consistently performs better than the current state-of-the-art methods using the same network architecture and training dataset. Our code has also been made available 1 .
translated by 谷歌翻译
In this paper, we investigate the problem of predictive confidence in face and kinship verification. Most existing face and kinship verification methods focus on accuracy performance while ignoring confidence estimation for their prediction results. However, confidence estimation is essential for modeling reliability in such high-risk tasks. To address this issue, we first introduce a novel yet simple confidence measure for face and kinship verification, which allows the verification models to transform the similarity score into a confidence score for a given face pair. We further propose a confidence-calibrated approach called angular scaling calibration (ASC). ASC is easy to implement and can be directly applied to existing face and kinship verification models without model modifications, yielding accuracy-preserving and confidence-calibrated probabilistic verification models. To the best of our knowledge, our approach is the first general confidence-calibrated solution to face and kinship verification in a modern context. We conduct extensive experiments on four widely used face and kinship verification datasets, and the results demonstrate the effectiveness of our approach.
translated by 谷歌翻译
高效的视频架构是在具有有限计算资源的设备上部署视频识别系统的关键。不幸的是,现有的视频架构通常是计算密集的,不适合这些应用。最近的X3D工作通过沿着多个轴扩展手工制作的图像架构,介绍了一系列高效的视频模型系列,例如空间,时间,宽度和深度。虽然在概念上的大空间中操作,但x3d一次搜索一个轴,并且仅探索了一组总共30个架构,这不足以探索空间。本文绕过了现有的2D架构,并直接搜索了一个细粒度空间中的3D架构,其中共同搜索了块类型,滤波器编号,扩展比和注意力块。采用概率性神经结构搜索方法来有效地搜索如此大的空间。动力学和某事物的评估 - 某事-V2基准确认我们的AutoX3D模型在类似的拖鞋中的准确性高达1.3%的准确性优于现有的模型,并在达到类似的性能时降低计算成本高达X1.74。
translated by 谷歌翻译
最近,已经成功地应用于各种遥感图像(RSI)识别任务的大量基于深度学习的方法。然而,RSI字段中深度学习方法的大多数现有进步严重依赖于手动设计的骨干网络提取的特征,这严重阻碍了由于RSI的复杂性以及先前知识的限制而受到深度学习模型的潜力。在本文中,我们研究了RSI识别任务中的骨干架构的新设计范式,包括场景分类,陆地覆盖分类和对象检测。提出了一种基于权重共享策略和进化算法的一拍架构搜索框架,称为RSBNet,其中包括三个阶段:首先,在层面搜索空间中构造的超空网是在自组装的大型中预先磨削 - 基于集合单路径培训策略进行缩放RSI数据集。接下来,预先培训的SuperNet通过可切换识别模块配备不同的识别头,并分别在目标数据集上进行微调,以获取特定于任务特定的超网络。最后,我们根据没有任何网络训练的进化算法,搜索最佳骨干架构进行不同识别任务。对于不同识别任务的五个基准数据集进行了广泛的实验,结果显示了所提出的搜索范例的有效性,并证明搜索后的骨干能够灵活地调整不同的RSI识别任务并实现令人印象深刻的性能。
translated by 谷歌翻译
基于深度学习的分类中特征表示的主要挑战之一是设计表现出强大歧视力的适当损失功能。经典的SoftMax损失并不能明确鼓励对特征的歧视性学习。研究的一个流行方向是将边缘纳入良好的损失中,以实施额外的课内紧凑性和阶层间的可分离性,但是,这是通过启发式手段而不是严格的数学原则来开发的。在这项工作中,我们试图通过将原则优化目标提出为最大的利润率来解决这一限制。具体而言,我们首先将类别的边缘定义为级别间的可分离性的度量,而样品边缘是级别的紧凑性的度量。因此,为了鼓励特征的歧视性表示,损失函数应促进类和样品的最大可能边缘。此外,我们得出了广义的保证金软损失,以得出现有基于边缘的损失的一般结论。这个原则性的框架不仅提供了新的观点来理解和解释现有的基于保证金的损失,而且还提供了新的见解,可以指导新工具的设计,包括样本保证金正则化和最大的平衡案例的最大保证金损失,和零中心的正则化案例。实验结果证明了我们的策略对各种任务的有效性,包括视觉分类,分类不平衡,重新识别和面部验证。
translated by 谷歌翻译
语义细分是计算机视觉中的一个流行研究主题,并且在其上做出了许多努力,结果令人印象深刻。在本文中,我们打算搜索可以实时运行此问题的最佳网络结构。为了实现这一目标,我们共同搜索深度,通道,扩张速率和特征空间分辨率,从而导致搜索空间约为2.78*10^324可能的选择。为了处理如此大的搜索空间,我们利用差异架构搜索方法。但是,需要离散地使用使用现有差异方法搜索的体系结构参数,这会导致差异方法找到的架构参数与其离散版本作为体系结构搜索的最终解决方案之间的离散差距。因此,我们从解决方案空间正则化的创新角度来缓解离散差距的问题。具体而言,首先提出了新型的解决方案空间正则化(SSR)损失,以有效鼓励超级网络收敛到其离散。然后,提出了一种新的分层和渐进式解决方案空间缩小方法,以进一步实现较高的搜索效率。此外,我们从理论上表明,SSR损失的优化等同于L_0-NORM正则化,这说明了改善的搜索评估差距。综合实验表明,提出的搜索方案可以有效地找到最佳的网络结构,该结构具有较小的模型大小(1 m)的分割非常快的速度(175 fps),同时保持可比较的精度。
translated by 谷歌翻译
由于CNNS中的快速进步,因此,面部识别的性能已饱和,例如LFW,CFP-FP和AgedB,因为CNNS的快速进步。然而,由于没有这种数据集,尚未研究在FR模型上对FR模型进行各种细粒度条件的影响。本文在使用K-Face的不同条件和损耗功能方面分析了它们的效果,最近引入了具有细粒度的FR DataSet。我们提出了一种新的丢失功能,混合表面,结合了分类和度量损失。在各种基准数据集上实验证明了在有效性和稳健性方面的混合表面的优越性。
translated by 谷歌翻译
在本文中,我们基于任何卷积神经网络中中间注意图的弱监督生成机制,并更加直接地披露了注意模块的有效性,以充分利用其潜力。鉴于现有的神经网络配备了任意注意模块,我们介绍了一个元评论家网络,以评估主网络中注意力图的质量。由于我们设计的奖励的离散性,提出的学习方法是在强化学习环境中安排的,在此设置中,注意力参与者和经常性的批评家交替优化,以提供临时注意力表示的即时批评和修订,因此,由于深度强化的注意力学习而引起了人们的关注。 (Dreal)。它可以普遍应用于具有不同类型的注意模块的网络体系结构,并通过最大程度地提高每个单独注意模块产生的最终识别性能的相对增益来促进其表现能力,如类别和实例识别基准的广泛实验所证明的那样。
translated by 谷歌翻译
最近,变压器和多层感知器(MLP)体系结构在各种视觉任务上取得了令人印象深刻的结果。但是,如何有效地结合这些操作员形成高性能混合视觉体系结构仍然是一个挑战。在这项工作中,我们通过提出一种新型的统一体系结构搜索方法来研究卷积,变压器和MLP的可学习组合。我们的方法包含两个关键设计,以实现高性能网络的搜索。首先,我们以统一的形式对截然不同的可搜索运算符进行建模,从而使操作员能够用相同的配置参数进行表征。这样,总体搜索空间规模大大减少,总搜索成本变得负担得起。其次,我们提出上下文感知的倒数采样模块(DSM),以减轻不同类型的操作员之间的差距。我们提出的DSM能够更好地适应不同类型的操作员的功能,这对于识别高性能混合体系结构很重要。最后,我们将可配置的运算符和DSM集成到统一的搜索空间中,并使用基于增强学习的搜索算法进行搜索,以充分探索操作员的最佳组合。为此,我们搜索一个基线网络并扩大规模,以获得一个名为UNINET的模型系列,该模型的准确性和效率比以前的Convnets和Transformers更好。特别是,我们的UNET-B5在ImageNet上获得了84.9%的TOP-1精度,比效应网络-B7和Botnet-T7分别少了44%和55%。通过在Imagenet-21K上进行预处理,我们的UNET-B6获得了87.4%,表现优于SWIN-L,拖鞋少51%,参数减少了41%。代码可在https://github.com/sense-x/uninet上找到。
translated by 谷歌翻译