深度卷积神经网络(DCNNS)的最新进展显示了热量的性能改进,可见的脸部合成和匹配问题。然而,当前的基于DCNN的合成模型在具有大姿势变化的热面上不太良好。为了处理该问题,需要异构面部额定化方法,其中模型采用热剖面图像并产生正面可见面。这是由于大域的一个极其困难的问题,以及两个模式之间的大姿态差异。尽管其在生物识别和监测中存在应用,但文献中的这种问题相对未探索。我们提出了一种域名不可知论的基于学习的生成对抗网络(DAL-GAN),其可以通过具有姿势变化的热面来合成可见域中的前视图。 Dal-GaN由具有辅助分类器的发电机和两个鉴别器,捕获局部和全局纹理鉴别以获得更好的合成。在双路径训练策略的帮助下,在发电机的潜在空间中强制实施对比度约束,这改善了特征向量辨别。最后,利用多功能损失函数来指导网络合成保存跨域累加的身份。广泛的实验结果表明,与其他基线方法相比,Dal-GaN可以产生更好的质量正面视图。
translated by 谷歌翻译
横梁面部识别(CFR)旨在识别个体,其中比较面部图像源自不同的感测模式,例如红外与可见的。虽然CFR由于与模态差距相关的面部外观的显着变化,但CFR具有比经典的面部识别更具挑战性,但它在具有有限或挑战的照明的场景中,以及在呈现攻击的情况下,它是优越的。与卷积神经网络(CNNS)相关的人工智能最近的进展使CFR的显着性能提高了。由此激励,这项调查的贡献是三倍。我们提供CFR的概述,目标是通过首先正式化CFR然后呈现具体相关的应用来比较不同光谱中捕获的面部图像。其次,我们探索合适的谱带进行识别和讨论最近的CFR方法,重点放在神经网络上。特别是,我们提出了提取和比较异构特征以及数据集的重新访问技术。我们枚举不同光谱和相关算法的优势和局限性。最后,我们讨论了研究挑战和未来的研究线。
translated by 谷歌翻译
In recent years, visible-spectrum face verification systems have been shown to match the performance of experienced forensic examiners. However, such systems are ineffective in low-light and nighttime conditions. Thermal face imagery, which captures body heat emissions, effectively augments the visible spectrum, capturing discriminative facial features in scenes with limited illumination. Due to the increased cost and difficulty of obtaining diverse, paired thermal and visible spectrum datasets, not many algorithms and large-scale benchmarks for low-light recognition are available. This paper presents an algorithm that achieves state-of-the-art performance on both the ARL-VTF and TUFTS multi-spectral face datasets. Importantly, we study the impact of face alignment, pixel-level correspondence, and identity classification with label smoothing for multi-spectral face synthesis and verification. We show that our proposed method is widely applicable, robust, and highly effective. In addition, we show that the proposed method significantly outperforms face frontalization methods on profile-to-frontal verification. Finally, we present MILAB-VTF(B), a challenging multi-spectral face dataset that is composed of paired thermal and visible videos. To the best of our knowledge, with face data from 400 subjects, this dataset represents the most extensive collection of indoor and long-range outdoor thermal-visible face imagery. Lastly, we show that our end-to-end thermal-to-visible face verification system provides strong performance on the MILAB-VTF(B) dataset.
translated by 谷歌翻译
异质的面部识别(HFR)旨在匹配不同域(例如,可见到近红外图像)的面孔,该面孔已被广泛应用于身份验证和取证方案。但是,HFR是一个具有挑战性的问题,因为跨域差异很大,异质数据对有限和面部属性变化很大。为了应对这些挑战,我们从异质数据增强的角度提出了一种新的HFR方法,该方法称为面部合成,具有身份 - 属性分解(FSIAD)。首先,身份属性分解(IAD)将图像截取到与身份相关的表示和与身份无关的表示(称为属性)中,然后降低身份和属性之间的相关性。其次,我们设计了一个面部合成模块(FSM),以生成大量具有分离的身份和属性的随机组合的图像,以丰富合成图像的属性多样性。原始图像和合成图像均被用于训练HFR网络,以应对挑战并提高HFR的性能。在五个HFR数据库上进行的广泛实验验证了FSIAD的性能比以前的HFR方法更高。特别是,FSIAD以vr@far = 0.01%在LAMP-HQ上获得了4.8%的改善,这是迄今为止最大的HFR数据库。
translated by 谷歌翻译
可见光面图像匹配是跨模型识别的具有挑战性的变化。挑战在于,可见和热模式之间的较大的模态间隙和低相关性。现有方法采用图像预处理,特征提取或常见的子空间投影,它们本身是独立的问题。在本文中,我们提出了一种用于交叉模态面部识别的端到端框架。该算法的旨在从未处理的面部图像学习身份鉴别特征,并识别跨模态图像对。提出了一种新颖的单元级丢失,用于在丢弃模态信息时保留身份信息。另外,提出用于将图像对分类能力集成到网络中的跨模判位块。所提出的网络可用于提取无关的矢量表示或测试图像的匹配对分类。我们对五个独立数据库的跨型号人脸识别实验表明,该方法实现了对现有最先进的方法的显着改善。
translated by 谷歌翻译
最近的研究表明了对面部表情合成的多域图像到图像转换的令人印象深刻的结果。虽然有效,但这些方法需要大量标记的样本进行合理的结果。当我们在较小的数据集中训练时,他们的性能显着降低。为了解决这一限制,在这项工作中,我们展示了US-GaN,通过采用显着的小型数据集来合成合理表达的较小有效的方法。所提出的方法包括编码层,单个残差块,解码层和终极跳过连接,其将输入图像链接到输出图像。与最先进的面部表情合成方法相比,参数具有三倍。实验结果表明了我们提出的方法的定量和定性效果。此外,我们还表明,终极跳过连接足以恢复较大的最先进模型无法恢复的输入面部图像的富有的面部和整体颜色细节。
translated by 谷歌翻译
Near infrared (NIR) to Visible (VIS) face matching is challenging due to the significant domain gaps as well as a lack of sufficient data for cross-modality model training. To overcome this problem, we propose a novel method for paired NIR-VIS facial image generation. Specifically, we reconstruct 3D face shape and reflectance from a large 2D facial dataset and introduce a novel method of transforming the VIS reflectance to NIR reflectance. We then use a physically-based renderer to generate a vast, high-resolution and photorealistic dataset consisting of various poses and identities in the NIR and VIS spectra. Moreover, to facilitate the identity feature learning, we propose an IDentity-based Maximum Mean Discrepancy (ID-MMD) loss, which not only reduces the modality gap between NIR and VIS images at the domain level but encourages the network to focus on the identity features instead of facial details, such as poses and accessories. Extensive experiments conducted on four challenging NIR-VIS face recognition benchmarks demonstrate that the proposed method can achieve comparable performance with the state-of-the-art (SOTA) methods without requiring any existing NIR-VIS face recognition datasets. With slightly fine-tuning on the target NIR-VIS face recognition datasets, our method can significantly surpass the SOTA performance. Code and pretrained models are released under the insightface (https://github.com/deepinsight/insightface/tree/master/recognition).
translated by 谷歌翻译
深入学习方法通​​过用非常大的面部图像数据集训练模型来实现高度准确的人脸识别。与大型2D面部图像数据集的可用性不同,公众缺少大型3D面部数据集。现有的公共3D面部数据集通常收集有很少的科目,导致过度拟合的问题。本文提出了两个CNN模型来提高RGB-D面部识别任务。首先是分割感知深度估计网络,称为DepthNet,其通过包括用于更准确的面部区域定位的语义分段信息来估计来自RGB面部图像的深度映射。另一种是一种新的掩模引导RGB-D面识别模型,其包含RGB识别分支,深度图识别分支和具有空间注意模块的辅助分割掩模分支。我们的深度用于将大型2D面部图像数据集增强到大RGB-D面部数据集,用于训练精确的RGB-D面识别模型。此外,所提出的掩模引导的RGB-D面识别模型可以充分利用深度图和分割掩模信息,并且比以前的方法更稳健地对姿势变化。我们的实验结果表明,DepthNet可以通过分割掩模从面部图像产生更可靠的深度图。我们的掩模引导的面部识别模型优于几个公共3D面部数据集上的最先进方法。
translated by 谷歌翻译
我们建议使用单个图像进行面部表达到表达翻译的简单而强大的地标引导的生成对抗网络(Landmarkgan),这在计算机视觉中是一项重要且具有挑战性的任务,因为表达到表达的翻译是非 - 线性和非对准问题。此外,由于图像中的对象可以具有任意的姿势,大小,位置,背景和自我观念,因此需要在输入图像和输出图像之间有一个高级的语义理解。为了解决这个问题,我们建议明确利用面部地标信息。由于这是一个具有挑战性的问题,我们将其分为两个子任务,(i)类别引导的地标生成,以及(ii)具有里程碑意义的指导表达式对表达的翻译。两项子任务以端到端的方式进行了培训,旨在享受产生的地标和表情的相互改善的好处。与当前的按键指导的方法相比,提议的Landmarkgan只需要单个面部图像即可产生各种表达式。四个公共数据集的广泛实验结果表明,与仅使用单个图像的最先进方法相比,所提出的Landmarkgan获得了更好的结果。该代码可从https://github.com/ha0tang/landmarkgan获得。
translated by 谷歌翻译
本文的目标是对面部素描合成(FSS)问题进行全面的研究。然而,由于获得了手绘草图数据集的高成本,因此缺乏完整的基准,用于评估过去十年的FSS算法的开发。因此,我们首先向FSS引入高质量的数据集,名为FS2K,其中包括2,104个图像素描对,跨越三种类型的草图样式,图像背景,照明条件,肤色和面部属性。 FS2K与以前的FSS数据集不同于难度,多样性和可扩展性,因此应促进FSS研究的进展。其次,我们通过调查139种古典方法,包括34个手工特征的面部素描合成方法,37个一般的神经式传输方法,43个深映像到图像翻译方法,以及35个图像 - 素描方法。此外,我们详细说明了现有的19个尖端模型的综合实验。第三,我们为FSS提供了一个简单的基准,名为FSGAN。只有两个直截了当的组件,即面部感知屏蔽和风格矢量扩展,FSGAN将超越所提出的FS2K数据集的所有先前最先进模型的性能,通过大边距。最后,我们在过去几年中汲取的经验教训,并指出了几个未解决的挑战。我们的开源代码可在https://github.com/dengpingfan/fsgan中获得。
translated by 谷歌翻译
Person recognition at a distance entails recognizing the identity of an individual appearing in images or videos collected by long-range imaging systems such as drones or surveillance cameras. Despite recent advances in deep convolutional neural networks (DCNNs), this remains challenging. Images or videos collected by long-range cameras often suffer from atmospheric turbulence, blur, low-resolution, unconstrained poses, and poor illumination. In this paper, we provide a brief survey of recent advances in person recognition at a distance. In particular, we review recent work in multi-spectral face verification, person re-identification, and gait-based analysis techniques. Furthermore, we discuss the merits and drawbacks of existing approaches and identify important, yet under explored challenges for deploying remote person recognition systems in-the-wild.
translated by 谷歌翻译
近年来,由于深度学习体系结构的有希望的进步,面部识别系统取得了非凡的成功。但是,当将配置图像与额叶图像的画廊匹配时,它们仍然无法实现预期的准确性。当前方法要么执行姿势归一化(即额叶化)或脱离姿势信息以进行面部识别。相反,我们提出了一种新方法,通过注意机制将姿势用作辅助信息。在本文中,我们假设使用注意机制姿势参加的信息可以指导剖面面上的上下文和独特的特征提取,从而进一步使嵌入式域中的更好表示形式学习。为了实现这一目标,首先,我们设计了一个统一的耦合曲线到额定面部识别网络。它通过特定于类的对比损失来学习从面孔到紧凑的嵌入子空间的映射。其次,我们开发了一个新颖的姿势注意力块(PAB),以专门指导从剖面面上提取姿势 - 不合稳定的特征。更具体地说,PAB旨在显式地帮助网络沿着频道和空间维度沿着频道和空间维度的重要特征,同时学习嵌入式子空间中的歧视性但构成不变的特征。为了验证我们提出的方法的有效性,我们对包括多PIE,CFP,IJBC在内的受控和野生基准进行实验,并在艺术状态下表现出优势。
translated by 谷歌翻译
在本文中,我们试图在抽象嵌入空间中绘制额叶和轮廓面图像之间的连接。我们使用耦合编码器网络利用此连接将额叶/配置文件的面部图像投影到一个常见的潜在嵌入空间中。提出的模型通过最大化面部两种视图之间的相互信息来迫使嵌入空间中表示的相似性。拟议的耦合编码器从三个贡献中受益于与极端姿势差异的匹配面。首先,我们利用我们的姿势意识到的对比学习来最大程度地提高身份额叶和概况表示之间的相互信息。其次,由在过去的迭代中积累的潜在表示组成的内存缓冲区已集成到模型中,因此它可以比小批量大小相对较多的实例。第三,一种新颖的姿势感知的对抗结构域适应方法迫使模型学习从轮廓到额叶表示的不对称映射。在我们的框架中,耦合编码器学会了扩大真实面孔和冒名顶替面部分布之间的边距,这导致了相同身份的不同观点之间的高度相互信息。通过对四个基准数据集的广泛实验,评估和消融研究来研究拟议模型的有效性,并与引人入胜的最新算法进行比较。
translated by 谷歌翻译
Recent years witnessed the breakthrough of face recognition with deep convolutional neural networks. Dozens of papers in the field of FR are published every year. Some of them were applied in the industrial community and played an important role in human life such as device unlock, mobile payment, and so on. This paper provides an introduction to face recognition, including its history, pipeline, algorithms based on conventional manually designed features or deep learning, mainstream training, evaluation datasets, and related applications. We have analyzed and compared state-of-the-art works as many as possible, and also carefully designed a set of experiments to find the effect of backbone size and data distribution. This survey is a material of the tutorial named The Practical Face Recognition Technology in the Industrial World in the FG2023.
translated by 谷歌翻译
尽管在面部识别方面取得了重大进展(FR),但由于半约束训练数据集和无约束的测试方案之间的域间隙,在不受约束的环境中FR仍然具有挑战性。为了解决此问题,我们提出了一个可控的面部合成模型(CFSM),该模型可以模仿样式潜在空间中目标数据集的分布。CFSM在样式潜在空间中学习了一个线性子空间,并具有对综合多样性和程度的精确控制。此外,预先训练的合成模型可以由FR模型指导,从而使所得图像对FR模型训练更有益。此外,目标数据集分布的特征是学到的正交碱基,可以用来测量面部数据集之间的分布相似性。我们的方法在不受约束的基准测试中获得了显着的性能提高,例如IJB-B,IJB-C,TinyFace和IJB-S(+5.76%rank1)。
translated by 谷歌翻译
在这项工作中,我们研究了面部重建的问题,鉴于从黑框面部识别引擎中提取的面部特征表示。确实,由于引擎中抽象信息的局限性,在实践中,这是非常具有挑战性的问题。因此,我们在蒸馏框架(dab-gan)中引入了一种名为基于注意力的生成对抗网络的新方法,以合成受试者的面孔,鉴于其提取的面部识别功能。鉴于主题的任何不受约束的面部特征,Dab-Gan可以在高清上重建他/她的脸。 DAB-GAN方法包括一种新型的基于注意力的生成结构,采用新的定义的Bioxtive Metrics学习方法。该框架首先引入徒图,以便可以在图像域中直接采用距离测量和度量学习过程,以进行图像重建任务。来自Blackbox面部识别引擎的信息将使用全局蒸馏过程最佳利用。然后,提出了一个基于注意力的发电机,以使一个高度可靠的发电机通过ID保存综合逼真的面孔。我们已经评估了有关具有挑战性的面部识别数据库的方法,即Celeba,LF​​W,AgeDB,CFP-FP,并始终取得了最新的结果。 Dab-Gan的进步也得到了图像现实主义和ID保存属性的证明。
translated by 谷歌翻译
大多数现代脸部完成方法采用AutoEncoder或其变体来恢复面部图像中缺失的区域。编码器通常用于学习强大的表现,在满足复杂的学习任务的挑战方面发挥着重要作用。具体地,各种掩模通常在野外的面部图像中呈现,形成复杂的图案,特别是在Covid-19的艰难时期。编码器很难在这种复杂的情况下捕捉如此强大的陈述。为了解决这一挑战,我们提出了一个自我监督的暹罗推论网络,以改善编码器的泛化和鲁棒性。它可以从全分辨率图像编码上下文语义并获得更多辨别性表示。为了处理面部图像的几何变型,将密集的对应字段集成到网络中。我们进一步提出了一种具有新型双重关注融合模块(DAF)的多尺度解码器,其可以以自适应方式将恢复和已知区域组合。这种多尺度架构有利于解码器利用从编码器学习到图像中的辨别性表示。广泛的实验清楚地表明,与最先进的方法相比,拟议的方法不仅可以实现更具吸引力的结果,而且还提高了蒙面的面部识别的性能。
translated by 谷歌翻译
长期以来,面部识别一直是人工智能领域的一个积极研究领域,尤其是自近年来深度学习的兴起以来。在某些实际情况下,每个身份只有一个可以培训的样本。在这种情况下的面部识别被称为单个样本识别,并对深层模型的有效培训构成了重大挑战。因此,近年来,研究人员试图释放更多的深度学习潜力,并在单个样本情况下提高模型识别性能。尽管已经对传统的单个样本面部识别方法进行了几项全面的调查,但这些评论很少涉及新兴的基于深度学习的方法。因此,我们将重点放在本文中的基于深度学习的方法上,将其分类为虚拟示例方法和通用学习方法。在前一种类别中,生成虚拟图像或虚拟特征以使深层模型的训练受益。在后者中,使用了其他多样本通用集。通用学习方法有三种类型:结合传统方法和深度特征,改善损失功能并改善网络结构,所有这些都涵盖了我们的分析。此外,我们回顾了通常用于评估单个样本面部识别模型的面部数据集,并继续比较不同类型的模型的结果。此外,我们讨论了现有的单个样本面部识别方法的问题,包括虚拟样本方法中的身份信息保存,通用学习方法中的域适应性。此外,我们认为开发无监督的方法是一个有希望的未来方向,并指出语义差距是需要进一步考虑的重要问题。
translated by 谷歌翻译
深度神经网络在人类分析中已经普遍存在,增强了应用的性能,例如生物识别识别,动作识别以及人重新识别。但是,此类网络的性能通过可用的培训数据缩放。在人类分析中,对大规模数据集的需求构成了严重的挑战,因为数据收集乏味,廉价,昂贵,并且必须遵守数据保护法。当前的研究研究了\ textit {合成数据}的生成,作为在现场收集真实数据的有效且具有隐私性的替代方案。这项调查介绍了基本定义和方法,在生成和采用合成数据进行人类分析时必不可少。我们进行了一项调查,总结了当前的最新方法以及使用合成数据的主要好处。我们还提供了公开可用的合成数据集和生成模型的概述。最后,我们讨论了该领域的局限性以及开放研究问题。这项调查旨在为人类分析领域的研究人员和从业人员提供。
translated by 谷歌翻译
围绕外观生物识别性的常见但具有挑战性的场景是跨光谱匹配 - 特别是,可见波长对近红外(NIR)周围图像的匹配。我们提出了一种新颖的方法来跨谱围绕的横梁围绕,主要侧重于学习从可见和NIR幽冥映像到共享潜在代表子空间的映射,并通过同时学习频谱内的图像重建来支持这项努力。我们显示辅助图像重建任务(特别是高级,语义特征的重建)导致学习与基线相比的更差异的域不变子空间,同时在测试时间不产生额外的计算或内存成本。所提出的耦合条件生成对抗网络(COGAN)架构使用由U-NET上的配对发电机网络(在NIR上运行另一个操作,其中通过对具有对比损耗和频谱图像的特征学习的Reset-18编码器组成用对抗性,基于像素的和感知重建损失重建。此外,所提出的Cogan模型在跨谱周边识别中击败了当前的最先进(SOTA)。在香港Polyu基准数据集上,我们达到了98.65%的AUC和5.14%EER,与SOTA EER为8.02%。在串眼的数据集上,我们达到了99.31%的AUC和3.99%的eer,而sota eer为4.39%。
translated by 谷歌翻译