Near infrared (NIR) to Visible (VIS) face matching is challenging due to the significant domain gaps as well as a lack of sufficient data for cross-modality model training. To overcome this problem, we propose a novel method for paired NIR-VIS facial image generation. Specifically, we reconstruct 3D face shape and reflectance from a large 2D facial dataset and introduce a novel method of transforming the VIS reflectance to NIR reflectance. We then use a physically-based renderer to generate a vast, high-resolution and photorealistic dataset consisting of various poses and identities in the NIR and VIS spectra. Moreover, to facilitate the identity feature learning, we propose an IDentity-based Maximum Mean Discrepancy (ID-MMD) loss, which not only reduces the modality gap between NIR and VIS images at the domain level but encourages the network to focus on the identity features instead of facial details, such as poses and accessories. Extensive experiments conducted on four challenging NIR-VIS face recognition benchmarks demonstrate that the proposed method can achieve comparable performance with the state-of-the-art (SOTA) methods without requiring any existing NIR-VIS face recognition datasets. With slightly fine-tuning on the target NIR-VIS face recognition datasets, our method can significantly surpass the SOTA performance. Code and pretrained models are released under the insightface (https://github.com/deepinsight/insightface/tree/master/recognition).
translated by 谷歌翻译
异质的面部识别(HFR)旨在匹配不同域(例如,可见到近红外图像)的面孔,该面孔已被广泛应用于身份验证和取证方案。但是,HFR是一个具有挑战性的问题,因为跨域差异很大,异质数据对有限和面部属性变化很大。为了应对这些挑战,我们从异质数据增强的角度提出了一种新的HFR方法,该方法称为面部合成,具有身份 - 属性分解(FSIAD)。首先,身份属性分解(IAD)将图像截取到与身份相关的表示和与身份无关的表示(称为属性)中,然后降低身份和属性之间的相关性。其次,我们设计了一个面部合成模块(FSM),以生成大量具有分离的身份和属性的随机组合的图像,以丰富合成图像的属性多样性。原始图像和合成图像均被用于训练HFR网络,以应对挑战并提高HFR的性能。在五个HFR数据库上进行的广泛实验验证了FSIAD的性能比以前的HFR方法更高。特别是,FSIAD以vr@far = 0.01%在LAMP-HQ上获得了4.8%的改善,这是迄今为止最大的HFR数据库。
translated by 谷歌翻译
横梁面部识别(CFR)旨在识别个体,其中比较面部图像源自不同的感测模式,例如红外与可见的。虽然CFR由于与模态差距相关的面部外观的显着变化,但CFR具有比经典的面部识别更具挑战性,但它在具有有限或挑战的照明的场景中,以及在呈现攻击的情况下,它是优越的。与卷积神经网络(CNNS)相关的人工智能最近的进展使CFR的显着性能提高了。由此激励,这项调查的贡献是三倍。我们提供CFR的概述,目标是通过首先正式化CFR然后呈现具体相关的应用来比较不同光谱中捕获的面部图像。其次,我们探索合适的谱带进行识别和讨论最近的CFR方法,重点放在神经网络上。特别是,我们提出了提取和比较异构特征以及数据集的重新访问技术。我们枚举不同光谱和相关算法的优势和局限性。最后,我们讨论了研究挑战和未来的研究线。
translated by 谷歌翻译
在过去几年中,许多面部分析任务已经完成了惊人的性能,其中应用包括来自单个“野外”图像的面部生成和3D面重建。尽管如此,据我们所知,没有方法可以从“野外”图像中产生渲染的高分辨率3D面,并且这可以归因于:(a)可用数据的跨度进行培训(b)缺乏可以成功应用于非常高分辨率数据的强大方法。在这项工作中,我们介绍了一种能够从单个“野外”图像中重建光电型渲染3D面部几何和BRDF的第一种方法。我们捕获了一个大型的面部形状和反射率,我们已经公开了。我们用精确的面部皮肤漫射和镜面反射,自遮挡和地下散射近似来定义快速面部光电型拟型渲染方法。有了这一点,我们训练一个网络,将面部漫射和镜面BRDF组件与烘焙照明的形状和质地一起脱颖而出,以最先进的3DMM配件方法重建。我们的方法通过显着的余量优于现有技术,并从单个低分辨率图像重建高分辨率3D面,这可以在各种应用中呈现,并桥接不一体谷。
translated by 谷歌翻译
面部3D形态模型是无数应用程序的主要计算机视觉主题,并且在过去二十年中已得到高度优化。深层生成网络的巨大改进创造了改善此类模型的各种可能性,并引起了广泛的兴趣。此外,神经辐射领域的最新进展正在彻底改变已知场景的新颖视图综合。在这项工作中,我们提出了一个面部3D形态模型,该模型利用了上述两者,并且可以准确地对受试者的身份,姿势和表达进行建模,并以任意照明形式呈现。这是通过利用强大的基于风格的发电机来克服神经辐射场的两个主要弱点,即它们的刚度和渲染速度来实现的。我们介绍了一个基于样式的生成网络,该网络在一个通过中综合了全部,并且仅在神经辐射场的所需渲染样品中构成。我们创建了一个庞大的标记为面部渲染的合成数据集,并在这些数据上训练网络,以便它可以准确地建模并推广到面部身份,姿势和外观。最后,我们表明该模型可以准确地适合“野外”的任意姿势和照明的面部图像,提取面部特征,并用于在可控条件下重新呈现面部。
translated by 谷歌翻译
深度卷积神经网络(DCNNS)的最新进展显示了热量的性能改进,可见的脸部合成和匹配问题。然而,当前的基于DCNN的合成模型在具有大姿势变化的热面上不太良好。为了处理该问题,需要异构面部额定化方法,其中模型采用热剖面图像并产生正面可见面。这是由于大域的一个极其困难的问题,以及两个模式之间的大姿态差异。尽管其在生物识别和监测中存在应用,但文献中的这种问题相对未探索。我们提出了一种域名不可知论的基于学习的生成对抗网络(DAL-GAN),其可以通过具有姿势变化的热面来合成可见域中的前视图。 Dal-GaN由具有辅助分类器的发电机和两个鉴别器,捕获局部和全局纹理鉴别以获得更好的合成。在双路径训练策略的帮助下,在发电机的潜在空间中强制实施对比度约束,这改善了特征向量辨别。最后,利用多功能损失函数来指导网络合成保存跨域累加的身份。广泛的实验结果表明,与其他基线方法相比,Dal-GaN可以产生更好的质量正面视图。
translated by 谷歌翻译
深度神经网络在人类分析中已经普遍存在,增强了应用的性能,例如生物识别识别,动作识别以及人重新识别。但是,此类网络的性能通过可用的培训数据缩放。在人类分析中,对大规模数据集的需求构成了严重的挑战,因为数据收集乏味,廉价,昂贵,并且必须遵守数据保护法。当前的研究研究了\ textit {合成数据}的生成,作为在现场收集真实数据的有效且具有隐私性的替代方案。这项调查介绍了基本定义和方法,在生成和采用合成数据进行人类分析时必不可少。我们进行了一项调查,总结了当前的最新方法以及使用合成数据的主要好处。我们还提供了公开可用的合成数据集和生成模型的概述。最后,我们讨论了该领域的局限性以及开放研究问题。这项调查旨在为人类分析领域的研究人员和从业人员提供。
translated by 谷歌翻译
随着近期神经网络的成功,对人脸识别取得了显着进展。然而,收集面部识别的大规模现实世界培训数据已经挑战,特别是由于标签噪音和隐私问题。同时,通常从网络图像收集现有的面部识别数据集,缺乏关于属性的详细注释(例如,姿势和表达),因此对面部识别的不同属性的影响已经很差。在本文中,我们使用合成面部图像,即Synface来解决面部识别中的上述问题。具体而言,我们首先探讨用合成和真实面部图像训练的最近最先进的人脸识别模型之间的性能差距。然后,我们分析了性能差距背后的潜在原因,例如,较差的阶级变化和合成和真实面部图像之间的域间隙。灵感来自于此,我们使用身份混合(IM)和域混合(DM)设计了SYNFACE,以减轻上述性能差距,展示了对面部识别的综合数据的巨大潜力。此外,利用可控的面部合成模型,我们可以容易地管理合成面代的不同因素,包括姿势,表达,照明,身份的数量和每个身份的样本。因此,我们还对综合性面部图像进行系统实证分析,以提供一些关于如何有效利用综合数据进行人脸识别的见解。
translated by 谷歌翻译
与传统的头像创建管道相反,这是一个昂贵的过程,现代生成方法直接从照片中学习数据分布,而艺术的状态现在可以产生高度的照片现实图像。尽管大量作品试图扩展无条件的生成模型并达到一定程度的可控性,但要确保多视图一致性,尤其是在大型姿势中,仍然具有挑战性。在这项工作中,我们提出了一个3D肖像生成网络,该网络可产生3D一致的肖像,同时根据有关姿势,身份,表达和照明的语义参数可控。生成网络使用神经场景表示在3D中建模肖像,其生成以支持明确控制的参数面模型为指导。尽管可以通过将图像与部分不同的属性进行对比,但可以进一步增强潜在的分离,但在非面积区域(例如,在动画表达式)时,仍然存在明显的不一致。我们通过提出一种体积混合策略来解决此问题,在该策略中,我们通过将动态和静态辐射场融合在一起,形成一个复合输出,并从共同学习的语义场中分割了两个部分。我们的方法在广泛的实验中优于先前的艺术,在自由视点中观看时,在自然照明中产生了逼真的肖像。所提出的方法还证明了真实图像以及室外卡通面孔的概括能力,在实际应用中显示出巨大的希望。其他视频结果和代码将在项目网页上提供。
translated by 谷歌翻译
可见光面图像匹配是跨模型识别的具有挑战性的变化。挑战在于,可见和热模式之间的较大的模态间隙和低相关性。现有方法采用图像预处理,特征提取或常见的子空间投影,它们本身是独立的问题。在本文中,我们提出了一种用于交叉模态面部识别的端到端框架。该算法的旨在从未处理的面部图像学习身份鉴别特征,并识别跨模态图像对。提出了一种新颖的单元级丢失,用于在丢弃模态信息时保留身份信息。另外,提出用于将图像对分类能力集成到网络中的跨模判位块。所提出的网络可用于提取无关的矢量表示或测试图像的匹配对分类。我们对五个独立数据库的跨型号人脸识别实验表明,该方法实现了对现有最先进的方法的显着改善。
translated by 谷歌翻译
从单个图像重建高保真3D面部纹理是一个具有挑战性的任务,因为缺乏完整的面部信息和3D面和2D图像之间的域间隙。最新作品通过应用基于代或基于重建的方法来解决面部纹理重建问题。尽管各种方法具有自身的优势,但它们不能恢复高保真和可重新可传送的面部纹理,其中术语“重新可调剂”要求面部质地在空间地完成和与环境照明中脱颖而出。在本文中,我们提出了一种新颖的自我监督学习框架,用于从野外的单视图重建高质量的3D面。我们的主要思想是首先利用先前的一代模块来生产先前的Albedo,然后利用细节细化模块来获得详细的Albedo。为了进一步使面部纹理解开照明,我们提出了一种新颖的详细的照明表示,该表现在一起与详细的Albedo一起重建。我们还在反照侧和照明方面设计了几种正规化损失功能,以便于解散这两个因素。最后,由于可怜的渲染技术,我们的神经网络可以以自我监督的方式有效地培训。关于具有挑战性的数据集的广泛实验表明,我们的框架在定性和定量比较方面显着优于最先进的方法。
translated by 谷歌翻译
尽管最近通过生成对抗网络(GAN)操纵面部属性最近取得了非常成功的成功,但在明确控制姿势,表达,照明等特征的明确控制方面仍然存在一些挑战。最近的方法通过结合2D生成模型来实现对2D图像的明确控制和3dmm。但是,由于3DMM缺乏现实主义和纹理重建的清晰度,因此合成图像与3DMM的渲染图像之间存在域间隙。由于渲染的3DMM图像仅包含面部区域,因此直接计算这两个域之间的损失是不理想的,因此训练有素的模型将是偏差的。在这项研究中,我们建议通过控制3DMM的参数来明确编辑验证样式的潜在空间。为了解决域间隙问题,我们提出了一个名为“地图和编辑”的新网络,以及一种简单但有效的属性编辑方法,以避免渲染和合成图像之间的直接损失计算。此外,由于我们的模型可以准确地生成多视图的面部图像,而身份保持不变。作为副产品,结合可见性掩模,我们提出的模型还可以生成质地丰富和高分辨率的紫外面部纹理。我们的模型依赖于验证的样式,并且提出的模型以自我监督的方式进行了训练,而无需任何手动注释或数据集训练。
translated by 谷歌翻译
学习模态不变功能是可见热跨模板人员重新凝视(VT-REID)问题的核心,其中查询和画廊图像来自不同的模式。现有工作通过使用对抗性学习或仔细设计特征提取模块来隐式地将像素和特征空间中的模态对齐。我们提出了一个简单但有效的框架MMD-REID,通过明确的差异减少约束来降低模态差距。 MMD-REID从最大均值(MMD)中获取灵感,广泛使用的统计工具用于确定两个分布之间的距离。 MMD-REID采用新的基于边缘的配方,以匹配可见和热样品的类条件特征分布,以最大限度地减少级别的距离,同时保持特征辨别性。 MMD-Reid是一个简单的架构和损失制定方面的框架。我们对MMD-REID的有效性进行了广泛的实验,以使MMD-REID对调整边缘和阶级条件分布的有效性,从而学习模型无关和身份的一致特征。所提出的框架显着优于Sysu-MM01和RegDB数据集的最先进的方法。代码将在https://github.com/vcl-iisc/mmd -reid发布
translated by 谷歌翻译
面部反欺骗(FAS)在防止演示攻击中的人脸识别系统中起着至关重要的作用。由于身份和微不足道的方差不足,现有面部反欺骗数据集缺乏多样性,这限制了FAS模型的泛化能力。在本文中,我们提出了双重欺骗解散生成(DSDG)框架,通过“通过生成反欺骗”来解决这一挑战。根据变形AutiaceDer(VAE)中的可解释分解潜在解剖学,DSDG学习身份表示的联合分布和潜在空间中的欺骗模式表示。然后,可以从随机噪声生成大规模成对的实时和欺骗图像,以提高训练集的分集。然而,由于VAE的固有缺陷,一些产生的面部图像被部分地扭曲。这种嘈杂的样本很难预测精确的深度值,因此可能阻碍广泛使用的深度监督优化。为了解决这个问题,我们进一步引入了轻量级深度不确定性模块(DUM),减轻了噪声样本对深度不确定性学习的不利影响。 DUM在没有依赖性的情况下开发,因此可以灵活地集成与任何深度监督网络进行面部反欺骗。我们评估了提出的方法在五个流行基准上的有效性,并在测试中实现了最先进的结果。该代码可在https://github.com/jdai-cv/facex-zoo/tree/main/addition_module/dsdg中获得。
translated by 谷歌翻译
鉴于一个人的肖像图像和目标照明的环境图,肖像重新旨在重新刷新图像中的人,就好像该人出现在具有目标照明的环境中一样。为了获得高质量的结果,最近的方法依靠深度学习。一种有效的方法是用高保真输入输出对的高保真数据集监督对深神经网络的培训,并以光阶段捕获。但是,获取此类数据需要昂贵的特殊捕获钻机和耗时的工作,从而限制了对少数机智的实验室的访问。为了解决限制,我们提出了一种新方法,该方法可以与最新的(SOTA)重新确定方法相提并论,而无需光阶段。我们的方法基于这样的意识到,肖像图像的成功重新重新取决于两个条件。首先,该方法需要模仿基于物理的重新考虑的行为。其次,输出必须是逼真的。为了满足第一个条件,我们建议通过通过虚拟光阶段生成的训练数据来训练重新网络,该培训数据在不同的环境图下对各种3D合成人体进行了基于物理的渲染。为了满足第二种条件,我们开发了一种新型的合成对真实方法,以将光真实主义带入重新定向网络输出。除了获得SOTA结果外,我们的方法还提供了与先前方法相比的几个优点,包括可控的眼镜和更暂时的结果以重新欣赏视频。
translated by 谷歌翻译
3D面部建模一直是计算机视觉和计算机图形学研究的活跃领域,从虚拟化身中的面部表达转移到合成数据生成,助长了应用。现有的3D深度学习生成模型(例如,VAE,gan)允许生成紧凑的面部表征(形状和纹理),可以在形状和外观空间中建模非线性(例如,散射效果,镜面等)。但是,他们缺乏控制微妙表达产生的能力。本文提出了一种新的3D面部生成模型,该模型可以使身份和表达不适,并提供对表达式的颗粒状控制。特别是,我们建议使用一对监督自动编码器和生成对抗网络来产生高质量的3D面,无论是外观和形状而言。实验结果是用整体表达标签或作用单元标签学到的3D面的产生结果表明,我们如何将身份和表达分离;在保留身份的同时,获得精细的表达方式。
translated by 谷歌翻译
尽管在面部识别方面取得了重大进展(FR),但由于半约束训练数据集和无约束的测试方案之间的域间隙,在不受约束的环境中FR仍然具有挑战性。为了解决此问题,我们提出了一个可控的面部合成模型(CFSM),该模型可以模仿样式潜在空间中目标数据集的分布。CFSM在样式潜在空间中学习了一个线性子空间,并具有对综合多样性和程度的精确控制。此外,预先训练的合成模型可以由FR模型指导,从而使所得图像对FR模型训练更有益。此外,目标数据集分布的特征是学到的正交碱基,可以用来测量面部数据集之间的分布相似性。我们的方法在不受约束的基准测试中获得了显着的性能提高,例如IJB-B,IJB-C,TinyFace和IJB-S(+5.76%rank1)。
translated by 谷歌翻译
本文介绍了DCT-NET,这是一种新颖的图像翻译体系结构,可用于几张肖像风格。给定有限的样式示例($ \ sim $ 100),新的体系结构可以产生高质量的样式转移结果,具有先进的能力,可以合成高保真内容和强大的一般性来处理复杂的场景(例如,遮挡和配件)。此外,它可以通过一个由部分观察(即风格化的头)训练的优雅评估网络启用全身图像翻译。几乎没有基于学习的样式转移是具有挑战性的,因为由于仅由少数几个培训示例形成的偏见分布,学到的模型很容易在目标域中过度拟合。本文旨在通过采用“首先校准,稍后翻译”的关键思想来应对挑战,并以本地注重的翻译探索增强的全球结构。具体而言,所提出的DCT-NET由三个模块组成:一个内容适配器从源照片借用功能的先验来校准目标样本的内容分布;使用仿射变换来释放空间语义约束的几何扩展模块;以及通过校准分布产生的样品的质地翻译模块学习细粒的转换。实验结果证明了所提出的方法在头部风格化方面具有优势及其对具有自适应变形的完整图像翻译的有效性。
translated by 谷歌翻译
We propose GazeNeRF, a 3D-aware method for the task of gaze redirection. Existing gaze redirection methods operate on 2D images and struggle to generate 3D consistent results. Instead, we build on the intuition that the face region and eyeballs are separate 3D structures that move in a coordinated yet independent fashion. Our method leverages recent advancements in conditional image-based neural radiance fields and proposes a two-stream architecture that predicts volumetric features for the face and eye regions separately. Rigidly transforming the eye features via a 3D rotation matrix provides fine-grained control over the desired gaze angle. The final, redirected image is then attained via differentiable volume compositing. Our experiments show that this architecture outperforms naively conditioned NeRF baselines as well as previous state-of-the-art 2D gaze redirection methods in terms of redirection accuracy and identity preservation.
translated by 谷歌翻译
大多数现代脸部完成方法采用AutoEncoder或其变体来恢复面部图像中缺失的区域。编码器通常用于学习强大的表现,在满足复杂的学习任务的挑战方面发挥着重要作用。具体地,各种掩模通常在野外的面部图像中呈现,形成复杂的图案,特别是在Covid-19的艰难时期。编码器很难在这种复杂的情况下捕捉如此强大的陈述。为了解决这一挑战,我们提出了一个自我监督的暹罗推论网络,以改善编码器的泛化和鲁棒性。它可以从全分辨率图像编码上下文语义并获得更多辨别性表示。为了处理面部图像的几何变型,将密集的对应字段集成到网络中。我们进一步提出了一种具有新型双重关注融合模块(DAF)的多尺度解码器,其可以以自适应方式将恢复和已知区域组合。这种多尺度架构有利于解码器利用从编码器学习到图像中的辨别性表示。广泛的实验清楚地表明,与最先进的方法相比,拟议的方法不仅可以实现更具吸引力的结果,而且还提高了蒙面的面部识别的性能。
translated by 谷歌翻译