面部反欺骗(FAS)在确保人脸识别系统中起着至关重要的作用。经验上,给定图像,在该图像的不同视图上具有更一致的输出的模型通常更好地执行,如图1所示。通过这种令人兴奋的观察,我们猜想令人鼓舞的特征符合不同视图的一致性可能是提升FAS模型的有希望的方法。在本文中,我们通过增强FAS中的嵌入级和预测级别一致性正规(EPCR)来彻底探讨这种方式。具体地,在嵌入级别,我们设计了密集的相似性损失,以最大化两个中间特征映射的所有位置之间以自我监督的方式;虽然在预测级别,我们优化了两个视图的预测之间的均方误差。值得注意的是,我们的EPCR没有注释,可以直接融入半监督的学习计划。考虑到不同的应用方案,我们进一步设计了五种不同的半监督协议,以衡量半监督的FAS技术。我们进行广泛的实验表明EPCR可以显着提高基准数据集上几个监督和半监控任务的性能。代码和协议即将发布。
translated by 谷歌翻译
由于其在保护面部识别系统免于演示攻击(PAS)中的至关重要的作用,因此面部抗散热器(FAS)最近引起了人们的关注。随着越来越现实的PA随着新颖类型的发展,由于其表示能力有限,基于手工特征的传统FAS方法变得不可靠。随着近十年来大规模学术数据集的出现,基于深度学习的FA实现了卓越的性能并占据了这一领域。但是,该领域的现有评论主要集中在手工制作的功能上,这些功能过时,对FAS社区的进步没有任何启发。在本文中,为了刺激未来的研究,我们对基于深度学习的FAS的最新进展进行了首次全面综述。它涵盖了几个新颖且有见地的组成部分:1)除了使用二进制标签的监督(例如,``0'''for pas vs.'1'),我们还通过像素智能监督(例如,伪深度图)调查了最新方法; 2)除了传统的数据内评估外,我们还收集和分析专门为域概括和开放式FAS设计的最新方法; 3)除了商用RGB摄像机外,我们还总结了多模式(例如,深度和红外线)或专门(例如,光场和闪存)传感器下的深度学习应用程序。我们通过强调当前的开放问题并突出潜在的前景来结束这项调查。
translated by 谷歌翻译
最近,面部生物识别是对传统认证系统的方便替代的巨大关注。因此,检测恶意尝试已经发现具有重要意义,导致面部抗欺骗〜(FAS),即面部呈现攻击检测。与手工制作的功能相反,深度特色学习和技术已经承诺急剧增加FAS系统的准确性,解决了实现这种系统的真实应用的关键挑战。因此,处理更广泛的发展以及准确的模型的新研究区越来越多地引起了研究界和行业的关注。在本文中,我们为自2017年以来对与基于深度特征的FAS方法相关的文献综合调查。在这一主题上阐明,基于各种特征和学习方法的语义分类。此外,我们以时间顺序排列,其进化进展和评估标准(数据集内集和数据集互联集合中集)覆盖了FAS的主要公共数据集。最后,我们讨论了开放的研究挑战和未来方向。
translated by 谷歌翻译
Face Anti-spoofing (FAS) is essential to secure face recognition systems from various physical attacks. However, recent research generally focuses on short-distance applications (i.e., phone unlocking) while lacking consideration of long-distance scenes (i.e., surveillance security checks). In order to promote relevant research and fill this gap in the community, we collect a large-scale Surveillance High-Fidelity Mask (SuHiFiMask) dataset captured under 40 surveillance scenes, which has 101 subjects from different age groups with 232 3D attacks (high-fidelity masks), 200 2D attacks (posters, portraits, and screens), and 2 adversarial attacks. In this scene, low image resolution and noise interference are new challenges faced in surveillance FAS. Together with the SuHiFiMask dataset, we propose a Contrastive Quality-Invariance Learning (CQIL) network to alleviate the performance degradation caused by image quality from three aspects: (1) An Image Quality Variable module (IQV) is introduced to recover image information associated with discrimination by combining the super-resolution network. (2) Using generated sample pairs to simulate quality variance distributions to help contrastive learning strategies obtain robust feature representation under quality variation. (3) A Separate Quality Network (SQN) is designed to learn discriminative features independent of image quality. Finally, a large number of experiments verify the quality of the SuHiFiMask dataset and the superiority of the proposed CQIL.
translated by 谷歌翻译
面部反欺骗(FAS)在防止演示攻击中的人脸识别系统中起着至关重要的作用。由于身份和微不足道的方差不足,现有面部反欺骗数据集缺乏多样性,这限制了FAS模型的泛化能力。在本文中,我们提出了双重欺骗解散生成(DSDG)框架,通过“通过生成反欺骗”来解决这一挑战。根据变形AutiaceDer(VAE)中的可解释分解潜在解剖学,DSDG学习身份表示的联合分布和潜在空间中的欺骗模式表示。然后,可以从随机噪声生成大规模成对的实时和欺骗图像,以提高训练集的分集。然而,由于VAE的固有缺陷,一些产生的面部图像被部分地扭曲。这种嘈杂的样本很难预测精确的深度值,因此可能阻碍广泛使用的深度监督优化。为了解决这个问题,我们进一步引入了轻量级深度不确定性模块(DUM),减轻了噪声样本对深度不确定性学习的不利影响。 DUM在没有依赖性的情况下开发,因此可以灵活地集成与任何深度监督网络进行面部反欺骗。我们评估了提出的方法在五个流行基准上的有效性,并在测试中实现了最先进的结果。该代码可在https://github.com/jdai-cv/facex-zoo/tree/main/addition_module/dsdg中获得。
translated by 谷歌翻译
Face recognition technology has been widely used in daily interactive applications such as checking-in and mobile payment due to its convenience and high accuracy. However, its vulnerability to presentation attacks (PAs) limits its reliable use in ultra-secure applicational scenarios. A presentation attack is first defined in ISO standard as: a presentation to the biometric data capture subsystem with the goal of interfering with the operation of the biometric system. Specifically, PAs range from simple 2D print, replay and more sophisticated 3D masks and partial masks. To defend the face recognition systems against PAs, both academia and industry have paid extensive attention to developing face presentation attack detection (PAD) technology (or namely `face anti-spoofing (FAS)').
translated by 谷歌翻译
随着各种面部表现攻击不断出现,基于域概括(DG)的面部抗散热(FAS)方法引起了人们的注意。现有的基于DG的FAS方法始终捕获用于概括各种看不见域的域不变功能。但是,他们忽略了单个源域的歧视性特征和不同域的不同域特异性信息,并且训练有素的模型不足以适应各种看不见的域。为了解决这个问题,我们提出了专家学习(AMEL)框架的自适应混合物,该框架利用了特定于域的信息以适应性地在可见的源域和看不见的目标域之间建立链接,以进一步改善概括。具体而言,特定领域的专家(DSE)旨在研究歧视性和独特的域特异性特征,以作为对共同域不变特征的补充。此外,提出了动态专家聚合(DEA),以根据与看不见的目标域相关的域相关的每个源专家的互补信息来自适应地汇总信息。并结合元学习,这些模块合作,可适应各种看不见的目标域的有意义的特定于域特异性信息。广泛的实验和可视化证明了我们对最先进竞争者的方法的有效性。
translated by 谷歌翻译
面部反欺骗(FAS)保护人脸识别从演示攻击(PAS)。现有的FAS方法通常监控PA探测器,使用手工制作二进制或像素 - 明智标签。然而,手工制作的标签可能不是监督PA探测器学习足够和内在欺骗线索的最适当的方式。我们提出了一种新的元师FAS(MT-FAS)方法来培训Meta-Tears FAS(MT-FAS)方法,用于更有效地监督PA探测器。元师以双层优化方式接受培训,以了解监督PA探测器学习丰富欺骗线索的能力。双级优化包含两个关键组件:1)元教师在培训集上监督探测器的学习过程的较低级别培训; 2)通过最大限度地减少探测器的验证损失,优化了元教师教学性能的更高级别培训。我们的元老师与现有的教师学生模型有很大不同,因为元教师明确培训,以便更好地教导探测器(学生),而现有教师受过卓越的准确性忽视教学能力。在五个FAS基准上的广泛实验表明,随着拟议的MT-FA,训练有素的Meta-Buiter 1)提供比手工标签和现有教师学生模型更适合的监督; 2)显着提高了PA探测器的性能。
translated by 谷歌翻译
为了将训练有素的模型直接概括为看不见的目标域,域概括(DG)是一种新提出的学习范式,引起了很大的关注。以前的DG模型通常需要在训练过程中观察到的源域中的足够数量的带注释的样品。在本文中,我们放宽了有关完全注释的要求,并研究了半监督域的概括(SSDG),在训练过程中,只有一个源域与其他完全未标记的域一起完全注释。由于要解决观察到的源域之间的域间隙和预测看不见的目标域之间的挑战,我们提出了一个通过关节域吸引的标签和双分类器的新型深框架,以产生高质量的伪标记。具体来说,为了预测域移位下的准确伪标记,开发了一个域吸引的伪标记模块。此外,考虑到概括和伪标记之间的目标不一致:前者防止在所有源域上过度拟合,而后者可能过分适合未标记的源域,以高精度,我们采用双分类器来独立执行伪标记和域名,并在训练过程中执行伪造域通用化。 。当为未标记的源域生成准确的伪标记时,将域混合操作应用于标记和未标记域之间的新域,这对于提高模型的通用能力是有益的。公开可用的DG基准数据集的广泛结果显示了我们提出的SSDG方法的功效。
translated by 谷歌翻译
基于无监督的域适应性(UDA),由于目标情景的表现有希望的表现,面部抗散热器(FAS)方法引起了人们的注意。大多数现有的UDA FAS方法通常通过对齐语义高级功能的分布来拟合受过训练的模型。但是,对未标记的目标域的监督不足,低水平特征对齐降低了现有方法的性能。为了解决这些问题,我们提出了UDA FAS的新颖观点,该视角将目标数据直接适合于模型,即,通过图像翻译将目标数据风格化为源域样式,并进一步将风格化的数据提供给训练有素的数据分类的源模型。提出的生成域适应(GDA)框架结合了两个精心设计的一致性约束:1)域间神经统计量的一致性指导发生器缩小域间间隙。 2)双层语义一致性确保了风格化图像的语义质量。此外,我们提出了域内频谱混合物,以进一步扩大目标数据分布,以确保概括并减少域内间隙。广泛的实验和可视化证明了我们方法对最新方法的有效性。
translated by 谷歌翻译
面部演示攻击检测(PAD)由于欺骗欺骗性被广泛认可的脆弱性而受到越来越长。在2011年,2013年,2017年,2019年,2020年和2021年与主要生物识别和计算机视觉会议结合的八个国际竞赛中,在八个国际竞赛中评估了一系列国际竞争中的八种国际竞争中的艺术状态。研究界。在本章中,我们介绍了2019年的五个最新竞赛的设计和结果直到2021年。前两项挑战旨在评估近红外(NIR)和深度方式的多模态设置中面板的有效性。彩色相机数据,而最新的三个竞争专注于评估在传统彩色图像和视频上运行的面部垫算法的域和攻击型泛化能力。我们还讨论了从竞争中吸取的经验教训以及领域的未来挑战。
translated by 谷歌翻译
随着在我们日常生活中的面部识别系统的部署增加,面部呈现攻击检测(PAD)在保护面部识别系统中吸引了很多关注并发挥着关键作用。尽管通过在数据集中的手工制作和基于深度学习的方法方面取得了巨大表现,但在处理看不见场景时的性能下降。在这项工作中,我们提出了一种双流卷积神经网络(CNNS)框架。一个流适应四种学习频率滤波器,以学习频域中的特征,这些功能域不太受传感器/照明的变化的影响。另一个流利用RGB图像来补充频域的特征。此外,我们提出了分层关注模块集成,通过考虑CNN的不同层中的深度特征的性质,在不同阶段中加入来自两个流的信息。在数据集内和交叉数据集设置中评估所提出的方法,结果表明,我们所提出的方法在与最先进的最先进的最新的大多数实验装置中提高了最平移,包括明确为域适应设计的方法/换档问题。我们成功证明了我们提出的垫解决方案的设计,在一步的融合研究中,涉及我们所提出的学习频率分解,我们的分层注意模块设计和使用的损耗功能。培训码和预先接受训练的型号是公开发布的
translated by 谷歌翻译
自我训练在半监督学习中表现出巨大的潜力。它的核心思想是使用在标记数据上学习的模型来生成未标记样本的伪标签,然后自我教学。为了获得有效的监督,主动尝试通常会采用动量老师进行伪标签的预测,但要观察确认偏见问题,在这种情况下,错误的预测可能会提供错误的监督信号并在培训过程中积累。这种缺点的主要原因是,现行的自我训练框架充当以前的知识指导当前状态,因为老师仅与过去的学生更新。为了减轻这个问题,我们提出了一种新颖的自我训练策略,该策略使模型可以从未来学习。具体而言,在每个培训步骤中,我们都会首先优化学生(即,在不将其应用于模型权重的情况下缓存梯度),然后用虚拟未来的学生更新老师,最后要求老师为伪标记生产伪标签目前的学生作为指导。这样,我们设法提高了伪标签的质量,从而提高了性能。我们还通过深入(FST-D)和广泛(FST-W)窥视未来,开发了我们未来自我训练(FST)框架的两个变体。将无监督的域自适应语义分割和半监督语义分割的任务作为实例,我们在广泛的环境下实验表明了我们方法的有效性和优越性。代码将公开可用。
translated by 谷歌翻译
理想情况下,应概遍的视觉学习算法,用于在新目标环境中部署时处理任何看不见的域移位;和数据效率,通过使用尽可能少的标签来降低开发成本。为此,我们研究半监督域泛化(SSDG),旨在使用多源,部分标记的培训数据学习域广泛的模型。我们设计了两个基准,涵盖了两个相关领域,即域泛化(DG)和半监督学习(SSL)开发的最先进方法。我们发现,通过设计无法处理未标记数据的DG方法,在SSDG中使用有限的标签表现不佳; SSL方法,尤其是FixMatch,获得更好的结果,但仍远离使用完整标签培训的基本vanilla模型。我们提出了一种简单的方法,一种简单的方法,将FixMatch扩展到SSDG的几个新成分:1)随机模型,用于减少稀缺标签的过度拟合,2)多视图一致性学习,用于增强域泛化。尽管设计简洁,StyleAtch可以实现SSDG的显着改进。我们希望我们的方法和全面的基准可以为未来的概括和数据高效学习系统进行铺平。源代码以\ url {https://github.com/kaiyangzhou/ssdg-benchmark}释放。
translated by 谷歌翻译
长期以来,半监督学习(SSL)已被证明是一种有限的标签模型的有效技术。在现有的文献中,基于一致性的基于正则化的方法,这些方法迫使扰动样本具有类似的预测,而原始的样本则引起了极大的关注。但是,我们观察到,当标签变得极为有限时,例如,每个类别的2或3标签时,此类方法的性能会大大降低。我们的实证研究发现,主要问题在于语义信息在数据增强过程中的漂移。当提供足够的监督时,可以缓解问题。但是,如果几乎没有指导,错误的正则化将误导网络并破坏算法的性能。为了解决该问题,我们(1)提出了一种基于插值的方法来构建更可靠的正样品对; (2)设计一种新颖的对比损失,以指导学习网络的嵌入以在样品之间进行线性更改,从而通过扩大保证金决策边界来提高网络的歧视能力。由于未引入破坏性正则化,因此我们提出的算法的性能在很大程度上得到了改善。具体而言,所提出的算法的表现优于第二好算法(COMATT),而当CIFAR-10数据集中的每个类只有两个标签可用时,可以实现88.73%的分类精度,占5.3%。此外,我们通过通过我们提出的策略大大改善现有最新算法的性能,进一步证明了所提出的方法的普遍性。
translated by 谷歌翻译
Recent years witnessed the breakthrough of face recognition with deep convolutional neural networks. Dozens of papers in the field of FR are published every year. Some of them were applied in the industrial community and played an important role in human life such as device unlock, mobile payment, and so on. This paper provides an introduction to face recognition, including its history, pipeline, algorithms based on conventional manually designed features or deep learning, mainstream training, evaluation datasets, and related applications. We have analyzed and compared state-of-the-art works as many as possible, and also carefully designed a set of experiments to find the effect of backbone size and data distribution. This survey is a material of the tutorial named The Practical Face Recognition Technology in the Industrial World in the FG2023.
translated by 谷歌翻译
基于伪标签的半监督学习(SSL)在原始数据利用率上取得了巨大的成功。但是,由于自我生成的人工标签中包含的噪声,其训练程序受到确认偏差的影响。此外,该模型的判断在具有广泛分布数据的现实应用程序中变得更加嘈杂。为了解决这个问题,我们提出了一种名为“班级意识的对比度半监督学习”(CCSSL)的通用方法,该方法是提高伪标签质量并增强现实环境中模型的稳健性的插手。我们的方法不是将现实世界数据视为一个联合集合,而是分别处理可靠的分布数据,并将其融合到下游任务中,并将其与图像对比度融合到下游任务中,以更好地泛化。此外,通过应用目标重新加权,我们成功地强调了清洁标签学习,并同时减少嘈杂的标签学习。尽管它很简单,但我们提出的CCSSL比标准数据集CIFAR100和STL10上的最新SSL方法具有显着的性能改进。在现实世界数据集Semi-Inat 2021上,我们将FixMatch提高了9.80%,并提高了3.18%。代码可用https://github.com/tencentyouturesearch/classification-spoomls。
translated by 谷歌翻译
面部表现攻击检测(PAD)在防御面部识别系统免受演示攻击方面起着重要作用。 PAD的成功很大程度上依赖于需要大量标记数据的监督学习,这对于视频尤其具有挑战性,通常需要专家知识。为了避免昂贵的标记数据收集,本文提出了一种通过运动预测进行自我监督视频表示学习的新方法。为了实现这一目标,我们基于三个RGB框架利用时间一致性,这些RGB帧在视频序列中以三个不同的时间获取。然后将获得的帧转换为灰度图像,其中每个图像被指定为三个不同的通道,例如R(红色),G(绿色)和B(蓝色),形成动态灰度片段(DGS)。由此激励,这些标签会自动生成,以通过使用视频的不同时间长度来基于DG的时间多样性,这对下游任务非常有帮助。从我们方法的自我监督性质中受益,我们报告了结果,结果表明,在四个公共基准数据集上的现有方法,即重播攻击,MSU-MFSD,CASIA-FASD和OULU-NPU。解释性分析是通过石灰和Grad-CAM技术进行的,以可视化DGS中使用的最重要功能。
translated by 谷歌翻译
监督的深度学习模型取决于大量标记的数据。不幸的是,收集和注释包含所需更改的零花态样本是耗时和劳动密集型的。从预训练模型中转移学习可有效减轻遥感(RS)变化检测(CD)中标签不足。我们探索在预训练期间使用语义信息的使用。不同于传统的监督预训练,该预训练从图像到标签,我们将语义监督纳入了自我监督的学习(SSL)框架中。通常,多个感兴趣的对象(例如,建筑物)以未经切割的RS图像分布在各个位置。我们没有通过全局池操纵图像级表示,而是在每个像素嵌入式上引入点级监督以学习空间敏感的特征,从而使下游密集的CD受益。为了实现这一目标,我们通过使用语义掩码在视图之间的重叠区域上通过类平衡的采样获得了多个点。我们学会了一个嵌入式空间,将背景和前景点分开,并将视图之间的空间对齐点齐聚在一起。我们的直觉是导致的语义歧视性表示与无关的变化不变(照明和无关紧要的土地覆盖)可能有助于改变识别。我们在RS社区中免费提供大规模的图像面罩,用于预训练。在三个CD数据集上进行的大量实验验证了我们方法的有效性。我们的表现明显优于Imagenet预训练,内域监督和几种SSL方法。经验结果表明我们的预训练提高了CD模型的概括和数据效率。值得注意的是,我们使用20%的培训数据获得了比基线(随机初始化)使用100%数据获得竞争结果。我们的代码可用。
translated by 谷歌翻译
半监控视频动作识别倾向于使深神经网络能够实现显着性能,即使具有非常有限的标记数据。然而,现有方法主要从当前的基于图像的方法转移(例如,FixMatch)。不具体利用时间动态和固有的多模式属性,它们的结果可能是次优。为了更好地利用视频中的编码的时间信息,我们将时间梯度引入了本文中的更多细小特征提取的额外模态。具体而言,我们的方法明确地蒸馏从时间梯度(TG)的细粒度运动表示,并施加不同方式的一致性(即RGB和TG)。在推理期间,没有额外的计算或参数,在没有额外的计算或参数的情况下显着提高了半监督动作识别的性能。我们的方法在若干典型的半监督设置(即标记数据的不同比率)下实现三个视频动作识别基准(即动态-400,UCF-101和HMDB-51)的最先进的性能。
translated by 谷歌翻译