如果不部署面部反动体相反的对策,则可以通过呈现印刷照片,视频或真实用户的硅面膜来欺骗面部识别系统。因此,面对表现攻击检测(PAD)在提供对数字设备的安全访问方面起着至关重要的作用。大多数现有的基于视频的垫子对策都无法应对视频中的远程时间变化。此外,在特征提取步骤之前的键框采样尚未在面部抗散热域中广泛研究。为了减轻这些问题,本文通过提出一种视频处理方案来提供一种数据采样方法,该方案基于高斯加权功能进行建模远程时间变化。具体而言,提出的方案将视频序列的连续T帧编码基于T帧的高斯加权总和,将视频序列的连续T帧编码为单个RGB图像。仅使用数据采样方案,我们证明可以在三个公共基准数据集的数据库内和数据库间测试方案中没有任何铃铛和哨子来实现最先进的性能;即,重播攻击,MSU-MFSD和CASIA-FASD。特别是,与跨数据库情景中的基线相比,该计划的误差(CASIA-FASD的15.2%至6.7%,重播攻击的5.9%至4.9%)。
translated by 谷歌翻译
面部表现攻击检测(PAD)在防御面部识别系统免受演示攻击方面起着重要作用。 PAD的成功很大程度上依赖于需要大量标记数据的监督学习,这对于视频尤其具有挑战性,通常需要专家知识。为了避免昂贵的标记数据收集,本文提出了一种通过运动预测进行自我监督视频表示学习的新方法。为了实现这一目标,我们基于三个RGB框架利用时间一致性,这些RGB帧在视频序列中以三个不同的时间获取。然后将获得的帧转换为灰度图像,其中每个图像被指定为三个不同的通道,例如R(红色),G(绿色)和B(蓝色),形成动态灰度片段(DGS)。由此激励,这些标签会自动生成,以通过使用视频的不同时间长度来基于DG的时间多样性,这对下游任务非常有帮助。从我们方法的自我监督性质中受益,我们报告了结果,结果表明,在四个公共基准数据集上的现有方法,即重播攻击,MSU-MFSD,CASIA-FASD和OULU-NPU。解释性分析是通过石灰和Grad-CAM技术进行的,以可视化DGS中使用的最重要功能。
translated by 谷歌翻译
随着在我们日常生活中的面部识别系统的部署增加,面部呈现攻击检测(PAD)在保护面部识别系统中吸引了很多关注并发挥着关键作用。尽管通过在数据集中的手工制作和基于深度学习的方法方面取得了巨大表现,但在处理看不见场景时的性能下降。在这项工作中,我们提出了一种双流卷积神经网络(CNNS)框架。一个流适应四种学习频率滤波器,以学习频域中的特征,这些功能域不太受传感器/照明的变化的影响。另一个流利用RGB图像来补充频域的特征。此外,我们提出了分层关注模块集成,通过考虑CNN的不同层中的深度特征的性质,在不同阶段中加入来自两个流的信息。在数据集内和交叉数据集设置中评估所提出的方法,结果表明,我们所提出的方法在与最先进的最先进的最新的大多数实验装置中提高了最平移,包括明确为域适应设计的方法/换档问题。我们成功证明了我们提出的垫解决方案的设计,在一步的融合研究中,涉及我们所提出的学习频率分解,我们的分层注意模块设计和使用的损耗功能。培训码和预先接受训练的型号是公开发布的
translated by 谷歌翻译
面部面罩已成为减少Covid-19传输的主要方法之一。这使得面部识别(FR)成为一个具有挑战性的任务,因为掩模隐藏了几个面孔的鉴别特征。此外,面部呈现攻击检测(PAD)至关重要,以确保FR系统的安全性。与越来越多的蒙面的FR研究相比,尚未探索面部遮蔽攻击对垫的影响。因此,我们提出了与戴上面具的主题和攻击的真正面罩的新型攻击,以反映当前的现实情况。此外,本研究通过在不同的实验设置下使用七种最新的垫算法来研究屏蔽攻击对垫性能的影响。我们还评估FR系统漏洞屏蔽攻击。实验表明,真正掩盖的攻击对FR系统的操作和安全构成了严重威胁。
translated by 谷歌翻译
面部演示攻击检测(PAD)由于欺骗欺骗性被广泛认可的脆弱性而受到越来越长。在2011年,2013年,2017年,2019年,2020年和2021年与主要生物识别和计算机视觉会议结合的八个国际竞赛中,在八个国际竞赛中评估了一系列国际竞争中的八种国际竞争中的艺术状态。研究界。在本章中,我们介绍了2019年的五个最新竞赛的设计和结果直到2021年。前两项挑战旨在评估近红外(NIR)和深度方式的多模态设置中面板的有效性。彩色相机数据,而最新的三个竞争专注于评估在传统彩色图像和视频上运行的面部垫算法的域和攻击型泛化能力。我们还讨论了从竞争中吸取的经验教训以及领域的未来挑战。
translated by 谷歌翻译
最近,面部生物识别是对传统认证系统的方便替代的巨大关注。因此,检测恶意尝试已经发现具有重要意义,导致面部抗欺骗〜(FAS),即面部呈现攻击检测。与手工制作的功能相反,深度特色学习和技术已经承诺急剧增加FAS系统的准确性,解决了实现这种系统的真实应用的关键挑战。因此,处理更广泛的发展以及准确的模型的新研究区越来越多地引起了研究界和行业的关注。在本文中,我们为自2017年以来对与基于深度特征的FAS方法相关的文献综合调查。在这一主题上阐明,基于各种特征和学习方法的语义分类。此外,我们以时间顺序排列,其进化进展和评估标准(数据集内集和数据集互联集合中集)覆盖了FAS的主要公共数据集。最后,我们讨论了开放的研究挑战和未来方向。
translated by 谷歌翻译
对比学习在视频表示学习中表现出了巨大的潜力。但是,现有方法无法充分利用短期运动动态,这对于各种下游视频理解任务至关重要。在本文中,我们提出了运动敏感的对比度学习(MSCL),该学习将光学流捕获的运动信息注入RGB帧中,以增强功能学习。为了实现这一目标,除了剪辑级全球对比度学习外,我们还开发了局部运动对比度学习(LMCL),具有两种模式的框架级对比目标。此外,我们引入流动旋转增强(FRA),以生成额外的运动除件负面样品和运动差分采样(MDS)以准确筛选训练样品。对标准基准测试的广泛实验验证了该方法的有效性。以常用的3D RESNET-18为骨干,我们在UCF101上获得了91.5 \%的前1个精度,而在视频分类中进行了一些v2的v2,以及65.6 \%的top-1 top-1召回ucf1011对于视频检索,特别是改善了最新的。
translated by 谷歌翻译
无意识和自发的,微小表达在一个人的真实情绪的推动中是有用的,即使尝试隐藏它们。由于它们短的持续时间和低强度,对微表达的识别是情感计算中的艰巨任务。基于手工制作的时空特征的早期工作最近被不同的深度学习方法取代了现在竞争最先进的性能。然而,捕获本地和全球时空模式的问题仍然挑战。为此,本文我们提出了一种新颖的时空变压器架构 - 据我们所知,是微表达识别的第一种纯粹变压器的方法(即任何卷积网络使用的方法)。该架构包括用于学习空间模式的空间编码器,用于时间维度分析的时间聚合器和分类头。三种广泛使用的自发性微表达数据集,即Smic-HS,Casme II和SAMM的综合评估表明,该方法始终如一地优于现有技术,是发表在微表达上发表文献中的第一个框架在任何上述数据集上识别以实现未加权的F1分数大于0.9。
translated by 谷歌翻译
演示攻击是对生物识别系统的经常性威胁,其中冒名顶替者试图绕过这些系统。人类经常使用背景信息作为视觉系统的上下文提示。然而,关于基于面部的系统,背景经常被丢弃,因为面部呈现攻击检测(PAD)模型主要用面部作物培训。这项工作介绍了两种设置中面板模型(包括多任务学习,对抗训练和动态帧选择)的比较研究:有和没有作物。结果表明,当图像中存在时,性能始终如一。所提出的多任务方法通过大型余量击败了玫瑰Youtu数据集的最先进的结果,其错误率为0.2%。此外,我们分析了Grad-Cam ++的模型预测,目的是调查模型对已知对人类检查有用的背景元素的程度。从这个分析来看,我们可以得出结论,背景线索在所有攻击中都不相关。因此,显示模型的能力仅在必要时利用背景信息。
translated by 谷歌翻译
Face recognition technology has been widely used in daily interactive applications such as checking-in and mobile payment due to its convenience and high accuracy. However, its vulnerability to presentation attacks (PAs) limits its reliable use in ultra-secure applicational scenarios. A presentation attack is first defined in ISO standard as: a presentation to the biometric data capture subsystem with the goal of interfering with the operation of the biometric system. Specifically, PAs range from simple 2D print, replay and more sophisticated 3D masks and partial masks. To defend the face recognition systems against PAs, both academia and industry have paid extensive attention to developing face presentation attack detection (PAD) technology (or namely `face anti-spoofing (FAS)').
translated by 谷歌翻译
Presentation attack detection (PAD) is a critical component in secure face authentication. We present a PAD algorithm to distinguish face spoofs generated by a photograph of a subject from live images. Our method uses an image decomposition network to extract albedo and normal. The domain gap between the real and spoof face images leads to easily identifiable differences, especially between the recovered albedo maps. We enhance this domain gap by retraining existing methods using supervised contrastive loss. We present empirical and theoretical analysis that demonstrates that contrast and lighting effects can play a significant role in PAD; these show up, particularly in the recovered albedo. Finally, we demonstrate that by combining all of these methods we achieve state-of-the-art results on both intra-dataset testing for CelebA-Spoof, OULU, CASIA-SURF datasets and inter-dataset setting on SiW, CASIA-MFSD, Replay-Attack and MSU-MFSD datasets.
translated by 谷歌翻译
Spatiotemporal and motion features are two complementary and crucial information for video action recognition. Recent state-of-the-art methods adopt a 3D CNN stream to learn spatiotemporal features and another flow stream to learn motion features. In this work, we aim to efficiently encode these two features in a unified 2D framework. To this end, we first propose an STM block, which contains a Channel-wise SpatioTemporal Module (CSTM) to present the spatiotemporal features and a Channel-wise Motion Module (CMM) to efficiently encode motion features. We then replace original residual blocks in the ResNet architecture with STM blcoks to form a simple yet effective STM network by introducing very limited extra computation cost. Extensive experiments demonstrate that the proposed STM network outperforms the state-of-the-art methods on both temporal-related datasets (i.e., Something-Something v1 & v2 and Jester) and scene-related datasets (i.e., Kinetics-400, UCF-101, and HMDB-51) with the help of encoding spatiotemporal and motion features together. * The work was done during an internship at SenseTime.
translated by 谷歌翻译
由于其在保护面部识别系统免于演示攻击(PAS)中的至关重要的作用,因此面部抗散热器(FAS)最近引起了人们的关注。随着越来越现实的PA随着新颖类型的发展,由于其表示能力有限,基于手工特征的传统FAS方法变得不可靠。随着近十年来大规模学术数据集的出现,基于深度学习的FA实现了卓越的性能并占据了这一领域。但是,该领域的现有评论主要集中在手工制作的功能上,这些功能过时,对FAS社区的进步没有任何启发。在本文中,为了刺激未来的研究,我们对基于深度学习的FAS的最新进展进行了首次全面综述。它涵盖了几个新颖且有见地的组成部分:1)除了使用二进制标签的监督(例如,``0'''for pas vs.'1'),我们还通过像素智能监督(例如,伪深度图)调查了最新方法; 2)除了传统的数据内评估外,我们还收集和分析专门为域概括和开放式FAS设计的最新方法; 3)除了商用RGB摄像机外,我们还总结了多模式(例如,深度和红外线)或专门(例如,光场和闪存)传感器下的深度学习应用程序。我们通过强调当前的开放问题并突出潜在的前景来结束这项调查。
translated by 谷歌翻译
微表达(MES)是非自愿的面部运动,揭示了人们在高利害情况下隐藏的感受,并对医疗,国家安全,审讯和许多人机交互系统具有实际重要性。早期的MER方法主要基于传统的外观和几何特征。最近,随着各种领域的深度学习(DL)的成功,神经网络已得到MER的兴趣。不同于宏观表达,MES是自发的,微妙的,快速的面部运动,导致数据收集困难,因此具有小规模的数据集。由于上述我的角色,基于DL的MER变得挑战。迄今为止,已提出各种DL方法来解决我的问题并提高MER表现。在本调查中,我们对深度微表达识别(MER)进行了全面的审查,包括数据集,深度MER管道和最具影响力方法的基准标记。本调查定义了该领域的新分类法,包括基于DL的MER的所有方面。对于每个方面,总结和讨论了基本方法和高级发展。此外,我们得出了坚固的深层MER系统设计的剩余挑战和潜在方向。据我们所知,这是对深度MEL方法的第一次调查,该调查可以作为未来MER研究的参考点。
translated by 谷歌翻译
面对抗泡沫(FAS)和伪造探测在保护面部生物识别系统免受演示攻击(PAS)和恶性数字操作(例如,Deepfakes)中的生物识别系统中起着至关重要的作用。尽管大规模数据和强大的深层模型有希望的表现,但现有方法的概括问题仍然是一个空旷的问题。最近的大多数方法都集中在1)单峰视觉外观或生理学(即远程光摄影学(RPPG))线索;和2)用于FAS或面部伪造检测的分离特征表示。一方面,单峰外观和RPPG功能分别容易受到高保真的面孔3D面膜和视频重播攻击的影响,从而激发了我们设计可靠的多模式融合机制,用于广义面部攻击检​​测。另一方面,FAS和面部伪造探测任务(例如,定期的RPPG节奏和BONAFIDE的香草外观)都有丰富的共同特征,提供了可靠的证据来设计联合FAS和面部伪造探测系统,以多任务学习方式。在本文中,我们使用视觉外观和生理RPPG提示建立了第一个关节面欺骗和伪造的检测基准。为了增强RPPG的周期性歧视,我们使用两种面部时空时代的RPPG信号图及其连续小波转换为输入的两分支生理网络。为了减轻模态偏差并提高融合功效,我们在多模式融合之前对外观和RPPG特征进行了加权批次和层归一化。我们发现,可以通过对这两个任务的联合培训来改善单峰(外观或RPPG)和多模式(外观+RPPG)模型的概括能力。我们希望这种新的基准将促进FAS和DeepFake检测社区的未来研究。
translated by 谷歌翻译
在本文中,我们提出了一种新的视频表示学习方法,名为时间挤压(TS)池,这可以从长期的视频帧中提取基本移动信息,并将其映射到一组名为挤压图像的几个图像中。通过将时间挤压池作为层嵌入到现成的卷积神经网络(CNN)中,我们设计了一个名为Temporal Squeeze网络(TESNet)的新视频分类模型。由此产生的挤压图像包含来自视频帧的基本移动信息,对应于视频分类任务的优化。我们在两个视频分类基准上评估我们的架构,并与最先进的结果进行了比较。
translated by 谷歌翻译
面部反欺骗研究被广泛用于面部识别,并受到行业和学者的更多关注。在本文中,我们提出了Eulernet,这是一个新的时间特征融合网络,其中差分过滤器和残留金字塔分别用于从连续帧中提取和扩增异常线索。基于面部标志的轻量级样品标签方法旨在以较低的成本标记大型样品,并且比其他方法(例如3D摄像头)具有更好的结果。最后,我们使用各种移动端来收集30,000个实时和欺骗样本,以创建一个数据集,该数据集在现实世界中复制各种形式的攻击。公共Oulu-NPU的广泛实验表明,我们的算法优于最先进的现状,我们的解决方案已经部署在现实世界中,为数百万用户提供服务。
translated by 谷歌翻译
戴着面具已被证明是防止SARS-COV-2冠状病毒传播最有效的方法之一。然而,佩戴掩模对不同的面部识别任务构成挑战,并提高了关于掩蔽面部呈现检测(焊盘)的性能的担忧。面向面膜面板面临的主要问题是错误分类的Bona Fide掩盖面,错误分类的部分攻击(由真实面具覆盖)。这项工作通过提出考虑部分攻击标签来监督垫模型培训的方法,以及区域加权推理,通过改变对不同面部区域的关注来进一步改善垫性能的方法来解决这些问题。我们所提出的方法与特定网络架构没有直接链接,因此可以直接纳入任何常见或定制设计的网络。在我们的工作中,选择了两个神经网络(DeepPixbis和MixfaceNet)作为骨干。在协作实际掩模攻击(CRMA)数据库上证明了实验。我们所提出的方法通过减少面向遮阳面时的缺点来优于CRMA数据库中的建立的焊盘方法。此外,我们提出了一个详细的逐步消融研究,指出了所提出的概念对整体垫性能的个人和联合益处。
translated by 谷歌翻译
恢复面部和文档图像的检测是一项重要的法医任务。经过深入的学习,面部抗散热器(FAS)和重新接收的文件检测的表现得到了显着改善。但是,对于法医提示较弱的样品,表演尚不令人满意。可以量化法医提示的数量,以允许可靠的法医结果。在这项工作中,我们提出了一个放大性评估网络,以量化质疑样品的允许性。在实际重新接收检测过程之前,将拒绝低固定性样品,以提高重新接收检测系统的效率。我们首先提取与图像质量评估和法医任务相关的判定性特征。通过利用图像质量和法医功能的法医应用的域知识,我们定义了特定于任务的规定类别和特征空间中的初始化位置。根据提取的功能和定义的中心,我们使用跨凝结损失训练提出的法医评估网络(FANET),并使用基于动量的更新方法更新中心。我们将受过训练的粉丝与实际重新接收检测方案相结合,并在抗spofing和重新接收的文档检测任务中。实验结果表明,对于基于CNN的FAS方案而言,狂热者通过拒绝最低30%放大性得分的样本,将EERS从Rose to IDIAP方案下的ERS降低到19.23%。在被拒绝的样品中,FAS方案的性能很差,EER高达56.48%。在FAS中的最新方法和重新接收的文档检测任务中,已经观察到了拒绝低差异性样品的类似性能。据我们所知,这是评估重新捕获文档图像并提高系统效率的第一份工作。
translated by 谷歌翻译
面部反欺骗(FAS)在防止演示攻击中的人脸识别系统中起着至关重要的作用。由于身份和微不足道的方差不足,现有面部反欺骗数据集缺乏多样性,这限制了FAS模型的泛化能力。在本文中,我们提出了双重欺骗解散生成(DSDG)框架,通过“通过生成反欺骗”来解决这一挑战。根据变形AutiaceDer(VAE)中的可解释分解潜在解剖学,DSDG学习身份表示的联合分布和潜在空间中的欺骗模式表示。然后,可以从随机噪声生成大规模成对的实时和欺骗图像,以提高训练集的分集。然而,由于VAE的固有缺陷,一些产生的面部图像被部分地扭曲。这种嘈杂的样本很难预测精确的深度值,因此可能阻碍广泛使用的深度监督优化。为了解决这个问题,我们进一步引入了轻量级深度不确定性模块(DUM),减轻了噪声样本对深度不确定性学习的不利影响。 DUM在没有依赖性的情况下开发,因此可以灵活地集成与任何深度监督网络进行面部反欺骗。我们评估了提出的方法在五个流行基准上的有效性,并在测试中实现了最先进的结果。该代码可在https://github.com/jdai-cv/facex-zoo/tree/main/addition_module/dsdg中获得。
translated by 谷歌翻译