随着生成模型的快速发展,基于AI的面部操纵技术,称为DeepFakes,已经变得越来越真实。这种脸部伪造的方法可以攻击任何目标,这对个人隐私和财产安全构成了新的威胁。此外,滥用合成视频在许多领域都显示出潜在的危险,例如身份骚扰,色情和新闻谣言。受到生理信号中的空间相干性和时间一致性在所生物的内容中被破坏的事实,我们试图找到可以区分真实视频和合成视频的不一致模式,从面部像素的变化是与生理信息高度相关的。我们的方法首先将多个高斯级别的eulerian视频放大倍数(EVM)应用于原始视频,以扩大面部血容量的变化引起的生理变化,然后将原始视频和放大的视频转换为多尺度欧拉宽度的空间 - 时间地图(MemstMap),其可以代表不同八度的时变的生理增强序列。然后,这些地图以列为单位重新装入帧修补程序,并发送到视觉变压器以学习帧级别的时空描述符。最后,我们整理了嵌入功能并输出判断视频是真实还是假的概率。我们在面部框架++和DeepFake检测数据集上验证了我们的方法。结果表明,我们的模型在伪造检测中实现了出色的性能,并在交叉数据域中显示出出色的泛化能力。
translated by 谷歌翻译
Deep-learning-based technologies such as deepfakes ones have been attracting widespread attention in both society and academia, particularly ones used to synthesize forged face images. These automatic and professional-skill-free face manipulation technologies can be used to replace the face in an original image or video with any target object while maintaining the expression and demeanor. Since human faces are closely related to identity characteristics, maliciously disseminated identity manipulated videos could trigger a crisis of public trust in the media and could even have serious political, social, and legal implications. To effectively detect manipulated videos, we focus on the position offset in the face blending process, resulting from the forced affine transformation of the normalized forged face. We introduce a method for detecting manipulated videos that is based on the trajectory of the facial region displacement. Specifically, we develop a virtual-anchor-based method for extracting the facial trajectory, which can robustly represent displacement information. This information was used to construct a network for exposing multidimensional artifacts in the trajectory sequences of manipulated videos that is based on dual-stream spatial-temporal graph attention and a gated recurrent unit backbone. Testing of our method on various manipulation datasets demonstrated that its accuracy and generalization ability is competitive with that of the leading detection methods.
translated by 谷歌翻译
随着面部伪造技术的快速发展,DeepFake视频在数字媒体上引起了广泛的关注。肇事者大量利用这些视频来传播虚假信息并发表误导性陈述。大多数现有的DeepFake检测方法主要集中于纹理特征,纹理特征可能会受到外部波动(例如照明和噪声)的影响。此外,基于面部地标的检测方法对外部变量更强大,但缺乏足够的细节。因此,如何在空间,时间和频域中有效地挖掘独特的特征,并将其与面部地标融合以进行伪造视频检测仍然是一个悬而未决的问题。为此,我们提出了一个基于多种模式的信息和面部地标的几何特征,提出了地标增强的多模式图神经网络(LEM-GNN)。具体而言,在框架级别上,我们设计了一种融合机制来挖掘空间和频域元素的联合表示,同时引入几何面部特征以增强模型的鲁棒性。在视频级别,我们首先将视频中的每个帧视为图中的节点,然后将时间信息编码到图表的边缘。然后,通过应用图形神经网络(GNN)的消息传递机制,将有效合并多模式特征,以获得视频伪造的全面表示。广泛的实验表明,我们的方法始终优于广泛使用的基准上的最先进(SOTA)。
translated by 谷歌翻译
随着GAN的出现,面部伪造技术被严重滥用。即将实现准确的伪造检测。受到PPG信号对应于脸部视频中心跳引起的肤色的周期性变化的启发,我们观察到,尽管在伪造过程中不可避免地损失了PPG信号,但仍然存在PPG信号的混合物,但PPG信号的混合伪造视频具有独特的节奏模式,具体取决于其生成方法。在这一关键观察中,我们提出了一个针对面孔检测和分类的框架,包括:1)用于PPG信号过滤的时空滤波网络(STFNET),以及2)用于约束和约束的时空交互网络(stinet) PPG信号的相互作用。此外,通过深入了解伪造方法的产生,我们进一步提出了源头和源中的材料,以提高框架的性能。总体而言,广泛的实验证明了我们方法的优势。
translated by 谷歌翻译
近年来,随着面部编辑和发电的迅速发展,越来越多的虚假视频正在社交媒体上流传,这引起了极端公众的关注。基于频域的现有面部伪造方法发现,与真实图像相比,GAN锻造图像在频谱中具有明显的网格视觉伪像。但是对于综合视频,这些方法仅局限于单个帧,几乎不关注不同框架之间最歧视的部分和时间频率线索。为了充分利用视频序列中丰富的信息,本文对空间和时间频域进行了视频伪造检测,并提出了一个离散的基于余弦转换的伪造线索增强网络(FCAN-DCT),以实现更全面的时空功能表示。 FCAN-DCT由一个骨干网络和两个分支组成:紧凑特征提取(CFE)模块和频率时间注意(FTA)模块。我们对两个可见光(VIS)数据集Wilddeepfake和Celeb-DF(V2)进行了彻底的实验评估,以及我们的自我构建的视频伪造数据集DeepFakenir,这是第一个近境模式的视频伪造数据集。实验结果证明了我们方法在VIS和NIR场景中检测伪造视频的有效性。
translated by 谷歌翻译
Online media data, in the forms of images and videos, are becoming mainstream communication channels. However, recent advances in deep learning, particularly deep generative models, open the doors for producing perceptually convincing images and videos at a low cost, which not only poses a serious threat to the trustworthiness of digital information but also has severe societal implications. This motivates a growing interest of research in media tampering detection, i.e., using deep learning techniques to examine whether media data have been maliciously manipulated. Depending on the content of the targeted images, media forgery could be divided into image tampering and Deepfake techniques. The former typically moves or erases the visual elements in ordinary images, while the latter manipulates the expressions and even the identity of human faces. Accordingly, the means of defense include image tampering detection and Deepfake detection, which share a wide variety of properties. In this paper, we provide a comprehensive review of the current media tampering detection approaches, and discuss the challenges and trends in this field for future research.
translated by 谷歌翻译
尽管最近对Deepfake技术的滥用引起了严重的关注,但由于每个帧的光真逼真的合成,如何检测DeepFake视频仍然是一个挑战。现有的图像级方法通常集中在单个框架上,而忽略了深击视频中隐藏的时空提示,从而导致概括和稳健性差。视频级检测器的关键是完全利用DeepFake视频中不同框架的当地面部区域分布在当地面部区域中的时空不一致。受此启发,本文提出了一种简单而有效的补丁级方法,以通过时空辍学变压器促进深击视频检测。该方法将每个输入视频重组成贴片袋,然后将其馈入视觉变压器以实现强大的表示。具体而言,提出了时空辍学操作,以充分探索斑块级时空提示,并作为有效的数据增强,以进一步增强模型的鲁棒性和泛化能力。该操作是灵活的,可以轻松地插入现有的视觉变压器中。广泛的实验证明了我们对25种具有令人印象深刻的鲁棒性,可推广性和表示能力的最先进的方法的有效性。
translated by 谷歌翻译
面部伪造技术的最新进展几乎可以产生视觉上无法追踪的深冰录视频,这些视频可以通过恶意意图来利用。结果,研究人员致力于深泡检测。先前的研究已经确定了局部低级提示和时间信息在追求跨层次方法中概括的重要性,但是,它们仍然遭受鲁棒性问题的影响。在这项工作中,我们提出了基于本地和时间感知的变压器的DeepFake检测(LTTD)框架,该框架采用了局部到全球学习协议,特别关注本地序列中有价值的时间信息。具体而言,我们提出了一个局部序列变压器(LST),该局部序列变压器(LST)对限制空间区域的序列进行了时间一致性,其中低级信息通过学习的3D滤波器的浅层层增强。基于局部时间嵌入,我们然后以全球对比的方式实现最终分类。对流行数据集进行的广泛实验验证了我们的方法有效地发现了本地伪造线索并实现最先进的表现。
translated by 谷歌翻译
基于远程光摄氏学的心率估计在几种特定情况下(例如健康监测和疲劳检测)起着重要作用。现有良好的方法致力于将多个重叠视频剪辑的预测HR平均作为30秒面部视频的最终结果。尽管这些具有数百层和数千个渠道的方法是高度准确且健壮的,但它们需要巨大的计算预算和30秒的等待时间,这极大地限制了算法的应用来扩展。在这些CicumStacnces下,我们提出了一个轻巧的快速脉冲模拟网络(LFPS-NET),在非常有限的计算和时间预算中追求最佳准确性,重点关注通用的移动平台,例如智能手机。为了抑制噪声组件并在短时间内获得稳定的脉冲,我们设计了多频模态信号融合机制,该机制利用了时频域分析理论,以将多模式信息与复杂信号分开。它有助于继续进行网络,而无需添加任何参数,可以更轻松地学习有效的热门。此外,我们设计了一个过采样培训策略,以解决由数据集的分布不平衡引起的问题。对于30秒的面部视频,我们提出的方法在大多数评估指标上取得了最佳结果,以估计心率或心率变异性与最佳论文相比。提出的方法仍然可以使用短时(〜15秒)的主体视频获得非常具竞争力的结果。
translated by 谷歌翻译
最近,由于社交媒体数字取证中的安全性和隐私问题,DeepFake引起了广泛的公众关注。随着互联网上广泛传播的深层视频变得越来越现实,传统的检测技术未能区分真实和假货。大多数现有的深度学习方法主要集中于使用卷积神经网络作为骨干的局部特征和面部图像中的关系。但是,本地特征和关系不足以用于模型培训,无法学习足够的一般信息以进行深层检测。因此,现有的DeepFake检测方法已达到瓶颈,以进一步改善检测性能。为了解决这个问题,我们提出了一个深度卷积变压器,以在本地和全球范围内纳入决定性图像。具体而言,我们应用卷积池和重新注意事项来丰富提取的特征并增强功效。此外,我们在模型训练中采用了几乎没有讨论的图像关键框架来改进性能,并可视化由视频压缩引起的密钥和正常图像帧之间的特征数量差距。我们最终通过在几个DeepFake基准数据集上进行了广泛的实验来说明可传递性。所提出的解决方案在内部和跨数据库实验上始终优于几个最先进的基线。
translated by 谷歌翻译
深度学习已成功地用于解决从大数据分析到计算机视觉和人级控制的各种复杂问题。但是,还采用了深度学习进步来创建可能构成隐私,民主和国家安全威胁的软件。最近出现的那些深度学习驱动的应用程序之一是Deepfake。 DeepFake算法可以创建人类无法将它们与真实图像区分开的假图像和视频。因此,可以自动检测和评估数字视觉媒体完整性的技术的建议是必不可少的。本文介绍了一项用于创造深击的算法的调查,更重要的是,提出的方法旨在检测迄今为止文献中的深击。我们对与Deepfake技术有关的挑战,研究趋势和方向进行了广泛的讨论。通过回顾深层味和最先进的深层检测方法的背景,本研究提供了深入的深层技术的概述,并促进了新的,更强大的方法的发展,以应对日益挑战性的深击。
translated by 谷歌翻译
尽管令人鼓舞的是深泡检测的进展,但由于训练过程中探索的伪造线索有限,对未见伪造类型的概括仍然是一个重大挑战。相比之下,我们注意到Deepfake中的一种常见现象:虚假的视频创建不可避免地破坏了原始视频中的统计规律性。受到这一观察的启发,我们建议通过区分实际视频中没有出现的“规律性中断”来增强深层检测的概括。具体而言,通过仔细检查空间和时间属性,我们建议通过伪捕获生成器破坏真实的视频,并创建各种伪造视频以供培训。这种做法使我们能够在不使用虚假视频的情况下实现深泡沫检测,并以简单有效的方式提高概括能力。为了共同捕获空间和时间上的破坏,我们提出了一个时空增强块,以了解我们自我创建的视频之间的规律性破坏。通过全面的实验,我们的方法在几个数据集上表现出色。
translated by 谷歌翻译
本文介绍了我们关于使用时间图像进行深泡探测的结果和发现。我们通过使用这些面部地标上的像素值构造图像(称为时间图像),模拟了在给定视频跨帧的468个面部标志物横跨给定视频框架中的临时关系。CNN能够识别给定图像的像素之间存在的空间关系。研究了10种不同的成像网模型。
translated by 谷歌翻译
随着过去五年的快速发展,面部身份验证已成为最普遍的生物识别方法。得益于高准确的识别性能和用户友好的用法,自动面部识别(AFR)已爆炸成多次实用的应用程序,而不是设备解锁,签到和经济支付。尽管面部身份验证取得了巨大的成功,但各种面部表现攻击(FPA),例如印刷攻击,重播攻击和3D面具攻击,但仍引起了不信任的问题。除了身体上的攻击外,面部视频/图像很容易受到恶意黑客发起的各种数字攻击技术的影响,从而对整个公众造成了潜在的威胁。由于无限制地访问了巨大的数字面部图像/视频,并披露了互联网上流通的易于使用的面部操纵工具,因此没有任何先前专业技能的非专家攻击者能够轻松创建精致的假面,从而导致许多危险的应用程序例如财务欺诈,模仿和身份盗用。这项调查旨在通过提供对现有文献的彻底分析并突出需要进一步关注的问题来建立面部取证的完整性。在本文中,我们首先全面调查了物理和数字面部攻击类型和数据集。然后,我们回顾了现有的反攻击方法的最新和最先进的进度,并突出显示其当前限制。此外,我们概述了面对法医社区中现有和即将面临的挑战的未来研究指示。最后,已经讨论了联合物理和数字面部攻击检​​测的必要性,这在先前的调查中从未进行过研究。
translated by 谷歌翻译
传统的假视频检测方法输出篡改图像的可能性值或可疑掩码。但是,这种无法解释的结果不能用作令人信服的证据。因此,更好地追溯虚假视频来源。传统的散列方法用于检索语义 - 相似的图像,这不能区分图像的细微差别。具体地,与传统视频检索相比,源跟踪。从类似的源视频中找到真实的挑战是一项挑战。我们设计了一种新的损失哈希多粒损失,解决了人们的视频非常相似的问题:与不同角度相同的场景,与同一个人的类似场景。我们提出了基于视觉变压器的模型,名为视频跟踪和篡改本地化(VTL)。在第一阶段,我们通过Vithash(VTL-T)训练哈希中心。然后,将假视频输入到Vithash,该vithash输出散列码。哈希码用于从哈希中心检索源视频。在第二阶段,源视频和假视频被输入到生成器(VTL-L)。然后,掩盖可疑区域以提供辅助信息。此外,我们构建了两个数据集:DFTL和Davis2016-TL。对DFTL的实验明显展示了我们在类似视频的追踪中框架的优势。特别地,VTL还通过在Davis2016-TL上实现了与最先进的方法的相当性能。我们的源代码和数据集已在github上发布:\ url {https:/github.com/lajlksdf/vtl}。
translated by 谷歌翻译
基于远程的光摄影学(RPPG)的生理测量值在情感计算,非接触式健康监测,远程医疗监测等方面具有良好的应用值,这已经变得越来越重要,尤其是在Covid-19-19-19大流行期间。现有方法通常分为两组。第一个重点是从面部视频中挖掘微妙的血量脉冲(BVP)信号,但很少明确地模拟主导面部视频内容的声音。它们容易受到噪音的影响,在看不见的情况下可能会遭受泛滥能力。第二个重点是直接建模嘈杂的数据,由于缺乏这些严重的随机噪声的规律性,导致了次优性能。在本文中,我们提出了一个分解和重建网络(DRNET),重点是生理特征而不是嘈杂数据的建模。提出了新的周期损失来限制生理信息的周期性。此外,提出了插件空间注意块(SAB),以增强功能以​​及空间位置信息。此外,提出了有效的斑块种植(PC)增强策略,以合成具有不同噪声和特征的增强样品。在不同的公共数据集以及跨数据库测试上进行了广泛的实验证明了我们方法的有效性。
translated by 谷歌翻译
现在,合成视觉媒体发电和操纵的加速增长已经达到了引起重大关注并对社会造成巨大恐吓的地步。当务之急需要自动检测网络涉及虚假数字内容,并避免危险人造信息的传播以应对这种威胁。在本文中,我们利用和比较了两种手工制作的功能(Sift和Hog)以及两种深层特征(Xpection和CNN+RNN),以进行深层捕获检测任务。当训练集和测试集之间存在不匹配时,我们还会检查这些功能的性能。评估是对著名的FaceForensics ++数据集进行的,该数据集包含四个子数据集,深盘,face2face,faceswap和neuralTextures。最好的结果来自Xception,当训练和测试集都来自同一子数据库时,精度可能会超过99 \%。相比之下,当训练集不匹配测试集时,结果急剧下降。这种现象揭示了创建通用深击检测系统的挑战。
translated by 谷歌翻译
Face forgery detection plays an important role in personal privacy and social security. With the development of adversarial generative models, high-quality forgery images become more and more indistinguishable from real to humans. Existing methods always regard as forgery detection task as the common binary or multi-label classification, and ignore exploring diverse multi-modality forgery image types, e.g. visible light spectrum and near-infrared scenarios. In this paper, we propose a novel Hierarchical Forgery Classifier for Multi-modality Face Forgery Detection (HFC-MFFD), which could effectively learn robust patches-based hybrid domain representation to enhance forgery authentication in multiple-modality scenarios. The local spatial hybrid domain feature module is designed to explore strong discriminative forgery clues both in the image and frequency domain in local distinct face regions. Furthermore, the specific hierarchical face forgery classifier is proposed to alleviate the class imbalance problem and further boost detection performance. Experimental results on representative multi-modality face forgery datasets demonstrate the superior performance of the proposed HFC-MFFD compared with state-of-the-art algorithms. The source code and models are publicly available at https://github.com/EdWhites/HFC-MFFD.
translated by 谷歌翻译
DeepFake媒体如今正变得广泛,因为具有易于使用的工具和移动应用程序可以生成现实的DeepFake视频/图像,而无需任何技术知识。随着在不久的将来的这一技术领域的进一步进步,预计深冰媒体的数量和质量也将蓬勃发展,同时使DeepFake Media成为传播错误/虚假信息的可能新的实用工具。由于这些担忧,深层媒体检测工具已成为必要。在这项研究中,我们提出了一个新型混合变压器网络,利用早期功能融合策略进行深击视频检测。我们的模型采用两个不同的CNN网络,即(1)XceptionNet和(2)效率网络B4作为特征提取器。我们在FaceForensics ++,DFDC基准测试中以端到端的方式训练两个功能提取器。我们的模型在具有相对简单的体系结构的同时,在对FaceForensics ++和DFDC基准进行评估时,取得了与其他更先进的最先进方法相当的结果。除此之外,我们还提出了新颖的面部切割增加以及随机切割的增加。我们表明,提出的增强改善了模型的检测性能并减少过度拟合。除此之外,我们还表明我们的模型能够从少量数据中学习。
translated by 谷歌翻译
对医疗保健监控的远程工具的需求从未如此明显。摄像机测量生命体征利用成像装置通过分析人体的图像来计算生理变化。建立光学,机器学习,计算机视觉和医学的进步这些技术以来的数码相机的发明以来已经显着进展。本文介绍了对生理生命体征的相机测量综合调查,描述了它们可以测量的重要标志和实现所做的计算技术。我涵盖了临床和非临床应用以及这些应用需要克服的挑战,以便从概念上推进。最后,我描述了对研究社区可用的当前资源(数据集和代码),并提供了一个全面的网页(https://cameravitals.github.io/),其中包含这些资源的链接以及其中引用的所有文件的分类列表文章。
translated by 谷歌翻译