深度学习的最新进展使视频(称为深击)的现实数字变化。这项技术引起了关于虚假和真实性的重要社会关注,使许多深层检测算法的发展充满了动力。同时,培训数据和野外视频数据之间存在显着差异,这可能会破坏其实际功效。我们模拟了数据损坏技术,并检查了FaceForensics ++数据集损坏变体的最先进的深膜检测算法的性能。尽管DeepFake检测模型与与培训时间增加一致的视频损坏相符,但我们发现它们仍然容易受到视频腐败的影响,这些腐败模拟视频质量的降低。的确,在加蓬总统邦戈(Bongo)的新年地址的视频中,自信地验证了原始视频的算法,该视频的高度损坏的变体是伪造的。我们的工作在全球背景下对实用的深层检测进行了探索的技术和道德途径。
translated by 谷歌翻译
Deepfakes在良好的信仰应用中越来越受欢迎,例如在娱乐和恶意预期的操作,例如在图像和视频伪造中。主要是由后者的动机,最近已经提出了大量的浅频道探测器以识别此类内容。虽然这种探测器的性能仍然需要进一步的改进,但它们通常以简单的话进行评估,如果不是琐碎的情景。特别地,诸如转码,去噪,调整和增强的良性处理操作的影响是不充分研究。本文提出了一种更严格和系统的框架,以评估DeepFake探测器在更现实情况中的性能。它定量测量每个良性处理方法如何以及在艺术最先进的深蓝检测方法的情况下衡量如何和何种程度。通过在流行的DeepFake探测器中说明它,我们的基准测试提出了一种框架来评估探测器的稳健性,并提供有价值的洞察设计更高效的DeeFake探测器。
translated by 谷歌翻译
最新的深层神经网络容易受到共同损坏的影响(例如,由天气变化,系统错误和处理引起的输入数据降解,扭曲和干扰)。尽管在分析和改善模型在图像理解中的鲁棒性方面取得了很多进展,但视频理解中的鲁棒性在很大程度上没有探索。在本文中,我们建立了腐败的鲁棒性基准,迷你动力学-C和Mini SSV2-C,该基准认为图像中的空间腐败以外的时间腐败。我们首次尝试对建立的基于CNN和基于变压器的时空模型的腐败鲁棒性进行详尽的研究。该研究提供了有关强大模型设计和培训的一些指导:基于变压器的模型比基于CNN的模型更好地腐败鲁棒性。时空模型的概括能力意味着对时间腐败的鲁棒性;模型腐败鲁棒性(尤其是时间领域的鲁棒性)通过计算成本和模型容量增强,这可能与提高模型计算效率的当前趋势相矛盾。此外,我们发现与图像相关的任务(例如,具有噪声的训练模型)的鲁棒性干预可能对时空模型不起作用。
translated by 谷歌翻译
AI-synthesized face-swapping videos, commonly known as DeepFakes, is an emerging problem threatening the trustworthiness of online information. The need to develop and evaluate DeepFake detection algorithms calls for large-scale datasets. However, current DeepFake datasets suffer from low visual quality and do not resemble Deep-Fake videos circulated on the Internet. We present a new large-scale challenging DeepFake video dataset, Celeb-DF, which contains 5, 639 high-quality DeepFake videos of celebrities generated using improved synthesis process. We conduct a comprehensive evaluation of DeepFake detection methods and datasets to demonstrate the escalated level of challenges posed by Celeb-DF.
translated by 谷歌翻译
DeepFake是指量身定制和合成生成的视频,这些视频现在普遍存在并大规模传播,威胁到在线可用信息的可信度。尽管现有的数据集包含不同类型的深击,但它们的生成技术各不相同,但它们并不考虑以“系统发育”方式进展。现有的深层面孔可能与另一个脸交换。可以多次执行面部交换过程,并且可以演变出最终的深层效果,以使DeepFake检测算法混淆。此外,许多数据库不提供应用的生成模型作为目标标签。模型归因通过提供有关所使用的生成模型的信息,有助于增强检测结果的解释性。为了使研究界能够解决这些问题,本文提出了Deephy,这是一种新型的DeepFake系统发育数据集,由使用三种不同的一代技术生成的5040个DeepFake视频组成。有840个曾经交换深击的视频,2520个换两次交换深击的视频和1680个换装深击的视频。使用超过30 GB的大小,使用1,352 GB累积内存的18 GPU在1100多个小时内准备了数据库。我们还使用六种DeepFake检测算法在Deephy数据集上展示了基准。结果突出了需要发展深击模型归因的研究,并将过程推广到各种深层生成技术上。该数据库可在以下网址获得:http://iab-rubric.org/deephy-database
translated by 谷歌翻译
随着深层技术的传播,这项技术变得非常易于访问和足够好,以至于对其恶意使用感到担忧。面对这个问题,检测锻造面孔对于确保安全和避免在全球和私人规模上避免社会政治问题至关重要。本文提出了一种使用卷积神经网络检测深击的解决方案,并为此目的开发了一个数据集-celeb -df。结果表明,在这些图像的分类中,总体准确性为95%,提出的模型接近于最新的现状,并且可以调整未来出现的操纵技术的可能性。。
translated by 谷歌翻译
本文介绍了我们DFGC 2022竞赛的摘要报告。深层味道正在迅速发展,现实的面部折叠变得越来越欺骗性和难以检测。相反,检测深击的方法也正在改善。 Deepfake创作者和防守者之间有两党的比赛。这项竞赛提供了一个通用平台,用于基准在DeepFake创建和检测方法中当前最新的游戏之间的游戏。这场比赛要回答的主要研究问题是彼此竞争时两个对手的现状。这是去年DFGC 2021之后的第二版,具有新的,更多样化的视频数据集,更现实的游戏设置以及更合理的评估指标。通过这项竞争,我们旨在激发研究思想,以建立对深层威胁的更好的防御能力。我们还发布了我们的参与者和我们自己的DFGC 2022数据集,以丰富研究社区的DeepFake数据资源(https://github.com/nice-x/dfgc-2022)。
translated by 谷歌翻译
DeepFake媒体如今正变得广泛,因为具有易于使用的工具和移动应用程序可以生成现实的DeepFake视频/图像,而无需任何技术知识。随着在不久的将来的这一技术领域的进一步进步,预计深冰媒体的数量和质量也将蓬勃发展,同时使DeepFake Media成为传播错误/虚假信息的可能新的实用工具。由于这些担忧,深层媒体检测工具已成为必要。在这项研究中,我们提出了一个新型混合变压器网络,利用早期功能融合策略进行深击视频检测。我们的模型采用两个不同的CNN网络,即(1)XceptionNet和(2)效率网络B4作为特征提取器。我们在FaceForensics ++,DFDC基准测试中以端到端的方式训练两个功能提取器。我们的模型在具有相对简单的体系结构的同时,在对FaceForensics ++和DFDC基准进行评估时,取得了与其他更先进的最先进方法相当的结果。除此之外,我们还提出了新颖的面部切割增加以及随机切割的增加。我们表明,提出的增强改善了模型的检测性能并减少过度拟合。除此之外,我们还表明我们的模型能够从少量数据中学习。
translated by 谷歌翻译
在过去的几年中,虚假内容的增长速度令人难以置信。社交媒体和在线平台的传播使他们的恶意演员越来越多地传播大规模的传播。同时,由于虚假图像生成方法的扩散越来越大,已经提出了许多基于深度学习的检测技术。这些方法中的大多数依赖于从RGB图像中提取显着特征,以通过二进制分类器检测图像是假的或真实的。在本文中,我们提出了DepthFake,这是一项有关如何使用深度图改善基于经典RGB的方法的研究。深度信息是从具有最新单眼深度估计技术的RGB图像中提取的。在这里,我们证明了深度映射对深料检测任务的有效贡献对稳健的预训练架构。实际上,针对faceforensic ++数据集的标准RGB体系结构,对于一些DeepFake攻击,对一些DeepFake攻击的平均提高了3.20%和11.7%。
translated by 谷歌翻译
尽管令人鼓舞的是深泡检测的进展,但由于训练过程中探索的伪造线索有限,对未见伪造类型的概括仍然是一个重大挑战。相比之下,我们注意到Deepfake中的一种常见现象:虚假的视频创建不可避免地破坏了原始视频中的统计规律性。受到这一观察的启发,我们建议通过区分实际视频中没有出现的“规律性中断”来增强深层检测的概括。具体而言,通过仔细检查空间和时间属性,我们建议通过伪捕获生成器破坏真实的视频,并创建各种伪造视频以供培训。这种做法使我们能够在不使用虚假视频的情况下实现深泡沫检测,并以简单有效的方式提高概括能力。为了共同捕获空间和时间上的破坏,我们提出了一个时空增强块,以了解我们自我创建的视频之间的规律性破坏。通过全面的实验,我们的方法在几个数据集上表现出色。
translated by 谷歌翻译
深度学习已成功地用于解决从大数据分析到计算机视觉和人级控制的各种复杂问题。但是,还采用了深度学习进步来创建可能构成隐私,民主和国家安全威胁的软件。最近出现的那些深度学习驱动的应用程序之一是Deepfake。 DeepFake算法可以创建人类无法将它们与真实图像区分开的假图像和视频。因此,可以自动检测和评估数字视觉媒体完整性的技术的建议是必不可少的。本文介绍了一项用于创造深击的算法的调查,更重要的是,提出的方法旨在检测迄今为止文献中的深击。我们对与Deepfake技术有关的挑战,研究趋势和方向进行了广泛的讨论。通过回顾深层味和最先进的深层检测方法的背景,本研究提供了深入的深层技术的概述,并促进了新的,更强大的方法的发展,以应对日益挑战性的深击。
translated by 谷歌翻译
Face manipulation technology is advancing very rapidly, and new methods are being proposed day by day. The aim of this work is to propose a deepfake detector that can cope with the wide variety of manipulation methods and scenarios encountered in the real world. Our key insight is that each person has specific biometric characteristics that a synthetic generator cannot likely reproduce. Accordingly, we extract high-level audio-visual biometric features which characterize the identity of a person, and use them to create a person-of-interest (POI) deepfake detector. We leverage a contrastive learning paradigm to learn the moving-face and audio segment embeddings that are most discriminative for each identity. As a result, when the video and/or audio of a person is manipulated, its representation in the embedding space becomes inconsistent with the real identity, allowing reliable detection. Training is carried out exclusively on real talking-face videos, thus the detector does not depend on any specific manipulation method and yields the highest generalization ability. In addition, our method can detect both single-modality (audio-only, video-only) and multi-modality (audio-video) attacks, and is robust to low-quality or corrupted videos by building only on high-level semantic features. Experiments on a wide variety of datasets confirm that our method ensures a SOTA performance, with an average improvement in terms of AUC of around 3%, 10%, and 4% for high-quality, low quality, and attacked videos, respectively. https://github.com/grip-unina/poi-forensics
translated by 谷歌翻译
Deepfakes are computationally-created entities that falsely represent reality. They can take image, video, and audio modalities, and pose a threat to many areas of systems and societies, comprising a topic of interest to various aspects of cybersecurity and cybersafety. In 2020 a workshop consulting AI experts from academia, policing, government, the private sector, and state security agencies ranked deepfakes as the most serious AI threat. These experts noted that since fake material can propagate through many uncontrolled routes, changes in citizen behaviour may be the only effective defence. This study aims to assess human ability to identify image deepfakes of human faces (StyleGAN2:FFHQ) from nondeepfake images (FFHQ), and to assess the effectiveness of simple interventions intended to improve detection accuracy. Using an online survey, 280 participants were randomly allocated to one of four groups: a control group, and 3 assistance interventions. Each participant was shown a sequence of 20 images randomly selected from a pool of 50 deepfake and 50 real images of human faces. Participants were asked if each image was AI-generated or not, to report their confidence, and to describe the reasoning behind each response. Overall detection accuracy was only just above chance and none of the interventions significantly improved this. Participants' confidence in their answers was high and unrelated to accuracy. Assessing the results on a per-image basis reveals participants consistently found certain images harder to label correctly, but reported similarly high confidence regardless of the image. Thus, although participant accuracy was 62% overall, this accuracy across images ranged quite evenly between 85% and 30%, with an accuracy of below 50% for one in every five images. We interpret the findings as suggesting that there is a need for an urgent call to action to address this threat.
translated by 谷歌翻译
强大的深度学习技术的发展为社会和个人带来了一些负面影响。一个这样的问题是假媒体的出现。为了解决这个问题,我们组织了可信赖的媒体挑战(TMC)来探讨人工智能(AI)如何利用如何打击假媒体。我们与挑战一起发布了一个挑战数据集,由4,380张假和2,563个真实视频组成。所有这些视频都伴随着Audios,采用不同的视频和/或音频操作方法来生产不同类型的假媒体。数据集中的视频具有各种持续时间,背景,照明,最小分辨率为360p,并且可能包含模拟传输误差和不良压缩的扰动。我们还开展了用户学习,以展示所作数据集的质量。结果表明,我们的数据集具有有希望的质量,可以在许多情况下欺骗人类参与者。
translated by 谷歌翻译
AI的最新进展,尤其是深度学习,导致创建新的现实合成媒体(视频,图像和音频)以及对现有媒体的操纵的创建显着增加,这导致了新术语的创建。 'deepfake'。基于英语和中文中的研究文献和资源,本文对Deepfake进行了全面的概述,涵盖了这一新兴概念的多个重要方面,包括1)不同的定义,2)常用的性能指标和标准以及3)与DeepFake相关的数据集,挑战,比赛和基准。此外,该论文还报告了2020年和2021年发表的12条与DeepFake相关的调查论文的元评估,不仅关注上述方面,而且集中在对关键挑战和建议的分析上。我们认为,就涵盖的各个方面而言,本文是对深层的最全面评论,也是第一个涵盖英语和中国文学和资源的文章。
translated by 谷歌翻译
不变性于广泛的图像损坏,例如翘曲,噪声或颜色移位,是在计算机视觉中建立强大模型的一个重要方面。最近,已经提出了几种新的数据增强,从而显着提高了Imagenet-C的性能,这是这种腐败的基准。但是,对数据增强和测试时间损坏之间的关系仍然缺乏基本的理解。为此,我们开发了图像变换的一个特征空间,然后在增强和损坏之间使用该空间中的新措施,称为最小示例距离,以演示相似性和性能之间的强相关性。然后,当测试时间损坏被对来自Imagenet-C中的测试时间损坏被采样时,我们调查最近的数据增强并观察腐败鲁棒性的重大退化。我们的结果表明,通过对感知同类增强的培训来提高测试错误,数据增强可能不会超出现有的基准。我们希望我们的结果和工具将允许更强大的进展,以提高对图像损坏的稳健性。我们在https://github.com/facebookresearch/augmentation - 窗子提供代码。
translated by 谷歌翻译
超现实视觉效果的技术的最新进展引起了人们的关注,即政治演讲的深层视频很快将与真实的视频录制无法视觉区分。通信研究中的传统观念预测,当故事的同一版本被视为视频而不是文字时,人们会更频繁地跌倒假新闻。在这里,我们评估了41,822名参与者在一个实验中如何将真实的政治演讲与捏造区分开来,在该实验中,演讲被随机显示为文本,音频和视频的排列。我们发现获得音频和视觉沟通方式的访问提高了参与者的准确性。在这里,人类的判断更多地依赖于话语,视听线索比所说的语音内容。但是,我们发现反思性推理调节了参与者考虑视觉信息的程度:认知反射测试的表现较低与对所说内容的过度依赖有关。
translated by 谷歌翻译
作为内容编辑成熟的工具,以及基于人工智能(AI)综合媒体增长的算法,在线媒体上的操纵内容的存在正在增加。这种现象导致错误信息的传播,从而更需要区分“真实”和“操纵”内容。为此,我们介绍了Videosham,该数据集由826个视频(413个真实和413个操纵)组成。许多现有的DeepFake数据集专注于两种类型的面部操作 - 与另一个受试者的面部交换或更改现有面部。另一方面,Videosham包含更多样化的,上下文丰富的和以人为本的高分辨率视频,使用6种不同的空间和时间攻击组合来操纵。我们的分析表明,最新的操纵检测算法仅适用于一些特定的攻击,并且在Videosham上不能很好地扩展。我们在亚马逊机械土耳其人上进行了一项用户研究,其中1200名参与者可以区分Videosham中的真实视频和操纵视频。最后,我们更深入地研究了人类和sota-Algorithms表演的优势和劣势,以识别需要用更好的AI算法填补的差距。
translated by 谷歌翻译
Fake videos represent an important misinformation threat. While existing forensic networks have demonstrated strong performance on image forgeries, recent results reported on the Adobe VideoSham dataset show that these networks fail to identify fake content in videos. In this paper, we propose a new network that is able to detect and localize a wide variety of video forgeries and manipulations. To overcome challenges that existing networks face when analyzing videos, our network utilizes both forensic embeddings to capture traces left by manipulation, context embeddings to exploit forensic traces' conditional dependencies upon local scene content, and spatial attention provided by a deep, transformer-based attention mechanism. We create several new video forgery datasets and use these, along with publicly available data, to experimentally evaluate our network's performance. These results show that our proposed network is able to identify a diverse set of video forgeries, including those not encountered during training. Furthermore, our results reinforce recent findings that image forensic networks largely fail to identify fake content in videos.
translated by 谷歌翻译
近年来,社交媒体已成长为许多在线用户的主要信息来源。这引起了错误信息通过深击的传播。 Deepfakes是视频或图像,代替一个人面对另一个计算机生成的面孔,通常是社会上更知名的人。随着技术的最新进展,技术经验很少的人可以产生这些视频。这使他们能够模仿社会中的权力人物,例如总统或名人,从而产生了传播错误信息和其他对深击的邪恶用途的潜在危险。为了应对这种在线威胁,研究人员开发了旨在检测​​深击的模型。这项研究着眼于各种深层检测模型,这些模型使用深度学习算法来应对这种迫在眉睫的威胁。这项调查着重于提供深层检测模型的当前状态的全面概述,以及许多研究人员采取的独特方法来解决此问题。在本文中,将对未来工作的好处,局限性和建议进行彻底讨论。
translated by 谷歌翻译