人们对出于各种目的的人交谈的综合视频图像产生了浓厚的兴趣,包括娱乐,交流,培训和广告。随着深层伪造的模型的发展,合成视频图像很快将在视觉上与自然捕获视频的肉眼无法区分。此外,许多方法正在继续改进,以避免更谨慎,法医视觉分析。通过使用面部木偶来制作一些深层的虚假视频,该视频通过演员的动作直接控制合成图像的头部和面部,使演员可以将其“木偶”“木偶”“木偶”“木偶”“木偶”相同。在本文中,我们解决了一个问题,即是否可以通过控制扬声器的视觉外观,但从另一个来源转移行为信号来将一个人的动作与原始扬声器区分开。我们通过比较综合图像来进行研究:1)源自另一个人说不同话语的人,2)起源于同一人说的话不同,3)源自另一个人说相同的话语。我们的研究表明,在所有三种情况下,合成视频都比原始源视频不那么真实和吸引力。我们的结果表明,可以从一个人的动作中检测到​​与视觉外观分开的行为签名,并且可以使用这种行为签名来区分深处的伪造与正确捕获的视频。
translated by 谷歌翻译
强大的深度学习技术的发展为社会和个人带来了一些负面影响。一个这样的问题是假媒体的出现。为了解决这个问题,我们组织了可信赖的媒体挑战(TMC)来探讨人工智能(AI)如何利用如何打击假媒体。我们与挑战一起发布了一个挑战数据集,由4,380张假和2,563个真实视频组成。所有这些视频都伴随着Audios,采用不同的视频和/或音频操作方法来生产不同类型的假媒体。数据集中的视频具有各种持续时间,背景,照明,最小分辨率为360p,并且可能包含模拟传输误差和不良压缩的扰动。我们还开展了用户学习,以展示所作数据集的质量。结果表明,我们的数据集具有有希望的质量,可以在许多情况下欺骗人类参与者。
translated by 谷歌翻译
深度学习已成功地用于解决从大数据分析到计算机视觉和人级控制的各种复杂问题。但是,还采用了深度学习进步来创建可能构成隐私,民主和国家安全威胁的软件。最近出现的那些深度学习驱动的应用程序之一是Deepfake。 DeepFake算法可以创建人类无法将它们与真实图像区分开的假图像和视频。因此,可以自动检测和评估数字视觉媒体完整性的技术的建议是必不可少的。本文介绍了一项用于创造深击的算法的调查,更重要的是,提出的方法旨在检测迄今为止文献中的深击。我们对与Deepfake技术有关的挑战,研究趋势和方向进行了广泛的讨论。通过回顾深层味和最先进的深层检测方法的背景,本研究提供了深入的深层技术的概述,并促进了新的,更强大的方法的发展,以应对日益挑战性的深击。
translated by 谷歌翻译
在今天的数字错误信息的时代,我们越来越受到视频伪造技术构成的新威胁。这种伪造的范围从Deepfakes(例如,复杂的AI媒体合成方法)的经济饼(例如,精致的AI媒体合成方法)从真实视频中无法区分。为了解决这一挑战,我们提出了一种多模态语义法医法,可以发现超出视觉质量差异的线索,从而处理更简单的便宜赌注和视觉上有说服力的德国。在这项工作中,我们的目标是验证视频中看到的据称人士确实是通过检测他们的面部运动与他们所说的词语之间的异常对应。我们利用归因的想法,以了解特定于人的生物识别模式,将给定发言者与他人区分开来。我们使用可解释的行动单位(AUS)来捕捉一个人的面部和头部运动,而不是深入的CNN视觉功能,我们是第一个使用字样的面部运动分析。与现有的人特定的方法不同,我们的方法也有效地对抗专注于唇部操纵的攻击。我们进一步展示了我们的方法在培训中没有看到的一系列假装的效率,包括未经视频操纵的培训,这在事先工作中没有解决。
translated by 谷歌翻译
本文介绍了我们关于使用时间图像进行深泡探测的结果和发现。我们通过使用这些面部地标上的像素值构造图像(称为时间图像),模拟了在给定视频跨帧的468个面部标志物横跨给定视频框架中的临时关系。CNN能够识别给定图像的像素之间存在的空间关系。研究了10种不同的成像网模型。
translated by 谷歌翻译
作为内容编辑成熟的工具,以及基于人工智能(AI)综合媒体增长的算法,在线媒体上的操纵内容的存在正在增加。这种现象导致错误信息的传播,从而更需要区分“真实”和“操纵”内容。为此,我们介绍了Videosham,该数据集由826个视频(413个真实和413个操纵)组成。许多现有的DeepFake数据集专注于两种类型的面部操作 - 与另一个受试者的面部交换或更改现有面部。另一方面,Videosham包含更多样化的,上下文丰富的和以人为本的高分辨率视频,使用6种不同的空间和时间攻击组合来操纵。我们的分析表明,最新的操纵检测算法仅适用于一些特定的攻击,并且在Videosham上不能很好地扩展。我们在亚马逊机械土耳其人上进行了一项用户研究,其中1200名参与者可以区分Videosham中的真实视频和操纵视频。最后,我们更深入地研究了人类和sota-Algorithms表演的优势和劣势,以识别需要用更好的AI算法填补的差距。
translated by 谷歌翻译
Online media data, in the forms of images and videos, are becoming mainstream communication channels. However, recent advances in deep learning, particularly deep generative models, open the doors for producing perceptually convincing images and videos at a low cost, which not only poses a serious threat to the trustworthiness of digital information but also has severe societal implications. This motivates a growing interest of research in media tampering detection, i.e., using deep learning techniques to examine whether media data have been maliciously manipulated. Depending on the content of the targeted images, media forgery could be divided into image tampering and Deepfake techniques. The former typically moves or erases the visual elements in ordinary images, while the latter manipulates the expressions and even the identity of human faces. Accordingly, the means of defense include image tampering detection and Deepfake detection, which share a wide variety of properties. In this paper, we provide a comprehensive review of the current media tampering detection approaches, and discuss the challenges and trends in this field for future research.
translated by 谷歌翻译
在本文中,我们介绍了一种新颖的深入学习方法,用于“野外”视频中演员的情绪状态的光学逼真操纵。所提出的方法基于输入场景中的演员的参数3D面表示,其提供来自头部姿势和面部表达的面部身份的可靠性解剖。然后,它使用新的深度域翻译框架,以符合他们的动态,以一致而合理的方式改变面部表情。最后,改变改变的面部表情用于基于特别设计的神经面渲染器光实际地操纵输入场景中的面部区域。据我们所知,我们的方法是第一个能够通过唯一用作操纵情绪的语义标记来控制演员的面部表情,同时保持与语音相关的唇部运动。我们进行广泛的定性和定量评估和比较,展示了我们的方法的有效性以及我们获得的特别有希望的结果。我们的方法为神经渲染技术的有用应用开辟了一种新的可能性,从电影后生产和视频游戏到照片逼真的情感化身。
translated by 谷歌翻译
InputOutput Input Output Fig. 1. Unlike current face reenactment approaches that only modify the expression of a target actor in a video, our novel deep video portrait approach enables full control over the target by transferring the rigid head pose, facial expression and eye motion with a high level of photorealism.We present a novel approach that enables photo-realistic re-animation of portrait videos using only an input video. In contrast to existing approaches that are restricted to manipulations of facial expressions only, we are the irst to transfer the full 3D head position, head rotation, face expression, eye gaze, and eye blinking from a source actor to a portrait video of a target actor. The core of our approach is a generative neural network with a novel space-time architecture. The network takes as input synthetic renderings of a parametric face model, based on which it predicts photo-realistic video frames for a given target actor. The realism in this rendering-to-video transfer is achieved by careful adversarial training, and as a result, we can create modiied target videos that mimic the behavior of the synthetically-created input. In order to enable source-to-target video re-animation, we render a synthetic target video with the reconstructed head animation parameters from a source video, and feed it into the trained network ś thus taking full control of the
translated by 谷歌翻译
Figure 1: FaceForensics++ is a dataset of facial forgeries that enables researchers to train deep-learning-based approaches in a supervised fashion. The dataset contains manipulations created with four state-of-the-art methods, namely, Face2Face, FaceSwap, DeepFakes, and NeuralTextures.
translated by 谷歌翻译
2022年俄罗斯对乌克兰的入侵正在两条战线上进行:一场残酷的地面战争和一场旨在掩盖和证明俄罗斯行动正当的双重虚假宣传运动。这项运动至少包括一个据称显示乌克兰总统Zelenskyy承认失败和投降的一个示例。为了期待这种形式的未来攻击,我们描述了一种面部和手势行为模型,该模型捕获了Zelenskyy的口语风格的独特特征。经过八个多个小时的真实视频的培训,我们表明,这种行为模型可以将Zelenskyy与深效冒险家区分开来。这种模型可以在战争中扮演重要角色,尤其是在战争的雾中 - 将真实的作用与区分。假。
translated by 谷歌翻译
尽管已经对音频驱动的说话的面部生成取得了重大进展,但现有方法要么忽略面部情绪,要么不能应用于任意主题。在本文中,我们提出了情感感知的运动模型(EAMM),以通过涉及情感源视频来产生一次性的情感谈话面孔。具体而言,我们首先提出了一个Audio2Facial-Dynamics模块,该模块从音频驱动的无监督零和一阶密钥点运动中进行说话。然后,通过探索运动模型的属性,我们进一步提出了一个隐性的情绪位移学习者,以表示与情绪相关的面部动力学作为对先前获得的运动表示形式的线性添加位移。全面的实验表明,通过纳入两个模块的结果,我们的方法可以在具有现实情感模式的任意主题上产生令人满意的说话面部结果。
translated by 谷歌翻译
AI-synthesized face-swapping videos, commonly known as DeepFakes, is an emerging problem threatening the trustworthiness of online information. The need to develop and evaluate DeepFake detection algorithms calls for large-scale datasets. However, current DeepFake datasets suffer from low visual quality and do not resemble Deep-Fake videos circulated on the Internet. We present a new large-scale challenging DeepFake video dataset, Celeb-DF, which contains 5, 639 high-quality DeepFake videos of celebrities generated using improved synthesis process. We conduct a comprehensive evaluation of DeepFake detection methods and datasets to demonstrate the escalated level of challenges posed by Celeb-DF.
translated by 谷歌翻译
面部合成的进步已经提出了关于合成面的欺骗性使用的警报。合成综合性可以有效地用于欺骗人类观察者吗?在本文中,我们介绍了使用不同策略产生的合成面的人类感知的研究,包括基于最先进的深学的GaN模型。这是第一次严格研究从心理学的实验技术接地的合成面代发电技术的有效性研究。我们回答了重要的问题,如GaN的频率和更传统的图像处理的技术混淆人类观察者,并且在综合性脸部图像中有细微的线索,导致人类将其视为假冒,而无需寻找明显的线索还为了回答这些问题,我们进行了一系列大规模众群行为实验,具有不同的面膜。结果表明,人类无法在几个不同的情况下区分真实面的合成面。这一发现对面部图像呈现给人类用户的许多不同应用具有严重影响。
translated by 谷歌翻译
近年来,视觉伪造达到了人类无法识别欺诈的复杂程度,这对信息安全构成了重大威胁。出现了广泛的恶意申请,例如名人的假新闻,诽谤或勒索,政治战中的政治家冒充,以及谣言的传播吸引观点。结果,已经提出了一种富有的视觉验证技术,以试图阻止这种危险的趋势。在本文中,我们使用全面的和经验方法,提供了一种基准,可以对视觉伪造和视觉取证进行深入的洞察。更具体地,我们开发一个独立的框架,整合最先进的假冒生成器和探测器,并使用各种标准来测量这些技术的性能。我们还对基准测试结果进行了详尽的分析,确定了在措施与对策之间永无止境的战争中的比较参考的方法的特征。
translated by 谷歌翻译
面对面对话期间的响应声是社会互动的关键要素,在心理学研究中得到了很好的建立。通过非言语信号响应扬声器的话语,语调或行为实时,听众展示了它们如何从事对话。在这项工作中,我们构建了响应声侦听器数据集(RLD),从公共资源收集的对话视频语料库,其中包括67个扬声器,76个听众,具有三种不同的态度。我们将响应声聆听头生成任务定义为具有运动的运动和表达式的非言语头的合成,包括扬声器的音频和视觉信号。与言语驱动的手势或谈话主管不同,我们在这项任务中介绍了更多的模态,希望有利于几个研究领域,包括人类互动,视频到视频转换,跨模型理解和生成。此外,我们释放了一种态度调节的听力头生成基线。项目页面:\ url {https://project.mhzhou.com/rld}。
translated by 谷歌翻译
编辑和操纵视频中的面部特征是一种有趣而重要的研究领域,具有夸张的应用,从电影生产和视觉效果到视频游戏和虚拟助手的现实头像。据我们所知,本文提出了第一种在视频中进行了对面部表情的照相型式操纵的方法。我们的方法支持基于神经渲染和基于3D的面部表情建模的语义视频操纵。我们专注于通过改变和控制面部表情来互动操纵视频,实现有前途的光电温度效果。该方法基于用于3D面部形状和活动的脱屑表示和估计,为用户提供对输入视频中的面部表情的直观且易于使用的控制。我们还介绍了一个用户友好的交互式AI工具,该工具处理有关输入视频的特定部分的所需情绪操纵的人类可读的语义标签,并合成光电环境拟人的操纵视频。我们通过将情绪标签映射到价值(VA)值来实现这一点,又通过特别设计和训练的表达式解码器网络映射到解开的3D面部表达式。本文提出了详细的定性和定量实验,展示了我们系统的有效性以及它实现的有希望的结果。可以在补充材料中找到其他结果和视频(https://github.com/girish-03/deepsemmanipulation)。
translated by 谷歌翻译
在本文中,我们介绍了一条神经渲染管道,用于将一个人在源视频中的面部表情,头部姿势和身体运动转移到目标视频中的另一个人。我们将方法应用于手语视频的具有挑战性的案例:给定手语用户的源视频,我们可以忠实地传输执行的手册(例如握手,棕榈方向,运动,位置)和非手术(例如,眼睛凝视,凝视,面部表情,头部移动)以照片真实的方式标志着目标视频。为了有效捕获上述提示,这些线索对于手语交流至关重要,我们以最近引入的最健壮和最可靠的深度学习方法的有效组合来建立。使用3D感知表示,将身体部位的估计运动组合并重新定位到目标签名者。然后将它们作为我们的视频渲染网络的条件输入,从而生成时间一致和照片现实的视频。我们进行了详细的定性和定量评估和比较,这些评估和比较证明了我们的方法的有效性及其对现有方法的优势。我们的方法产生了前所未有的现实主义的有希望的结果,可用于手语匿名。此外,它很容易适用于重新制定其他类型的全身活动(舞蹈,表演,锻炼等)以及手语生产系统的合成模块。
translated by 谷歌翻译
AI的最新进展,尤其是深度学习,导致创建新的现实合成媒体(视频,图像和音频)以及对现有媒体的操纵的创建显着增加,这导致了新术语的创建。 'deepfake'。基于英语和中文中的研究文献和资源,本文对Deepfake进行了全面的概述,涵盖了这一新兴概念的多个重要方面,包括1)不同的定义,2)常用的性能指标和标准以及3)与DeepFake相关的数据集,挑战,比赛和基准。此外,该论文还报告了2020年和2021年发表的12条与DeepFake相关的调查论文的元评估,不仅关注上述方面,而且集中在对关键挑战和建议的分析上。我们认为,就涵盖的各个方面而言,本文是对深层的最全面评论,也是第一个涵盖英语和中国文学和资源的文章。
translated by 谷歌翻译
Different people speak with diverse personalized speaking styles. Although existing one-shot talking head methods have made significant progress in lip sync, natural facial expressions, and stable head motions, they still cannot generate diverse speaking styles in the final talking head videos. To tackle this problem, we propose a one-shot style-controllable talking face generation framework. In a nutshell, we aim to attain a speaking style from an arbitrary reference speaking video and then drive the one-shot portrait to speak with the reference speaking style and another piece of audio. Specifically, we first develop a style encoder to extract dynamic facial motion patterns of a style reference video and then encode them into a style code. Afterward, we introduce a style-controllable decoder to synthesize stylized facial animations from the speech content and style code. In order to integrate the reference speaking style into generated videos, we design a style-aware adaptive transformer, which enables the encoded style code to adjust the weights of the feed-forward layers accordingly. Thanks to the style-aware adaptation mechanism, the reference speaking style can be better embedded into synthesized videos during decoding. Extensive experiments demonstrate that our method is capable of generating talking head videos with diverse speaking styles from only one portrait image and an audio clip while achieving authentic visual effects. Project Page: https://github.com/FuxiVirtualHuman/styletalk.
translated by 谷歌翻译