最近的深层摄影的出现使操纵和生成的内容成为机器学习研究的最前沿。自动检测深击已经看到了许多新的机器学习技术,但是,人类的检测功能的探索功能要少得多。在本文中,我们介绍了比较人类和机器检测用于模仿某人声音的音频深击的能力的结果。为此,我们使用基于Web的应用程序框架作为游戏。要求参与者区分真实和假音频样本。在我们的实验中,有378位唯一用户与最先进的AI DeepFake检测算法竞争,以12540的比赛总数。我们发现,人类和深层检测算法具有相似的优势和劣势,都在努力检测某些类型的攻击。这与许多应用领域(例如对象检测或面部识别)中AI的超人性能形成对比。关于人类的成功因素,我们发现IT专业人员没有非专业人士的优势,但母语人士比非本地人的人具有优势。此外,我们发现年长的参与者往往比年轻的参与者更容易受到影响。在为人类设计未来的网络安全培训以及开发更好的检测算法时,这些见解可能会有所帮助。
translated by 谷歌翻译
DeepFake是使用人工智能(AI)方法合成生成或操纵的内容或材料,以防止真实,并且可以包括音频,视频,图像和文本合成。与现有的调查论文相比,此调查与现有的调查文件相比具有不同的视角,主要专注于视频和图像Deewakes。该调查不仅评估了不同的DeepFake类别中的生成和检测方法,而且主要关注大多数现有调查中被忽视的音频Deewakes。本文重视分析并提供了一个独特的音频Deepfake研究来源,主要是从2016到2020年的范围。据我们所知,这是第一个专注于英语中音频Deewakes的调查。本次调查为读者提供了摘要1)不同的DeepFake类别2)如何创建和检测到它们3)该领域的最新趋势和检测方法中的缺点4)音频DeepFakes,如何更详细地创建和检测到它们这是本文的主要重点。我们发现生成的对抗性网络(GAN),卷积神经网络(CNN)和深神经网络(DNN)是创建和检测德刀的常见方式。在我们对超过140种方法的评估中,我们发现大多数重点都在视频Deewakes上,特别是在播放视频德国。我们发现,对于文本Deew,有更多的一代方法,但较少的检测方法,包括假新闻检测,这已成为一个有争议的研究领域,因为由于人类发电的假含量重叠的潜力。本文是完整调查的缩写版本,并揭示了研究音频Deew饼的清晰,特别是检测音频Deewakes。
translated by 谷歌翻译
AI的最新进展,尤其是深度学习,导致创建新的现实合成媒体(视频,图像和音频)以及对现有媒体的操纵的创建显着增加,这导致了新术语的创建。 'deepfake'。基于英语和中文中的研究文献和资源,本文对Deepfake进行了全面的概述,涵盖了这一新兴概念的多个重要方面,包括1)不同的定义,2)常用的性能指标和标准以及3)与DeepFake相关的数据集,挑战,比赛和基准。此外,该论文还报告了2020年和2021年发表的12条与DeepFake相关的调查论文的元评估,不仅关注上述方面,而且集中在对关键挑战和建议的分析上。我们认为,就涵盖的各个方面而言,本文是对深层的最全面评论,也是第一个涵盖英语和中国文学和资源的文章。
translated by 谷歌翻译
音频深击允许创造高质量,令人信服的话语,因此由于其潜在的应用或假新闻等潜在的应用而构成威胁。检测这些操作的方法应以良好的概括和稳定性为特征,从而导致对训练中未明确包含的技术进行攻击的稳健性。在这项工作中,我们介绍了攻击不可知的数据集 - 两个音频深击和一个反欺骗数据集的组合,由于攻击的使用不连续,它们可以更好地概括检测方法。我们对当前的DeepFake检测方法进行了彻底的分析,并考虑了不同的音频特征(前端)。此外,我们提出了一个基于LCNN的模型,该模型具有LFCC和MEL-SPECTROGRAM前端,该模型不仅具有良好的概括和稳定性结果的特征,而且还显示了基于LFCC的模式的改进 - 我们降低了所有折叠和所有折叠和标准偏差EER分两个折叠高达5%。
translated by 谷歌翻译
Deepfakes are computationally-created entities that falsely represent reality. They can take image, video, and audio modalities, and pose a threat to many areas of systems and societies, comprising a topic of interest to various aspects of cybersecurity and cybersafety. In 2020 a workshop consulting AI experts from academia, policing, government, the private sector, and state security agencies ranked deepfakes as the most serious AI threat. These experts noted that since fake material can propagate through many uncontrolled routes, changes in citizen behaviour may be the only effective defence. This study aims to assess human ability to identify image deepfakes of human faces (StyleGAN2:FFHQ) from nondeepfake images (FFHQ), and to assess the effectiveness of simple interventions intended to improve detection accuracy. Using an online survey, 280 participants were randomly allocated to one of four groups: a control group, and 3 assistance interventions. Each participant was shown a sequence of 20 images randomly selected from a pool of 50 deepfake and 50 real images of human faces. Participants were asked if each image was AI-generated or not, to report their confidence, and to describe the reasoning behind each response. Overall detection accuracy was only just above chance and none of the interventions significantly improved this. Participants' confidence in their answers was high and unrelated to accuracy. Assessing the results on a per-image basis reveals participants consistently found certain images harder to label correctly, but reported similarly high confidence regardless of the image. Thus, although participant accuracy was 62% overall, this accuracy across images ranged quite evenly between 85% and 30%, with an accuracy of below 50% for one in every five images. We interpret the findings as suggesting that there is a need for an urgent call to action to address this threat.
translated by 谷歌翻译
进行了许多有效的尝试进行了DeepFake音频检测。但是,他们只能区分真实和假货。对于许多实际的应用程序方案,还需要哪种工具或算法生成DeepFake音频。这提出了一个问题:我们可以检测到DeepFake音频的系统指纹吗?因此,本文进行了初步研究,以检测DeepFake音频的系统指纹。实验是从五个最新的深入学习语音合成系统的DeepFake音频数据集上进行的。结果表明,LFCC功能相对适合系统指纹检测。此外,RESNET在基于LCNN和X-Vector模型中获得了最佳检测结果。T-SNE可视化表明,不同的语音合成系统会生成不同的系统指纹。
translated by 谷歌翻译
强大的深度学习技术的发展为社会和个人带来了一些负面影响。一个这样的问题是假媒体的出现。为了解决这个问题,我们组织了可信赖的媒体挑战(TMC)来探讨人工智能(AI)如何利用如何打击假媒体。我们与挑战一起发布了一个挑战数据集,由4,380张假和2,563个真实视频组成。所有这些视频都伴随着Audios,采用不同的视频和/或音频操作方法来生产不同类型的假媒体。数据集中的视频具有各种持续时间,背景,照明,最小分辨率为360p,并且可能包含模拟传输误差和不良压缩的扰动。我们还开展了用户学习,以展示所作数据集的质量。结果表明,我们的数据集具有有希望的质量,可以在许多情况下欺骗人类参与者。
translated by 谷歌翻译
智能手机已经使用基于生物识别的验证系统,以在高度敏感的应用中提供安全性。视听生物识别技术因其可用性而受欢迎,并且由于其多式化性质,欺骗性将具有挑战性。在这项工作中,我们介绍了一个在五个不同最近智能手机中捕获的视听智能手机数据集。考虑到不同的现实情景,这个新数据集包含在三个不同的会话中捕获的103个科目。在该数据集中获取三种不同的语言,以包括扬声器识别系统的语言依赖性问题。这些数据集的这些独特的特征将为实施新的艺术技术的单向或视听扬声器识别系统提供途径。我们还报告了DataSet上的基准标记的生物识别系统的性能。生物识别算法的鲁棒性朝向具有广泛实验的重播和合成信号等信号噪声,设备,语言和呈现攻击等多种依赖性。获得的结果提出了许多关于智能手机中最先进的生物识别方法的泛化特性的担忧。
translated by 谷歌翻译
很少有研究重点是研究人们如何识别变形攻击,即使有一些出版物已经检查了自动化FRS的敏感性并提供了变形攻击检测(MAD)方法。 MAD接近他们的决策要么基于单个图像,因此没有参考以比较(S-MAD)或使用参考图像(D-MAD)。一个普遍的误解是,审查员或观察者的面部变体检测能力取决于他们的主题专业知识,经验和对这个问题的熟悉程度,并且没有任何作品报告了定期验证身份(ID)文档的观察者的具体结果。当人类观察者参与检查具有面部图像的ID文件时,其能力的失误可能会面临重大的社会挑战。为了评估观察者的熟练程度,这项工作首先构建了来自48位不同受试者的现实变形攻击的新基准数据库,从而产生了400个变形图像。我们还捕获了从自动边界控制(ABC)门的图像,以模仿D-MAD设置中现实的边界横断场景,并使用400个探针图像研究人类观察者检测变形图像的能力。还生产了一个新的180个变形图像的数据集,以研究S-MAD环境中的人类能力。除了创建一个新的评估平台来进行S-MAD和D-MAD分析外,该研究还雇用了469位D-MAD的观察员,S-MAD的410位观察员和410位观察员,他们主要是来自40多个国家 /地区的政府雇员,以及103个科目谁不是考官。该分析提供了有趣的见解,并突出了缺乏专业知识和未能认识到专家大量变形攻击的缺乏。这项研究的结果旨在帮助制定培训计划,以防止安全失败,同时确定图像是真正的还是改变了图像。
translated by 谷歌翻译
作为内容编辑成熟的工具,以及基于人工智能(AI)综合媒体增长的算法,在线媒体上的操纵内容的存在正在增加。这种现象导致错误信息的传播,从而更需要区分“真实”和“操纵”内容。为此,我们介绍了Videosham,该数据集由826个视频(413个真实和413个操纵)组成。许多现有的DeepFake数据集专注于两种类型的面部操作 - 与另一个受试者的面部交换或更改现有面部。另一方面,Videosham包含更多样化的,上下文丰富的和以人为本的高分辨率视频,使用6种不同的空间和时间攻击组合来操纵。我们的分析表明,最新的操纵检测算法仅适用于一些特定的攻击,并且在Videosham上不能很好地扩展。我们在亚马逊机械土耳其人上进行了一项用户研究,其中1200名参与者可以区分Videosham中的真实视频和操纵视频。最后,我们更深入地研究了人类和sota-Algorithms表演的优势和劣势,以识别需要用更好的AI算法填补的差距。
translated by 谷歌翻译
When beginners learn to speak a non-native language, it is difficult for them to judge for themselves whether they are speaking well. Therefore, computer-assisted pronunciation training systems are used to detect learner mispronunciations. These systems typically compare the user's speech with that of a specific native speaker as a model in units of rhythm, phonemes, or words and calculate the differences. However, they require extensive speech data with detailed annotations or can only compare with one specific native speaker. To overcome these problems, we propose a new language learning support system that calculates speech scores and detects mispronunciations by beginners based on a small amount of unannotated speech data without comparison to a specific person. The proposed system uses deep learning--based speech processing to display the pronunciation score of the learner's speech and the difference/distance between the learner's and a group of models' pronunciation in an intuitively visual manner. Learners can gradually improve their pronunciation by eliminating differences and shortening the distance from the model until they become sufficiently proficient. Furthermore, since the pronunciation score and difference/distance are not calculated compared to specific sentences of a particular model, users are free to study the sentences they wish to study. We also built an application to help non-native speakers learn English and confirmed that it can improve users' speech intelligibility.
translated by 谷歌翻译
得益于深度学习的最新进展,如今存在复杂的生成工具,这些工具产生了极其现实的综合语音。但是,这种工具的恶意使用是可能的,有可能对我们的社会构成严重威胁。因此,合成语音检测已成为一个紧迫的研究主题,最近提出了各种各样的检测方法。不幸的是,它们几乎没有概括为在训练阶段从未见过的工具产生的合成音频,这使他们不适合面对现实世界的情况。在这项工作中,我们旨在通过提出一种仅利用说话者的生物特征的新检测方法来克服这个问题,而无需提及特定的操纵。由于仅在实际数据上对检测器进行训练,因此可以自动确保概括。建议的方法可以基于现成的扬声器验证工具实现。我们在三个流行的测试集上测试了几种这样的解决方案,从而获得了良好的性能,高概括能力和高度鲁棒性。
translated by 谷歌翻译
社会工程(SE)是一种欺骗形式,旨在欺骗人们访问数据,信息,网络甚至金钱。几十年来,SE一直是攻击者进入组织的关键方法,实际上跳过了所有防御。攻击者还定期使用SE来欺骗无辜的人,这是通过威胁要模仿权威或发送受感染的电子邮件的电话,这些电话看起来像是从亲人发送的。 SE攻击可能仍然是犯罪分子的最高攻击向量,因为人类是网络安全中最弱的联系。不幸的是,由于一项称为DeepFakes的新技术到达,威胁只会变得更糟。 AI创建的Deepfake是可信的媒体(例如,视频)。尽管该技术主要用于交换名人的面孔,但也可以用来“木偶”不同的角色。最近,研究人员展示了如何实时部署该技术,以在电话中打电话或在视频通话中重新演奏脸部。鉴于任何新手用户都可以下载此技术来使用它,因此犯罪分子已经开始将其货币化以进行SE攻击也就不足为奇了。在本文中,我们提出了一种轻巧的应用程序,该应用程序可以保护组织和个人免受Deepfake SE攻击。通过挑战和响应方法,我们利用了深击技术的技术和理论局限性来暴露攻击者。现有的防御解决方案对于终点解决方案来说太重了,可以通过动态攻击者逃避。相比之下,我们的方法是轻量级,打破了反应性的军备竞赛,使攻击者处于不利地位。
translated by 谷歌翻译
As text generated by large language models proliferates, it becomes vital to understand how humans engage with such text, and whether or not they are able to detect when the text they are reading did not originate with a human writer. Prior work on human detection of generated text focuses on the case where an entire passage is either human-written or machine-generated. In this paper, we study a more realistic setting where text begins as human-written and transitions to being generated by state-of-the-art neural language models. We show that, while annotators often struggle at this task, there is substantial variance in annotator skill and that given proper incentives, annotators can improve at this task over time. Furthermore, we conduct a detailed comparison study and analyze how a variety of variables (model size, decoding strategy, fine-tuning, prompt genre, etc.) affect human detection performance. Finally, we collect error annotations from our participants and use them to show that certain textual genres influence models to make different types of errors and that certain sentence-level features correlate highly with annotator selection. We release the RoFT dataset: a collection of over 21,000 human annotations paired with error classifications to encourage future work in human detection and evaluation of generated text.
translated by 谷歌翻译
在本文中,我们提出了一个神经端到端系统,用于保存视频的语音,唇部同步翻译。该系统旨在将多个组件模型结合在一起,并以目标语言的目标语言与目标语言的原始扬声器演讲的视频与目标语音相结合,但在语音,语音特征,面对原始扬声器的视频中保持着重点。管道从自动语音识别开始,包括重点检测,然后是翻译模型。然后,翻译后的文本由文本到语音模型合成,该模型重新创建了原始句子映射的原始重点。然后,使用语音转换模型将结果的合成语音映射到原始扬声器的声音。最后,为了将扬声器的嘴唇与翻译的音频同步,有条件的基于对抗网络的模型生成了相对于输入面图像以及语音转换模型的输出的适应性唇部运动的帧。最后,系统将生成的视频与转换后的音频结合在一起,以产生最终输出。结果是一个扬声器用另一种语言说话的视频而不真正知道。为了评估我们的设计,我们介绍了完整系统的用户研究以及对单个组件的单独评估。由于没有可用的数据集来评估我们的整个系统,因此我们收集了一个测试集并在此测试集上评估我们的系统。结果表明,我们的系统能够生成令人信服的原始演讲者的视频,同时保留原始说话者的特征。收集的数据集将共享。
translated by 谷歌翻译
本文介绍了第一个致力于2020挑战的结果和分析,重点是开发语音技术的匿名解决方案。我们提供了对提交的系统和评估结果的分析,提供了挑战设计的系统概述。特别是,我们描述了用于系统开发和评估的语音匿名任务和数据集。此外,我们呈现不同的攻击模型和相关目标和主观评估指标。我们介绍了两个匿名化的基线,并提供了由挑战参与者开发的匿名化系统的摘要描述。我们向基线和提交的系统报告客观和主观评估结果。此外,我们提出了作为评估后分析的一部分开发的替代隐私度量和攻击模型的实验结果。最后,我们总结了我们的见解和观察,这将影响下一个语音普遍挑战版的设计和未来语音匿名化研究的某些方向。
translated by 谷歌翻译
音频是人类交流最常用的方式之一,但与此同时,它很容易被欺骗人们滥用。随着AI的革命,几乎每个人都可以访问相关技术,从而使罪犯犯罪和伪造变得简单。在这项工作中,我们引入了一种深度学习方法,以开发一种分类器,该分类器将盲目地将输入音频分类为真实或模仿。提出的模型接受了从大型音频数据集提取的一组重要功能的培训,以获取分类器,该分类器已在不同音频的相同功能上进行了测试。为这项工作创建了两个数据集;所有英语数据集和混合数据集(阿拉伯语和英语)。这些数据集已通过GitHub提供,可在https://github.com/sass7/dataset上使用研究社区。为了进行比较,还通过人类检查对音频进行了分类,主题是母语人士。随之而来的结果很有趣,并且表现出强大的精度。
translated by 谷歌翻译
深度学习已成功地用于解决从大数据分析到计算机视觉和人级控制的各种复杂问题。但是,还采用了深度学习进步来创建可能构成隐私,民主和国家安全威胁的软件。最近出现的那些深度学习驱动的应用程序之一是Deepfake。 DeepFake算法可以创建人类无法将它们与真实图像区分开的假图像和视频。因此,可以自动检测和评估数字视觉媒体完整性的技术的建议是必不可少的。本文介绍了一项用于创造深击的算法的调查,更重要的是,提出的方法旨在检测迄今为止文献中的深击。我们对与Deepfake技术有关的挑战,研究趋势和方向进行了广泛的讨论。通过回顾深层味和最先进的深层检测方法的背景,本研究提供了深入的深层技术的概述,并促进了新的,更强大的方法的发展,以应对日益挑战性的深击。
translated by 谷歌翻译
最近,先驱研究工作提出了大量的声学特征(原木功率谱图,线性频率卷轴系数,恒定的q cepstral系数等),以进行音频深层检测,获得良好的性能,并表明不同的子带对音频有不同的贡献DeepFake检测。但是,这缺乏对子带中特定信息的解释,这些功能也丢失了诸如阶段之类的信息。受合成语音机制的启发,基本频率(F0)信息用于提高综合语音的质量,而合成语音的F0仍然太平均,这与真实语音的F0差异很大。可以预期,F0可以用作重要信息来区分真正的语言和虚假语音,而由于F0的分布不规则,因此不能直接使用此信息。相反,选择了大多数F0的频带作为输入特征。同时,为了充分利用相位和全频段信息,我们还建议使用真实和虚构的频谱图作为互补输入功能,并分别对Discoint子带进行建模。最后,融合了F0的结果,真实和假想的频谱图。 ASVSPOOF 2019 LA数据集的实验结果表明,我们所提出的系统对于音频DeepFake检测任务非常有效,达到等效错误率(EER)为0.43%,几乎超过了所有系统。
translated by 谷歌翻译
处理感官输入的机器学习系统的兴起使人与机器感知之间的比较有所增加。但是,这种比较面临着一个挑战:尽管机器对某些刺激的感知通常可以通过直接和明确的措施来探讨,但人类知识的大部分知识是潜在的,不完整的或不可用的。在这里,我们探讨了这种不对称性如何导致这种比较误解人类和机器感知的重叠。作为一个案例研究,我们考虑了人类对\ textit {对抗性语音}的感知 - 合成音频命令被自动语音识别系统识别为有效消息,但据报道,人类听众听到了无意义的噪音。在五个实验中,我们适应了人类心理物理学文献的任务设计,以表明即使受试者无法自由地抄写此类语音命令(以前的人类理解基准),他们也可以表现出其他形式的理解,包括从紧密匹配的对抗性语言中歧视对抗性演讲非语音(实验1--2),在对抗性语音(实验3--4)中开始完成的常见短语,并解决了对抗性语音中提出的简单数学问题(实验5) - 即使对于先前被描述为人类无法理解的刺激听众。我们建议在比较人类和机器感知时采用这种“敏感测试”,并讨论评估系统之间重叠的这种方法的更广泛的后果。
translated by 谷歌翻译