超现实视觉效果的技术的最新进展引起了人们的关注,即政治演讲的深层视频很快将与真实的视频录制无法视觉区分。通信研究中的传统观念预测,当故事的同一版本被视为视频而不是文字时,人们会更频繁地跌倒假新闻。在这里,我们评估了41,822名参与者在一个实验中如何将真实的政治演讲与捏造区分开来,在该实验中,演讲被随机显示为文本,音频和视频的排列。我们发现获得音频和视觉沟通方式的访问提高了参与者的准确性。在这里,人类的判断更多地依赖于话语,视听线索比所说的语音内容。但是,我们发现反思性推理调节了参与者考虑视觉信息的程度:认知反射测试的表现较低与对所说内容的过度依赖有关。
translated by 谷歌翻译
Deepfakes are computationally-created entities that falsely represent reality. They can take image, video, and audio modalities, and pose a threat to many areas of systems and societies, comprising a topic of interest to various aspects of cybersecurity and cybersafety. In 2020 a workshop consulting AI experts from academia, policing, government, the private sector, and state security agencies ranked deepfakes as the most serious AI threat. These experts noted that since fake material can propagate through many uncontrolled routes, changes in citizen behaviour may be the only effective defence. This study aims to assess human ability to identify image deepfakes of human faces (StyleGAN2:FFHQ) from nondeepfake images (FFHQ), and to assess the effectiveness of simple interventions intended to improve detection accuracy. Using an online survey, 280 participants were randomly allocated to one of four groups: a control group, and 3 assistance interventions. Each participant was shown a sequence of 20 images randomly selected from a pool of 50 deepfake and 50 real images of human faces. Participants were asked if each image was AI-generated or not, to report their confidence, and to describe the reasoning behind each response. Overall detection accuracy was only just above chance and none of the interventions significantly improved this. Participants' confidence in their answers was high and unrelated to accuracy. Assessing the results on a per-image basis reveals participants consistently found certain images harder to label correctly, but reported similarly high confidence regardless of the image. Thus, although participant accuracy was 62% overall, this accuracy across images ranged quite evenly between 85% and 30%, with an accuracy of below 50% for one in every five images. We interpret the findings as suggesting that there is a need for an urgent call to action to address this threat.
translated by 谷歌翻译
移情如何影响创造性问题解决?我们引入了基于上下文特定的情感模仿和透视图的计算同理干预,以良好的北极熊的形式出现了虚拟药物的观点。在与1,006名参与者进行的在线实验中,随机分配到情绪启发干预(具有控制的启发条件和愤怒启发条件)和计算同理心干预(具有控制虚拟代理和移情虚拟药物)中,我们研究了愤怒和移情的影响参与者在基于Wordle的单词游戏中的表现。我们发现,分配给愤怒启发条件的参与者在多个绩效指标上的表现要比分配给控制条件的参与者明显差。但是,我们发现同理心虚拟代理抵消了愤怒条件引起的绩效下降,以至于分配给移情虚拟代理和愤怒条件的参与者与在控制启发条件下的参与者的表现没有不同,并且比分配给参与者的参与者明显更好控制虚拟药物和愤怒启发条件。尽管移情减少了愤怒的负面影响,但我们没有发现移情虚拟药物会影响被分配到控制启发条件的参与者的表现的证据。通过引入计算同理心干预的框架并进行两乘两个阶乘设计随机实验,我们提供了严格的经验证据,即计算同理心可以抵消愤怒对创造性问题解决的负面影响。
translated by 谷歌翻译
作为内容编辑成熟的工具,以及基于人工智能(AI)综合媒体增长的算法,在线媒体上的操纵内容的存在正在增加。这种现象导致错误信息的传播,从而更需要区分“真实”和“操纵”内容。为此,我们介绍了Videosham,该数据集由826个视频(413个真实和413个操纵)组成。许多现有的DeepFake数据集专注于两种类型的面部操作 - 与另一个受试者的面部交换或更改现有面部。另一方面,Videosham包含更多样化的,上下文丰富的和以人为本的高分辨率视频,使用6种不同的空间和时间攻击组合来操纵。我们的分析表明,最新的操纵检测算法仅适用于一些特定的攻击,并且在Videosham上不能很好地扩展。我们在亚马逊机械土耳其人上进行了一项用户研究,其中1200名参与者可以区分Videosham中的真实视频和操纵视频。最后,我们更深入地研究了人类和sota-Algorithms表演的优势和劣势,以识别需要用更好的AI算法填补的差距。
translated by 谷歌翻译
数字虚假信息的传播(又称“假新闻”)可以说是互联网上最重要的威胁之一,它可能造成大规模的个人和社会伤害。虚假新闻攻击的敏感性取决于互联网用户在阅读后是否认为虚假新闻文章/摘要是合法的。在本文中,我们试图通过神经认知方法来深入了解用户对以文本为中心的假新闻攻击的敏感性。我们通过脑电图调查了与假/真实新闻有关的神经基础。我们与人类用户进行实验,以彻底调查用户对假/真实新闻的认知处理和认知处理。我们分析了不同类别新闻文章的假/真实新闻检测任务相关的神经活动。我们的结果表明,在人脑处理假新闻与真实新闻的方式上可能没有统计学意义或自动可推断的差异,而当人们受到(真实/假)新闻与安息状态甚至之间的差异时,会观察到明显的差异一些不同类别的假新闻。这一神经认知发现可能有助于证明用户对假新闻攻击的敏感性,这也从行为分析中得到了证实。换句话说,假新闻文章似乎与行为和神经领域的真实新闻文章几乎没有区别。我们的作品旨在剖析假新闻攻击的基本神经现象,并通过人类生物学的极限解释了用户对这些攻击的敏感性。我们认为,对于研究人员和从业者来说,这可能是一个显着的见解楷模
translated by 谷歌翻译
视频可访问性对于盲人和低愿景用户来说至关重要,以获得教育,就业和娱乐的公平参与。尽管有专业和业余服务和工具,但大多数人类生成的描述都很昂贵且耗时。此外,人生成的描述的速率不能匹配视频产生的速度。为了克服视频可访问性的越来越多的空白,我们开发了两个工具的混合系统到1)自动生成视频的描述,2)提供响应于视频上的用户查询的答案或附加描述。与26例盲和低视力下的混合方法研究结果表明,当两种工具在串联中使用时,我们的系统会显着提高用户理解和享受所选视频的理解和享受。此外,参与者报告说,在呈现自生物的描述与人类修订的自动化描述相关时,没有显着差异。我们的结果表明了对发达系统的热情及其承诺提供对视频的定制访问。我们讨论了当前工作的局限性,并为自动视频描述工具的未来发展提供了建议。
translated by 谷歌翻译
DeepFake是使用AI方法产生或操纵的内容或材料,以便像真实一样传递。有四种不同的DeepFake类型:音频,视频,图像和文本。在这项研究中,我们专注于音频Deew,以及人们如何感知它。有几个音频DeepFake发电框架,但我们选择梅尔甘,这是一个非自动增加和快速的音频DeepFake产生框架,需要更少的参数。本研究试图评估来自不同专业大学生的音频深蓝。本研究还回答了他们的背景和主要可能影响他们对AI生成的深度的看法的问题。我们还基于以下不同方面分析结果:年级水平,语法的复杂性,音频剪辑中使用的语法,音频剪辑的长度,那些了解术语的人和那些没有政治角度的人和那些。有趣的是,结果表明当一个音频剪辑有政治内涵时,即使内容相当相似,它也会影响人们是否是真实的或假的。这项研究还探讨了背景和主要可能影响对德国人的看法的问题。
translated by 谷歌翻译
人类交流越来越多地与AI产生的语言混合。在聊天,电子邮件和社交媒体中,AI系统会产生智能答复,自动完成和翻译。 AI生成的语言通常不被认为是人类语言的姿势,引起了人们对新型欺骗和操纵形式的担忧。在这里,我们研究了人类如何辨别AI产生的最个人化和结果形式之一 - 一种自我表现。在六个实验中,参与者(n = 4,650)试图识别由最先进的语言模型产生的自我表现。在专业,款待和浪漫的环境中,我们发现人类无法识别AI生成的自我表现。将定性分析与语言特征工程相结合,我们发现人类对语言的人类判断受到直观但有缺陷的启发式方法的困扰,例如将第一人称代词,真实的单词或家庭主题与人类相关联。我们表明,这些启发式方法使人类对产生的语言的判断可预测和可操纵,从而使AI系统能够产生比人类更具人类的语言。我们通过讨论解决方案(例如AI的重音或合理使用政策)来结束,以减少产生语言的欺骗潜力,从而限制人类直觉的颠覆。
translated by 谷歌翻译
在今天的数字错误信息的时代,我们越来越受到视频伪造技术构成的新威胁。这种伪造的范围从Deepfakes(例如,复杂的AI媒体合成方法)的经济饼(例如,精致的AI媒体合成方法)从真实视频中无法区分。为了解决这一挑战,我们提出了一种多模态语义法医法,可以发现超出视觉质量差异的线索,从而处理更简单的便宜赌注和视觉上有说服力的德国。在这项工作中,我们的目标是验证视频中看到的据称人士确实是通过检测他们的面部运动与他们所说的词语之间的异常对应。我们利用归因的想法,以了解特定于人的生物识别模式,将给定发言者与他人区分开来。我们使用可解释的行动单位(AUS)来捕捉一个人的面部和头部运动,而不是深入的CNN视觉功能,我们是第一个使用字样的面部运动分析。与现有的人特定的方法不同,我们的方法也有效地对抗专注于唇部操纵的攻击。我们进一步展示了我们的方法在培训中没有看到的一系列假装的效率,包括未经视频操纵的培训,这在事先工作中没有解决。
translated by 谷歌翻译
强大的深度学习技术的发展为社会和个人带来了一些负面影响。一个这样的问题是假媒体的出现。为了解决这个问题,我们组织了可信赖的媒体挑战(TMC)来探讨人工智能(AI)如何利用如何打击假媒体。我们与挑战一起发布了一个挑战数据集,由4,380张假和2,563个真实视频组成。所有这些视频都伴随着Audios,采用不同的视频和/或音频操作方法来生产不同类型的假媒体。数据集中的视频具有各种持续时间,背景,照明,最小分辨率为360p,并且可能包含模拟传输误差和不良压缩的扰动。我们还开展了用户学习,以展示所作数据集的质量。结果表明,我们的数据集具有有希望的质量,可以在许多情况下欺骗人类参与者。
translated by 谷歌翻译
人为决策的合作努力实现超出人类或人工智能表现的团队绩效。但是,许多因素都会影响人类团队的成功,包括用户的领域专业知识,AI系统的心理模型,对建议的信任等等。这项工作检查了用户与三种模拟算法模型的互动,所有这些模型都具有相似的精度,但对其真正的正面和真实负率进行了不同的调整。我们的研究检查了在非平凡的血管标签任务中的用户性能,参与者表明给定的血管是流动还是停滞。我们的结果表明,虽然AI-Assistant的建议可以帮助用户决策,但用户相对于AI的基线性能和AI错误类型的补充调整等因素会显着影响整体团队的整体绩效。新手用户有所改善,但不能达到AI的准确性。高度熟练的用户通常能够识别何时应遵循AI建议,并通常保持或提高其性能。与AI相似的准确性水平的表演者在AI建议方面是最大的变化。此外,我们发现用户对AI的性能亲戚的看法也对给出AI建议时的准确性是否有所提高产生重大影响。这项工作提供了有关与人类协作有关的因素的复杂性的见解,并提供了有关如何开发以人为中心的AI算法来补充用户在决策任务中的建议。
translated by 谷歌翻译
AI的最新进展,尤其是深度学习,导致创建新的现实合成媒体(视频,图像和音频)以及对现有媒体的操纵的创建显着增加,这导致了新术语的创建。 'deepfake'。基于英语和中文中的研究文献和资源,本文对Deepfake进行了全面的概述,涵盖了这一新兴概念的多个重要方面,包括1)不同的定义,2)常用的性能指标和标准以及3)与DeepFake相关的数据集,挑战,比赛和基准。此外,该论文还报告了2020年和2021年发表的12条与DeepFake相关的调查论文的元评估,不仅关注上述方面,而且集中在对关键挑战和建议的分析上。我们认为,就涵盖的各个方面而言,本文是对深层的最全面评论,也是第一个涵盖英语和中国文学和资源的文章。
translated by 谷歌翻译
我们建议并探讨可以将语言模型作为社会科学研究中特定人类亚人群的有效代理进行研究的可能性。人工智能工具的实践和研究应用有时受到有问题的偏见(例如种族主义或性别歧视)的限制,这些偏见通常被视为模型的统一特性。我们表明,一个这样的工具中的“算法偏见”(GPT-3语言模型)既是细粒度又是人口统计相关的,这意味着适当的条件会导致其准确地仿真来自各种人类的响应分布亚组。我们将此属性称为“算法忠诚度”,并在GPT-3中探索其范围。我们通过将模型调节在美国进行的多项大型调查中的数千个社会人口统计背景故事中调节,从而创建“硅样本”。然后,我们比较硅和人类样品,以证明GPT-3中包含的信息远远超出了表面相似性。它是细微的,多方面的,并反映了特征人类态度的思想,态度和社会文化背景之间的复杂相互作用。我们建议,具有足够算法的忠诚度的语言模型构成了一种新颖而有力的工具,可以促进各种学科的人类和社会的理解。
translated by 谷歌翻译
Taking advice from others requires confidence in their competence. This is important for interaction with peers, but also for collaboration with social robots and artificial agents. Nonetheless, we do not always have access to information about others' competence or performance. In these uncertain environments, do our prior beliefs about the nature and the competence of our interacting partners modulate our willingness to rely on their judgments? In a joint perceptual decision making task, participants made perceptual judgments and observed the simulated estimates of either a human participant, a social humanoid robot or a computer. Then they could modify their estimates based on this feedback. Results show participants' belief about the nature of their partner biased their compliance with its judgments: participants were more influenced by the social robot than human and computer partners. This difference emerged strongly at the very beginning of the task and decreased with repeated exposure to empirical feedback on the partner's responses, disclosing the role of prior beliefs in social influence under uncertainty. Furthermore, the results of our functional task suggest an important difference between human-human and human-robot interaction in the absence of overt socially relevant signal from the partner: the former is modulated by social normative mechanisms, whereas the latter is guided by purely informational mechanisms linked to the perceived competence of the partner.
translated by 谷歌翻译
本文报告了基准数据驱动的自动共鸣手势生成的第二个基因挑战。参与的团队使用相同的语音和运动数据集来构建手势生成系统。所有这些系统生成的运动都使用标准化的可视化管道将视频渲染到视频中,并在几个大型众包用户研究中进行了评估。与比较不同的研究论文不同,结果差异仅是由于方法之间的差异,从而实现了系统之间的直接比较。今年的数据集基于18个小时的全身运动捕获,包括手指,参与二元对话的不同人。十个团队参加了两层挑战:全身和上身手势。对于每个层,我们都评估了手势运动的人类风格及其对特定语音信号的适当性。我们的评估使人类的忠诚度与手势适当性解脱,这是该领域的主要挑战。评估结果是一场革命和启示。某些合成条件被评为比人类运动捕获更明显的人类样。据我们所知,这从未在高保真的头像上展示过。另一方面,发现所有合成运动比原始运动捕获记录要小得多。其他材料可通过项目网站https://youngwoo-yoon.github.io/geneachallenge2022/获得
translated by 谷歌翻译
近年来,目睹了互联网上的科学阴谋视频,科学认识论和公众对科学的认识。学者们已经开始研究阴谋消息中使用的说服技术,例如不确定和恐惧,尤其是视觉叙述,特别是视觉叙述在视频中如何与传播阴谋传播的人相差。本文通过使用计算方法分析数百万帧,通过分析数百万帧来了解阴谋视频中的视觉框架,解决了这种差距。我们发现阴谋视频倾向于使用较低的颜色方差和亮度,尤其是在视频的缩略图和早期部分。本文还展示了研究人员如何在机器学习模型中集成文本和视觉特征,以研究社交媒体的阴谋,并探讨有兴趣在数字时代进行视觉操纵的学者计算建模的影响。本文呈现的视觉和文本特征的分析对于未来的研究专注于设计系统来识别互联网上的阴谋内容。
translated by 谷歌翻译
媒体覆盖范围对公众对事件的看法具有实质性影响。媒体框架事件的方式可以显着改变对社会的信仰和看法。尽管如此,众所周知,几乎所有媒体网点都以偏见的方式报告新闻。虽然可以通过改变单词选择或省略信息来引入这种偏差,但是偏差的感知也很大程度上取决于读者的个人背景。因此,媒体偏差是一个非常复杂的构造,用于识别和分析。尽管媒体偏见是许多研究的主题,但之前的评估策略过于简化,缺乏重叠和实证评估。因此,本研究旨在开发一种可以用作可靠标准来评估物品偏差的规模。为了命名一个例子:如果我们要问,打算衡量新闻文章中的偏见,“文章有多偏见?”或者我们应该改用,“文章是如何对待美国总统的?”。我们进行了文献搜索,以查找有关先前对该主题的文本看法的相关问题。在一个多迭代过程中,我们首先总结并缩小了这些问题,以结束关于偏见的完整和代表可能的问题类型。最终组由25个问题组成,答案格式不同,使用语义差异的17个问题,以及六个感受评级。我们在190条文章中测试了每个问题,总体上有663名参与者来确定问题衡量文章的感知偏见的程度。我们的研究结果表明,21项最终物品适合,可靠,以测量媒体偏差的看法。我们在http://bias -question-tree.gipplab.org/上发布最后一组问题。
translated by 谷歌翻译
Intelligent agents have great potential as facilitators of group conversation among older adults. However, little is known about how to design agents for this purpose and user group, especially in terms of agent embodiment. To this end, we conducted a mixed methods study of older adults' reactions to voice and body in a group conversation facilitation agent. Two agent forms with the same underlying artificial intelligence (AI) and voice system were compared: a humanoid robot and a voice assistant. One preliminary study (total n=24) and one experimental study comparing voice and body morphologies (n=36) were conducted with older adults and an experienced human facilitator. Findings revealed that the artificiality of the agent, regardless of its form, was beneficial for the socially uncomfortable task of conversation facilitation. Even so, talkative personality types had a poorer experience with the "bodied" robot version. Design implications and supplementary reactions, especially to agent voice, are also discussed.
translated by 谷歌翻译
处理感官输入的机器学习系统的兴起使人与机器感知之间的比较有所增加。但是,这种比较面临着一个挑战:尽管机器对某些刺激的感知通常可以通过直接和明确的措施来探讨,但人类知识的大部分知识是潜在的,不完整的或不可用的。在这里,我们探讨了这种不对称性如何导致这种比较误解人类和机器感知的重叠。作为一个案例研究,我们考虑了人类对\ textit {对抗性语音}的感知 - 合成音频命令被自动语音识别系统识别为有效消息,但据报道,人类听众听到了无意义的噪音。在五个实验中,我们适应了人类心理物理学文献的任务设计,以表明即使受试者无法自由地抄写此类语音命令(以前的人类理解基准),他们也可以表现出其他形式的理解,包括从紧密匹配的对抗性语言中歧视对抗性演讲非语音(实验1--2),在对抗性语音(实验3--4)中开始完成的常见短语,并解决了对抗性语音中提出的简单数学问题(实验5) - 即使对于先前被描述为人类无法理解的刺激听众。我们建议在比较人类和机器感知时采用这种“敏感测试”,并讨论评估系统之间重叠的这种方法的更广泛的后果。
translated by 谷歌翻译
Prior work has identified a resilient phenomenon that threatens the performance of human-AI decision-making teams: overreliance, when people agree with an AI, even when it is incorrect. Surprisingly, overreliance does not reduce when the AI produces explanations for its predictions, compared to only providing predictions. Some have argued that overreliance results from cognitive biases or uncalibrated trust, attributing overreliance to an inevitability of human cognition. By contrast, our paper argues that people strategically choose whether or not to engage with an AI explanation, demonstrating empirically that there are scenarios where AI explanations reduce overreliance. To achieve this, we formalize this strategic choice in a cost-benefit framework, where the costs and benefits of engaging with the task are weighed against the costs and benefits of relying on the AI. We manipulate the costs and benefits in a maze task, where participants collaborate with a simulated AI to find the exit of a maze. Through 5 studies (N = 731), we find that costs such as task difficulty (Study 1), explanation difficulty (Study 2, 3), and benefits such as monetary compensation (Study 4) affect overreliance. Finally, Study 5 adapts the Cognitive Effort Discounting paradigm to quantify the utility of different explanations, providing further support for our framework. Our results suggest that some of the null effects found in literature could be due in part to the explanation not sufficiently reducing the costs of verifying the AI's prediction.
translated by 谷歌翻译