Very few eXplainable AI (XAI) studies consider how users understanding of explanations might change depending on whether they know more or less about the to be explained domain (i.e., whether they differ in their expertise). Yet, expertise is a critical facet of most high stakes, human decision making (e.g., understanding how a trainee doctor differs from an experienced consultant). Accordingly, this paper reports a novel, user study (N=96) on how peoples expertise in a domain affects their understanding of post-hoc explanations by example for a deep-learning, black box classifier. The results show that peoples understanding of explanations for correct and incorrect classifications changes dramatically, on several dimensions (e.g., response times, perceptions of correctness and helpfulness), when the image-based domain considered is familiar (i.e., MNIST) as opposed to unfamiliar (i.e., Kannada MNIST). The wider implications of these new findings for XAI strategies are discussed.
translated by 谷歌翻译
Counterfactual explanations have emerged as a popular solution for the eXplainable AI (XAI) problem of elucidating the predictions of black-box deep-learning systems due to their psychological validity, flexibility across problem domains and proposed legal compliance. While over 100 counterfactual methods exist, claiming to generate plausible explanations akin to those preferred by people, few have actually been tested on users ($\sim7\%$). So, the psychological validity of these counterfactual algorithms for effective XAI for image data is not established. This issue is addressed here using a novel methodology that (i) gathers ground truth human-generated counterfactual explanations for misclassified images, in two user studies and, then, (ii) compares these human-generated ground-truth explanations to computationally-generated explanations for the same misclassifications. Results indicate that humans do not "minimally edit" images when generating counterfactual explanations. Instead, they make larger, "meaningful" edits that better approximate prototypes in the counterfactual class.
translated by 谷歌翻译
人为决策的合作努力实现超出人类或人工智能表现的团队绩效。但是,许多因素都会影响人类团队的成功,包括用户的领域专业知识,AI系统的心理模型,对建议的信任等等。这项工作检查了用户与三种模拟算法模型的互动,所有这些模型都具有相似的精度,但对其真正的正面和真实负率进行了不同的调整。我们的研究检查了在非平凡的血管标签任务中的用户性能,参与者表明给定的血管是流动还是停滞。我们的结果表明,虽然AI-Assistant的建议可以帮助用户决策,但用户相对于AI的基线性能和AI错误类型的补充调整等因素会显着影响整体团队的整体绩效。新手用户有所改善,但不能达到AI的准确性。高度熟练的用户通常能够识别何时应遵循AI建议,并通常保持或提高其性能。与AI相似的准确性水平的表演者在AI建议方面是最大的变化。此外,我们发现用户对AI的性能亲戚的看法也对给出AI建议时的准确性是否有所提高产生重大影响。这项工作提供了有关与人类协作有关的因素的复杂性的见解,并提供了有关如何开发以人为中心的AI算法来补充用户在决策任务中的建议。
translated by 谷歌翻译
Explainable AI (XAI) is widely viewed as a sine qua non for ever-expanding AI research. A better understanding of the needs of XAI users, as well as human-centered evaluations of explainable models are both a necessity and a challenge. In this paper, we explore how HCI and AI researchers conduct user studies in XAI applications based on a systematic literature review. After identifying and thoroughly analyzing 85 core papers with human-based XAI evaluations over the past five years, we categorize them along the measured characteristics of explanatory methods, namely trust, understanding, fairness, usability, and human-AI team performance. Our research shows that XAI is spreading more rapidly in certain application domains, such as recommender systems than in others, but that user evaluations are still rather sparse and incorporate hardly any insights from cognitive or social sciences. Based on a comprehensive discussion of best practices, i.e., common models, design choices, and measures in user studies, we propose practical guidelines on designing and conducting user studies for XAI researchers and practitioners. Lastly, this survey also highlights several open research directions, particularly linking psychological science and human-centered XAI.
translated by 谷歌翻译
Prior work has identified a resilient phenomenon that threatens the performance of human-AI decision-making teams: overreliance, when people agree with an AI, even when it is incorrect. Surprisingly, overreliance does not reduce when the AI produces explanations for its predictions, compared to only providing predictions. Some have argued that overreliance results from cognitive biases or uncalibrated trust, attributing overreliance to an inevitability of human cognition. By contrast, our paper argues that people strategically choose whether or not to engage with an AI explanation, demonstrating empirically that there are scenarios where AI explanations reduce overreliance. To achieve this, we formalize this strategic choice in a cost-benefit framework, where the costs and benefits of engaging with the task are weighed against the costs and benefits of relying on the AI. We manipulate the costs and benefits in a maze task, where participants collaborate with a simulated AI to find the exit of a maze. Through 5 studies (N = 731), we find that costs such as task difficulty (Study 1), explanation difficulty (Study 2, 3), and benefits such as monetary compensation (Study 4) affect overreliance. Finally, Study 5 adapts the Cognitive Effort Discounting paradigm to quantify the utility of different explanations, providing further support for our framework. Our results suggest that some of the null effects found in literature could be due in part to the explanation not sufficiently reducing the costs of verifying the AI's prediction.
translated by 谷歌翻译
近年来,人们对可解释的AI(XAI)领域的兴趣激增,文献中提出了很多算法。但是,关于如何评估XAI的共识缺乏共识阻碍了该领域的发展。我们强调说,XAI并不是一组整体技术 - 研究人员和从业人员已经开始利用XAI算法来构建服务于不同使用环境的XAI系统,例如模型调试和决策支持。然而,对XAI的算法研究通常不会考虑到这些多样化的下游使用环境,从而对实际用户产生有限的有效性甚至意想不到的后果,以及从业者做出技术选择的困难。我们认为,缩小差距的一种方法是开发评估方法,这些方法在这些用法上下文中说明了不同的用户需求。为了实现这一目标,我们通过考虑XAI评估标准对XAI的原型用法上下文的相对重要性,介绍了情境化XAI评估的观点。为了探索XAI评估标准的上下文依赖性,我们进行了两项调查研究,一项与XAI主题专家,另一项与人群工人进行。我们的结果敦促通过使用使用的评估实践进行负责任的AI研究,并在不同使用环境中对XAI的用户需求有细微的了解。
translated by 谷歌翻译
随着AI系统表现出越来越强烈的预测性能,它们的采用已经在许多域中种植。然而,在刑事司法和医疗保健等高赌场域中,由于安全,道德和法律问题,往往是完全自动化的,但是完全手工方法可能是不准确和耗时的。因此,对研究界的兴趣日益增长,以增加人力决策。除了为此目的开发AI技术之外,人民AI决策的新兴领域必须采用实证方法,以形成对人类如何互动和与AI合作做出决定的基础知识。为了邀请和帮助结构研究努力了解理解和改善人为 - AI决策的研究,我们近期对本课题的实证人体研究的文献。我们总结了在三个重要方面的100多篇论文中的研究设计选择:(1)决定任务,(2)AI模型和AI援助要素,以及(3)评估指标。对于每个方面,我们总结了当前的趋势,讨论了现场当前做法中的差距,并列出了未来研究的建议。我们的调查强调了开发共同框架的需要考虑人类 - AI决策的设计和研究空间,因此研究人员可以在研究设计中进行严格的选择,研究界可以互相构建并产生更广泛的科学知识。我们还希望这项调查将成为HCI和AI社区的桥梁,共同努力,相互塑造人类决策的经验科学和计算技术。
translated by 谷歌翻译
机器学习模型需要提供对比解释,因为人们经常寻求理解为什么发生令人费解的预测而不是一些预期的结果。目前的对比解释是实例或原始特征之间的基本比较,这仍然难以解释,因为它们缺乏语义含义。我们认为解释必须与其他概念,假设和协会更加相关。受到认知心理学的感知过程的启发,我们提出了具有对比显着性,反事实合成和对比提示的可靠可解释的AI的XAI感知处理框架和REXNET模型。我们调查了声乐情绪识别的应用,实施了模块化的多任务深度神经网络,以预测言论的情感。从思想和对照研究来看,我们发现,反事实解释是有用的,并进一步增强了语义线索,但不具有显着性解释。这项工作为提供和评估了感知应用提供了可关联的对比解释的AI,提供了深度识别。
translated by 谷歌翻译
Teaser: How seemingly trivial experiment design choices to simplify the evaluation of human-ML systems can yield misleading results.
translated by 谷歌翻译
机器学习算法可以在当代智能系统中进行高级决策。研究表明,它们的模型性能与解释性之间存在权衡。具有较高性能的机器学习模型通常基于更复杂的算法,因此缺乏解释性,反之亦然。但是,从最终用户的角度来看,这种权衡几乎没有经验证据。我们旨在通过进行两个用户实验来提供经验证据。使用两个不同的数据集,我们首先测量五种常见的机器学习算法的权衡。其次,我们解决了最终用户对可解释的人工智能增强的看法的问题,旨在增加对高性能复杂模型的决策逻辑的理解。我们的结果与权衡曲线的广泛假设有所不同,并表明模型性能和解释性之间的权衡在最终用户的感知中逐渐少得多。这与假定的固有模型可解释性形成鲜明对比。此外,我们发现折衷是由于数据复杂性而成为情境。我们的第二次实验的结果表明,尽管可以使用可解释的人工智能增强来提高解释性,但解释的类型在最终用户感知中起着至关重要的作用。
translated by 谷歌翻译
解释已被框起来是更好,更公平的人类决策的基本特征。在公平的背景下,这一点尚未得到适当的研究,因为先前的工作主要根据他们对人们的看法的影响进行了评估。但是,我们认为,要促进更公正的决定,它们必须使人类能够辨别正确和错误的AI建议。为了验证我们的概念论点,我们进行了一项实证研究,以研究解释,公平感和依赖行为之间的关系。我们的发现表明,解释会影响人们的公平感,这反过来又影响了依赖。但是,我们观察到,低公平的看法会导致AI建议的更多替代,无论它们是正确还是错。这(i)引起了人们对现有解释对增强分配公平性的有用性的怀疑,并且(ii)为为什么不必将感知作为适当依赖的代理而被混淆的重要案例。
translated by 谷歌翻译
过去十年已经看到人工智能(AI)的显着进展,这导致了用于解决各种问题的算法。然而,通过增加模型复杂性并采用缺乏透明度的黑匣子AI模型来满足这种成功。为了响应这种需求,已经提出了说明的AI(Xai)以使AI更透明,从而提高关键结构域中的AI。虽然有几个关于Xai主题的Xai主题的评论,但在Xai中发现了挑战和潜在的研究方向,这些挑战和研究方向被分散。因此,本研究为Xai组织的挑战和未来的研究方向提出了系统的挑战和未来研究方向:(1)基于机器学习生命周期的Xai挑战和研究方向,基于机器的挑战和研究方向阶段:设计,开发和部署。我们认为,我们的META调查通过为XAI地区的未来探索指导提供了XAI文学。
translated by 谷歌翻译
概念诱导是基于正式的逻辑推理在描述逻辑上的,已在本体工程中使用,以从基本数据(ABOX)图创建本体(Tbox)公理。在本文中,我们表明它也可以用来解释数据差异,例如在可解释的AI(XAI)的背景下,我们表明它实际上可以以对人类观察者有意义的方式进行。我们的方法利用了从Wikipedia类别层次结构策划的大型层次结构,作为背景知识。
translated by 谷歌翻译
Deepfakes are computationally-created entities that falsely represent reality. They can take image, video, and audio modalities, and pose a threat to many areas of systems and societies, comprising a topic of interest to various aspects of cybersecurity and cybersafety. In 2020 a workshop consulting AI experts from academia, policing, government, the private sector, and state security agencies ranked deepfakes as the most serious AI threat. These experts noted that since fake material can propagate through many uncontrolled routes, changes in citizen behaviour may be the only effective defence. This study aims to assess human ability to identify image deepfakes of human faces (StyleGAN2:FFHQ) from nondeepfake images (FFHQ), and to assess the effectiveness of simple interventions intended to improve detection accuracy. Using an online survey, 280 participants were randomly allocated to one of four groups: a control group, and 3 assistance interventions. Each participant was shown a sequence of 20 images randomly selected from a pool of 50 deepfake and 50 real images of human faces. Participants were asked if each image was AI-generated or not, to report their confidence, and to describe the reasoning behind each response. Overall detection accuracy was only just above chance and none of the interventions significantly improved this. Participants' confidence in their answers was high and unrelated to accuracy. Assessing the results on a per-image basis reveals participants consistently found certain images harder to label correctly, but reported similarly high confidence regardless of the image. Thus, although participant accuracy was 62% overall, this accuracy across images ranged quite evenly between 85% and 30%, with an accuracy of below 50% for one in every five images. We interpret the findings as suggesting that there is a need for an urgent call to action to address this threat.
translated by 谷歌翻译
反事实思维领域的解释机制是可解释人工智能(XAI)的广泛使用的范式,因为它们遵循一种自然的推理方式,即人类熟悉。但是,该领域的所有常见方法都是基于传达有关特征或特征的信息,这些信息对于AI的决定尤为重要。我们认为,为了充分理解决定,不仅需要有关相关功能的知识,而且对无关信息的意识也很大程度上有助于创建用户的AI系统心理模型。因此,我们介绍了一种解释AI系统的新方法。我们称之为另一个事实解释的方法是基于显示AI输入的无关特征的替代现实。通过这样做,用户直接看到输入数据的哪些特征可以随意更改而不会影响AI的决定。我们在广泛的用户研究中评估了我们的方法,表明它能够为参与者对AI的理解做出重大贡献。我们表明,与既定的反事实解释方法相比,改变的解释适合传达对AI推理不同方面的理解。
translated by 谷歌翻译
作为人工智能(AI)的技术子领域,可解释的AI(XAI)已经产生了广泛的算法集合,为研究人员和从业者提供了一个工具箱,用于构建XAI应用程序。凭借丰富的应用机会,解释性已经超越了数据科学家或研究人员的需求,以了解他们发展的模型,成为人们信任的重要要求,并采用部署在众多域中的AI。然而,解释性是一种本质上以人为本的财产,该领域开始接受以人为本的方法。人机互动(HCI)研究和用户体验(UX)设计在该地区的设计越来越重要。在本章中,我们从Xai算法技术景观的高级概述开始,然后选择性地调查我们自己和其他最近的HCI工作,以便以人为本的设计,评估,为Xai提供概念和方法工具。我们询问问题``以人为本的方式为Xai'做了什么,并突出了三个角色,通过帮助导航,评估和扩展Xai工具箱来塑造XAI技术的三个角色:通过用户解释性需要推动技术选择揭示现有XAI方法的缺陷,并通知新方法,为人类兼容的XAI提供概念框架。
translated by 谷歌翻译
机器学习的最新进展导致人们对可解释的AI(XAI)的兴趣越来越大,使人类能够深入了解机器学习模型的决策。尽管最近有这种兴趣,但XAI技术的实用性尚未在人机组合中得到特征。重要的是,XAI提供了增强团队情境意识(SA)和共享心理模型发展的希望,这是有效的人机团队的关键特征。快速开发这种心理模型在临时人机团队中尤其重要,因为代理商对他人的决策策略没有先验知识。在本文中,我们提出了两个新颖的人类受试者实验,以量化在人机组合场景中部署XAI技术的好处。首先,我们证明XAI技术可以支持SA($ P <0.05)$。其次,我们研究了通过协作AI政策抽象诱导的不同SA级别如何影响临时人机组合绩效。重要的是,我们发现XAI的好处不是普遍的,因为对人机团队的组成有很大的依赖。新手受益于XAI提供增加的SA($ P <0.05 $),但容易受到认知开销的影响($ P <0.05 $)。另一方面,专家性能随着基于XAI的支持($ p <0.05 $)而降低,这表明关注XAI的成本超过了从提供的其他信息中获得的收益以增强SA所获得的收益。我们的结果表明,研究人员必须通过仔细考虑人机团队组成以及XAI方法如何增强SA来故意在正确的情况下设计和部署正确的XAI技术。
translated by 谷歌翻译
可解释的人工智能和可解释的机器学习是重要性越来越重要的研究领域。然而,潜在的概念仍然难以捉摸,并且缺乏普遍商定的定义。虽然社会科学最近的灵感已经重新分为人类受助人的需求和期望的工作,但该领域仍然错过了具体的概念化。通过审查人类解释性的哲学和社会基础,我们采取措施来解决这一挑战,然后我们转化为技术领域。特别是,我们仔细审查了算法黑匣子的概念,并通过解释过程确定的理解频谱并扩展了背景知识。这种方法允许我们将可解释性(逻辑)推理定义为在某些背景知识下解释的透明洞察(进入黑匣子)的解释 - 这是一个从事在Admoleis中理解的过程。然后,我们采用这种概念化来重新审视透明度和预测权力之间的争议权差异,以及对安特 - 人穴和后宫后解释者的影响,以及可解释性发挥的公平和问责制。我们还讨论机器学习工作流程的组件,可能需要可解释性,从以人为本的可解释性建立一系列思想,重点介绍声明,对比陈述和解释过程。我们的讨论调整并补充目前的研究,以帮助更好地导航开放问题 - 而不是试图解决任何个人问题 - 从而为实现的地面讨论和解释的人工智能和可解释的机器学习的未来进展奠定了坚实的基础。我们结束了我们的研究结果,重新审视了实现所需的算法透明度水平所需的人以人为本的解释过程。
translated by 谷歌翻译
为了提高模型透明度并允许用户形成训练有素的ML模型的心理模型,解释对AI和机器学习(ML)社区的兴趣越来越高。但是,解释可以超越这种方式通信作为引起用户控制的机制,因为一旦用户理解,他们就可以提供反馈。本文的目的是介绍研究概述,其中解释与交互式功能相结合,是从头开始学习新模型并编辑和调试现有模型的手段。为此,我们绘制了最先进的概念图,根据其预期目的以及它们如何构建相互作用,突出它们之间的相似性和差异来分组相关方法。我们还讨论开放研究问题并概述可能的方向,希望促使人们对这个开花研究主题进行进一步的研究。
translated by 谷歌翻译
智能决策支持(IDS)系统利用人工智能技术来产生通过任务的决策阶段引导人类用户的建议。但是,关键挑战是IDS系统并不完美,并且在复杂的真实方案中可能会产生不正确的输出或者无法完全工作。可解释的AI规划领域(XAIP)寻求开发技巧,使得顺序决策的决策使AI系统更可扩展到最终用户。批判性地,在将XAIP技术应用于IDS系统的情况下,已经假设计划员提出的计划始终是最佳的,因此建议作为对用户的决策支持建议的动作或计划始终是正确的。在这项工作中,我们研究了与非强大IDS系统的新手用户交互 - 偶尔推荐错误动作的互动,并且在用户习惯于其指导后可能会变得无法使用。我们介绍了一种新颖的解释类型,基于基于划分的基于规划的IDS系统的解释,可以使用有关推荐行动将有所贡献的子群的信息来补充传统的IDS输出。我们展示基于子群的解释导致改善用户任务性能,提高用户辨别最佳和次优ID的能力,是用户的首选,并在IDS失败的情况下启用更强大的用户性能
translated by 谷歌翻译