尽管Ai在各个领域的超人表现,但人类往往不愿意采用AI系统。许多现代AI技术中缺乏可解释性的缺乏可令人伤害他们的采用,因为用户可能不相信他们不理解的决策过程的系统。我们通过一种新的实验调查这一主张,其中我们使用互动预测任务来分析可解释性和结果反馈对AI信任的影响和AI辅助预测任务的人类绩效。我们发现解释性导致了不强大的信任改进,而结果反馈具有明显更大且更可靠的效果。然而,这两个因素对参与者的任务表现产生了适度的影响。我们的研究结果表明(1)接受重大关注的因素,如可解释性,在越来越多的信任方面可能比其他结果反馈的因素效果,而(2)通过AI系统增强人类绩效可能不是在AI中增加信任的简单问题。 ,随着增加的信任并不总是与性能同样大的改进相关联。这些调查结果邀请了研究界不仅关注产生解释的方法,而且还专注于确保在实践中产生影响和表现的技巧。
translated by 谷歌翻译
随着AI系统表现出越来越强烈的预测性能,它们的采用已经在许多域中种植。然而,在刑事司法和医疗保健等高赌场域中,由于安全,道德和法律问题,往往是完全自动化的,但是完全手工方法可能是不准确和耗时的。因此,对研究界的兴趣日益增长,以增加人力决策。除了为此目的开发AI技术之外,人民AI决策的新兴领域必须采用实证方法,以形成对人类如何互动和与AI合作做出决定的基础知识。为了邀请和帮助结构研究努力了解理解和改善人为 - AI决策的研究,我们近期对本课题的实证人体研究的文献。我们总结了在三个重要方面的100多篇论文中的研究设计选择:(1)决定任务,(2)AI模型和AI援助要素,以及(3)评估指标。对于每个方面,我们总结了当前的趋势,讨论了现场当前做法中的差距,并列出了未来研究的建议。我们的调查强调了开发共同框架的需要考虑人类 - AI决策的设计和研究空间,因此研究人员可以在研究设计中进行严格的选择,研究界可以互相构建并产生更广泛的科学知识。我们还希望这项调查将成为HCI和AI社区的桥梁,共同努力,相互塑造人类决策的经验科学和计算技术。
translated by 谷歌翻译
Prior work has identified a resilient phenomenon that threatens the performance of human-AI decision-making teams: overreliance, when people agree with an AI, even when it is incorrect. Surprisingly, overreliance does not reduce when the AI produces explanations for its predictions, compared to only providing predictions. Some have argued that overreliance results from cognitive biases or uncalibrated trust, attributing overreliance to an inevitability of human cognition. By contrast, our paper argues that people strategically choose whether or not to engage with an AI explanation, demonstrating empirically that there are scenarios where AI explanations reduce overreliance. To achieve this, we formalize this strategic choice in a cost-benefit framework, where the costs and benefits of engaging with the task are weighed against the costs and benefits of relying on the AI. We manipulate the costs and benefits in a maze task, where participants collaborate with a simulated AI to find the exit of a maze. Through 5 studies (N = 731), we find that costs such as task difficulty (Study 1), explanation difficulty (Study 2, 3), and benefits such as monetary compensation (Study 4) affect overreliance. Finally, Study 5 adapts the Cognitive Effort Discounting paradigm to quantify the utility of different explanations, providing further support for our framework. Our results suggest that some of the null effects found in literature could be due in part to the explanation not sufficiently reducing the costs of verifying the AI's prediction.
translated by 谷歌翻译
人为决策的合作努力实现超出人类或人工智能表现的团队绩效。但是,许多因素都会影响人类团队的成功,包括用户的领域专业知识,AI系统的心理模型,对建议的信任等等。这项工作检查了用户与三种模拟算法模型的互动,所有这些模型都具有相似的精度,但对其真正的正面和真实负率进行了不同的调整。我们的研究检查了在非平凡的血管标签任务中的用户性能,参与者表明给定的血管是流动还是停滞。我们的结果表明,虽然AI-Assistant的建议可以帮助用户决策,但用户相对于AI的基线性能和AI错误类型的补充调整等因素会显着影响整体团队的整体绩效。新手用户有所改善,但不能达到AI的准确性。高度熟练的用户通常能够识别何时应遵循AI建议,并通常保持或提高其性能。与AI相似的准确性水平的表演者在AI建议方面是最大的变化。此外,我们发现用户对AI的性能亲戚的看法也对给出AI建议时的准确性是否有所提高产生重大影响。这项工作提供了有关与人类协作有关的因素的复杂性的见解,并提供了有关如何开发以人为中心的AI算法来补充用户在决策任务中的建议。
translated by 谷歌翻译
Explainable AI (XAI) is widely viewed as a sine qua non for ever-expanding AI research. A better understanding of the needs of XAI users, as well as human-centered evaluations of explainable models are both a necessity and a challenge. In this paper, we explore how HCI and AI researchers conduct user studies in XAI applications based on a systematic literature review. After identifying and thoroughly analyzing 85 core papers with human-based XAI evaluations over the past five years, we categorize them along the measured characteristics of explanatory methods, namely trust, understanding, fairness, usability, and human-AI team performance. Our research shows that XAI is spreading more rapidly in certain application domains, such as recommender systems than in others, but that user evaluations are still rather sparse and incorporate hardly any insights from cognitive or social sciences. Based on a comprehensive discussion of best practices, i.e., common models, design choices, and measures in user studies, we propose practical guidelines on designing and conducting user studies for XAI researchers and practitioners. Lastly, this survey also highlights several open research directions, particularly linking psychological science and human-centered XAI.
translated by 谷歌翻译
在许多现实世界的背景下,成功的人类合作要求人类有效地将补充信息来源整合到AI信息的决策中。但是,实际上,人类决策者常常缺乏对AI模型与自己有关的信息的了解。关于如何有效沟通不可观察的指南,几乎没有可用的准则:可能影响结果但模型无法使用的功能。在这项工作中,我们进行了一项在线实验,以了解以及如何显式交流潜在相关的不可观念,从而影响人们在做出预测时如何整合模型输出和无法观察到的。我们的发现表明,提示有关不可观察的提示可以改变人类整合模型输出和不可观察的方式,但不一定会改善性能。此外,这些提示的影响可能会根据决策者的先前领域专业知识而有所不同。我们通过讨论对基于AI的决策支持工具的未来研究和设计的影响来结束。
translated by 谷歌翻译
人工智能(AI)系统越来越多地用于提供建议以促进人类决策。尽管大量工作探讨了如何优化AI系统以产生准确且公平的建议以及如何向人类决策者提供算法建议,但在这项工作中,我们提出了一个不同的基本问题:何时应该提供建议?由于当前不断提供算法建议的局限性的限制,我们提出了以双向方式与人类用户互动的AI系统的设计。我们的AI系统学习使用过去的人类决策为政策提供建议。然后,对于新案例,学识渊博的政策利用人类的意见来确定算法建议将是有用的案例,以及人类最好单独决定的情况。我们通过使用美国刑事司法系统的数据对审前释放决策进行大规模实验来评估我们的方法。在我们的实验中,要求参与者评估被告违反其释放条款的风险,如果释放,并受到不同建议方法的建议。结果表明,与固定的非交互式建议方法相比,我们的交互式辅助方法可以在需要时提供建议,并显着改善人类决策。我们的方法在促进人类学习,保留人类决策者的互补优势以及对建议的更积极反应方面具有额外的优势。
translated by 谷歌翻译
解释已被框起来是更好,更公平的人类决策的基本特征。在公平的背景下,这一点尚未得到适当的研究,因为先前的工作主要根据他们对人们的看法的影响进行了评估。但是,我们认为,要促进更公正的决定,它们必须使人类能够辨别正确和错误的AI建议。为了验证我们的概念论点,我们进行了一项实证研究,以研究解释,公平感和依赖行为之间的关系。我们的发现表明,解释会影响人们的公平感,这反过来又影响了依赖。但是,我们观察到,低公平的看法会导致AI建议的更多替代,无论它们是正确还是错。这(i)引起了人们对现有解释对增强分配公平性的有用性的怀疑,并且(ii)为为什么不必将感知作为适当依赖的代理而被混淆的重要案例。
translated by 谷歌翻译
我们在数字世界中采取的每一步都会落后于我们行为的记录;数字足迹。研究表明,算法可以将这些数字足迹转化为精确的心理特征估计,包括人格特质,心理健康或情报。然而,AI产生这些见解的机制通常保持不透明。在本文中,我们展示了如何解释AI(XAI)可以帮助域专家和数据主体验证,问题和改进分类数字足迹的心理特征的模型。我们在来自金融交易数据的大五个人格预测(特征和方面)的范围内,详细说明了两个流行的XAI方法(规则提取和反事实解释)(n = 6,408)。首先,我们展示了全球规则提取在模型中标识的消费模式中如何阐明了最重要的人格,并讨论这些规则如何用于解释,验证和改进模型。其次,我们实施当地规则提取,以表明,由于其独特的财务行为,个人分配给个性课程,并且模型的预测信心与促进预测的特征数量之间存在积极的联系。我们的实验突出了全球和本地XAI方法的重要性。通过更好地了解预测模型如何工作,以及他们如何获得特定人的结果,Xai促进了一个世界的问责制,其中AI影响了世界各地数十亿人的生命。
translated by 谷歌翻译
Teaser: How seemingly trivial experiment design choices to simplify the evaluation of human-ML systems can yield misleading results.
translated by 谷歌翻译
越来越多的研究进行了人类主题评估,以研究为用户提供机器学习模型的解释是否可以帮助他们制定实际现实世界中的用例。但是,运行的用户研究具有挑战性且昂贵,因此每个研究通常只评估有限的不同设置,例如,研究通常只评估一些任意选择的解释方法。为了应对这些挑战和援助用户研究设计,我们介绍了用用例的模拟评估(Simevals)。 SIMEVALS涉及培训算法剂,以输入信息内容(例如模型解释),这些信息内容将在人类学科研究中提交给每个参与者,以预测感兴趣的用例的答案。算法代理的测试集精度提供了衡量下游用例信息内容的预测性。我们对三种现实世界用例(正向模拟,模型调试和反事实推理)进行全面评估,以证明Simevals可以有效地确定哪种解释方法将为每个用例提供帮助。这些结果提供了证据表明,Simevals可用于有效筛选一组重要的用户研究设计决策,例如在进行潜在昂贵的用户研究之前,选择应向用户提供哪些解释。
translated by 谷歌翻译
自我跟踪可以提高人们对他们不健康的行为的认识,为行为改变提供见解。事先工作探索了自动跟踪器如何反映其记录数据,但它仍然不清楚他们从跟踪反馈中学到多少,以及哪些信息更有用。实际上,反馈仍然可以压倒,并简明扼要可以通过增加焦点和减少解释负担来改善学习。为了简化反馈,我们提出了一个自动跟踪反馈显着框架,以定义提供反馈的特定信息,为什么这些细节以及如何呈现它们(手动引出或自动反馈)。我们从移动食品跟踪的实地研究中收集了调查和膳食图像数据,并实施了Salientrack,一种机器学习模型,以预测用户从跟踪事件中学习。使用可解释的AI(XAI)技术,SalientRack识别该事件的哪些特征是最突出的,为什么它们导致正面学习结果,并优先考虑如何根据归属分数呈现反馈。我们展示了用例,并进行了形成性研究,以展示Salientrack的可用性和有用性。我们讨论自动跟踪中可读性的影响,以及如何添加模型解释性扩大了提高反馈体验的机会。
translated by 谷歌翻译
人类不断受到他人的行为和观点的影响。至关重要的是,人类之间的社会影响是由互惠构成的:我们更多地遵循一直在考虑我们意见的人的建议。在当前的工作中,我们研究了与社会类人机器人互动时相互影响的影响是否可以出现。在一项联合任务中,人类参与者和人形机器人进行了感知估计,然后在观察伴侣的判断后可以公开修改它们。结果表明,赋予机器人表达和调节其对人类判断的易感水平的能力代表了双刃剑。一方面,当机器人遵循他们的建议时,参与者对机器人的能力失去了信心。另一方面,参与者不愿透露他们对易感机器人缺乏信心,这表明出现了支持人类机器人合作的社会影响力的相互机制。
translated by 谷歌翻译
Taking advice from others requires confidence in their competence. This is important for interaction with peers, but also for collaboration with social robots and artificial agents. Nonetheless, we do not always have access to information about others' competence or performance. In these uncertain environments, do our prior beliefs about the nature and the competence of our interacting partners modulate our willingness to rely on their judgments? In a joint perceptual decision making task, participants made perceptual judgments and observed the simulated estimates of either a human participant, a social humanoid robot or a computer. Then they could modify their estimates based on this feedback. Results show participants' belief about the nature of their partner biased their compliance with its judgments: participants were more influenced by the social robot than human and computer partners. This difference emerged strongly at the very beginning of the task and decreased with repeated exposure to empirical feedback on the partner's responses, disclosing the role of prior beliefs in social influence under uncertainty. Furthermore, the results of our functional task suggest an important difference between human-human and human-robot interaction in the absence of overt socially relevant signal from the partner: the former is modulated by social normative mechanisms, whereas the latter is guided by purely informational mechanisms linked to the perceived competence of the partner.
translated by 谷歌翻译
最近的工作表明,当AI的预测不可靠时,可以学会推迟人类的选择性预测系统的潜在好处,特别是提高医疗保健等高赌注应用中AI系统的可靠性。然而,大多数事先工作假定当他们解决预测任务时,人类行为仍然保持不变,作为人类艾队团队的一部分而不是自己。我们表明,通过执行实验来规定在选择性预测的背景下量化人AI相互作用的实验并非如此。特别是,我们研究将不同类型信息传送给人类的影响,了解AI系统的决定推迟。使用现实世界的保护数据和选择性预测系统,可以在单独工作的人体或AI系统上提高预期准确性,我们表明,这种消息传递对人类判断的准确性产生了重大影响。我们的结果研究了消息传递策略的两个组成部分:1)人类是否被告知AI系统的预测和2)是否被告知选择性预测系统的决定推迟。通过操纵这些消息传递组件,我们表明,通过通知人类推迟的决定,可以显着提高人类的性能,但不透露对AI的预测。因此,我们表明,考虑在设计选择性预测系统时如何传送到人类的决定是至关重要的,并且必须使用循环框架仔细评估人类-AI团队的复合精度。
translated by 谷歌翻译
由于算法预测对人类的影响增加,模型解释性已成为机器学习(ML)的重要问题。解释不仅可以帮助用户了解为什么ML模型做出某些预测,还可以帮助用户了解这些预测如何更改。在本论文中,我们研究了从三个有利位置的ML模型的解释性:算法,用户和教学法,并为解释性问题贡献了一些新颖的解决方案。
translated by 谷歌翻译
人工智能算法越来越多地被公共机构作为决策助手,并承诺克服人类决策者的偏见。同时,他们可能会在人类算法中引入新的偏见。在心理学和公共行政文献上,我们调查了两个关键偏见:即使面对来自其他来源的警告信号(自动化偏见)的警告信号,对算法建议过度依赖,并选择性地采用算法建议时,这与刻板印象相对应(Selective Adherence)。我们通过在荷兰瓦中进行的三项实验研究评估这些研究,讨论了我们发现对公共部门决策在自动化时代的影响。总体而言,我们的研究表明,对已经脆弱和处境不利的公民自动化自动化的潜在负面影响。
translated by 谷歌翻译
将计算机性能与人类进行比较的图灵测试是众所周知的,但是令人惊讶的是,没有广泛使用的测试可以比较单独相对于人类,单独的计算机或其他基线的人类计算机系统的表现更好。在这里,我们展示了如何使用均值之比作为效果大小的量度进行此类测试。然后,我们以三种方式演示了该测试的使用。首先,在对最近发表的79个实验结果的分析中,我们发现,令人惊讶的是,超过一半的研究发现性能下降,均值和中位数提高的比率均约为1个(完全没有改进),最大比率为1.36(改善36%)。其次,当100名人类程序员使用GPT-3生成软件时,我们是否会获得更高的性能提高比,这是一个较大的,最先进的AI系统。在这种情况下,我们发现速度提高比为1.27(增长27%)。最后,我们发现使用GPT-3的50名非编程者可以执行与人类程序员相比,而且额外付费且额外的任务。在这种情况下,非程序员和计算机都无法单独执行任务,因此这是人类计算机协同作用非常强烈的一个例子。
translated by 谷歌翻译
Deepfakes are computationally-created entities that falsely represent reality. They can take image, video, and audio modalities, and pose a threat to many areas of systems and societies, comprising a topic of interest to various aspects of cybersecurity and cybersafety. In 2020 a workshop consulting AI experts from academia, policing, government, the private sector, and state security agencies ranked deepfakes as the most serious AI threat. These experts noted that since fake material can propagate through many uncontrolled routes, changes in citizen behaviour may be the only effective defence. This study aims to assess human ability to identify image deepfakes of human faces (StyleGAN2:FFHQ) from nondeepfake images (FFHQ), and to assess the effectiveness of simple interventions intended to improve detection accuracy. Using an online survey, 280 participants were randomly allocated to one of four groups: a control group, and 3 assistance interventions. Each participant was shown a sequence of 20 images randomly selected from a pool of 50 deepfake and 50 real images of human faces. Participants were asked if each image was AI-generated or not, to report their confidence, and to describe the reasoning behind each response. Overall detection accuracy was only just above chance and none of the interventions significantly improved this. Participants' confidence in their answers was high and unrelated to accuracy. Assessing the results on a per-image basis reveals participants consistently found certain images harder to label correctly, but reported similarly high confidence regardless of the image. Thus, although participant accuracy was 62% overall, this accuracy across images ranged quite evenly between 85% and 30%, with an accuracy of below 50% for one in every five images. We interpret the findings as suggesting that there is a need for an urgent call to action to address this threat.
translated by 谷歌翻译
目的:我们研究使用机器学习(ML)模型的可解释的累入预测,并在预测能力,稀疏性和公平性方面分析性能。与以前的作品不同,本研究列举了输出概率而不是二进制预测的可解释模型,并使用定量公平定义来评估模型。本研究还研究了模型是否可以横跨地理位置概括。方法:我们在佛罗里达州和肯塔基州的两个不同的刑事核查数据集上生成了黑盒和可解释的ML模型。我们将这些模型的预测性能和公平与目前用于司法系统中使用的两种方法进行了比较,以预测审前常规率:Arnold PSA和Compas。我们评估了所有模型的预测性能,可以在两次跨越两次预测六种不同类型犯罪的模型。结果:几种可解释的ML模型可以预测常规和黑盒ML模型,比Compas或Arnold PSA更准确。这些模型在实践中可能有用。类似于Arnold PSA,这些可解释模型中的一些可以作为一个简单的表格写入。其他可以使用一组可视化显示。我们的地理分析表明ML模型应分开培训,以便单独的位置并随时间更新。我们还为可​​解释模型提供了公平分析。结论:可解释的机器学习模型可以在预测准确性和公平性方面表现,也可以表现,也可以表现,也可以执行不可解释的方法和目前使用的风险评估尺度。机器学习模型对于单独培训,可以更准确地进行不同的位置,并保持最新。
translated by 谷歌翻译