现实世界的语义或基于知识的系统,例如在生物医学领域,可能会变得大而复杂。因此,对此类系统知识库中故障的本地化和修复的工具支持对于它们的实际成功至关重要。相应地,近年来提出了许多知识库调试方法,尤其是基于本体的系统。基于查询的调试是一种相似的交互式方法,它通过向知识工程师提出一系列问题来定位观察到的问题的真正原因。存在这种方法的具体实现,例如本体论编辑器的OntodeBug插件prof \'eg \'e。为了验证新提出的方法比现有方法有利,研究人员通常依靠基于模拟的比较。但是,这种评估方法有一定的局限性,并且通常无法完全告知我们方法的真实性。因此,我们进行了不同的用户研究,以评估基于查询的本体调试的实际价值。研究的一个主要见解是,所考虑的交互方法确实比基于测试案例的替代算法调试更有效。我们还观察到,用户经常在此过程中犯错误,这突出了对用户需要回答的查询的仔细设计的重要性。
translated by 谷歌翻译
当本体学达到一定的规模和复杂性时,几乎无法避免诸如不一致,不满意的课程或错误的课程等故障。找到导致这些故障的不正确的公理是一项艰巨且耗时的任务。在解决这个问题时,已经提出了几种针对本体学中半自动断层定位的技术。通常,这些方法涉及一个人类专家,该专家为有关预期(正确)本体的系统生成的问题提供答案,以减少可能的故障位置。为了提出尽可能多的信息性问题,现有的方法借鉴了各种算法优化以及启发式方法。但是,这些计算通常基于有关交互用户的某些假设。在这项工作中,我们表征和讨论不同的用户类型,并表明现有方法并不能为所有用户实现最佳效率。作为一种补救措施,我们建议一种新型的专家问题,旨在适合所有分析专家的答案行为。此外,我们提出了一种算法,以优化与现场使用的(尝试和测试的)启发式方法完全兼容的新查询类型。关于现实世界中错误的实验表明,新的查询方法的潜力是将专家咨询时间最小化,而与专家类型无关。此外,获得的见解可以为互动调试工具的设计提供信息,以更好地满足用户的需求。
translated by 谷歌翻译
为了代表,统计样本必须以随机和公正的方式从人群中获取。然而,在基于模型的诊断领域的常见做法是从(偏见)最佳先前样本进行估计。一个例子是计算有缺陷系统的一些最可能的故障解释,并使用这些解释来评估系统的哪个方面(如果测量)将带来最高的信息增益。在这项工作中,我们仔细检查了这些在统计学上没有得到充分的惯例,即诊断研究人员和从业人员已经遵守了数十年的认可,这确实是合理的。为此,我们通过经验分析了产生故障解释的各种抽样方法。我们研究了产生的样品的代表性,这些样本的估计以及它们指导诊断决策的指导程度以及我们研究样本量的影响,采样效率和有效性之间的最佳权衡以及如何比较采样技术的影响确切的。
translated by 谷歌翻译
事实证明,在学习环境中,社会智能代理(SIA)的部署在不同的应用领域具有多个优势。社会代理创作工具使场景设计师能够创造出对SIAS行为的高度控制的量身定制体验,但是,另一方面,这是有代价的,因为该方案及其创作的复杂性可能变得霸道。在本文中,我们介绍了可解释的社会代理创作工具的概念,目的是分析社会代理的创作工具是否可以理解和解释。为此,我们检查了创作工具Fatima-Toolkit是否可以理解,并且从作者的角度来看,其创作步骤可以解释。我们进行了两项用户研究,以定量评估Fatima-Toolkit的解释性,可理解性和透明度,从场景设计师的角度来看。关键发现之一是,法蒂玛 - 库尔基特(Fatima-Toolkit)的概念模型通常是可以理解的,但是基于情感的概念并不那么容易理解和使用。尽管关于Fatima-Toolkit的解释性有一些积极的方面,但仍需要取得进展,以实现完全可以解释的社会代理商创作工具。我们提供一组关键概念和可能的解决方案,可以指导开发人员构建此类工具。
translated by 谷歌翻译
给定故障系统,顺序诊断旨在确定在异常行为的系统组件方面识别失败的根本原因。由于最初的系统观察通常不足以确定性地固定系统的不当行为,因此其他系统测量可以帮助区分可能的解释。目的是限制解释的空间,直到只剩下一个(高度可能)的解释。为了通过一组最小成本的测量值来实现这一目标,已经提出了各种选择最佳下一个测量值的(主动学习)启发式方法。我们报告了广泛的正在进行的实验的初步结果,并在现实世界诊断病例上进行了一系列选择启发式方法。特别是,我们试图回答诸如“某些启发式词总是比其他所有人都优越?”之类的问题,“特定启发式方法的(相对)性能取决于哪些因素?”或“在哪些情况下我应该使用启发式方法?”
translated by 谷歌翻译
Explainable AI (XAI) is widely viewed as a sine qua non for ever-expanding AI research. A better understanding of the needs of XAI users, as well as human-centered evaluations of explainable models are both a necessity and a challenge. In this paper, we explore how HCI and AI researchers conduct user studies in XAI applications based on a systematic literature review. After identifying and thoroughly analyzing 85 core papers with human-based XAI evaluations over the past five years, we categorize them along the measured characteristics of explanatory methods, namely trust, understanding, fairness, usability, and human-AI team performance. Our research shows that XAI is spreading more rapidly in certain application domains, such as recommender systems than in others, but that user evaluations are still rather sparse and incorporate hardly any insights from cognitive or social sciences. Based on a comprehensive discussion of best practices, i.e., common models, design choices, and measures in user studies, we propose practical guidelines on designing and conducting user studies for XAI researchers and practitioners. Lastly, this survey also highlights several open research directions, particularly linking psychological science and human-centered XAI.
translated by 谷歌翻译
This volume contains revised versions of the papers selected for the third volume of the Online Handbook of Argumentation for AI (OHAAI). Previously, formal theories of argument and argument interaction have been proposed and studied, and this has led to the more recent study of computational models of argument. Argumentation, as a field within artificial intelligence (AI), is highly relevant for researchers interested in symbolic representations of knowledge and defeasible reasoning. The purpose of this handbook is to provide an open access and curated anthology for the argumentation research community. OHAAI is designed to serve as a research hub to keep track of the latest and upcoming PhD-driven research on the theory and application of argumentation in all areas related to AI.
translated by 谷歌翻译
保证案件旨在为其最高主张的真理提供合理的信心,这通常涉及安全或保障。那么一个自然的问题是,案件提供了“多少”信心?我们认为,置信度不能简化为单个属性或测量。取而代之的是,我们建议它应该基于以三种不同观点的属性为基础:正面,消极和残留疑问。积极的观点考虑了该案件的证据和总体论点结合起来的程度,以表明其主张的信念是正当的。我们为理由设置了一个高标准,要求它是不可行的。对此的主要积极度量是健全性,它将论点解释为逻辑证明。对证据的信心可以概率地表达,我们使用确认措施来确保证据的“权重”跨越了一定的阈值。此外,可以通过使用概率逻辑的参数步骤从证据中汇总概率,以产生我们所谓的索赔概率估值。负面观点记录了对案件的怀疑和挑战,通常表示为叛逆者及其探索和解决。保证开发商必须防止确认偏见,并应在制定案件时大力探索潜在的叛逆者,并应记录下来及其解决方案,以避免返工并帮助审阅者。残留疑问:世界不确定,因此并非所有潜在的叛逆者都可以解决。我们探索风险,可能认为它们是可以接受或不可避免的。但是,至关重要的是,这些判断是有意识的判断,并且在保证案例中记录下来。本报告详细介绍了这些观点,并指示了我们的保证2.0的原型工具集如何协助他们的评估。
translated by 谷歌翻译
这项工作提出了用于诊断计算方法的分类法,该方法允许其标准化的评估,分类和比较。目的是(i)使研究人员和从业者对可用诊断技术的各种景观的印象,(ii)允许他们轻松地检索主要功能以及方法的优点和缺点,(iii)启用了轻松且易于根据其特征WRT的技术进行明确比较。重要且定义明确的属性的列表,以及(iv)促进为特定问题案例(例如,在实际诊断设置中,用于比较实验评估)或重用,修改,修改,修改,修改,扩展或研究过程中的改进。
translated by 谷歌翻译
我们挑战现有的基于查询的本体故障本地化方法WRT。他们做出的假设,优化的标准以及相互作用意味着它们使用。我们发现它们的效率在很大程度上取决于相互作用的专家的行为,进行计算的计算效率低下或不精确,并且使用的优化标准通常不完全现实。作为一种补救措施,我们建议一种新颖(和简单)的互动方法,它克服了所有确定的问题,并且在有关错误现实世界本体论的全面实验中,可以成功地定位错误,同时需要在66%的情况下进行更少的专家互动,并且始终需要更少与现有方法相比,专家等待时间至少减少了80%。
translated by 谷歌翻译
There has been a recent resurgence in the area of explainable artificial intelligence as researchers and practitioners seek to make their algorithms more understandable. Much of this research is focused on explicitly explaining decisions or actions to a human observer, and it should not be controversial to say that looking at how humans explain to each other can serve as a useful starting point for explanation in artificial intelligence. However, it is fair to say that most work in explainable artificial intelligence uses only the researchers' intuition of what constitutes a 'good' explanation. There exists vast and valuable bodies of research in philosophy, psychology, and cognitive science of how people define, generate, select, evaluate, and present explanations, which argues that people employ certain cognitive biases and social expectations towards the explanation process. This paper argues that the field of explainable artificial intelligence should build on this existing research, and reviews relevant papers from philosophy, cognitive psychology/science, and social psychology, which study these topics. It draws out some important findings, and discusses ways that these can be infused with work on explainable artificial intelligence.
translated by 谷歌翻译
在线众包平台使对算法输出进行评估变得容易,并提出诸如“哪个图像更好,A或B?”之类的问题的调查,在视觉和图形研究论文中的这些“用户研究”的扩散导致了增加匆忙进行的研究充其量是草率且无知的,并且可能有害和误导。我们认为,在计算机视觉和图形论文中的用户研究的设计和报告需要更多关注。为了提高从业者的知识并提高用户研究的可信度和可复制性,我们提供了用户体验研究(UXR),人类计算机互动(HCI)和相关领域的方法论的概述。我们讨论了目前在计算机视觉和图形研究中未利用的基础用户研究方法(例如,需要调查),但可以为研究项目提供宝贵的指导。我们为有兴趣探索其他UXR方法的读者提供了进一步的指导。最后,我们描述了研究界的更广泛的开放问题和建议。我们鼓励作者和审稿人都认识到,并非每项研究贡献都需要用户研究,而且根本没有研究比不小心进行的研究更好。
translated by 谷歌翻译
问答系统被认为是流行且经常有效的信息在网络上寻求信息的手段。在这样的系统中,寻求信息者可以通过自然语言提出问题来获得对他们的查询的简短回应。交互式问题回答是一种最近提出且日益流行的解决方案,它位于问答和对话系统的交集。一方面,用户可以以普通语言提出问题,并找到对她的询问的实际回答;另一方面,如果在初始请求中有多个可能的答复,很少或歧义,则系统可以将问题交通会话延长到对话中。通过允许用户提出更多问题,交互式问题回答使用户能够与系统动态互动并获得更精确的结果。这项调查提供了有关当前文献中普遍存在的交互式提问方法的详细概述。它首先要解释提问系统的基本原理,从而定义新的符号和分类法,以将所有已确定的作品结合在统一框架内。然后,根据提出的方法,评估方法和数据集/应用程序域来介绍和检查有关交互式问题解答系统的审查已发表的工作。我们还描述了围绕社区提出的特定任务和问题的趋势,从而阐明了学者的未来利益。 GitHub页面的综合综合了本文献研究中涵盖的所有主要主题,我们的工作得到了进一步的支持。 https://sisinflab.github.io/interactive-question-answering-systems-survey/
translated by 谷歌翻译
情绪分析中最突出的任务是为文本分配情绪,并了解情绪如何在语言中表现出来。自然语言处理的一个重要观察结果是,即使没有明确提及情感名称,也可以通过单独参考事件来隐式传达情绪。在心理学中,被称为评估理论的情感理论类别旨在解释事件与情感之间的联系。评估可以被形式化为变量,通过他们认为相关的事件的人们的认知评估来衡量认知评估。其中包括评估事件是否是新颖的,如果该人认为自己负责,是否与自己的目标以及许多其他人保持一致。这样的评估解释了哪些情绪是基于事件开发的,例如,新颖的情况会引起惊喜或不确定后果的人可能引起恐惧。我们在文本中分析了评估理论对情绪分析的适用性,目的是理解注释者是否可以可靠地重建评估概念,如果可以通过文本分类器预测,以及评估概念是否有助于识别情感类别。为了实现这一目标,我们通过要求人们发短信描述触发特定情绪并披露其评估的事件来编译语料库。然后,我们要求读者重建文本中的情感和评估。这种设置使我们能够衡量是否可以纯粹从文本中恢复情绪和评估,并为判断模型的绩效指标提供人体基准。我们将文本分类方法与人类注释者的比较表明,两者都可以可靠地检测出具有相似性能的情绪和评估。我们进一步表明,评估概念改善了文本中情绪的分类。
translated by 谷歌翻译
背景信息:在过去几年中,机器学习(ML)一直是许多创新的核心。然而,包括在所谓的“安全关键”系统中,例如汽车或航空的系统已经被证明是非常具有挑战性的,因为ML的范式转变为ML带来完全改变传统认证方法。目的:本文旨在阐明与ML为基础的安全关键系统认证有关的挑战,以及文献中提出的解决方案,以解决它们,回答问题的问题如何证明基于机器学习的安全关键系统?'方法:我们开展2015年至2020年至2020年之间发布的研究论文的系统文献综述(SLR),涵盖了与ML系统认证有关的主题。总共确定了217篇论文涵盖了主题,被认为是ML认证的主要支柱:鲁棒性,不确定性,解释性,验证,安全强化学习和直接认证。我们分析了每个子场的主要趋势和问题,并提取了提取的论文的总结。结果:单反结果突出了社区对该主题的热情,以及在数据集和模型类型方面缺乏多样性。它还强调需要进一步发展学术界和行业之间的联系,以加深域名研究。最后,它还说明了必须在上面提到的主要支柱之间建立连接的必要性,这些主要柱主要主要研究。结论:我们强调了目前部署的努力,以实现ML基于ML的软件系统,并讨论了一些未来的研究方向。
translated by 谷歌翻译
许多政府举措(例如欧盟的GDPR)正在得出结论,即现代软件系统的越来越复杂程度必须与对这些工具的影响评估的一些权利和指标形成鲜明对比,使人们能够理解和监督产出自动化决策系统。可解释的ai诞生于允许人类探索和理解复杂系统的内部工作的途径。但是,建立什么是解释和客观地评估可解释性,不是琐碎的任务。通过本文,我们提出了一种新的模型 - 不可知性的指标,以测量以客观方式测量(正确)信息的解释程度,利用普通语言哲学的特定理论模型,称为ACHINSTEIN的解释理论,通过依赖于算法实现知识图提取和信息检索的深语模型。为了了解这种度量是否实际表现为可解释性,我们已经设计了一些实验和用户研究,涉及超过160名参与者评估了使用包括人工神经网络的着名AI技术的医疗保健和金融的基于医疗保健和金融的基于医疗保健系统和treeshap。我们获得的结果非常令人鼓舞,这表明我们拟议的测量可解释程度的指标对若干情景是强大的,并且最终可以利用自动决策系统的合法影响评估。
translated by 谷歌翻译
大型语言模型,例如OpenAI的法典和DeepMind的字母,可以生成代码来解决以自然语言表达的各种问题。这项技术已经在至少一项广泛使用的编程编辑器扩展程序中进行了商业化:Github Copilot。在本文中,我们探讨了具有大型语言模型(LLM辅助编程)的编程与程序员协助的先前概念化相似,并且与众不同。我们借鉴了公开可用的经验报告,有关LLM辅助编程以及先前的可用性和设计研究。我们发现,尽管LLM辅助编程通过搜索和重用分享了一些编译,配对编程和编程的属性,但技术可能性和实践经验都存在根本差异。因此,应该将LLM辅助编程视为具有自己独特的属性和挑战的新方法。最后,我们借鉴了用户研究的观察结果,在该观察中,非专家最终用户程序员使用LLM辅助工具来求解电子表格中的数据任务。我们讨论可能出现的问题,并在将大型语言模型应用于最终用户编程时,尤其是对于几乎没有编程专业知识的用户。
translated by 谷歌翻译
随着AI系统表现出越来越强烈的预测性能,它们的采用已经在许多域中种植。然而,在刑事司法和医疗保健等高赌场域中,由于安全,道德和法律问题,往往是完全自动化的,但是完全手工方法可能是不准确和耗时的。因此,对研究界的兴趣日益增长,以增加人力决策。除了为此目的开发AI技术之外,人民AI决策的新兴领域必须采用实证方法,以形成对人类如何互动和与AI合作做出决定的基础知识。为了邀请和帮助结构研究努力了解理解和改善人为 - AI决策的研究,我们近期对本课题的实证人体研究的文献。我们总结了在三个重要方面的100多篇论文中的研究设计选择:(1)决定任务,(2)AI模型和AI援助要素,以及(3)评估指标。对于每个方面,我们总结了当前的趋势,讨论了现场当前做法中的差距,并列出了未来研究的建议。我们的调查强调了开发共同框架的需要考虑人类 - AI决策的设计和研究空间,因此研究人员可以在研究设计中进行严格的选择,研究界可以互相构建并产生更广泛的科学知识。我们还希望这项调查将成为HCI和AI社区的桥梁,共同努力,相互塑造人类决策的经验科学和计算技术。
translated by 谷歌翻译
适当的统计建模包含域理论关于概念如何相关的概念和如何测量数据的细节。但是,数据分析师目前缺乏以综合方式录制和推理关于域假设,数据收集和建模选择的工具支持,导致可能损害科学有效性的错误。例如,广义线性混合效果模型(GLMMS)有助于回答复杂的研究问题,但省略随机效应损害结果的易用性。为了解决这种需求,我们提出了Tisane,一个混合主动系统,用于创作具有和没有混合效应的广义线性模型。 Tisane介绍了一种研究设计规范语言,用于表达和询问变量之间的关系。 Tisane贡献了一个交互式编译过程,表示图表中的关系,Infers候选统计模型,并询问后续问题来消除用户查询来构造有效模型。在与三位研究人员的研究中,我们发现Tisane有助于他们专注于他们的目标和假设,同时避免过去的错误。
translated by 谷歌翻译
Many real-world applications of language models (LMs), such as code autocomplete and writing assistance, involve human-LM interaction, but the main LM benchmarks are non-interactive, where a system produces output without human intervention. To evaluate human-LM interaction, we develop a framework, Human-AI Language-based Interaction Evaluation (H-LINE), that expands non-interactive evaluation along three dimensions, capturing (i) the interactive process, not only the final output; (ii) the first-person subjective experience, not just a third-party assessment; and (iii) notions of preference beyond quality. We then design five tasks ranging from goal-oriented to open-ended to capture different forms of interaction. On four state-of-the-art LMs (three variants of OpenAI's GPT-3 and AI21's J1-Jumbo), we find that non-interactive performance does not always result in better human-LM interaction and that first-person and third-party metrics can diverge, suggesting the importance of examining the nuances of human-LM interaction.
translated by 谷歌翻译