随着人工智能在日常生活中越来越普遍,人类对了解其行为和决策的需求越来越大。关于可解释的AI的大多数研究都是基于一个理想的解释的前提。然而,实际上,每天的解释是在解释(解释者)与要解释的特定人员(解释)之间的对话中共同构建的。在本文中,我们介绍了对话解释的第一个语料库,以使NLP研究人类如何解释以及AI如何学会模仿这一过程。该语料库由有线视频系列\ emph {5级}中的65个转录的英语对话组成,向五个不同熟练程度的解释者解释了13个主题。所有1550个对话转弯都由五名独立专业人员手动标记为讨论的主题以及对话法和进行解释动作。我们分析了解释器和解释者的语言模式,并探讨了跨熟练程度的差异。基于BERT的基线结果表明,序列信息有助于预测主题,行动和有效移动
translated by 谷歌翻译
情绪分析中最突出的任务是为文本分配情绪,并了解情绪如何在语言中表现出来。自然语言处理的一个重要观察结果是,即使没有明确提及情感名称,也可以通过单独参考事件来隐式传达情绪。在心理学中,被称为评估理论的情感理论类别旨在解释事件与情感之间的联系。评估可以被形式化为变量,通过他们认为相关的事件的人们的认知评估来衡量认知评估。其中包括评估事件是否是新颖的,如果该人认为自己负责,是否与自己的目标以及许多其他人保持一致。这样的评估解释了哪些情绪是基于事件开发的,例如,新颖的情况会引起惊喜或不确定后果的人可能引起恐惧。我们在文本中分析了评估理论对情绪分析的适用性,目的是理解注释者是否可以可靠地重建评估概念,如果可以通过文本分类器预测,以及评估概念是否有助于识别情感类别。为了实现这一目标,我们通过要求人们发短信描述触发特定情绪并披露其评估的事件来编译语料库。然后,我们要求读者重建文本中的情感和评估。这种设置使我们能够衡量是否可以纯粹从文本中恢复情绪和评估,并为判断模型的绩效指标提供人体基准。我们将文本分类方法与人类注释者的比较表明,两者都可以可靠地检测出具有相似性能的情绪和评估。我们进一步表明,评估概念改善了文本中情绪的分类。
translated by 谷歌翻译
This volume contains revised versions of the papers selected for the third volume of the Online Handbook of Argumentation for AI (OHAAI). Previously, formal theories of argument and argument interaction have been proposed and studied, and this has led to the more recent study of computational models of argument. Argumentation, as a field within artificial intelligence (AI), is highly relevant for researchers interested in symbolic representations of knowledge and defeasible reasoning. The purpose of this handbook is to provide an open access and curated anthology for the argumentation research community. OHAAI is designed to serve as a research hub to keep track of the latest and upcoming PhD-driven research on the theory and application of argumentation in all areas related to AI.
translated by 谷歌翻译
There has been a recent resurgence in the area of explainable artificial intelligence as researchers and practitioners seek to make their algorithms more understandable. Much of this research is focused on explicitly explaining decisions or actions to a human observer, and it should not be controversial to say that looking at how humans explain to each other can serve as a useful starting point for explanation in artificial intelligence. However, it is fair to say that most work in explainable artificial intelligence uses only the researchers' intuition of what constitutes a 'good' explanation. There exists vast and valuable bodies of research in philosophy, psychology, and cognitive science of how people define, generate, select, evaluate, and present explanations, which argues that people employ certain cognitive biases and social expectations towards the explanation process. This paper argues that the field of explainable artificial intelligence should build on this existing research, and reviews relevant papers from philosophy, cognitive psychology/science, and social psychology, which study these topics. It draws out some important findings, and discusses ways that these can be infused with work on explainable artificial intelligence.
translated by 谷歌翻译
我们介绍了Sparrow,这是一个寻求信息的对话代理,与提示的语言模型基线相比,训练有素,更有帮助,正确和无害。我们使用从人类反馈中的强化学习来培训我们的模型,以帮助人类评估者判断代理人的行为。首先,为了使我们的代理人更有帮助和无害,我们将良好对话的要求分解为代理人应遵循的自然语言规则,并分别向评估者询问每个规则。我们证明,这种崩溃使我们能够收集对代理行为的更多针对性的人类判断,并允许更有效的规则条件奖励模型。其次,我们的代理商在收集对模型声明的偏好判决时提供了支持事实主张的来源的证据。对于事实问题,麻雀提供的证据支持了78%的时间。比基线比基线更享受麻雀,同时对人类的对抗性探测更具弹性,在探测时只有8%的时间违反了我们的规则。最后,我们进行了广泛的分析,表明尽管我们的模型学会遵守我们的规则,但它可以表现出分布偏见。
translated by 谷歌翻译
可解释的人工智能和可解释的机器学习是重要性越来越重要的研究领域。然而,潜在的概念仍然难以捉摸,并且缺乏普遍商定的定义。虽然社会科学最近的灵感已经重新分为人类受助人的需求和期望的工作,但该领域仍然错过了具体的概念化。通过审查人类解释性的哲学和社会基础,我们采取措施来解决这一挑战,然后我们转化为技术领域。特别是,我们仔细审查了算法黑匣子的概念,并通过解释过程确定的理解频谱并扩展了背景知识。这种方法允许我们将可解释性(逻辑)推理定义为在某些背景知识下解释的透明洞察(进入黑匣子)的解释 - 这是一个从事在Admoleis中理解的过程。然后,我们采用这种概念化来重新审视透明度和预测权力之间的争议权差异,以及对安特 - 人穴和后宫后解释者的影响,以及可解释性发挥的公平和问责制。我们还讨论机器学习工作流程的组件,可能需要可解释性,从以人为本的可解释性建立一系列思想,重点介绍声明,对比陈述和解释过程。我们的讨论调整并补充目前的研究,以帮助更好地导航开放问题 - 而不是试图解决任何个人问题 - 从而为实现的地面讨论和解释的人工智能和可解释的机器学习的未来进展奠定了坚实的基础。我们结束了我们的研究结果,重新审视了实现所需的算法透明度水平所需的人以人为本的解释过程。
translated by 谷歌翻译
许多政府举措(例如欧盟的GDPR)正在得出结论,即现代软件系统的越来越复杂程度必须与对这些工具的影响评估的一些权利和指标形成鲜明对比,使人们能够理解和监督产出自动化决策系统。可解释的ai诞生于允许人类探索和理解复杂系统的内部工作的途径。但是,建立什么是解释和客观地评估可解释性,不是琐碎的任务。通过本文,我们提出了一种新的模型 - 不可知性的指标,以测量以客观方式测量(正确)信息的解释程度,利用普通语言哲学的特定理论模型,称为ACHINSTEIN的解释理论,通过依赖于算法实现知识图提取和信息检索的深语模型。为了了解这种度量是否实际表现为可解释性,我们已经设计了一些实验和用户研究,涉及超过160名参与者评估了使用包括人工神经网络的着名AI技术的医疗保健和金融的基于医疗保健和金融的基于医疗保健系统和treeshap。我们获得的结果非常令人鼓舞,这表明我们拟议的测量可解释程度的指标对若干情景是强大的,并且最终可以利用自动决策系统的合法影响评估。
translated by 谷歌翻译
以人为中心的可解释人工智能(HCXAI)社区提出了将解释过程作为人与机器之间的对话进行构建。在该立场论文中,我们为基于文本的对话剂建立了Desiderata,能够使用自然语言进行交互方式解释神经模型的行为。从自然语言处理(NLP)研究的角度来看,我们设计了这种调解人的蓝图,以进行情感分析的任务,并评估当前的研究在基于对话的解释方面走上了多远。
translated by 谷歌翻译
随着近期自然语言生成(NLG)模型的各种应用程序的改进,它变得必须具有识别和评估NLG输出是否仅共享关于外部世界的可验证信息的手段。在这项工作中,我们提出了一个归属于识别的来源(AIS)的新评估框架,用于评估自然语言生成模型的输出,当这种输出涉及外部世界时。我们首先定义AIS,并引入两级注释管道,用于允许注释器根据AIS指南适当地评估模型输出。通过人为评估研究,我们在三个代数据集(会话QA域中的两个中和总结一下,概括地验证了这种方法,表明AIS可以作为测量模型生成的语句是否支持基础来源的常见框架。我们释放人类评估研究指南。
translated by 谷歌翻译
Explainable AI (XAI) is widely viewed as a sine qua non for ever-expanding AI research. A better understanding of the needs of XAI users, as well as human-centered evaluations of explainable models are both a necessity and a challenge. In this paper, we explore how HCI and AI researchers conduct user studies in XAI applications based on a systematic literature review. After identifying and thoroughly analyzing 85 core papers with human-based XAI evaluations over the past five years, we categorize them along the measured characteristics of explanatory methods, namely trust, understanding, fairness, usability, and human-AI team performance. Our research shows that XAI is spreading more rapidly in certain application domains, such as recommender systems than in others, but that user evaluations are still rather sparse and incorporate hardly any insights from cognitive or social sciences. Based on a comprehensive discussion of best practices, i.e., common models, design choices, and measures in user studies, we propose practical guidelines on designing and conducting user studies for XAI researchers and practitioners. Lastly, this survey also highlights several open research directions, particularly linking psychological science and human-centered XAI.
translated by 谷歌翻译
为了提高模型透明度并允许用户形成训练有素的ML模型的心理模型,解释对AI和机器学习(ML)社区的兴趣越来越高。但是,解释可以超越这种方式通信作为引起用户控制的机制,因为一旦用户理解,他们就可以提供反馈。本文的目的是介绍研究概述,其中解释与交互式功能相结合,是从头开始学习新模型并编辑和调试现有模型的手段。为此,我们绘制了最先进的概念图,根据其预期目的以及它们如何构建相互作用,突出它们之间的相似性和差异来分组相关方法。我们还讨论开放研究问题并概述可能的方向,希望促使人们对这个开花研究主题进行进一步的研究。
translated by 谷歌翻译
深度学习的最新进展,尤其是编码器架构的发明,已大大改善了抽象性摘要系统的性能。尽管大多数研究都集中在书面文件上,但我们观察到过去几年对对话和多方对话的总结越来越兴趣。一个可以可靠地将人类对话的音频或笔录转换为删节版本的系统,该版本在讨论中最重要的一点上可以在各种现实世界中,从商务会议到医疗咨询再到客户都有价值服务电话。本文着重于多党会议的抽象性摘要,对与此任务相关的挑战,数据集和系统进行了调查,并讨论了未来研究的有希望的方向。
translated by 谷歌翻译
过去十年已经看到人工智能(AI)的显着进展,这导致了用于解决各种问题的算法。然而,通过增加模型复杂性并采用缺乏透明度的黑匣子AI模型来满足这种成功。为了响应这种需求,已经提出了说明的AI(Xai)以使AI更透明,从而提高关键结构域中的AI。虽然有几个关于Xai主题的Xai主题的评论,但在Xai中发现了挑战和潜在的研究方向,这些挑战和研究方向被分散。因此,本研究为Xai组织的挑战和未来的研究方向提出了系统的挑战和未来研究方向:(1)基于机器学习生命周期的Xai挑战和研究方向,基于机器的挑战和研究方向阶段:设计,开发和部署。我们认为,我们的META调查通过为XAI地区的未来探索指导提供了XAI文学。
translated by 谷歌翻译
媒体报道对公众对事件的看法具有重大影响。尽管如此,媒体媒体经常有偏见。偏见新闻文章的一种方法是改变选择一词。通过单词选择对偏见的自动识别是具有挑战性的,这主要是由于缺乏黄金标准数据集和高环境依赖性。本文介绍了Babe,这是由训练有素的专家创建的强大而多样化的数据集,用于媒体偏见研究。我们还分析了为什么专家标签在该域中至关重要。与现有工作相比,我们的数据集提供了更好的注释质量和更高的通知者协议。它由主题和插座之间平衡的3,700个句子组成,其中包含单词和句子级别上的媒体偏见标签。基于我们的数据,我们还引入了一种自动检测新闻文章中偏见的句子的方法。我们最佳性能基于BERT的模型是在由遥远标签组成的较大语料库中进行预训练的。对我们提出的监督数据集进行微调和评估模型,我们达到了0.804的宏F1得分,表现优于现有方法。
translated by 谷歌翻译
Incivility remains a major challenge for online discussion platforms, to such an extent that even conversations between well-intentioned users can often derail into uncivil behavior. Traditionally, platforms have relied on moderators to -- with or without algorithmic assistance -- take corrective actions such as removing comments or banning users. In this work we propose a complementary paradigm that directly empowers users by proactively enhancing their awareness about existing tension in the conversation they are engaging in and actively guides them as they are drafting their replies to avoid further escalation. As a proof of concept for this paradigm, we design an algorithmic tool that provides such proactive information directly to users, and conduct a user study in a popular discussion platform. Through a mixed methods approach combining surveys with a randomized controlled experiment, we uncover qualitative and quantitative insights regarding how the participants utilize and react to this information. Most participants report finding this proactive paradigm valuable, noting that it helps them to identify tension that they may have otherwise missed and prompts them to further reflect on their own replies and to revise them. These effects are corroborated by a comparison of how the participants draft their reply when our tool warns them that their conversation is at risk of derailing into uncivil behavior versus in a control condition where the tool is disabled. These preliminary findings highlight the potential of this user-centered paradigm and point to concrete directions for future implementations.
translated by 谷歌翻译
自动错误通常涉及培训数据和学习过程,调试机器学习模型很难。如果我们没有关于模型如何实际工作的线索,这变得更加困难。在这项调查中,我们审查了利用解释的论文使人类提供反馈和调试NLP模型。我们称这个问题解释为基础的人类调试(EBHD)。特别是,我们沿着EBHD的三个维度(错误上下文,工作流程和实验设置)分类和讨论现有工作,编译EBHD组件如何影响反馈提供商的调查结果,并突出可能是未来的研究方向的打开问题。
translated by 谷歌翻译
我们介绍了游戏(丁)的对话,这是一本关于现实生活,口头,自发的多方对话的手动抄录,棋盘游戏Catan的法语玩家之间的对话。我们的目标是为法语提供高质量的资源,由长时间的对话组成,以促进他们的研究风格(Asher等,2016)。在一般的对话环境中,参与者共享个人信息,这使得不可能自由公开地传播资源。在丁(Ding)中,参与者的注意力集中在游戏上,这阻止了他们谈论自己。此外,我们正在通过注释(Cruz Blandon等,2019)对对话中问题的性质进行研究,以开发更自然的自动对话系统。
translated by 谷歌翻译
作为人工智能(AI)的技术子领域,可解释的AI(XAI)已经产生了广泛的算法集合,为研究人员和从业者提供了一个工具箱,用于构建XAI应用程序。凭借丰富的应用机会,解释性已经超越了数据科学家或研究人员的需求,以了解他们发展的模型,成为人们信任的重要要求,并采用部署在众多域中的AI。然而,解释性是一种本质上以人为本的财产,该领域开始接受以人为本的方法。人机互动(HCI)研究和用户体验(UX)设计在该地区的设计越来越重要。在本章中,我们从Xai算法技术景观的高级概述开始,然后选择性地调查我们自己和其他最近的HCI工作,以便以人为本的设计,评估,为Xai提供概念和方法工具。我们询问问题``以人为本的方式为Xai'做了什么,并突出了三个角色,通过帮助导航,评估和扩展Xai工具箱来塑造XAI技术的三个角色:通过用户解释性需要推动技术选择揭示现有XAI方法的缺陷,并通知新方法,为人类兼容的XAI提供概念框架。
translated by 谷歌翻译
Any organization needs to improve their products, services, and processes. In this context, engaging with customers and understanding their journey is essential. Organizations have leveraged various techniques and technologies to support customer engagement, from call centres to chatbots and virtual agents. Recently, these systems have used Machine Learning (ML) and Natural Language Processing (NLP) to analyze large volumes of customer feedback and engagement data. The goal is to understand customers in context and provide meaningful answers across various channels. Despite multiple advances in Conversational Artificial Intelligence (AI) and Recommender Systems (RS), it is still challenging to understand the intent behind customer questions during the customer journey. To address this challenge, in this paper, we study and analyze the recent work in Conversational Recommender Systems (CRS) in general and, more specifically, in chatbot-based CRS. We introduce a pipeline to contextualize the input utterances in conversations. We then take the next step towards leveraging reverse feature engineering to link the contextualized input and learning model to support intent recognition. Since performance evaluation is achieved based on different ML models, we use transformer base models to evaluate the proposed approach using a labelled dialogue dataset (MSDialogue) of question-answering interactions between information seekers and answer providers.
translated by 谷歌翻译
Covid-19大流行的发作使风险的心理健康带来了。社会咨询在这种环境中取得了显着意义。与一般面向目标的对话不同,患者和治疗师之间的对话是相当明暗的,尽管谈话的目标非常明显。在这种情况下,了解患者的目的在提供治疗会话中提供有效咨询方面是必要的,同样适用于对话系统。在这项工作中,我们前进是一个小小的一步,在开发精神健康咨询的自动对话系统中。我们开发一个名为HOPE的新型数据集,为咨询谈话中的对话行为分类提供平台。我们确定此类对话的要求,并提出了12个域特定的对话法(DAC)标签。我们收集12.9k的话语从youtube上公开的咨询会话视频,用DAC标签提取他们的成绩单,清洁并注释它们。此外,我们提出了一种基于变压器的架构的Sparta,具有新颖的扬声器和时间感知的语境学习,用于对话行动分类。我们的评价显示了若干基线的令人信服的表现,实现了最先进的希望。我们还通过对Sparta进行广泛的实证和定性分析来补充我们的实验。
translated by 谷歌翻译