在最近的工作中已显示出一种模式指导的对话管理方法,可以有效地创建能够充当友好同行或任务助理的强大定制虚拟代理。但是,这些方法在开放式,混合初始性领域中的成功应用仍然难以捉摸 - 尤其是在诸如虚拟标准化患者之类的医疗领域,在这种复杂的互动很常见的情况下 - 比以前的系统需要更广泛,更灵活的对话管理能力提供。在本文中,我们描述了用于开发索菲(Sophie)的通用架构指导的对话管理框架,Sophie是一种虚拟标准化的癌症患者,可让医生方便地练习与患者的互动。我们对医学生和索菲之间的对话进行了众包评估。我们的经纪人被认为是自然,情感上适当的反应,并且与她作为癌症患者的角色一致。此外,它大大优于对人类标准化患者语料库进行微调的端到端神经模型,这证明了模式引导方法的优势。
translated by 谷歌翻译
我们提出了一个开放域的社交聊天机器人Chirpy Cardinal。为了既有信息又有信息,我们的机器人以一种真实的,情感上的方式与用户聊天。通过将受控的神经产生与脚手架,手写的对话整合在一起,我们让用户和机器人都轮流推动对话,从而产生引人入胜且流利的体验。Chirpy Cardinal部署在Alexa奖Socialbot Grand Challenge的第四次迭代中,每天处理数千次对话,在9个机器人中排名第二,平均用户评级为3.58/5。
translated by 谷歌翻译
Any organization needs to improve their products, services, and processes. In this context, engaging with customers and understanding their journey is essential. Organizations have leveraged various techniques and technologies to support customer engagement, from call centres to chatbots and virtual agents. Recently, these systems have used Machine Learning (ML) and Natural Language Processing (NLP) to analyze large volumes of customer feedback and engagement data. The goal is to understand customers in context and provide meaningful answers across various channels. Despite multiple advances in Conversational Artificial Intelligence (AI) and Recommender Systems (RS), it is still challenging to understand the intent behind customer questions during the customer journey. To address this challenge, in this paper, we study and analyze the recent work in Conversational Recommender Systems (CRS) in general and, more specifically, in chatbot-based CRS. We introduce a pipeline to contextualize the input utterances in conversations. We then take the next step towards leveraging reverse feature engineering to link the contextualized input and learning model to support intent recognition. Since performance evaluation is achieved based on different ML models, we use transformer base models to evaluate the proposed approach using a labelled dialogue dataset (MSDialogue) of question-answering interactions between information seekers and answer providers.
translated by 谷歌翻译
诸如说服力之类的复杂对话设置涉及交流态度或行为的变化,因此即使与主题没有直接相关,用户的观点也需要解决。在这项工作中,我们贡献了一个新颖的模块化对话系统框架,该框架将事实信息和社会内容无缝地整合到有说服力的对话中。我们的框架可以推广到任何混合社交和任务内容的对话任务。我们进行了一项研究,将用户对框架的评估与基线端到端生成模型进行了比较。我们发现,与没有明确处理社交内容或事实问题的端到端模型相比,我们的框架在包括能力和友善的各个方面更受欢迎。
translated by 谷歌翻译
以任务为导向的对话系统(TODS)继续升高,因为各种行业发现有效地利用其能力,节省时间和金钱。然而,即使是最先进的TOD尚未达到其全部潜力。TOD通常具有主要设计专注于完成手头的任务,因此任务分辨率的度量应优先考虑。可能会忽略可能指向对话的其他可能指向成功或其他方面的会话质量属性。这可能导致人类和对话系统之间的相互作用,让用户不满意或沮丧。本文探讨了对话系统的评价框架的文献,以及对话系统中的会话质量属性的作用,看起来,如何以及在与对话系统的性能相关的情况下,如何相关。
translated by 谷歌翻译
我们展示了一个基于逻辑推理的新型对话管理方法的聊天栏。除了帧对话一系列响应生成任务,我们将对话作为协作推断过程,其中扬声器共享信息以实时地合成新知识。我们的Chatbot管道在三个广泛的阶段完成了这种建模。第一阶段将用户话语转换为符号谓词表示。然后,第二阶段与更大的知识库结合使用这种结构化表示来合成使用有效的图形匹配来扫描新谓词。在第三阶段和最后阶段,我们的机器人选择一个小的谓词子集并将它们转化为英语响应。这种方法为了解用户输入的潜在语义,灵活的主动措施以及与对话背景相干的响应。
translated by 谷歌翻译
我们介绍了Sparrow,这是一个寻求信息的对话代理,与提示的语言模型基线相比,训练有素,更有帮助,正确和无害。我们使用从人类反馈中的强化学习来培训我们的模型,以帮助人类评估者判断代理人的行为。首先,为了使我们的代理人更有帮助和无害,我们将良好对话的要求分解为代理人应遵循的自然语言规则,并分别向评估者询问每个规则。我们证明,这种崩溃使我们能够收集对代理行为的更多针对性的人类判断,并允许更有效的规则条件奖励模型。其次,我们的代理商在收集对模型声明的偏好判决时提供了支持事实主张的来源的证据。对于事实问题,麻雀提供的证据支持了78%的时间。比基线比基线更享受麻雀,同时对人类的对抗性探测更具弹性,在探测时只有8%的时间违反了我们的规则。最后,我们进行了广泛的分析,表明尽管我们的模型学会遵守我们的规则,但它可以表现出分布偏见。
translated by 谷歌翻译
机器学习(ML)模型越来越多地用于在现实世界应用中做出关键决策,但它们也变得更加复杂,使它们更难理解。为此,已经提出了几种解释模型预测的技术。但是,从业人员努力利用解释,因为他们通常不知道该使用哪个,如何解释结果,并且可能没有足够的数据科学经验来获得解释。此外,大多数当前的作品都集中在生成一声解释上,并且不允许用户跟进并提出有关解释的细粒度问题,这可能会令人沮丧。在这项工作中,我们通过引入TalkTomodel:一个开放式对话系统来解决这些挑战,以了解机器学习模型。具体而言,TalkTomodel包括三个关键组成部分:1)用于参与对话的自然语言接口,使理解高度访问的ML模型,2)适应任何表格模型和数据集的对话引擎,解释自然语言,将其映射到适当的操作(例如,特征重要性解释,反事实说明,显示模型错误)并生成文本响应,3)执行组件运行操作并确保说明准确。我们对TalkTomodel进行了定量和人类的主题评估。我们发现该系统以高精度了解新颖数据集和模型上的用户问题,这表明了系统将其推广到新情况的能力。在人类评估中,有73%的医护人员(例如,医生和护士)同意他们将使用TalkTomodel对基线点击系统使用,而84.6%的ML研究生同意TalkTomodel更容易使用。
translated by 谷歌翻译
在现实世界中的对话系统中,生成的响应必须满足几个互锁的限制:内容丰富,真实且易于控制。语言生成中的两个主要范式 - 神经语言建模和基于规则的一代 - 都难以满足这些约束。即使是最好的神经模型,也容易出现信息的幻觉和省略,而现有的基于规则的形式的形式使得很难编写既灵活又流利的语法。我们描述了对话响应产生的混合体系结构,结合了两种方法的优势。该体系结构有两个组件。首先,使用新的正式框架定义的基于规则的内容选择模型,称为数据流转导,该模型使用声明性规则将对话代理的计算(表示为数据流图)转换为代表上下文可接受响应空间的无上下文语法。其次,使用这些语法来限制神经语言模型的输出的受约束解码过程,该过程选择流利的话语。最终的系统在人类对流利,相关性和真实性的评估中的表现都优于基于规则的方法和学识渊博的方法。
translated by 谷歌翻译
雅典娜2.0是一家亚历克萨奖的社会奖,这是最后两个Alexa奖奖挑战的决赛。雅典娜成功的一个原因是其新的对话管理战略,它允许它动态构建组件模块的对话和响应,导致每个互动的新型对话。在这里,我们在20/21竞争期间描述了Athena的Alexa奖的系统设计和性能。雅典娜的活跃演示以及视频录音将挑起对话AI的艺术状态的讨论。
translated by 谷歌翻译
在与用户进行交流时,以任务为导向的对话系统必须根据对话历史记录在每个回合时跟踪用户的需求。这个称为对话状态跟踪(DST)的过程至关重要,因为它直接告知下游对话政策。近年来,DST引起了很大的兴趣,文本到文本范式作为受欢迎的方法。在本评论论文中,我们首先介绍任务及其相关的数据集。然后,考虑到最近出版的大量出版物,我们确定了2021 - 2022年研究的重点和研究进展。尽管神经方法已经取得了重大进展,但我们认为对话系统(例如概括性)的某些关键方面仍未得到充实。为了激励未来的研究,我们提出了几种研究途径。
translated by 谷歌翻译
Even though machine learning has become the major scene in dialogue research community, the real breakthrough has been blocked by the scale of data available. To address this fundamental obstacle, we introduce the Multi-Domain Wizard-of-Oz dataset (MultiWOZ), a fully-labeled collection of human-human written conversations spanning over multiple domains and topics. At a size of 10k dialogues, it is at least one order of magnitude larger than all previous annotated task-oriented corpora. The contribution of this work apart from the open-sourced dataset labelled with dialogue belief states and dialogue actions is two-fold: firstly, a detailed description of the data collection procedure along with a summary of data structure and analysis is provided. The proposed data-collection pipeline is entirely based on crowd-sourcing without the need of hiring professional annotators; secondly, a set of benchmark results of belief tracking, dialogue act and response generation is reported, which shows the usability of the data and sets a baseline for future studies.
translated by 谷歌翻译
我们提出了Tacobot,这是为首届Alexa Prive Taskbot Challenge构建的面向任务的对话系统,该系统可帮助用户完成多步骤烹饪和家庭装修任务。Tacobot的设计采用以用户为中心的原则,并渴望提供协作且易于访问的对话体验。为此,它具有准确的语言理解,灵活的对话管理和引人入胜的响应生成。此外,Tacobot还以强大的搜索引擎和自动化的端到端测试套件为支持。在引导Tacobot的开发中,我们探索了一系列数据增强策略,以训练先进的神经语言处理模型,并通过收集的真实对话不断改善对话经验。在半决赛结束时,Tacobot的平均评分为3.55/5.0。
translated by 谷歌翻译
在口头对话系统中,我们的目标是部署人工智能,以建立可以与人类交流的自动化对话剂。对话系统越来越多地旨在超越仅仅模仿对话,而且随着时间的推移,这些交互也会改善。在本次调查中,我们概述了多年来制定对话系统的方法的广泛概述。对话系统的不同用例范围从基于任务的系统到开放域聊天动机和需要特定的系统。从简单的规则的系统开始,研究已经朝着越来越复杂的建筑培训,这些建筑在大规模的数据集语料库中培训,如深度学习系统。激进了类似人类对话的直觉,通过加强学习将情绪纳入自然语言发生器的进展。虽然我们看到对某些指标的高度边际改善的趋势,但我们发现指标存在有限的理由,评估实践并不统一。要得出结论,我们标志着这些问题并突出了可能的研究方向。
translated by 谷歌翻译
我们提出了Blenderbot 3,这是一个175B参数对话模型,能够通过访问Internet和长期内存进行开放域对话,并接受了大量用户定义的任务的培训。我们同时发布了模型权重和代码,还将模型部署在公共网页上,以与有机用户进行交互。该技术报告描述了该模型的构建方式(建筑,模型和培训计划)以及其部署的细节,包括安全机制。人类评估表明,它优于现有的开放域对话代理,包括其前身(Roller等,2021; Komeili等,2022)。最后,我们使用部署收集的数据详细介绍了持续学习的计划,该数据也将公开发布。因此,该研究计划的目标是使社区能够研究通过互动学习的不断改进的负责任的代理商。
translated by 谷歌翻译
Functionality and dialogue experience are two important factors of task-oriented dialogue systems. Conventional approaches with closed schema (e.g., conversational semantic parsing) often fail as both the functionality and dialogue experience are strongly constrained by the underlying schema. We introduce a new paradigm for task-oriented dialogue - Dialog2API - to greatly expand the functionality and provide seamless dialogue experience. The conversational model interacts with the environment by generating and executing programs triggering a set of pre-defined APIs. The model also manages the dialogue policy and interact with the user through generating appropriate natural language responses. By allowing generating free-form programs, Dialog2API supports composite goals by combining different APIs, whereas unrestricted program revision provides natural and robust dialogue experience. To facilitate Dialog2API, the core model is provided with API documents, an execution environment and optionally some example dialogues annotated with programs. We propose an approach tailored for the Dialog2API, where the dialogue states are represented by a stack of programs, with most recently mentioned program on the top of the stack. Dialog2API can work with many application scenarios such as software automation and customer service. In this paper, we construct a dataset for AWS S3 APIs and present evaluation results of in-context learning baselines.
translated by 谷歌翻译
本文将社会实践的模型描述为一种理论框架,可以管理与培训沟通技能培训医生的特定目标的对话。为了这个目标,在交流中管理对话的域推理器!\ cite {jeuring}认真的游戏被视为基础。由于在某种情况下选择特定的社会实践是非平凡的,因此我们使用概率模型来选择社会实践,以作为实施符合社会实践模型的代理体系结构的一步。
translated by 谷歌翻译
随着未来以数据为中心的决策,对数据库的无缝访问至关重要。关于创建有效的文本到SQL(Text2SQL)模型以访问数据库的数据有广泛的研究。使用自然语言是可以通过有效访问数据库(尤其是对于非技术用户)来弥合数据和结果之间差距的最佳接口之一。它将打开门,并在精通技术技能或不太熟练的查询语言的用户中引起极大的兴趣。即使提出或研究了许多基于深度学习的算法,在现实工作场景中使用自然语言来解决数据查询问题仍然非常具有挑战性。原因是在不同的研究中使用不同的数据集,这带来了其局限性和假设。同时,我们确实缺乏对这些提议的模型及其对其训练的特定数据集的局限性的彻底理解。在本文中,我们试图介绍过去几年研究的24种神经网络模型的整体概述,包括其涉及卷积神经网络,经常性神经网络,指针网络,强化学习,生成模型等的架构。我们还概述11个数据集,这些数据集被广泛用于训练Text2SQL技术的模型。我们还讨论了无缝数据查询中文本2SQL技术的未来应用可能性。
translated by 谷歌翻译
The goal of building dialogue agents that can converse with humans naturally has been a long-standing dream of researchers since the early days of artificial intelligence. The well-known Turing Test proposed to judge the ultimate validity of an artificial intelligence agent on the indistinguishability of its dialogues from humans'. It should come as no surprise that human-level dialogue systems are very challenging to build. But, while early effort on rule-based systems found limited success, the emergence of deep learning enabled great advance on this topic. In this thesis, we focus on methods that address the numerous issues that have been imposing the gap between artificial conversational agents and human-level interlocutors. These methods were proposed and experimented with in ways that were inspired by general state-of-the-art AI methodologies. But they also targeted the characteristics that dialogue systems possess.
translated by 谷歌翻译
我们提出了一种基于情节知识图(EKG)的新方法,用于评估开放域中的(多模式)对话剂。该图是通过解释对话过程中的原始信号而生成的,并且能够随着时间的推移捕获知识的积累。我们应用对所得图的结构和语义分析,并将这些属性转化为定性措施。我们将这些措施与通常用于对话代理的现有自动和手动评估指标进行比较。我们的结果表明,我们的基于知识的评估为互动和代理人的行为提供了更多的定性见解。
translated by 谷歌翻译