This paper investigates unsupervised approaches to overcome quintessential challenges in designing task-oriented dialog schema: assigning intent labels to each dialog turn (intent clustering) and generating a set of intents based on the intent clustering methods (intent induction). We postulate there are two salient factors for automatic induction of intents: (1) clustering algorithm for intent labeling and (2) user utterance embedding space. We compare existing off-the-shelf clustering models and embeddings based on DSTC11 evaluation. Our extensive experiments demonstrate that we sholud add two huge caveat that selection of utterance embedding and clustering method in intent induction task should be very careful. We also present that pretrained MiniLM with Agglomerative clustering shows significant improvement in NMI, ARI, F1, accuracy and example coverage in intent induction tasks. The source code for reimplementation will be available at Github.
translated by 谷歌翻译
意图理解在对话系统中发挥着重要作用,通常被制定为监督的学习问题。然而,从头开始设计新领域的意图是挑战性和耗时的,通常需要很多人工域专家的手动努力。本文提出了一种无监督的两阶段方法来发现意图,并从域中的未标记的话语集合自动生成有意义的意图标签。在第一阶段,我们的目标是生成一组语义相干群集,其中每个簇内的话语传达相同的意图。我们从各种预先训练的句子嵌入中获取话语表示,并呈现平衡分数的度量,以确定用于平衡数据集的K-means群集中的k-means群集中的最佳簇数。在第二阶段,目标是为每个群集自动生成意图标签。我们使用依赖性解析器从每个话语中提取动作对象对,并在每个群集中采取最常用的对,例如书籍餐厅,作为生成的意图标签。我们经验证明,提出的无监督方法可以自动生成有意义的意图标签,并在话语聚类和意图发现中实现高精度并召回。
translated by 谷歌翻译
学习高质量的对话表示对于解决各种面向对话的任务至关重要,尤其是考虑到对话系统通常会遇到数据稀缺。在本文中,我们介绍了对话句子嵌入(DSE),这是一种自我监督的对比学习方法,它学习有效的对话表示,适合各种对话任务。 DSE通过连续进行与对比度学习的正面对话的连续对话来从对话中学习。尽管它很简单,但DSE的表现能力比其他对话表示和普遍的句子表示模型要好得多。我们评估DSE的五个下游对话任务,这些任务检查了不同语义粒度的对话表示。几次射击和零射击设置的实验表明,DSE的表现要优于基线。例如,它在6个数据集中的1-Shot意图分类中比最强的无监督基线实现了13%的平均绩效提高。我们还提供了有关模型的好处和局限性的分析。
translated by 谷歌翻译
体现的代理需要能够在自然语言中互动理解任务描述,并提出适当的后续问题以获取必要的信息,以有效地成功完成各种用户的任务。在这项工作中,我们提出了一组对话框,用于建模此类对话框,并注释教学数据集,其中包括3,000多个位置,以任务为导向的对话(总计包含39.5k个话语),并具有对话框ACT。 Teach-da是对Dialog ACT的第一个大型数据集注释,用于具体任务完成。此外,我们在培训模型中证明了该注释的数据集在标记给定话语的对话框行为中的使用,预测给定对话框历史记录的下一个响应的对话框行为,并使用对话框行为指导代理商的非第二语言行为。特别是,我们对对话记录任务的教学执行执行的实验,该模型预测在体现任务完成环境中要执行的低级操作的顺序,证明对话框行为可以将最终任务成功提高2分,以提高最终任务成功率到没有对话行为的系统。
translated by 谷歌翻译
转移学习技术和预先培训的最新进展,大型上下文编码器在包括对话助理在内的现实应用程序中促进了创新。意图识别的实际需求需要有效的数据使用,并能够不断更新支持意图,采用新的意图并放弃过时的意图。尤其是,对模型的广义零拍范例,该模型受到了可见意图的训练并在可见和看不见的意图上进行了测试,这是新的重要性。在本文中,我们探讨了用于意图识别的广义零拍设置。遵循零击文本分类的最佳实践,我们使用句子对建模方法对待任务。对于看不见的意图,使用意图标签和用户话语,而无需访问外部资源(例如知识库),我们的表现优于先前的最先进的F1量化,最多可达16 \%。进一步的增强包括意图标签的词汇化,可提高性能高达7%。通过使用从其他句子对任务(例如自然语言推论)转移的任务传输,我们会获得其他改进。
translated by 谷歌翻译
对于具有客户服务的公司,其对话数据中的映射意图对于基于自然语言理解(NLU)构建应用程序至关重要。但是,尚无既定的自动化技术来收集嘈杂的在线聊天或语音成绩单中的意图。简单的聚类方法不适合意图对话。为了解决这项意图景观任务,我们提出了一条无监督的管道,从现实世界对话中提取意图和分类。我们的管道地雷意向跨候选者具有提取性问题的电气模型,并利用句子的嵌入来应用低级密度聚类,然后是顶级分层聚类。我们的结果表明,在Squad2数据集上微调的Electra大型模型的概括能力以了解对话。有了正确的提示问题,该模型实现了对意图的语言验证率超过85%。我们此外,从多道数据集中重建了五个域的意图方案,平均召回率为94.3%。
translated by 谷歌翻译
具有对比性学习目标的预训练方法在对话了解任务中表现出了显着的成功。但是,当前的对比学习仅将自调查的对话样本视为正样本,并将所有其他对话样本视为负面样本,即使在语义上相关的对话框中,也会强制执行不同的表示。在本文中,我们提出了一个树木结构化的预培训对话模型Space-2,该模型从有限标记的对话框和大规模的无标记的对话框COLPORA通过半监督的对比度预培训来学习对话框表示。具体而言,我们首先定义一个通用的语义树结构(STS),以统一不同对话框数据集的注释模式,以便可以利用所有标记数据中存储的丰富结构信息。然后,我们提出了一个新颖的多视图分数功能,以增加共享类似STS的所有可能对话框的相关性,并且在监督的对比预训练期间仅推开其他完全不同的对话框。为了充分利用未标记的对话,还增加了基本的自我监督对比损失,以完善学习的表示。实验表明,我们的方法可以在DialogLue基准测试中实现新的最新结果,该基准由七个数据集和四个流行的对话框组成。为了获得可重复性,我们在https://github.com/alibabaresearch/damo-convai/tree/main/main/space-2上发布代码和数据。
translated by 谷歌翻译
意图检测是对话助手的任何自然语言理解(NLU)系统的关键部分。对于存在多个指令和意图的电子邮件对话,检测正确的意图是必不可少的,但很难。在这种设置中,对话上下文可以成为检测助手的用户请求的关键歧义因素。合并上下文的一种突出方法是建模过去的对话历史,例如以任务为导向的对话模型。但是,电子邮件对话的性质(长形式)限制了直接使用面向任务的对话模型中最新进展。因此,在本文中,我们提供了一个有效的转移学习框架(EMTOD),该框架允许对话模型中的最新开发方式用于长形式的对话。我们表明,提出的EMTOD框架将预训练的语言模型的意图检测性能提高了45%,而预先培训的对话模型则提高了30%,以实现任务为导向的电子邮件对话。此外,提出的框架的模块化性质允许在预训练的语言和面向任务的对话模型中为未来的任何发展提供插件。
translated by 谷歌翻译
We present BotSIM, a data-efficient end-to-end Bot SIMulation toolkit for commercial text-based task-oriented dialog (TOD) systems. BotSIM consists of three major components: 1) a Generator that can infer semantic-level dialog acts and entities from bot definitions and generate user queries via model-based paraphrasing; 2) an agenda-based dialog user Simulator (ABUS) to simulate conversations with the dialog agents; 3) a Remediator to analyze the simulated conversations, visualize the bot health reports and provide actionable remediation suggestions for bot troubleshooting and improvement. We demonstrate BotSIM's effectiveness in end-to-end evaluation, remediation and multi-intent dialog generation via case studies on two commercial bot platforms. BotSIM's "generation-simulation-remediation" paradigm accelerates the end-to-end bot evaluation and iteration process by: 1) reducing manual test cases creation efforts; 2) enabling a holistic gauge of the bot in terms of NLU and end-to-end performance via extensive dialog simulation; 3) improving the bot troubleshooting process with actionable suggestions. A demo of our system can be found at https://tinyurl.com/mryu74cd and a demo video at https://youtu.be/qLi5iSoly30. We have open-sourced the toolkit at https://github.com/salesforce/botsim
translated by 谷歌翻译
预训练的语言模型在对话任务上取得了长足的进步。但是,这些模型通常在表面对话文本上进行训练,因此被证明在理解对话环境的主要语义含义方面是薄弱的。我们研究抽象含义表示(AMR)作为预训练模型的明确语义知识,以捕获预训练期间对话中的核心语义信息。特别是,我们提出了一个基于语义的前训练框架,该框架通过三个任务来扩展标准的预训练框架(Devlin等,2019)。根据AMR图表示。关于聊天聊天和面向任务的对话的理解的实验表明了我们的模型的优势。据我们所知,我们是第一个利用深层语义表示进行对话预训练的人。
translated by 谷歌翻译
意图发现是NLP的一项基本任务,它与各种工业应用越来越相关(Quarteroni 2018)。主要的挑战在于需要从投入性话语中识别出新颖的范围。在此,我们提出了Z-Bert-A,这是一种依赖变压器结构的两阶段方法(Vaswani等人,2017; Devlin等人,2018年),用适配器进行了微调(Pfeiffer等,2020),,),等等。最初接受了自然语言推断(NLI)的培训,后来在零射击设置中申请了未知的内部分类。在我们的评估中,我们首先在已知类别的自适应微调后分析模型的质量。其次,我们将其性能铸造意图分类评估为NLI任务。最后,我们在看不见的类别上测试了模型的零射击性能,以表明Z-Bert-A可以通过产生与地面真实者的语义相似(即使不是平等)的意图,如何有效地执行周期发现。我们的实验表明,Z-Bert-A在两个零射击设置中的表现如何超过各种基线:已知意图分类和看不见的意图发现。拟议的管道具有广泛应用于各种客户服务应用程序的潜力。它可以使用轻巧的模型来实现自动化动态分流,该模型与大型语言模型不同,可以轻松地在各种业务场景中进行部署和缩放。尤其是在考虑具有有限的硬件可用性和性能的设置时,必须进行原始或资源云部署低的设置。 Z-Bert-A可以从单一话语中预测新颖的意图,代表了一种创新的意图发现方法,从而使在线一代的新颖意图能够。该管道可作为可安装的Python软件包获得以下链接:https://github.com/gt4sd/zberta。
translated by 谷歌翻译
由于人类参与者的参与,收集培训对话系统的数据可能非常昂贵,并且需要广泛的注释。特别是在文档接地的对话系统中,人类专家需要仔细阅读非结构化文件以回答用户的问题。结果,现有的文档接地对话对话数据集相对较小,并且妨碍了对话系统的有效培训。在本文中,我们提出了一种通过生成对话模型在文档上接地的自动数据增强技术。对话模型由用户BOT和代理机器人组成,可以在给定输入文档的情况下合成不同的对话,然后用于训练下游模型。在补充原始数据集时,我们的方法可以实现对传统数据增强方法的显着改进。我们还在低资源环境中实现了良好的性能。
translated by 谷歌翻译
Task-oriented dialog(TOD) aims to assist users in achieving specific goals through multi-turn conversation. Recently, good results have been obtained based on large pre-trained models. However, the labeled-data scarcity hinders the efficient development of TOD systems at scale. In this work, we constructed a weakly supervised dataset based on a teacher/student paradigm that leverages a large collection of unlabelled dialogues. Furthermore, we built a modular dialogue system and integrated coarse-to-fine grained classification for user intent detection. Experiments show that our method can reach the dialog goal with a higher success rate and generate more coherent responses.
translated by 谷歌翻译
Harvesting question-answer (QA) pairs from customer service chatlog in the wild is an efficient way to enrich the knowledge base for customer service chatbots in the cold start or continuous integration scenarios. Prior work attempts to obtain 1-to-1 QA pairs from growing customer service chatlog, which fails to integrate the incomplete utterances from the dialog context for composite QA retrieval. In this paper, we propose N-to-N QA extraction task in which the derived questions and corresponding answers might be separated across different utterances. We introduce a suite of generative/discriminative tagging based methods with end-to-end and two-stage variants that perform well on 5 customer service datasets and for the first time setup a benchmark for N-to-N DialogQAE with utterance and session level evaluation metrics. With a deep dive into extracted QA pairs, we find that the relations between and inside the QA pairs can be indicators to analyze the dialogue structure, e.g. information seeking, clarification, barge-in and elaboration. We also show that the proposed models can adapt to different domains and languages, and reduce the labor cost of knowledge accumulation in the real-world product dialogue platform.
translated by 谷歌翻译
创建可以对对话做出适当反应又理解复杂人类语言倾向和社会线索的代理人在NLP社区中一直是一项艰巨的挑战。最近的研究支柱围绕着对话中的情感识别(ERC);情感识别的子场地,重点是包含两个或更多话语的对话或对话。在这项工作中,我们探讨了一种ERC的方法,该方法利用了对话中神经嵌入的使用以及复杂的结构。我们在称为概率软逻辑(PSL)的框架中实现了我们的方法,该框架是一种使用一阶逻辑规则的声明的模板语言,该语言与数据结合时,定义了特定类别的图形模型。此外,PSL为将神经模型的结果纳入PSL模型提供了功能。这使我们的模型可以利用先进的神经方法,例如句子嵌入以及对话结构的逻辑推理。我们将我们的方法与最先进的纯神经ERC系统进行了比较,并将几乎提高了20%。通过这些结果,我们对DailyDialog对话数据集提供了广泛的定性和定量分析。
translated by 谷歌翻译
最近,培训预培训方法在以任务为导向的对话框(TOD)系统中表现出了很大的成功。但是,大多数现有的预培训模型用于TOD专注于对话的理解或对话生成,但并非两者兼而有之。在本文中,我们提出了Space-3,这是一种新型的统一的半监督预培训的预训练的对话模型,从大规模对话CORPORA中学习有限的注释,可以有效地对广泛的下游对话任务进行微调。具体而言,Space-3由单个变压器中的四个连续组件组成,以维护TOD系统中的任务流:(i)对话框编码模块编码对话框历史记录,(ii)对话框理解模块以从任一用户中提取语义向量查询或系统响应,(iii)一个对话框策略模块,以生成包含响应高级语义的策略向量,以及(iv)对话框生成模块以产生适当的响应。我们为每个组件设计一个专门的预训练目标。具体而言,我们预先培训对话框编码模块,使用跨度掩码语言建模,以学习上下文化对话框信息。为了捕获“结构化对话框”语义,我们通过额外的对话注释通过新颖的树诱导的半监视对比度学习目标来预先培训对话框理解模块。此外,我们通过将其输出策略向量与响应响应的语义向量之间的L2距离最小化以进行策略优化,从而预先培训对话策略模块。最后,对话框生成模型由语言建模预先训练。结果表明,Space-3在八个下游对话框基准中实现最新性能,包括意图预测,对话框状态跟踪和端到端对话框建模。我们还表明,在低资源设置下,Space-3比现有模型具有更强的射击能力。
translated by 谷歌翻译
Interview has been regarded as one of the most crucial step for recruitment. To fully prepare for the interview with the recruiters, job seekers usually practice with mock interviews between each other. However, such a mock interview with peers is generally far away from the real interview experience: the mock interviewers are not guaranteed to be professional and are not likely to behave like a real interviewer. Due to the rapid growth of online recruitment in recent years, recruiters tend to have online interviews, which makes it possible to collect real interview data from real interviewers. In this paper, we propose a novel application named EZInterviewer, which aims to learn from the online interview data and provides mock interview services to the job seekers. The task is challenging in two ways: (1) the interview data are now available but still of low-resource; (2) to generate meaningful and relevant interview dialogs requires thorough understanding of both resumes and job descriptions. To address the low-resource challenge, EZInterviewer is trained on a very small set of interview dialogs. The key idea is to reduce the number of parameters that rely on interview dialogs by disentangling the knowledge selector and dialog generator so that most parameters can be trained with ungrounded dialogs as well as the resume data that are not low-resource. Evaluation results on a real-world job interview dialog dataset indicate that we achieve promising results to generate mock interviews. With the help of EZInterviewer, we hope to make mock interview practice become easier for job seekers.
translated by 谷歌翻译
最近,通过“向导”模拟游戏收集了一类以任务为导向的对话(TOD)数据集。但是,《巫师》数据实际上是模拟的数据,因此与现实生活中的对话根本不同,这些对话更加嘈杂和随意。最近,Seretod挑战赛是组织的,并发布了Mobilecs数据集,该数据集由来自中国移动的真实用户和客户服务人员之间的真实世界对话框组成。基于Mobilecs数据集,Seretod挑战具有两个任务,不仅评估了对话系统本身的构建,而且还检查了对话框成绩单中的信息提取,这对于建立TOD的知识库至关重要。本文主要介绍了Mobilecs数据集对这两项任务的基线研究。我们介绍了如何构建两个基线,遇到的问题以及结果。我们预计基线可以促进令人兴奋的未来研究,以建立针对现实生活任务的人类机器人对话系统。
translated by 谷歌翻译
对话机器人已广泛应用于客户服务方案,以提供及时且用户友好的体验。这些机器人必须对对话的适当域进行分类,了解用户的意图并产生适当的响应。现有的对话预训练模型仅针对多个对话任务而设计,而忽略了弱监督的客户服务对话中的专家知识。在本文中,我们提出了一个新颖的统一知识提示预训练框架,ufa(\ textbf {u} nified Model \ textbf {f}或\ textbf {a} ll任务),用于客户服务对话。我们将客户服务对话的所有任务作为统一的文本到文本生成任务,并引入知识驱动的及时策略,以共同从不同的对话任务中学习。我们将UFA预先训练UFA,从实用场景中收集的大型中国客户服务语料库中,并对自然语言理解(NLU)和自然语言生成(NLG)基准进行了重大改进。
translated by 谷歌翻译
对实际对话系统的用户查询有时可能出现在系统功能的范围之外,但适当的系统响应将在整个人机交互中进行平滑处理。本文涉及用户的意图,并专注于对话系统中的范围内意图分类。虽然用户意图与应用领域高度相关,但很少有研究利用意图分类这种相关性。而不是开发一个首先对域进行分类的两阶段方法,而是意图,我们提出了一种基于联合模型的分层多任务学习方法来分类域同时和意图。拟议方法中的Noveltize包括:(1)分享域的联合建模中的监督范围信号和意图分类,以取代两级管道; (2)引入分层模型,分别在较高层和下层中学习意图和域表示。实验表明,该模型在准确性,范围外召回和F1方面优于现有方法。此外,基于阈值的后处理进一步通过平衡精度和调用意图中的分类来提高性能。
translated by 谷歌翻译