Dialogue state tracking (DST) aims to convert the dialogue history into dialogue states which consist of slot-value pairs. As condensed structural information memorizing all history information, the dialogue state in the last turn is typically adopted as the input for predicting the current state by DST models. However, these models tend to keep the predicted slot values unchanged, which is defined as state momentum in this paper. Specifically, the models struggle to update slot values that need to be changed and correct wrongly predicted slot values in the last turn. To this end, we propose MoNET to tackle state momentum via noise-enhanced training. First, the previous state of each turn in the training data is noised via replacing some of its slot values. Then, the noised previous state is used as the input to learn to predict the current state, improving the model's ability to update and correct slot values. Furthermore, a contrastive context matching framework is designed to narrow the representation distance between a state and its corresponding noised variant, which reduces the impact of noised state and makes the model better understand the dialogue history. Experimental results on MultiWOZ datasets show that MoNET outperforms previous DST methods. Ablations and analysis verify the effectiveness of MoNET in alleviating state momentum and improving anti-noise ability.
translated by 谷歌翻译
对话状态跟踪模型在面向任务的对话系统中发挥着重要作用。然而,它们中的大多数是根据输入定义地独立地造型的插槽类型。我们发现它可能导致模型由共享相同数据类型的插槽类型混淆。为了减轻这个问题,我们提出了连续模型插槽的Trippy-MRF和Trippy-LSTM。我们的研究结果表明,他们能够缓解上述混淆,并将最先进的数据集达到58.7至61.3推出。我们的实现可在https://github.com/ctinray/trippy-joint上获得。
translated by 谷歌翻译
Multiwoz 2.0数据集极大地刺激了面向任务的对话系统的研究。但是,其状态注释包含大量噪声,这阻碍了对模型性能的正确评估。为了解决这个问题,大规模的努力致力于纠正注释。然后释放了三个改进的版本(即Multiwoz 2.1-2.3)。尽管如此,仍然有很多错误和不一致的注释。这项工作介绍了Multiwoz 2.4,该工作完善了Multiwoz 2.1的验证集和测试集中的注释。训练集中的注释保持不变(与多沃兹2.1相同),以引发强大的噪声模型训练。我们在Multiwoz 2.4上基准了八个最新的对话状态跟踪模型。所有这些表现出比Multiwoz 2.1的性能要高得多。
translated by 谷歌翻译
将对话状态跟踪(DST)概括为新数据特别具有挑战性,因为在培训过程中对丰富和细粒度的监督非常依赖。样本稀疏性,分布转移以及新概念和主题的发生经常导致推理期间的严重降级。在本文中,我们提出了一种培训策略,以构建提取性DST模型,而无需精细颗粒的手动跨度标签。两种新型的输入级辍学方法减轻了样品稀疏性的负面影响。我们提出了一种具有统一编码器的新模型体系结构,该架构通过利用注意机制来支持价值和插槽独立性。我们结合了三复制策略DST的优势和价值匹配,以从互补的预测中受益,而无需违反本体独立性的原则。我们的实验表明,可以在没有手动跨度标签的情况下训练提取的DST模型。我们的体系结构和培训策略提高了对样本稀疏,新概念和主题的鲁棒性,从而在一系列基准中提高了最先进的表现。我们进一步强调了我们的模型有效地从非拨号数据中学习的能力。
translated by 谷歌翻译
针对任务导向的对话系统的强大状态跟踪目前仍然限于一些流行语言。本文显示,给定以一种语言设置的大规模对话数据,我们可以使用机器翻译自动为其他语言生成有效的语义解析器。我们提出了对话数据集的自动翻译,并进行对齐,以确保插槽值的忠实翻译,并消除以前的基准中使用的昂贵人类监督。我们还提出了一种新的上下文语义解析模型,它编码正式的插槽和值,只有最后一个代理和用户话语。我们表明,简洁的表示降低了翻译误差的复合效果,而不会损害实践中的准确性。我们评估我们对几个对话状态跟踪基准的方法。在Risawoz,Crosswoz,Crosswoz-Zh和Multiwoz-Zh Datasets,我们将最先进的技术提高11%,17%,20%和0.3%,以共同的目标准确度。我们为所有三个数据集提供了全面的错误分析,显示错误注释可以模糊模型质量的判断。最后,我们使用推荐方法创建了Risawoz英语和德语数据集。在这些数据集中,准确性在原始的11%以内,表示可能的高精度多语言对话数据集,而无需依赖昂贵的人类注释。
translated by 谷歌翻译
对话状态跟踪(DST)是对话系统的核心子模块,旨在从系统和用户话语中提取适当的信念状态(域槽值)。大多数先前的研究试图通过增加预训练模型的大小或使用其他功能(例如图形关系)来提高性能。在这项研究中,我们建议使用实体自适应预训练(DSTEA)进行对话状态跟踪,该系统在该系统中,句子中的关键实体受到DST模型的编码者的训练。 DSTEA通过四种方式从输入对话中提取重要实体,然后应用选择性知识掩盖以有效地训练模型。尽管DSTEA仅进行预训练而没有直接向DST模型注入更多知识,但它的性能比Multiwoz 2.0、2.1和2.2上最著名的基准模型更好。 DSTEA的有效性通过有关实体类型和不同自适应设置的各种比较实验得到了验证。
translated by 谷歌翻译
以任务为导向的对话系统通常采用对话状态跟踪器(DST)成功完成对话。最近的最新DST实现依赖于各种服务的模式来改善模型的鲁棒性并处理对新域的零击概括[1],但是这种方法[2,3]通常需要多个大型变压器模型和长时间输入序列以表现良好。我们提出了一个基于多任务BERT的单个模型,该模型共同解决了意图预测的三个DST任务,请求的插槽预测和插槽填充。此外,我们提出了对对话历史和服务模式的高效和简约编码,该编码被证明可以进一步提高性能。对SGD数据集的评估表明,我们的方法的表现优于基线SGP-DST,比最新的方法相比表现良好,同时在计算上的效率更高。进行了广泛的消融研究,以检查我们模型成功的促成因素。
translated by 谷歌翻译
基于检索的对话响应选择旨在为给定多转中下文找到候选集的正确响应。基于预先训练的语言模型(PLMS)的方法对此任务产生了显着的改进。序列表示在对话背景和响应之间的匹配程度中扮演关键作用。然而,我们观察到相同上下文共享的不同的上下文响应对始终在由PLM计算的序列表示中具有更大的相似性,这使得难以区分来自负面的正响应。由此激励,我们提出了一种基于PLMS的响应选择任务的新颖\ TextBF {f} ine- \ textbf {g}下载\ textbf {g} unfrstive(fgc)学习方法。该FGC学习策略有助于PLMS在细粒中产生每个对话的更可区分的匹配表示,并进一步提高选择正反应的预测。两个基准数据集的实证研究表明,所提出的FGC学习方法一般可以提高现有PLM匹配模型的模型性能。
translated by 谷歌翻译
在与用户进行交流时,以任务为导向的对话系统必须根据对话历史记录在每个回合时跟踪用户的需求。这个称为对话状态跟踪(DST)的过程至关重要,因为它直接告知下游对话政策。近年来,DST引起了很大的兴趣,文本到文本范式作为受欢迎的方法。在本评论论文中,我们首先介绍任务及其相关的数据集。然后,考虑到最近出版的大量出版物,我们确定了2021 - 2022年研究的重点和研究进展。尽管神经方法已经取得了重大进展,但我们认为对话系统(例如概括性)的某些关键方面仍未得到充实。为了激励未来的研究,我们提出了几种研究途径。
translated by 谷歌翻译
先前的工作表明,数据增强对于改善对话状态跟踪非常有用。但是,用户话语有很多类型,而先前的方法仅认为是最简单的增强方法,这引起了人们对不良概括能力的关注。为了更好地涵盖多样化的对话行为并控制发电质量,本文提出了可控的用户对话ACT扩展(CUDA-DST),以增强具有多种行为的用户话语。有了增强数据,不同的状态跟踪器会提高改进并显示出更好的鲁棒性,从而在Multiwoz 2.1上实现了最先进的性能
translated by 谷歌翻译
语言理解(SLU)是以任务为导向对话系统的核心组成部分,期望面对人类用户不耐烦的推理较短。现有的工作通过为单转弯任务设计非自动回旋模型来提高推理速度,但在面对对话历史记录时未能适用于多转移SLU。直观的想法是使所有历史言语串联并直接利用非自动进取模型。但是,这种方法严重错过了显着的历史信息,并遭受了不协调的问题。为了克服这些缺点,我们提出了一个新型模型,用于使用层改造的变压器(SHA-LRT),该模型名为“显着历史”,该模型由SHA模块组成,该模块由SHA模块组成,一种层的机制(LRM)和插槽标签生成(SLG)任务。 SHA通过历史悠久的注意机制捕获了从历史言论和结果进行的当前对话的显着历史信息。 LRM预测了Transferer的中间状态的初步SLU结果,并利用它们来指导最终预测,SLG获得了非自动进取编码器的顺序依赖性信息。公共数据集上的实验表明,我们的模型可显着提高多转弯性能(总体上为17.5%),并且加速(接近15倍)最先进的基线的推理过程,并且在单转弯方面有效SLU任务。
translated by 谷歌翻译
随着预训练的语言模型的发展,对话理解(DU)已经看到了杰出的成功。但是,当前的DU方法通常为每个不同的DU任务采用独立模型,而无需考虑跨不同任务的共同知识。在本文中,我们提出了一个名为{\ em unidu}的统一的生成对话理解框架,以实现跨不同DU任务的有效信息交流。在这里,我们将所有DU任务重新制定为基于统一的立即生成模型范式。更重要的是,引入了一种新颖的模型多任务训练策略(MATS),以动态调整各种任务的权重,以根据每个任务的性质和可用数据在培训期间进行最佳知识共享。涵盖五个基本DU任务的十个DU数据集的实验表明,在所有任务上,提出的UNIDU框架在很大程度上优于特定于特定于任务精心设计的方法。 MATS还揭示了这些任务的知识共享结构。最后,Unidu在看不见的对话领域中获得了有希望的表现,显示了概括的巨大潜力。
translated by 谷歌翻译
作为面向任务的对话系统中的重要组成部分,对话状态跟踪(DST)旨在跟踪人机相互作用并生成用于管理对话的状态表示。对话状态的表示取决于域本体论和用户的目标。在几个面向任务的对话中,目标范围有限,对话状态可以表示为一组插槽值对。随着对话系统的功能扩展以支持沟通中的自然性,将对话行为处理纳入对话模型设计变得至关重要。缺乏这种考虑限制了对话跟踪模型的可扩展性,以实现特定目标和本体。为了解决这个问题,我们制定和纳入对话行为,并利用机器阅读理解的最新进展来预测多域对话状态跟踪的分类和非类别类型的插槽。实验结果表明,我们的模型可以提高对话状态跟踪在Multiwoz 2.1数据集上的总体准确性,并证明合并对话行为可以指导对话状态设计以实现未来的面向任务的对话系统。
translated by 谷歌翻译
面向任务导向的对话系统已经受到获得大规模和高质量的注释对话的困难困扰。此外,大多数公开的数据集仅包括书面对话,这不足以反映实际口头对话系统中的实际人类行为。在本文中,我们提出了面向任务的对话数据增强(TOD-DA),这是一种新型模型 - 不可知的数据增强范例,以提高面向任务对话建模的鲁棒性。 TOD-DA由两个模块组成:1)对话丰富,以扩展关于易于执行数据稀疏性的任务对话的培训数据,用于宽松数据稀疏性和2)口语对话模拟器,以模仿各种粒度的口语样式表达和语音识别错误,以弥合书面之间的差距和口头对话。通过这样的设计,我们的方法在DSTC10 Track2的两个任务中排名第一,这是针对口语对话的任务对话建模的基准,展示了我们提出的TOD-DA的优势和有效性。
translated by 谷歌翻译
Virtual assistants such as Google Assistant, Alexa and Siri provide a conversational interface to a large number of services and APIs spanning multiple domains. Such systems need to support an ever-increasing number of services with possibly overlapping functionality. Furthermore, some of these services have little to no training data available. Existing public datasets for task-oriented dialogue do not sufficiently capture these challenges since they cover few domains and assume a single static ontology per domain. In this work, we introduce the the Schema-Guided Dialogue (SGD) dataset, containing over 16k multi-domain conversations spanning 16 domains. Our dataset exceeds the existing task-oriented dialogue corpora in scale, while also highlighting the challenges associated with building large-scale virtual assistants. It provides a challenging testbed for a number of tasks including language understanding, slot filling, dialogue state tracking and response generation. Along the same lines, we present a schema-guided paradigm for task-oriented dialogue, in which predictions are made over a dynamic set of intents and slots, provided as input, using their natural language descriptions. This allows a single dialogue system to easily support a large number of services and facilitates simple integration of new services without requiring additional training data. Building upon the proposed paradigm, we release a model for dialogue state tracking capable of zero-shot generalization to new APIs, while remaining competitive in the regular setting.
translated by 谷歌翻译
学习高质量的对话表示对于解决各种面向对话的任务至关重要,尤其是考虑到对话系统通常会遇到数据稀缺。在本文中,我们介绍了对话句子嵌入(DSE),这是一种自我监督的对比学习方法,它学习有效的对话表示,适合各种对话任务。 DSE通过连续进行与对比度学习的正面对话的连续对话来从对话中学习。尽管它很简单,但DSE的表现能力比其他对话表示和普遍的句子表示模型要好得多。我们评估DSE的五个下游对话任务,这些任务检查了不同语义粒度的对话表示。几次射击和零射击设置的实验表明,DSE的表现要优于基线。例如,它在6个数据集中的1-Shot意图分类中比最强的无监督基线实现了13%的平均绩效提高。我们还提供了有关模型的好处和局限性的分析。
translated by 谷歌翻译
具有对比性学习目标的预训练方法在对话了解任务中表现出了显着的成功。但是,当前的对比学习仅将自调查的对话样本视为正样本,并将所有其他对话样本视为负面样本,即使在语义上相关的对话框中,也会强制执行不同的表示。在本文中,我们提出了一个树木结构化的预培训对话模型Space-2,该模型从有限标记的对话框和大规模的无标记的对话框COLPORA通过半监督的对比度预培训来学习对话框表示。具体而言,我们首先定义一个通用的语义树结构(STS),以统一不同对话框数据集的注释模式,以便可以利用所有标记数据中存储的丰富结构信息。然后,我们提出了一个新颖的多视图分数功能,以增加共享类似STS的所有可能对话框的相关性,并且在监督的对比预训练期间仅推开其他完全不同的对话框。为了充分利用未标记的对话,还增加了基本的自我监督对比损失,以完善学习的表示。实验表明,我们的方法可以在DialogLue基准测试中实现新的最新结果,该基准由七个数据集和四个流行的对话框组成。为了获得可重复性,我们在https://github.com/alibabaresearch/damo-convai/tree/main/main/space-2上发布代码和数据。
translated by 谷歌翻译
与具有粗粒度信息的Crosswoz(中文)和多发性(英文)数据集相比,没有数据集,可以正确处理细粒度和分层级别信息。在本文中,我们在香港发布了一份粤语知识驱动的对话数据集(KDDRES),将多转谈话中的信息放在一个特定的餐厅。我们的语料库包含0.8k次谈话,它来自10家餐厅,提供不同地区的各种风格。除此之外,我们还设计了细粒度的插槽和意图,以更好地捕获语义信息。基准实验和数据统计分析显示了我们数据集的多样性和丰富的注释。我们认为,KDDRE的出版可以是当前对话数据集的必要补充,以及社会中小企业(中小企业)更适合和更有价值,如为每家餐馆建立定制的对话系统。语料库和基准模型是公开可用的。
translated by 谷歌翻译
Dialogue State Tracking (DST), a key component of task-oriented conversation systems, represents user intentions by determining the values of pre-defined slots in an ongoing dialogue. Existing approaches use hand-crafted templates and additional slot information to fine-tune and prompt large pre-trained language models and elicit slot values from the dialogue context. Significant manual effort and domain knowledge is required to design effective prompts, limiting the generalizability of these approaches to new domains and tasks. In this work, we propose DiSTRICT, a generalizable in-context tuning approach for DST that retrieves highly relevant training examples for a given dialogue to fine-tune the model without any hand-crafted templates. Experiments with the MultiWOZ benchmark datasets show that DiSTRICT outperforms existing approaches in various zero-shot and few-shot settings using a much smaller model, thereby providing an important advantage for real-world deployments that often have limited resource availability.
translated by 谷歌翻译
几乎没有弹药对话状态跟踪(DST)模型,即使使用少量数据,也具有可靠准确性的用户请求。在本文中,我们介绍了一个无本体的几杆DST,并具有自我喂养的信念状态输入。自我喂养的信念状态输入通过总结以前的对话来提高多转向对话的准确性。另外,我们新制定了一个插槽辅助任务。这项新的辅助任务有助于分类对话中是否提到了一个插槽。我们的模型在Multiwoz 2.0上的四个域中获得了几次射门设置的最佳分数。
translated by 谷歌翻译