随着在线聊天的日益普及,贴纸在我们的在线沟通中变得越来越重要。在开放域对话中选择适当的贴纸需要对对话和贴纸以及两种类型的方式之间的关系有全面的了解。为了应对这些挑战,我们提出了一种由三个辅助任务组成的多任务学习方法,以增强对对话历史,情感和语义含义的理解。在最近的一个具有挑战性的数据集中进行的广泛实验表明,我们的模型可以更好地结合多模式信息,并在强质基础上获得更高的精度。消融研究进一步验证了每个辅助任务的有效性。我们的代码可在\ url {https://github.com/nonstopfor/sticker-selection}中找到
translated by 谷歌翻译
The goal of building dialogue agents that can converse with humans naturally has been a long-standing dream of researchers since the early days of artificial intelligence. The well-known Turing Test proposed to judge the ultimate validity of an artificial intelligence agent on the indistinguishability of its dialogues from humans'. It should come as no surprise that human-level dialogue systems are very challenging to build. But, while early effort on rule-based systems found limited success, the emergence of deep learning enabled great advance on this topic. In this thesis, we focus on methods that address the numerous issues that have been imposing the gap between artificial conversational agents and human-level interlocutors. These methods were proposed and experimented with in ways that were inspired by general state-of-the-art AI methodologies. But they also targeted the characteristics that dialogue systems possess.
translated by 谷歌翻译
As sharing images in an instant message is a crucial factor, there has been active research on learning a image-text multi-modal dialogue model. However, training a well-generalized multi-modal dialogue model is challenging because existing multi-modal dialogue datasets contain a small number of data, limited topics, and a restricted variety of images per dialogue. In this paper, we present a multi-modal dialogue dataset creation pipeline that involves matching large-scale images to dialogues based on CLIP similarity. Using this automatic pipeline, we propose a large-scale multi-modal dialogue dataset, DialogCC, which covers diverse real-world topics and various images per dialogue. With extensive experiments, we demonstrate that training a multi-modal dialogue model with our dataset can improve generalization performance. Additionally, existing models trained with our dataset achieve state-of-the-art performance on image and text retrieval tasks. The source code and the dataset will be released after publication.
translated by 谷歌翻译
预训练的语言模型在对话任务上取得了长足的进步。但是,这些模型通常在表面对话文本上进行训练,因此被证明在理解对话环境的主要语义含义方面是薄弱的。我们研究抽象含义表示(AMR)作为预训练模型的明确语义知识,以捕获预训练期间对话中的核心语义信息。特别是,我们提出了一个基于语义的前训练框架,该框架通过三个任务来扩展标准的预训练框架(Devlin等,2019)。根据AMR图表示。关于聊天聊天和面向任务的对话的理解的实验表明了我们的模型的优势。据我们所知,我们是第一个利用深层语义表示进行对话预训练的人。
translated by 谷歌翻译
在多方对话中有效地发现发言者的情绪状态是设计人类类似的会话代理商的重要性。在谈话期间,扬声器的认知状态通常由于某些过去的话语而改变,这可能导致他们的情绪状态的翻转。因此,在对话期间发现扬声器情感翻转背后的原因(触发)对于解释个人话语的情感标签至关重要。在本文中,除了解决对话中的情感认可的任务(ERC),我们介绍了一种新的任务 - 情感 - 翻转推理(EFR),旨在识别过去的话语,这引发了一个人的情绪状态以在一定时间翻转。我们提出了一个掩蔽的存储器网络来解决前者和基于变换器的网络的后一种任务。为此,我们考虑融合的基准情感识别数据集,用于ERC任务的多方对话,并使用EFR的新地基标签增强它。与五个最先进的模型进行了广泛的比较,表明我们对两个任务的模型的表现。我们进一步提出了轶事证据和定性和定量误差分析,以支持与基线相比模型的优势。
translated by 谷歌翻译
良好的善解人意对话系统应首先跟踪并理解用户的情绪,然后以适当的情感回复。但是,目前对此任务的方法要么集中于提高对用户情绪的理解或提出更好的反应策略,而且很少有作品同时考虑这两种工作。我们的工作试图填补这一空缺。受到任务导向对话系统的启发,我们提出了一种具有情感感知对话管理的新颖善解人意的响应生成模型。情绪感知对话管理包含两个部分:(1)情绪状态跟踪保持当前用户的情绪状态,(2)善解人意的对话策略选择预测目标情绪和用户的意图,基于情绪状态跟踪的结果。然后,预测信息用于指导响应的产生。实验结果表明,与自动评估和人类评估下的几个基准相比,动态管理不同的信息可以帮助模型产生更多的移情反应。
translated by 谷歌翻译
谈话中的情感认可(ERC)是一个重要而积极的研究问题。最近的工作表明了ERC任务使用多种方式(例如,文本,音频和视频)的好处。在谈话中,除非一些外部刺激唤起改变,否则参与者倾向于维持特定的情绪状态。在谈话中持续的潮起潮落和情绪流动。灵感来自这种观察,我们提出了一种多模式ERC模型,并通过情感转换组件增强。所提出的情感移位组件是模块化的,可以添加到任何现有的多模式ERC模型(具有几种修改),以改善情绪识别。我们尝试模型的不同变体,结果表明,包含情感移位信号有助于模型以优于ERC的现有多模型模型,从而展示了MOSEI和IEMOCAP数据集的最先进的性能。
translated by 谷歌翻译
Responding with multi-modal content has been recognized as an essential capability for an intelligent conversational agent. In this paper, we introduce the MMDialog dataset to better facilitate multi-modal conversation. MMDialog is composed of a curated set of 1.08 million real-world dialogues with 1.53 million unique images across 4,184 topics. MMDialog has two main and unique advantages. First, it is the largest multi-modal conversation dataset by the number of dialogues by 8x. Second, it contains massive topics to generalize the open-domain. To build engaging dialogue system with this dataset, we propose and normalize two response producing tasks based on retrieval and generative scenarios. In addition, we build two baselines for above tasks with state-of-the-art techniques and report their experimental performance. We also propose a novel evaluation metric MM-Relevance to measure the multi-modal responses. Our dataset and scripts are available in https://github.com/victorsungo/MMDialog.
translated by 谷歌翻译
Causal Emotion Entailment aims to identify causal utterances that are responsible for the target utterance with a non-neutral emotion in conversations. Previous works are limited in thorough understanding of the conversational context and accurate reasoning of the emotion cause. To this end, we propose Knowledge-Bridged Causal Interaction Network (KBCIN) with commonsense knowledge (CSK) leveraged as three bridges. Specifically, we construct a conversational graph for each conversation and leverage the event-centered CSK as the semantics-level bridge (S-bridge) to capture the deep inter-utterance dependencies in the conversational context via the CSK-Enhanced Graph Attention module. Moreover, social-interaction CSK serves as emotion-level bridge (E-bridge) and action-level bridge (A-bridge) to connect candidate utterances with the target one, which provides explicit causal clues for the Emotional Interaction module and Actional Interaction module to reason the target emotion. Experimental results show that our model achieves better performance over most baseline models. Our source code is publicly available at https://github.com/circle-hit/KBCIN.
translated by 谷歌翻译
预先接受训练的语言模型的最新进展具有显着改善的神经反应生成。但是,现有方法通常将对话背景视为令牌的线性序列,并通过令牌级自我关注学习生成下一个单词。这些令牌级编码阻碍了话语中话语水平一致性的探索。本文介绍了对话贝特,这是一种新的会话响应生成模型,可以增强以前的基于PLM的对话模型。 DialogBert采用分层变压器架构。为了有效地捕捉话语中的话语水平一致性,我们提出了两种培训目标,包括蒙面的话语回归和分布式话语秩序与原始BERT训练相比。在三个多转对谈话数据集上的实验表明,在定量评估方面,我们的方法非常优于BART和Dialogpt等基线。人类评估表明,DialogBert比具有显着利润率的基线产生更加连贯,信息和人类的反应。
translated by 谷歌翻译
个性化响应选择系统通常基于角色。但是,角色和同理心之间存在共同关联,这些系统在这些系统中并不是很好。本文试图通过提出一套融合策略来解决这些问题,以捕捉角色,情感和话语中的综合信息之间的相互作用。关于角色chat数据集的消融研究表明,结合情绪和累积可提高响应选择的准确性。我们将融合策略和概念流编码结合在一起,以训练基于BERT的模型,该模型的表现优于原始角色的利润率大于2.3%,而修订后的角色的命中率是1.9%(前1位准确性),在角色chat数据集上实现新的最新性能。
translated by 谷歌翻译
作为对话系统的基本组成部分,响应选择旨在挑选候选人之间的最佳反应,以继续对话。在现有研究中,这项任务通常被视为二进制分类问题,其中每个候选人分别排名以获取适当性。为了提高其性能,我们将此任务重构为一个多项选择问题,允许在一次性推断中进行最佳选择。这个新的视图激励我们提出一个名为全景 - 编码器的架构(我们的工作将是再现性和未来研究的开放来源。)具有新的候选人注意机制(CAM),这允许在响应之间进行情境方面的关注并导致良好-Gremator比较。此外,我们研究并纳入了一些已被证明有效改善响应选择的技术。三个基准测试的实验表明,我们的方法推动了最先进的,同时实现了大约3x的推理速度。
translated by 谷歌翻译
缺乏外部知识使同志对话系统难以察觉隐含的情绪,并从有限的对话历史上学习情绪相互作用。为了解决上述问题,我们建议利用外部知识,包括致命知识和情绪词汇知识,以明确了解和表达在同情对话中的情绪。我们首先通过与外部知识共同互动并构建情感语境图来丰富对话史。然后,我们从知识丰富的情绪上下文图和蒸馏情绪信号中学习情绪背景陈述,这是在反应中表达的谓词情绪的先决条件。最后,为了产生同志反应,我们提出了一种情绪跨关注机制来从情绪上下文图中学习情绪依赖。在基准数据集上进行的广泛实验验证了该方法的有效性。此外,我们发现通过与正交工作的预先训练的模型集成,可以进一步提高我们的方法的性能。
translated by 谷歌翻译
善解人意的回应的任务旨在了解说话者对自己的经历表达的感觉,然后适当地回复演讲者。为了解决任务,必须对话的内容情绪对偶性进行建模,该对话是由内容视图组成的(即描述了哪些个人经历​​)和情感观点(即,演讲者对这些经验的感觉)。为此,我们设计了一个框架,以通过分离促进响应生成来建模内容情感二元性(CEDUAL)。有了分解,我们从内容和情感视图中编码对话历史,然后根据删除表示形式产生善解人意的响应,从而可以将对话历史记录的内容和情感信息嵌入到生成的响应中。基准数据集促进性的实验表明,cedual模型在自动和人类指标上都达到了最先进的性能,并且它还比以前的方法产生更多的促进响应。
translated by 谷歌翻译
Expressing empathy is important in everyday conversations, and exploring how empathy arises is crucial in automatic response generation. Most previous approaches consider only a single factor that affects empathy. However, in practice, empathy generation and expression is a very complex and dynamic psychological process. A listener needs to find out events which cause a speaker's emotions (emotion cause extraction), project the events into some experience (knowledge extension), and express empathy in the most appropriate way (communication mechanism). To this end, we propose a novel approach, which integrates the three components - emotion cause, knowledge graph, and communication mechanism for empathetic response generation. Experimental results on the benchmark dataset demonstrate the effectiveness of our method and show that incorporating the key components generates more informative and empathetic responses.
translated by 谷歌翻译
许多古典童话,小说和剧本都利用对话来推进故事情节并建立角色。我们提出了第一个研究,以探索机器是否可以理解和产生故事中的对话,这需要捕获不同角色的特征及其之间的关系。为此,我们提出了两项​​新任务,包括蒙版对话生成和对话演讲者的认可,即分别产生对话转弯和预测说话者的指定对话转弯。我们构建了一个新的数据集拨号故事,该数据集由105K中国故事组成,其中包含大量对话,以支持评估。我们通过对拨号故事进行自动和手动评估测试现有模型来显示提出的任务的困难。此外,我们建议学习明确的角色表示,以提高这些任务的绩效。广泛的实验和案例研究表明,我们的方法可以产生更连贯和信息丰富的对话,并获得比强基础更高的说话者识别精度。
translated by 谷歌翻译
学习高质量的对话表示对于解决各种面向对话的任务至关重要,尤其是考虑到对话系统通常会遇到数据稀缺。在本文中,我们介绍了对话句子嵌入(DSE),这是一种自我监督的对比学习方法,它学习有效的对话表示,适合各种对话任务。 DSE通过连续进行与对比度学习的正面对话的连续对话来从对话中学习。尽管它很简单,但DSE的表现能力比其他对话表示和普遍的句子表示模型要好得多。我们评估DSE的五个下游对话任务,这些任务检查了不同语义粒度的对话表示。几次射击和零射击设置的实验表明,DSE的表现要优于基线。例如,它在6个数据集中的1-Shot意图分类中比最强的无监督基线实现了13%的平均绩效提高。我们还提供了有关模型的好处和局限性的分析。
translated by 谷歌翻译
在本文中,我们根据两个模型提出了一个端到端情感感知的对话代理:答复情绪预测模型,该模型利用对话的上下文来预测适当的情感,以便代理人在其答复中表达表达;以及一个基于预测的情感和对话的上下文的条件的文本生成模型,以产生既适合上下文又适合情感的答复。此外,我们建议使用情感分类模型来评估代理商在模型开发过程中表达的情感。这使我们能够自动评估代理。自动和人类评估结果都表明,用预定义的句子集明确指导文本生成模型导致了明确的改进,包括表达的情感和生成文本的质量。
translated by 谷歌翻译
在对话系统中,具有类似语义的话语可能在不同的环境下具有独特的情绪。因此,与扬声器依赖关系建模的远程语境情绪关系在对话情绪识别中起重要作用。同时,区分不同的情绪类别是非微不足道的,因为它们通常具有语义上类似的情绪。为此,我们采取监督对比学习,使不同的情绪相互排斥,以更好地识别类似的情绪。同时,我们利用辅助响应生成任务来增强模型处理上下文信息的能力,从而强迫模型在不同的环境中识别与类似语义的情绪。为了实现这些目标,我们使用预先训练的编码器 - 解码器模型架作为我们的骨干模型,因为它非常适合理解和生成任务。四个数据集的实验表明,我们所提出的模型在对话情绪认可中获得比最先进的模型更有利的结果。消融研究进一步展示了监督对比损失和生成损失的有效性。
translated by 谷歌翻译
Predicting emotions expressed in text is a well-studied problem in the NLP community. Recently there has been active research in extracting the cause of an emotion expressed in text. Most of the previous work has done causal emotion entailment in documents. In this work, we propose neural models to extract emotion cause span and entailment in conversations. For learning such models, we use RECCON dataset, which is annotated with cause spans at the utterance level. In particular, we propose MuTEC, an end-to-end Multi-Task learning framework for extracting emotions, emotion cause, and entailment in conversations. This is in contrast to existing baseline models that use ground truth emotions to extract the cause. MuTEC performs better than the baselines for most of the data folds provided in the dataset.
translated by 谷歌翻译