在本文中,我们根据两个模型提出了一个端到端情感感知的对话代理:答复情绪预测模型,该模型利用对话的上下文来预测适当的情感,以便代理人在其答复中表达表达;以及一个基于预测的情感和对话的上下文的条件的文本生成模型,以产生既适合上下文又适合情感的答复。此外,我们建议使用情感分类模型来评估代理商在模型开发过程中表达的情感。这使我们能够自动评估代理。自动和人类评估结果都表明,用预定义的句子集明确指导文本生成模型导致了明确的改进,包括表达的情感和生成文本的质量。
translated by 谷歌翻译
Empathy is a vital factor that contributes to mutual understanding, and joint problem-solving. In recent years, a growing number of studies have recognized the benefits of empathy and started to incorporate empathy in conversational systems. We refer to this topic as empathetic conversational systems. To identify the critical gaps and future opportunities in this topic, this paper examines this rapidly growing field using five review dimensions: (i) conceptual empathy models and frameworks, (ii) adopted empathy-related concepts, (iii) datasets and algorithmic techniques developed, (iv) evaluation strategies, and (v) state-of-the-art approaches. The findings show that most studies have centered on the use of the EMPATHETICDIALOGUES dataset, and the text-based modality dominates research in this field. Studies mainly focused on extracting features from the messages of the users and the conversational systems, with minimal emphasis on user modeling and profiling. Notably, studies that have incorporated emotion causes, external knowledge, and affect matching in the response generation models, have obtained significantly better results. For implementation in diverse real-world settings, we recommend that future studies should address key gaps in areas of detecting and authenticating emotions at the entity level, handling multimodal inputs, displaying more nuanced empathetic behaviors, and encompassing additional dialogue system features.
translated by 谷歌翻译
The goal of building dialogue agents that can converse with humans naturally has been a long-standing dream of researchers since the early days of artificial intelligence. The well-known Turing Test proposed to judge the ultimate validity of an artificial intelligence agent on the indistinguishability of its dialogues from humans'. It should come as no surprise that human-level dialogue systems are very challenging to build. But, while early effort on rule-based systems found limited success, the emergence of deep learning enabled great advance on this topic. In this thesis, we focus on methods that address the numerous issues that have been imposing the gap between artificial conversational agents and human-level interlocutors. These methods were proposed and experimented with in ways that were inspired by general state-of-the-art AI methodologies. But they also targeted the characteristics that dialogue systems possess.
translated by 谷歌翻译
良好的善解人意对话系统应首先跟踪并理解用户的情绪,然后以适当的情感回复。但是,目前对此任务的方法要么集中于提高对用户情绪的理解或提出更好的反应策略,而且很少有作品同时考虑这两种工作。我们的工作试图填补这一空缺。受到任务导向对话系统的启发,我们提出了一种具有情感感知对话管理的新颖善解人意的响应生成模型。情绪感知对话管理包含两个部分:(1)情绪状态跟踪保持当前用户的情绪状态,(2)善解人意的对话策略选择预测目标情绪和用户的意图,基于情绪状态跟踪的结果。然后,预测信息用于指导响应的产生。实验结果表明,与自动评估和人类评估下的几个基准相比,动态管理不同的信息可以帮助模型产生更多的移情反应。
translated by 谷歌翻译
了解用户对话中的毒性无疑是一个重要问题。正如在以前的工作中所说的那样,解决“隐秘”或隐含毒性案件特别困难,需要上下文。以前很少有研究已经分析了会话语境在人类感知或自动检测模型中的影响。我们深入探讨这两个方向。我们首先分析现有的上下文数据集,并得出结论,人类的毒性标记一般受到对话结构,极性和主题的影响。然后,我们建议通过引入(a)神经架构来将这些发现带入计算检测模型中,以了解会话结构的语境毒性检测,以及(b)可以帮助模拟语境毒性检测的数据增强策略。我们的结果表明了了解谈话结构的神经架构的令人鼓舞的潜力。我们还表明,这些模型可以从合成数据中受益,尤其是在社交媒体领域。
translated by 谷歌翻译
在多方对话中有效地发现发言者的情绪状态是设计人类类似的会话代理商的重要性。在谈话期间,扬声器的认知状态通常由于某些过去的话语而改变,这可能导致他们的情绪状态的翻转。因此,在对话期间发现扬声器情感翻转背后的原因(触发)对于解释个人话语的情感标签至关重要。在本文中,除了解决对话中的情感认可的任务(ERC),我们介绍了一种新的任务 - 情感 - 翻转推理(EFR),旨在识别过去的话语,这引发了一个人的情绪状态以在一定时间翻转。我们提出了一个掩蔽的存储器网络来解决前者和基于变换器的网络的后一种任务。为此,我们考虑融合的基准情感识别数据集,用于ERC任务的多方对话,并使用EFR的新地基标签增强它。与五个最先进的模型进行了广泛的比较,表明我们对两个任务的模型的表现。我们进一步提出了轶事证据和定性和定量误差分析,以支持与基线相比模型的优势。
translated by 谷歌翻译
在文本情感分类中,相关标签的集合取决于域和应用程序方案,并且在模型开发时可能不知道。这与需要预定义的标签的经典学习范式相抵触。获得具有灵活标签的模型的解决方案是,将零局学习的范式用作自然语言推理任务,此外,它还增加了不需要任何标记的培训数据的优势。这就提出了一个问题,如何促使自然语言推断模型进行零击学习情绪分类。及时表述的选项包括单独的情感名称愤怒或“此文本表示愤怒”的陈述。在本文中,我们分析了基于自然推理的零射击分类器的敏感程度是对正在考虑的迅速考虑的更改:选择提示需要如何仔细选择?我们使用三种自然语言推论模型根据不同来源(推文,事件,博客)呈现不同语言寄存器的一组既定的情感数据集进行实验,并表明确实选择了特定及时配方的选择需要适合语料库。我们表明,可以通过多个提示的组合来应对这一挑战。与单个提示相比,这种合奏在整个语料库中更强大,并且与个人最佳提示的表现几乎相同。
translated by 谷歌翻译
个性化响应选择系统通常基于角色。但是,角色和同理心之间存在共同关联,这些系统在这些系统中并不是很好。本文试图通过提出一套融合策略来解决这些问题,以捕捉角色,情感和话语中的综合信息之间的相互作用。关于角色chat数据集的消融研究表明,结合情绪和累积可提高响应选择的准确性。我们将融合策略和概念流编码结合在一起,以训练基于BERT的模型,该模型的表现优于原始角色的利润率大于2.3%,而修订后的角色的命中率是1.9%(前1位准确性),在角色chat数据集上实现新的最新性能。
translated by 谷歌翻译
我们提出了两种小型无监督方法,用于消除文本中的毒性。我们的第一个方法结合了最近的两个想法:(1)使用小型条件语言模型的生成过程的指导和(2)使用释义模型进行风格传输。我们使用良好的令人措辞的令人愉快的释放器,由风格培训的语言模型引导,以保持文本内容并消除毒性。我们的第二种方法使用BERT用他们的非攻击性同义词取代毒性单词。我们通过使BERT替换具有可变数量的单词的屏蔽令牌来使该方法更灵活。最后,我们介绍了毒性去除任务的风格转移模型的第一个大规模比较研究。我们将模型与许多用于样式传输的方法进行比较。使用无监督的样式传输指标的组合以可参考方式评估该模型。两种方法都建议产生新的SOTA结果。
translated by 谷歌翻译
对仇恨言论和冒犯性语言(HOF)的认可通常是作为一项分类任务,以决定文本是否包含HOF。我们研究HOF检测是否可以通过考虑HOF和类似概念之间的关系来获利:(a)HOF与情感分析有关,因为仇恨言论通常是负面陈述并表达了负面意见; (b)这与情绪分析有关,因为表达的仇恨指向作者经历(或假装体验)愤怒的同时经历(或旨在体验)恐惧。 (c)最后,HOF的一个构成要素是提及目标人或群体。在此基础上,我们假设HOF检测在与这些概念共同建模时,在多任务学习设置中进行了改进。我们将实验基于这些概念的现有数据集(情感,情感,HOF的目标),并在Hasoc Fire 2021英语子任务1A中评估我们的模型作为参与者(作为IMS-Sinai团队)。基于模型选择实验,我们考虑了多个可用的资源和共享任务的提交,我们发现人群情绪语料库,Semeval 2016年情感语料库和犯罪2019年目标检测数据的组合导致F1 =。 79在基于BERT的多任务多任务学习模型中,与Plain Bert的.7895相比。在HASOC 2019测试数据上,该结果更为巨大,而F1中的增加2pp和召回大幅增加。在两个数据集(2019,2021)中,HOF类的召回量尤其增加(2019年数据的6pp和2021数据的3pp),表明MTL具有情感,情感和目标识别是适合的方法可能部署在社交媒体平台中的预警系统。
translated by 谷歌翻译
随着社交媒体平台上的开放文本数据的最新扩散,在过去几年中,文本的情感检测(ED)受到了更多关注。它有许多应用程序,特别是对于企业和在线服务提供商,情感检测技术可以通过分析客户/用户对产品和服务的感受来帮助他们做出明智的商业决策。在这项研究中,我们介绍了Armanemo,这是一个标记为七个类别的7000多个波斯句子的人类标记的情感数据集。该数据集是从不同资源中收集的,包括Twitter,Instagram和Digikala(伊朗电子商务公司)的评论。标签是基于埃克曼(Ekman)的六种基本情感(愤怒,恐惧,幸福,仇恨,悲伤,奇迹)和另一个类别(其他),以考虑Ekman模型中未包含的任何其他情绪。除数据集外,我们还提供了几种基线模型,用于情绪分类,重点是最新的基于变压器的语言模型。我们的最佳模型在我们的测试数据集中达到了75.39%的宏观平均得分。此外,我们还进行了转移学习实验,以将我们提出的数据集的概括与其他波斯情绪数据集进行比较。这些实验的结果表明,我们的数据集在现有的波斯情绪数据集中具有较高的概括性。 Armanemo可在https://github.com/arman-rayan-sharif/arman-text-emotion上公开使用。
translated by 谷歌翻译
The health mention classification (HMC) task is the process of identifying and classifying mentions of health-related concepts in text. This can be useful for identifying and tracking the spread of diseases through social media posts. However, this is a non-trivial task. Here we build on recent studies suggesting that using emotional information may improve upon this task. Our study results in a framework for health mention classification that incorporates affective features. We present two methods, an intermediate task fine-tuning approach (implicit) and a multi-feature fusion approach (explicit) to incorporate emotions into our target task of HMC. We evaluated our approach on 5 HMC-related datasets from different social media platforms including three from Twitter, one from Reddit and another from a combination of social media sources. Extensive experiments demonstrate that our approach results in statistically significant performance gains on HMC tasks. By using the multi-feature fusion approach, we achieve at least a 3% improvement in F1 score over BERT baselines across all datasets. We also show that considering only negative emotions does not significantly affect performance on the HMC task. Additionally, our results indicate that HMC models infused with emotional knowledge are an effective alternative, especially when other HMC datasets are unavailable for domain-specific fine-tuning. The source code for our models is freely available at https://github.com/tahirlanre/Emotion_PHM.
translated by 谷歌翻译
Covid-19大流行的发作使风险的心理健康带来了。社会咨询在这种环境中取得了显着意义。与一般面向目标的对话不同,患者和治疗师之间的对话是相当明暗的,尽管谈话的目标非常明显。在这种情况下,了解患者的目的在提供治疗会话中提供有效咨询方面是必要的,同样适用于对话系统。在这项工作中,我们前进是一个小小的一步,在开发精神健康咨询的自动对话系统中。我们开发一个名为HOPE的新型数据集,为咨询谈话中的对话行为分类提供平台。我们确定此类对话的要求,并提出了12个域特定的对话法(DAC)标签。我们收集12.9k的话语从youtube上公开的咨询会话视频,用DAC标签提取他们的成绩单,清洁并注释它们。此外,我们提出了一种基于变压器的架构的Sparta,具有新颖的扬声器和时间感知的语境学习,用于对话行动分类。我们的评价显示了若干基线的令人信服的表现,实现了最先进的希望。我们还通过对Sparta进行广泛的实证和定性分析来补充我们的实验。
translated by 谷歌翻译
We introduce a new language representation model called BERT, which stands for Bidirectional Encoder Representations from Transformers. Unlike recent language representation models (Peters et al., 2018a;Radford et al., 2018), BERT is designed to pretrain deep bidirectional representations from unlabeled text by jointly conditioning on both left and right context in all layers. As a result, the pre-trained BERT model can be finetuned with just one additional output layer to create state-of-the-art models for a wide range of tasks, such as question answering and language inference, without substantial taskspecific architecture modifications.BERT is conceptually simple and empirically powerful. It obtains new state-of-the-art results on eleven natural language processing tasks, including pushing the GLUE score to 80.5% (7.7% point absolute improvement), MultiNLI accuracy to 86.7% (4.6% absolute improvement), SQuAD v1.1 question answering Test F1 to 93.2 (1.5 point absolute improvement) and SQuAD v2.0 Test F1 to 83.1 (5.1 point absolute improvement).
translated by 谷歌翻译
Customers are rapidly turning to social media for customer support. While brand agents on these platforms are motivated and well-intentioned to help and engage with customers, their efforts are often ignored if their initial response to the customer does not match a specific tone, style, or topic the customer is aiming to receive. The length of a conversation can reflect the effort and quality of the initial response made by a brand toward collaborating and helping consumers, even when the overall sentiment of the conversation might not be very positive. Thus, through this study, we aim to bridge this critical gap in the existing literature by analyzing language's content and stylistic aspects such as expressed empathy, psycho-linguistic features, dialogue tags, and metrics for quantifying personalization of the utterances that can influence the engagement of an interaction. This paper demonstrates that we can predict engagement using initial customer and brand posts.
translated by 谷歌翻译
In recent years, there has been increased interest in building predictive models that harness natural language processing and machine learning techniques to detect emotions from various text sources, including social media posts, micro-blogs or news articles. Yet, deployment of such models in real-world sentiment and emotion applications faces challenges, in particular poor out-of-domain generalizability. This is likely due to domain-specific differences (e.g., topics, communicative goals, and annotation schemes) that make transfer between different models of emotion recognition difficult. In this work we propose approaches for text-based emotion detection that leverage transformer models (BERT and RoBERTa) in combination with Bidirectional Long Short-Term Memory (BiLSTM) networks trained on a comprehensive set of psycholinguistic features. First, we evaluate the performance of our models within-domain on two benchmark datasets: GoEmotion and ISEAR. Second, we conduct transfer learning experiments on six datasets from the Unified Emotion Dataset to evaluate their out-of-domain robustness. We find that the proposed hybrid models improve the ability to generalize to out-of-distribution data compared to a standard transformer-based approach. Moreover, we observe that these models perform competitively on in-domain data.
translated by 谷歌翻译
深度神经语言模型的最新进展与大规模数据集的能力相结合,加速了自然语言生成系统的发展,这些系统在多种任务和应用程序上下文中产生流利和连贯的文本(在各种成功程度上)。但是,为所需的用户控制这些模型的输出仍然是一个开放的挑战。这不仅对于自定义生成语言的内容和样式至关重要,而且对于他们在现实世界中的安全可靠部署至关重要。我们提出了一项关于受约束神经语言生成的新兴主题的广泛调查,在该主题中,我们通过区分条件和约束(后者是在输出文本上而不是输入的可检验条件),正式定义和分类自然语言生成问题,目前是可检验的)约束文本生成任务,并查看受限文本生成的现有方法和评估指标。我们的目的是强调这个新兴领域的最新进展和趋势,以告知最有希望的方向和局限性,以推动受约束神经语言生成研究的最新作品。
translated by 谷歌翻译
动机,情感和行动是人类活动中相关的基本因素。尽管长期以来一直认为动机和情感是探索人们如何在人类活动中采取行动的核心,但几乎没有研究支持分析人类精神状态与行动之间的关系。我们介绍了第一项研究,该研究研究了基于语言的人类活动中建模动机,情感和行动的生存能力,即逗号(人类活动的认知框架)。在逗号的指导下,我们定义了三个自然语言处理任务(情感理解,动机理解和有条件的动作生成),并通过自动从故事常识中提取样本来建立一个具有挑战性的数据集冰雹。 NLP应用程序的实验结果证明了建模关系的有效性。此外,与现有方法相比,受逗号启发的模型可以更好地揭示动机,情感和行动之间的基本关系。
translated by 谷歌翻译
在对话中的情感识别(ERC)中,通过考虑以前的上下文可以预测当前话语的情感,这可以在许多自然语言处理任务中使用。尽管多种情绪可以在给定的句子中共存,但以前的大多数方法都采用分类任务的视角来预测给定标签。但是,用自信或多标签标记句子的情绪是昂贵且困难的。在本文中,我们将自动构建一个灰度标签,考虑到情绪之间的相关性并将其用于学习。也就是说,我们不是使用给定标签作为单热编码,而是通过测量不同情绪的分数来构建灰度标签。我们介绍了几种构建灰度标签的方法,并确认每种方法都改善了情绪识别性能。我们的方法简单,有效且普遍适用于以前的系统。实验显示基线的性能有显着改善。
translated by 谷歌翻译
用户生成的内容充满了拼写错误。我们假设许多拼写错误的语义不仅仅是随机噪音,而是可以利用隐藏的语义来理解语言理解任务。本文提出了泰语中拼写错误的注释语料库,以及对拼写意图及其可能的语义的分析,以更好地理解语料库中观察到的拼写模式。此外,我们介绍了两种方法,以结合拼写错误的语义:拼写的平均嵌入(MAE)和拼写的语义令牌(MST)。情感分析任务的实验证实了我们的总体假设:拼写错误的其他语义可以提高微F1得分高达0.4-2%,而盲目正常化的拼写错误是有害的和次优的。
translated by 谷歌翻译