Automatic emotion recognition in conversation (ERC) is crucial for emotion-aware conversational artificial intelligence. This paper proposes a distribution-based framework that formulates ERC as a sequence-to-sequence problem for emotion distribution estimation. The inherent ambiguity of emotions and the subjectivity of human perception lead to disagreements in emotion labels, which is handled naturally in our framework from the perspective of uncertainty estimation in emotion distributions. A Bayesian training loss is introduced to improve the uncertainty estimation by conditioning each emotional state on an utterance-specific Dirichlet prior distribution. Experimental results on the IEMOCAP dataset show that ERC outperformed the single-utterance-based system, and the proposed distribution-based ERC methods have not only better classification accuracy, but also show improved uncertainty estimation.
translated by 谷歌翻译
情感识别是需要自然与人类互动的人工智能系统的关键属性。但是,由于情感的固有歧义,任务定义仍然是一个空旷的问题。在本文中,提出了一种基于dirichlet的新型贝叶斯训练损失,以提议言语情感识别,该言语识别为言语识别而建模,它将人类注释者分配给不同的情感类别的单次注释时产生的单热标签的不确定性。一个额外的指标用于通过具有高标签不确定性的检测测试说法来评估性能。这消除了一个主要局限性,即情绪分类系统仅考虑大多数注释者就情感阶级一致的标签来考虑话语。此外,研究了一种常见的方法,以利用通过平均单热标签获得的连续价值“软”标签。我们提出了一个双分支模型的结构,用于以每种能力为基础的情绪分类,该结构在广泛使用的Iemocap数据集上实现了最新的分类结果。基于此,进行了不确定性估计实验。当在Precision-Recall曲线下,当检测高不确定性的话语的情况下,可以通过对软标签的Kullback-Leibler Divergence训练损失来实现最佳性能。使用MSP播客数据集验证了所提出的方法的通用性,该数据集产生了相同的结果模式。
translated by 谷歌翻译
在多方对话中有效地发现发言者的情绪状态是设计人类类似的会话代理商的重要性。在谈话期间,扬声器的认知状态通常由于某些过去的话语而改变,这可能导致他们的情绪状态的翻转。因此,在对话期间发现扬声器情感翻转背后的原因(触发)对于解释个人话语的情感标签至关重要。在本文中,除了解决对话中的情感认可的任务(ERC),我们介绍了一种新的任务 - 情感 - 翻转推理(EFR),旨在识别过去的话语,这引发了一个人的情绪状态以在一定时间翻转。我们提出了一个掩蔽的存储器网络来解决前者和基于变换器的网络的后一种任务。为此,我们考虑融合的基准情感识别数据集,用于ERC任务的多方对话,并使用EFR的新地基标签增强它。与五个最先进的模型进行了广泛的比较,表明我们对两个任务的模型的表现。我们进一步提出了轶事证据和定性和定量误差分析,以支持与基线相比模型的优势。
translated by 谷歌翻译
Covid-19大流行的发作使风险的心理健康带来了。社会咨询在这种环境中取得了显着意义。与一般面向目标的对话不同,患者和治疗师之间的对话是相当明暗的,尽管谈话的目标非常明显。在这种情况下,了解患者的目的在提供治疗会话中提供有效咨询方面是必要的,同样适用于对话系统。在这项工作中,我们前进是一个小小的一步,在开发精神健康咨询的自动对话系统中。我们开发一个名为HOPE的新型数据集,为咨询谈话中的对话行为分类提供平台。我们确定此类对话的要求,并提出了12个域特定的对话法(DAC)标签。我们收集12.9k的话语从youtube上公开的咨询会话视频,用DAC标签提取他们的成绩单,清洁并注释它们。此外,我们提出了一种基于变压器的架构的Sparta,具有新颖的扬声器和时间感知的语境学习,用于对话行动分类。我们的评价显示了若干基线的令人信服的表现,实现了最先进的希望。我们还通过对Sparta进行广泛的实证和定性分析来补充我们的实验。
translated by 谷歌翻译
对于谈话情感认可的任务,最近的作品专注于发言者关系建模,但忽略了话语的情感倾向的作用。在本文中,我们提出了一种新的表达范例的句子级情绪定向向量,以模拟句子之间情绪的潜在相关性vectors。基于它,我们设计了一种情感识别模型,它从语言模型中提取句子级情感方向向量,并从对话情绪分析模型联合学习,提取句子级情绪方向向量,以识别谈话者在谈话中的情绪导向。我们在两个基准数据集中进行实验,并将它们与五个基线模型进行比较。实验结果表明,我们的模型对所有数据集具有更好的性能。
translated by 谷歌翻译
谈话中的情感认可(ERC)是一个重要而积极的研究问题。最近的工作表明了ERC任务使用多种方式(例如,文本,音频和视频)的好处。在谈话中,除非一些外部刺激唤起改变,否则参与者倾向于维持特定的情绪状态。在谈话中持续的潮起潮落和情绪流动。灵感来自这种观察,我们提出了一种多模式ERC模型,并通过情感转换组件增强。所提出的情感移位组件是模块化的,可以添加到任何现有的多模式ERC模型(具有几种修改),以改善情绪识别。我们尝试模型的不同变体,结果表明,包含情感移位信号有助于模型以优于ERC的现有多模型模型,从而展示了MOSEI和IEMOCAP数据集的最先进的性能。
translated by 谷歌翻译
The goal of building dialogue agents that can converse with humans naturally has been a long-standing dream of researchers since the early days of artificial intelligence. The well-known Turing Test proposed to judge the ultimate validity of an artificial intelligence agent on the indistinguishability of its dialogues from humans'. It should come as no surprise that human-level dialogue systems are very challenging to build. But, while early effort on rule-based systems found limited success, the emergence of deep learning enabled great advance on this topic. In this thesis, we focus on methods that address the numerous issues that have been imposing the gap between artificial conversational agents and human-level interlocutors. These methods were proposed and experimented with in ways that were inspired by general state-of-the-art AI methodologies. But they also targeted the characteristics that dialogue systems possess.
translated by 谷歌翻译
我们提出了研究,这是一种新的演讲语料库,用于开发一个可以以友好方式讲话的语音代理。人类自然会控制他们的言语韵律以相互同情。通过将这种“同情对话”行为纳入口语对话系统,我们可以开发一个可以自然响应用户的语音代理。我们设计了研究语料库,以包括一位演讲者,他明确地对对话者的情绪表示同情。我们描述了构建善解人意的对话语音语料库的方法论,并报告研究语料库的分析结果。我们进行了文本到语音实验,以最初研究如何开发更多的自然语音代理,以调整其口语风格,以对应对话者的情绪。结果表明,对话者的情绪标签和对话上下文嵌入的使用可以与使用代理商的情感标签相同的自然性产生语音。我们的研究项目页面是http://sython.org/corpus/studies。
translated by 谷歌翻译
创建可以对对话做出适当反应又理解复杂人类语言倾向和社会线索的代理人在NLP社区中一直是一项艰巨的挑战。最近的研究支柱围绕着对话中的情感识别(ERC);情感识别的子场地,重点是包含两个或更多话语的对话或对话。在这项工作中,我们探讨了一种ERC的方法,该方法利用了对话中神经嵌入的使用以及复杂的结构。我们在称为概率软逻辑(PSL)的框架中实现了我们的方法,该框架是一种使用一阶逻辑规则的声明的模板语言,该语言与数据结合时,定义了特定类别的图形模型。此外,PSL为将神经模型的结果纳入PSL模型提供了功能。这使我们的模型可以利用先进的神经方法,例如句子嵌入以及对话结构的逻辑推理。我们将我们的方法与最先进的纯神经ERC系统进行了比较,并将几乎提高了20%。通过这些结果,我们对DailyDialog对话数据集提供了广泛的定性和定量分析。
translated by 谷歌翻译
从对话数据中提取信息特别具有挑战性,因为以任务为中心的对话的性质可以有效地传达人类隐式信息,但对机器来说是具有挑战性的。话语之间的挑战可能会有所不同,具体取决于说话者在对话中的作用,尤其是当相关专业知识跨角色不对称时。此外,随着对话中隐含地传达的信息构建更多的共享环境,挑战也可能会增加。在本文中,我们提出了新颖的建模方法MedFilter,该方法解决了这些见解,以提高识别和分类与任务相关的话语时的性能,并在这样做时对下游信息提取任务的性能产生积极影响。我们在近7,000次医生对话的语料库上评估了这种方法,其中使用MedFilter来识别与讨论的医学相关贡献(在PR曲线下的面积方面,比SOTA基线提高了10%的贡献)。确定与任务相关的话语受益于下游医疗处理,在提取症状,药物和投诉的提取方面分别提高了15%,105%和23%。
translated by 谷歌翻译
多模式情绪分析(MSA)是一种基本复杂的研究问题,因为不同方式与人类情绪表达的模糊性之间的异质性差距。虽然已经成功地建造了MSA的多模式表示,但仍有两个挑战需要解决:1)需要构建更强大的多模式表示来弥合异质性间隙并应对复杂的多模式相互作用和2)必须在整个信息流中有效地建模上下文动态。在这项工作中,我们提出了一种基于相互信息最大化和最小化和身份嵌入(MMMIE)的多模式表示模型。我们将模态对之间的相互信息最大化以及输入数据和相应功能之间的相互信息最小化,以挖掘模态不变和任务相关信息。此外,提出了身份嵌入,以提示下游网络来感知语境信息。两个公共数据集的实验结果证明了所提出的模型的有效性。
translated by 谷歌翻译
考虑到大量未标记的语音数据和高标签成本,无监督的学习方法对于更好的系统开发至关重要。最成功的方法之一是对比度的自我监督方法,这些方法需要负采样:采样替代样品与当前样品(锚)对比。但是,很难确保所有负样本属于与没有标签的锚类别不同的​​类别。本文在未标记的语音语料库上应用了一种非对抗性的自我监督学习方法来学习话语级的嵌入。我们使用没有标签的蒸馏(Dino),在计算机视觉中提出,并将其改编为语音域。与对比度方法不同,Dino不需要负采样。这些嵌入是根据说话者验证和情感识别评估的。在说话者验证中,无监督的恐龙与余弦评分嵌入了voxceleb1测试试验中的4.38%EER。这表现优于最佳的对比度自我监督方法,而EER中的相对相对40%。不需要扬声器标签的迭代伪标记训练管道将EER进一步提高到1.89%。在情感识别中,Iemocap,Crema-D和MSP播客的Micro-F1得分分别进行了60.87、79.21和56.98%的恐龙。结果暗示着恐龙嵌入到不同语音应用中的普遍性。
translated by 谷歌翻译
The task of emotion recognition in conversations (ERC) benefits from the availability of multiple modalities, as offered, for example, in the video-based MELD dataset. However, only a few research approaches use both acoustic and visual information from the MELD videos. There are two reasons for this: First, label-to-video alignments in MELD are noisy, making those videos an unreliable source of emotional speech data. Second, conversations can involve several people in the same scene, which requires the detection of the person speaking the utterance. In this paper we demonstrate that by using recent automatic speech recognition and active speaker detection models, we are able to realign the videos of MELD, and capture the facial expressions from uttering speakers in 96.92% of the utterances provided in MELD. Experiments with a self-supervised voice recognition model indicate that the realigned MELD videos more closely match the corresponding utterances offered in the dataset. Finally, we devise a model for emotion recognition in conversations trained on the face and audio information of the MELD realigned videos, which outperforms state-of-the-art models for ERC based on vision alone. This indicates that active speaker detection is indeed effective for extracting facial expressions from the uttering speakers, and that faces provide more informative visual cues than the visual features state-of-the-art models have been using so far.
translated by 谷歌翻译
Human speech can be characterized by different components, including semantic content, speaker identity and prosodic information. Significant progress has been made in disentangling representations for semantic content and speaker identity in Automatic Speech Recognition (ASR) and speaker verification tasks respectively. However, it is still an open challenging research question to extract prosodic information because of the intrinsic association of different attributes, such as timbre and rhythm, and because of the need for unsupervised training schemes to achieve robust large-scale and speaker-independent ASR. The aim of this paper is to address the disentanglement of emotional prosody from speech based on unsupervised reconstruction. Specifically, we identify, design, implement and integrate three crucial components in our proposed speech reconstruction model Prosody2Vec: (1) a unit encoder that transforms speech signals into discrete units for semantic content, (2) a pretrained speaker verification model to generate speaker identity embeddings, and (3) a trainable prosody encoder to learn prosody representations. We first pretrain the Prosody2Vec representations on unlabelled emotional speech corpora, then fine-tune the model on specific datasets to perform Speech Emotion Recognition (SER) and Emotional Voice Conversion (EVC) tasks. Both objective and subjective evaluations on the EVC task suggest that Prosody2Vec effectively captures general prosodic features that can be smoothly transferred to other emotional speech. In addition, our SER experiments on the IEMOCAP dataset reveal that the prosody features learned by Prosody2Vec are complementary and beneficial for the performance of widely used speech pretraining models and surpass the state-of-the-art methods when combining Prosody2Vec with HuBERT representations. Some audio samples can be found on our demo website.
translated by 谷歌翻译
语音情感转换是修改语音话语的感知情绪的任务,同时保留词汇内容和扬声器身份。在这项研究中,我们将情感转换问题作为口语翻译任务。我们将演讲分解为离散和解散的学习表现,包括内容单位,F0,扬声器和情感。首先,我们通过将内容单元转换为目标情绪来修改语音内容,然后基于这些单元预测韵律特征。最后,通过将预测的表示馈送到神经声码器中来生成语音波形。这样的范式允许我们超越信号的光谱和参数变化,以及模型非口头发声,例如笑声插入,打开拆除等。我们客观地和主观地展示所提出的方法在基础上优于基线感知情绪和音频质量。我们严格评估了这种复杂系统的所有组成部分,并通过广泛的模型分析和消融研究结束,以更好地强调建议方法的建筑选择,优势和弱点。示例和代码将在以下链接下公开使用:https://speechbot.github.io/emotion。
translated by 谷歌翻译
情绪识别(ER)旨在将人的话语分类为不同的情感类别。基于本文和声学模式之间的早期融合和基于自我注意力的多模式相互作用,在本文中,我们提出了一种多模式多任务学习方法,用于从孤立的单个话语中进行ER。Iemocap基准测试的实验表明,我们提出的模型的表现要比我们对最新的改性的重新实现要好,并且比文献中所有其他单峰和多模式方法更好地实现了性能。此外,强大的基准和消融研究证明了我们提出的方法的有效性。我们在GitHub上公开提供所有代码。
translated by 谷歌翻译
个性化响应选择系统通常基于角色。但是,角色和同理心之间存在共同关联,这些系统在这些系统中并不是很好。本文试图通过提出一套融合策略来解决这些问题,以捕捉角色,情感和话语中的综合信息之间的相互作用。关于角色chat数据集的消融研究表明,结合情绪和累积可提高响应选择的准确性。我们将融合策略和概念流编码结合在一起,以训练基于BERT的模型,该模型的表现优于原始角色的利润率大于2.3%,而修订后的角色的命中率是1.9%(前1位准确性),在角色chat数据集上实现新的最新性能。
translated by 谷歌翻译
在对话系统中,具有类似语义的话语可能在不同的环境下具有独特的情绪。因此,与扬声器依赖关系建模的远程语境情绪关系在对话情绪识别中起重要作用。同时,区分不同的情绪类别是非微不足道的,因为它们通常具有语义上类似的情绪。为此,我们采取监督对比学习,使不同的情绪相互排斥,以更好地识别类似的情绪。同时,我们利用辅助响应生成任务来增强模型处理上下文信息的能力,从而强迫模型在不同的环境中识别与类似语义的情绪。为了实现这些目标,我们使用预先训练的编码器 - 解码器模型架作为我们的骨干模型,因为它非常适合理解和生成任务。四个数据集的实验表明,我们所提出的模型在对话情绪认可中获得比最先进的模型更有利的结果。消融研究进一步展示了监督对比损失和生成损失的有效性。
translated by 谷歌翻译
良好的善解人意对话系统应首先跟踪并理解用户的情绪,然后以适当的情感回复。但是,目前对此任务的方法要么集中于提高对用户情绪的理解或提出更好的反应策略,而且很少有作品同时考虑这两种工作。我们的工作试图填补这一空缺。受到任务导向对话系统的启发,我们提出了一种具有情感感知对话管理的新颖善解人意的响应生成模型。情绪感知对话管理包含两个部分:(1)情绪状态跟踪保持当前用户的情绪状态,(2)善解人意的对话策略选择预测目标情绪和用户的意图,基于情绪状态跟踪的结果。然后,预测信息用于指导响应的产生。实验结果表明,与自动评估和人类评估下的几个基准相比,动态管理不同的信息可以帮助模型产生更多的移情反应。
translated by 谷歌翻译
We apply topological data analysis (TDA) to speech classification problems and to the introspection of a pretrained speech model, HuBERT. To this end, we introduce a number of topological and algebraic features derived from Transformer attention maps and embeddings. We show that a simple linear classifier built on top of such features outperforms a fine-tuned classification head. In particular, we achieve an improvement of about $9\%$ accuracy and $5\%$ ERR on four common datasets; on CREMA-D, the proposed feature set reaches a new state of the art performance with accuracy $80.155$. We also show that topological features are able to reveal functional roles of speech Transformer heads; e.g., we find the heads capable to distinguish between pairs of sample sources (natural/synthetic) or voices without any downstream fine-tuning. Our results demonstrate that TDA is a promising new approach for speech analysis, especially for tasks that require structural prediction.
translated by 谷歌翻译