我们提出了研究,这是一种新的演讲语料库,用于开发一个可以以友好方式讲话的语音代理。人类自然会控制他们的言语韵律以相互同情。通过将这种“同情对话”行为纳入口语对话系统,我们可以开发一个可以自然响应用户的语音代理。我们设计了研究语料库,以包括一位演讲者,他明确地对对话者的情绪表示同情。我们描述了构建善解人意的对话语音语料库的方法论,并报告研究语料库的分析结果。我们进行了文本到语音实验,以最初研究如何开发更多的自然语音代理,以调整其口语风格,以对应对话者的情绪。结果表明,对话者的情绪标签和对话上下文嵌入的使用可以与使用代理商的情感标签相同的自然性产生语音。我们的研究项目页面是http://sython.org/corpus/studies。
translated by 谷歌翻译
我们提出了一个端到端的移情对话言语综合(DSS)模型,该模型既考虑对话历史的语言和韵律背景。同理心是人类积极尝试进入对话中的对话者,而同理心DSS是在口语对话系统中实施此行为的技术。我们的模型以语言和韵律特征的历史为条件,以预测适当的对话环境。因此,可以将其视为传统基于语言 - 基于语言的对话历史建模的扩展。为了有效地培训善解人意的DSS模型,我们研究1)通过大型语音语料库预审预测的一个自我监督的学习模型,2)一种风格引导的培训,使用韵律嵌入对话上下文嵌入的当前话语,3)对结合文本和语音方式的跨模式的关注,以及4)句子的嵌入,以实现细粒度的韵律建模,而不是通过话语建模。评估结果表明,1)仅考虑对话历史的韵律环境并不能提高善解人意的DSS中的语音质量和2)引入样式引导的培训和句子嵌入模型的言语质量比传统方法更高。
translated by 谷歌翻译
当前的大多数TTS数据集是单个话语的集合,在样式和元数据方面几乎没有对话方面。在本文中,我们介绍了DailyTalk,这是一种专为文本到语音设计的高质量对话语音数据集。我们从开放域对话数据集Dabordialog中取样,修改和记录了2,541个对话,这些对话足以表示每个对话的上下文。在数据构建步骤中,我们维护了最初在DailyDialog中注释的属性分布,以支持DailyTalk中的各种对话。除了数据集之外,我们将先前的工作扩展为我们的基线,在该基线中,非自动回忆TTS的条件是对话框中的历史信息。我们收集元数据,以便TTS模型可以学习历史对话信息,这是产生上下文感知语音的关键。从基线实验结果中,我们显示每日talk可用于训练神经文本到语音模型,我们的基线可以代表上下文信息。 DailyTalk数据集和基线代码可自由使用CC-BY-SA 4.0许可证。
translated by 谷歌翻译
Entrainment is the phenomenon by which an interlocutor adapts their speaking style to align with their partner in conversations. It has been found in different dimensions as acoustic, prosodic, lexical or syntactic. In this work, we explore and utilize the entrainment phenomenon to improve spoken dialogue systems for voice assistants. We first examine the existence of the entrainment phenomenon in human-to-human dialogues in respect to acoustic feature and then extend the analysis to emotion features. The analysis results show strong evidence of entrainment in terms of both acoustic and emotion features. Based on this findings, we implement two entrainment policies and assess if the integration of entrainment principle into a Text-to-Speech (TTS) system improves the synthesis performance and the user experience. It is found that the integration of the entrainment principle into a TTS system brings performance improvement when considering acoustic features, while no obvious improvement is observed when considering emotion features.
translated by 谷歌翻译
我们提出了一种方法来培训我们的多扬声器情绪文本到语音合成器,可以表达10个扬声器的7种不同情绪的言语。在学习之前,可以从音频样本中删除所有沉默。这导致我们的模型快速学习。课程学习应用于有效地培训我们的模型。我们的型号首先用大型单扬声器中性数据集接受培训,然后用所有扬声器的中性演讲培训。最后,我们的模型使用来自所有扬声器的情感语音数据集进行培训。在每个阶段,每个扬声器 - 情感对的培训样本具有相同的概率以出现在迷你批次中。通过此程序,我们的模型可以综合所有有针对性的发言者和情绪的演讲。我们的网页上提供了我们的合成音频集。
translated by 谷歌翻译
在本文中,我们首先提供了述评最先进的情感语音转换研究以及现有的情绪语音数据库。然后,我们激励开发一种新颖的情绪语音数据库(ESD),这些数据库(ESD)解决了越来越多的研究需求。借鉴了本文,现在可以向研究界提供ESD数据库。ESD数据库由10名母语和10个母语的扬声器发表的350个平行话语组成,涵盖5个情感类别(中性,快乐,愤怒,悲伤和惊喜)。在受控的声学环境中记录了超过29小时的语音数据。该数据库适用于多扬声器和交叉语言情绪转换研究。如案例研究,我们在ESD数据库上实施了几种最先进的情绪转换系统。本文在释放释放时提供了对ESD的参考研究。
translated by 谷歌翻译
可以处理各种扬声器和声学条件的模型在语音情感识别(Ser)中至关重要。通常,这些模型往往会在培训期间呈现扬声器或声学条件时显示混合结果。本文调查了交叉组件数据互补和数据增强对Ser模型的影响(从相同的语料库中的测试设置)和不匹配(从不同的语料库测试)条件。介绍了使用六种情绪语音集团的调查,其中包括单一和多个扬声器以及情感风格的变化(作用,引发,自然)和记录条件。观察结果表明,正如预期的那样,在单一语料库上培训的模型在匹配条件下表现最佳,而性能在不匹配的条件下减少10-40%,具体取决于语料库特定功能。在混合语料库上培训的型号在不匹配的上下文中可以更稳定,与匹配条件中的单个语料库模型相比,性能减少的范围为1%至8%。数据增强产生额外的收益高达4%,似乎有利于比匹配的不匹配条件。
translated by 谷歌翻译
情感语音综合旨在使人类的声音具有各种情感影响。当前的研究主要集中于模仿属于特定情感类型的平均风格。在本文中,我们试图在运行时与情感混合在一起。我们提出了一种新颖的表述,可以衡量不同情绪的语音样本之间的相对差异。然后,我们将公式纳入序列到序列情感文本到语音框架中。在培训期间,该框架不仅明确地表征了情感风格,而且还通过用其他情感量化差异来探索情绪的序数。在运行时,我们通过手动定义情感属性向量来控制模型以产生所需的情绪混合物。客观和主观评估验证了拟议框架的有效性。据我们所知,这项研究是关于言语中混合情绪的建模,综合和评估混合情绪的第一项研究。
translated by 谷歌翻译
最近,盲目的语音分离(BSS)和目标语音提取(TSE)的表现已取得了长足的进步。但是,大多数作品都专注于相对控制的条件,例如阅读语音。在更现实的情况下,性能可能会降低。引起这种降解的因素之一可能是固有的说话者变异性,例如情绪,通常在现实的语音中发生。在本文中,我们研究了情绪对TSE和BSS的影响。我们创建了一个新的测试数据集,以评估TSE和BSS。该数据集结合了Librispeech和Ryerson Audio-Visual Visual Espections and Song(Ravdess)。通过受控的实验,我们可以分析不同情绪对BSS和TSE性能的影响。我们观察到BSS对情绪相对强大,而TSE需要识别和提取目标说话者的语音,对情绪更为敏感。在比较演讲者验证实验中,我们表明,在处理情感语音时,确定目标扬声器可能特别具有挑战性。使用我们的发现,我们概述了可能改善BSS和TSE系统对情感语音的鲁棒性的潜在方向。
translated by 谷歌翻译
情绪转换(EVC)寻求转换话语的情绪状态,同时保留语言内容和扬声器身份。在EVC,情绪通常被视为离散类别,忽略了言论也传达了听众可以感知的各种强度水平的情绪。在本文中,我们的目标是明确地表征和控制情绪强度。我们建议解开语言内容的扬声器风格,并将扬声器风格编码成一个嵌入的嵌入空间,形成情绪嵌入的原型。我们进一步从情感标记的数据库中了解实际的情感编码器,并研究使用相对属性来表示细粒度的情绪强度。为确保情绪可理解性,我们将情感分类损失和情感嵌入了EVC网络培训中的相似性损失。根据需要,所提出的网络控制输出语音中的细粒度情绪强度。通过目标和主观评估,我们验证了建议网络的情感表达和情感强度控制的有效性。
translated by 谷歌翻译
Since emotions are expressed through a combination of verbal and non-verbal channels, a joint analysis of speech and gestures is required to understand expressive human communication. To facilitate such investigations, this paper describes a new corpus named the "interactive emotional dyadic motion capture database" (IEMOCAP), collected by the Speech Analysis and Interpretation Laboratory (SAIL) at the University of Southern California (USC). This database was recorded from ten actors in dyadic sessions with markers on the face, head, and hands, which provide detailed information about their facial expression and hand movements during scripted and spontaneous spoken communication scenarios. The actors performed selected emotional scripts and also improvised hypothetical scenarios designed to elicit specific types of emotions (happiness, anger, sadness, frustration and neutral state). The corpus contains approximately twelve hours of data. The detailed motion capture information, the interactive setting to elicit authentic emotions, and the size of the database make this corpus a valuable addition to the existing databases in the community for the study and modeling of multimodal and expressive human communication.
translated by 谷歌翻译
In this paper, we present a novel method for phoneme-level prosody control of F0 and duration using intuitive discrete labels. We propose an unsupervised prosodic clustering process which is used to discretize phoneme-level F0 and duration features from a multispeaker speech dataset. These features are fed as an input sequence of prosodic labels to a prosody encoder module which augments an autoregressive attention-based text-to-speech model. We utilize various methods in order to improve prosodic control range and coverage, such as augmentation, F0 normalization, balanced clustering for duration and speaker-independent clustering. The final model enables fine-grained phoneme-level prosody control for all speakers contained in the training set, while maintaining the speaker identity. Instead of relying on reference utterances for inference, we introduce a prior prosody encoder which learns the style of each speaker and enables speech synthesis without the requirement of reference audio. We also fine-tune the multispeaker model to unseen speakers with limited amounts of data, as a realistic application scenario and show that the prosody control capabilities are maintained, verifying that the speaker-independent prosodic clustering is effective. Experimental results show that the model has high output speech quality and that the proposed method allows efficient prosody control within each speaker's range despite the variability that a multispeaker setting introduces.
translated by 谷歌翻译
本文介绍了对F0的音素级韵律控制的方法和多销箱文本到语音设置的持续时间,基于韵律聚类。使用自回归关注的模型,并将多个箱子架构模块并联,与韵律编码器并联。提出了对基本单扬声器方法的几种改进,从而增加了韵律控制范围和覆盖范围。更具体地说,我们采用数据增强,F0​​标准化,持续时间的平衡集群,以及扬声器无关的韵律聚类。这些修改使培训集中包含的所有发言者能够进行细粒度的音素级韵律控制,同时保持扬声器标识。该模型也可以微调到具有限制数据量的看不见的扬声器,并显示其维持其韵律控制能力,验证说话者无关的韵律聚类是有效的。实验结果验证了该模型维持了高输出语音质量,并且该方法允许在每个扬声器范围内有效的韵律控制,尽管多种式箱子设置介绍的变化。
translated by 谷歌翻译
最近的文本到语音(TTS)的质量与人类的质量相当。但是,其在口语对话中的应用尚未得到广泛研究。这项研究旨在实现与人类对话非常相似的TT。首先,我们记录并抄录实际自发对话。然后,提出的对话TTS分为两个阶段:第一阶段,各种自动编码器(VAE) - VITS或高斯混合物变化自动编码器(GMVAE) - 培训了训练,从端到端文本对语音(VIT),最近提出的端到端TTS模型。从语音中提取潜在的口语表示的样式编码器与TTS共同培训。在第二阶段,对风格预测指标进行了训练,以预测从对话历史中综合的说话风格。在推断期间,通过将样式预测器预测的语言样式表示为VAE/gmvae-vits,可以以适合对话背景的样式合成语音。主观评估结果表明,所提出的方法在对话级别的自然性方面优于原始VIT。
translated by 谷歌翻译
在本文中,我们介绍了Amharic语音情绪数据集(亚胺),涵盖了四条方言(Gojjam,Wollo,Shewa和Londer)和五种不同的情绪(中性,恐惧,快乐,悲伤和生气)。我们认为它是Amharic语言的第一个语音情感认可(Ser)数据集。 65志愿者参与者,所有母语人员,记录2,474个声音样本,长度为2至4秒。八名法官将情绪分配给具有高协议水平的样本(Fleiss Kappa = 0.8)。生成的数据集可免费下载。接下来,我们开发了一个四层变体,我们称之为vggb。然后使用vggb进行三种实验,用于Ser,使用ASED。首先,我们研究了熔融谱图特征或熔融频率谱系数(MFCC)的特点是Amharic最适合的。这是通过培训ASID的两个VGGB SER模型来完成的,使用MEL-谱图和使用MFCC的另一个。尝试了四种形式的培训,标准交叉验证和三种变体,基于句子,方言和扬声器组。因此,用于训练的句子不会用于测试,以及方言和扬声器组的句子。结论是,在所有四种训练方案下,MFCC功能都是优越的。因此,MFCC采用实验2,其中VGGB和其他三种现有模型进行了验证:Resnet50,Alex-Net和LSTM。 vggb被发现具有非常好的准确性(90.73%)以及最快的培训时间。在实验3中,在培训在两个现有的SER数据集,RAVDES(英语)和EMO-DB(德语)以及ASED(Amharic)上进行培训时比较VGGB的性能。结果与这些语言相当,仿真是最高的。这表明VGGB可以成功应用于其他语言。我们希望Ased将鼓励研究人员试验其他模型为Amharic Ser。
translated by 谷歌翻译
本文提出了一种用于多演讲者文本到语音的人类扬声器适应方法。使用常规的说话者适应方法,使用对扬声器歧视任务进行培训的扬声器编码器,从其参考语音中提取目标扬声器的嵌入矢量。但是,当参考语音不可用时,该方法无法获得目标扬声器的嵌入向量。我们的方法基于人类的优化框架,该框架结合了用户来探索扬声器 - 安装空间以查找目标扬声器的嵌入。提出的方法使用顺序线搜索算法,该算法反复要求用户在嵌入空间中的线段上选择一个点。为了有效地从多个刺激中选择最佳的语音样本,我们还开发了一个系统,在该系统中,用户可以在每个音素的声音之间切换在循环发音的同时。实验结果表明,即使不直接将参考语音用作说话者编码器的输入,提出的方法也可以在客观和主观评估中实现与常规评估相当的性能。
translated by 谷歌翻译
近年来,表现力的文本到语音表现出改善的性能。但是,综合语音的样式控制通常仅限于离散的情绪类别,并且需要目标扬声器记录的培训数据。在许多实际情况下,用户可能没有在目标情感中记录的参考语音,但仅通过键入所需情感风格的文本描述来控制语音样式。在本文中,我们提出了一个基于文本的界面,用于情感风格控制和多演讲者TTS中的跨言式风格转移。我们提出了双模式样式编码器,该编码器模拟了文本描述嵌入与语言模型嵌入语音样式之间的语义关系。为了进一步改善横向扬声器风格的转移,在多种风格的数据集上,我们提出了新型样式损失。实验结果表明,即使以看不见的风格,我们的模型也可以产生高质量的表达语音。
translated by 谷歌翻译
在多方对话中有效地发现发言者的情绪状态是设计人类类似的会话代理商的重要性。在谈话期间,扬声器的认知状态通常由于某些过去的话语而改变,这可能导致他们的情绪状态的翻转。因此,在对话期间发现扬声器情感翻转背后的原因(触发)对于解释个人话语的情感标签至关重要。在本文中,除了解决对话中的情感认可的任务(ERC),我们介绍了一种新的任务 - 情感 - 翻转推理(EFR),旨在识别过去的话语,这引发了一个人的情绪状态以在一定时间翻转。我们提出了一个掩蔽的存储器网络来解决前者和基于变换器的网络的后一种任务。为此,我们考虑融合的基准情感识别数据集,用于ERC任务的多方对话,并使用EFR的新地基标签增强它。与五个最先进的模型进行了广泛的比较,表明我们对两个任务的模型的表现。我们进一步提出了轶事证据和定性和定量误差分析,以支持与基线相比模型的优势。
translated by 谷歌翻译
像有声读物的综合一样,表达性语音综合仍然对样式表示学习和预测仍然具有挑战性。从参考音频或从文本预测样式标签中得出的标签需要大量标记的数据,这是昂贵的,并且难以准确定义和注释。在本文中,我们提出了一个新颖的框架,以一种自我监督的方式从丰富的纯文本中学习样式表示。它利用情感词典,并使用对比度学习和深度聚类。我们进一步将样式表示形式整合为多式变压器TTS中的条件嵌入。通过预测在同一数据集上训练的样式标签,但通过人类注释,我们的方法根据对声音域内和室外测试集的主观评估来改进结果,从而获得了改进的结果。此外,有了隐性的背景感知样式表示,长期综合音频的情感过渡似乎更自然。音频样本可在演示网络上找到。
translated by 谷歌翻译
Text-based speech editing allows users to edit speech by intuitively cutting, copying, and pasting text to speed up the process of editing speech. In the previous work, CampNet (context-aware mask prediction network) is proposed to realize text-based speech editing, significantly improving the quality of edited speech. This paper aims at a new task: adding emotional effect to the editing speech during the text-based speech editing to make the generated speech more expressive. To achieve this task, we propose Emo-CampNet (emotion CampNet), which can provide the option of emotional attributes for the generated speech in text-based speech editing and has the one-shot ability to edit unseen speakers' speech. Firstly, we propose an end-to-end emotion-selectable text-based speech editing model. The key idea of the model is to control the emotion of generated speech by introducing additional emotion attributes based on the context-aware mask prediction network. Secondly, to prevent the emotion of the generated speech from being interfered by the emotional components in the original speech, a neutral content generator is proposed to remove the emotion from the original speech, which is optimized by the generative adversarial framework. Thirdly, two data augmentation methods are proposed to enrich the emotional and pronunciation information in the training set, which can enable the model to edit the unseen speaker's speech. The experimental results that 1) Emo-CampNet can effectively control the emotion of the generated speech in the process of text-based speech editing; And can edit unseen speakers' speech. 2) Detailed ablation experiments further prove the effectiveness of emotional selectivity and data augmentation methods. The demo page is available at https://hairuo55.github.io/Emo-CampNet/
translated by 谷歌翻译