神经端到端TTS模型的最新进展显示出在常规句子的TTS中表现出高质量的自然合成语音。但是,当TTS中考虑整个段落时,重现相似的高质量,在构建基于段落的TTS模型时需要考虑大量上下文信息。为了减轻培训的困难,我们建议通过考虑跨性别,嵌入式结构在培训中对语言和韵律信息进行建模。三个子模块,包括语言学意识,韵律和句子位置网络。具体而言,要了解嵌入在段落中的信息以及相应的组件句子之间的关系,我们利用语言学意识和韵律感知网络。段落中的信息由编码器捕获,段落中的句子间信息通过多头注意机制学习。段落中的相对句子位置由句子位置网络明确利用。拟议中的TTS模型在女性普通话中录制的讲故事的音频语料库(4.08小时)接受了培训,该模型表明,它可以产生相当自然而良好的语音段落。与基于句子的模型相比,可以更好地预测和渲染的跨句子上下文信息,例如连续句子之间的断裂和韵律变化。在段落文本上进行了测试,其长度与培训数据的典型段落长度相似,比训练数据的典型段落长得多,新模型产生的TTS语音始终优先于主观测试和基于句子的模型和在客观措施中确认。
translated by 谷歌翻译
重音文本到语音(TTS)合成旨在以重音(L2)作为标准版本(L1)的变体生成语音。强调TTS合成具有挑战性,因为在语音渲染和韵律模式方面,L2在L1上都不同。此外,在话语中无法控制重音强度的解决方案。在这项工作中,我们提出了一种神经TTS体系结构,使我们能够控制重音及其在推理过程中的强度。这是通过三种新型机制来实现的,1)一种重音方差适配器,可以用三个韵律控制因子(即俯仰,能量和持续时间)对复杂的重音方差进行建模; 2)一种重音强度建模策略来量化重音强度; 3)一个一致性约束模块,以鼓励TTS系统在良好的水平上呈现预期的重音强度。实验表明,在重音渲染和强度控制方面,所提出的系统在基线模型上的性能优于基线模型。据我们所知,这是对具有明确强度控制的重音TT合成的首次研究。
translated by 谷歌翻译
In this paper, we present a novel method for phoneme-level prosody control of F0 and duration using intuitive discrete labels. We propose an unsupervised prosodic clustering process which is used to discretize phoneme-level F0 and duration features from a multispeaker speech dataset. These features are fed as an input sequence of prosodic labels to a prosody encoder module which augments an autoregressive attention-based text-to-speech model. We utilize various methods in order to improve prosodic control range and coverage, such as augmentation, F0 normalization, balanced clustering for duration and speaker-independent clustering. The final model enables fine-grained phoneme-level prosody control for all speakers contained in the training set, while maintaining the speaker identity. Instead of relying on reference utterances for inference, we introduce a prior prosody encoder which learns the style of each speaker and enables speech synthesis without the requirement of reference audio. We also fine-tune the multispeaker model to unseen speakers with limited amounts of data, as a realistic application scenario and show that the prosody control capabilities are maintained, verifying that the speaker-independent prosodic clustering is effective. Experimental results show that the model has high output speech quality and that the proposed method allows efficient prosody control within each speaker's range despite the variability that a multispeaker setting introduces.
translated by 谷歌翻译
最近结束语音合成的最新进步使得能够产生高度自然的语音。然而,训练这些模型通常需要大量的高保真语音数据,并且对于看不见的文本,合成语音的韵律相对不自然。为了解决这些问题,我们建议将基于精细的BERT基前端与基于预先训练的FastSeech2的声学模型结合起来,以改善韵律建模。在多任务学习中,预训练的伯爵在多电话消歧任务中,联合中文词组分割任务,联合中文字分割(CWS)和演讲(POS)标记任务,以及在多任务学习中的韵律结构预测(PSP)任务框架。FastSeech 2在大规模的外部数据上预先培训,这些数据很少,但更容易获得。实验结果表明,微调BERT模型和预训练的禁止轴2可以改善韵律,特别是对于那些结构复杂的句子。
translated by 谷歌翻译
本文介绍了语音(TTS)系统的Microsoft端到端神经文本:暴风雪挑战2021。这一挑战的目标是从文本中综合自然和高质量的演讲,并在两个观点中接近这一目标:首先是直接模型,并在48 kHz采样率下产生波形,这比以前具有16 kHz或24 kHz采样率的先前系统带来更高的感知质量;第二个是通过系统设计来模拟语音中的变化信息,从而提高了韵律和自然。具体而言,对于48 kHz建模,我们预测声学模型中的16 kHz熔点 - 谱图,并提出称为HIFINET的声码器直接从预测的16kHz MEL谱图中产生48kHz波形,这可以更好地促进培训效率,建模稳定性和语音。质量。我们从显式(扬声器ID,语言ID,音高和持续时间)和隐式(话语级和音素级韵律)视角系统地模拟变化信息:1)对于扬声器和语言ID,我们在培训和推理中使用查找嵌入; 2)对于音高和持续时间,我们在训练中提取来自成对的文本语音数据的值,并使用两个预测器来预测推理中的值; 3)对于话语级和音素级韵律,我们使用两个参考编码器来提取训练中的值,并使用两个单独的预测器来预测推理中的值。此外,我们介绍了一个改进的符合子块,以更好地模拟声学模型中的本地和全局依赖性。对于任务SH1,DelightFultts在MOS测试中获得4.17均匀分数,4.35在SMOS测试中,表明我们所提出的系统的有效性
translated by 谷歌翻译
情绪转换(EVC)寻求转换话语的情绪状态,同时保留语言内容和扬声器身份。在EVC,情绪通常被视为离散类别,忽略了言论也传达了听众可以感知的各种强度水平的情绪。在本文中,我们的目标是明确地表征和控制情绪强度。我们建议解开语言内容的扬声器风格,并将扬声器风格编码成一个嵌入的嵌入空间,形成情绪嵌入的原型。我们进一步从情感标记的数据库中了解实际的情感编码器,并研究使用相对属性来表示细粒度的情绪强度。为确保情绪可理解性,我们将情感分类损失和情感嵌入了EVC网络培训中的相似性损失。根据需要,所提出的网络控制输出语音中的细粒度情绪强度。通过目标和主观评估,我们验证了建议网络的情感表达和情感强度控制的有效性。
translated by 谷歌翻译
在人类的言论中,说话者的态度不能只用文本内容完全表达。它必须带有语调。声明性的问题通常用于日常的广东话对话中,通常会以不断增长的语调发出。香草神经文本到语音(TTS)系统由于语义信息的丢失而无法为这些句子综合这些句子的上升。尽管使用额外的语言模型补充系统已经变得越来越普遍,但它们在建模升起的语调方面的性能尚未得到很好的研究。在本文中,我们建议通过基于BERT的语句/问题分类器来补充广州TTS模型。我们设计了不同的培训策略并比较他们的表现。我们对一个名为Cantts的粤语语料库进行实验。经验结果表明,单独的培训方法获得了最佳的概括性能和可行性。
translated by 谷歌翻译
在本文中,我们开发了一种新的多弦乐中国神经唱歌声音合成(SVS)系统,名为Wesinger。为了提高合成声音的准确性和自然性,我们设计了几个特定的​​模块和技术:1)具有多尺度节奏损失和后处理步骤的深度双向LSTM的持续时间模型; 2)类似变压器的声学模型,具有渐进的俯仰加权解码器损失; 3)24 kHz音调感知的LPCNET神经声码器可产生高质量的唱歌波形; 4)一种新型的数据增强方法,具有多手柄预训练,以实现更强的鲁棒性和自然性。据我们所知,Wesinger是第一个同时采用24 kHz LPCNET和多手指预训练的SVS系统。定量和定性评估结果都证明了Wesinger在准确性和自然方面的有效性,并且Wesinger在最近的中国公共唱歌语料库Opencpop \ footNote上实现了最先进的表现{https://wenet.org.cn/ OPENCPOP/}。一些合成的歌曲样本在线可用\ footNote {https://zzw922cn.github.io/wesinger/}。
translated by 谷歌翻译
本文介绍了一种在自回归关注文本到语音系统中控制音素级别的韵律的方法。除了通常完成的常见框架中,我们将从培训集中的语音数据中直接提取音素级F0和持续时间特征,而不是学习潜在韵律特征。每个韵律特征是使用无监督聚类离散化,以便为每个话语产生一系列韵律标签。该序列与音素序列并行使用,以便通过利用韵律编码器和相应的注意模块来调节解码器。实验结果表明,该方法保留了高质量的生成语音,同时允许对F0和持续时间进行音素级控制。通过用音符替换F0集群质心,该模型还可以在扬声器范围内提供对音符和八度音的控制。
translated by 谷歌翻译
诸如FastSpeech之类的非自动回归文本(TTS)模型可以比以前具有可比性的自回归模型合成语音的速度要快得多。 FastSpeech模型的培训依赖于持续时间预测的自回归教师模型(提供更多信息作为输入)和知识蒸馏(以简化输出中的数据分布),这可以缓解一对多的映射问题(即多个多个映射问题语音变化对应于TTS中的同一文本)。但是,FastSpeech有几个缺点:1)教师学生的蒸馏管线很复杂且耗时,2)从教师模型中提取的持续时间不够准确,并且从教师模型中提取的目标MEL光谱图会遭受信息损失的影响。由于数据的简化,两者都限制了语音质量。在本文中,我们提出了FastSpeech 2,它解决了FastSpeech中的问题,并更好地解决了TTS中的一对一映射问题1)直接用地面实现目标直接训练该模型,而不是教师的简化输出,以及2 )作为条件输入,引入更多语音信息(例如,音高,能量和更准确的持续时间)。具体而言,我们从语音波形中提取持续时间,音高和能量,并将其直接作为训练中的条件输入,并在推理中使用预测的值。我们进一步设计了FastSpeech 2s,这是首次尝试从文本中直接生成语音波形的尝试,从而享受完全端到端推断的好处。实验结果表明,1)FastSpeech 2在FastSpeech上实现了3倍的训练,而FastSpeech 2s的推理速度甚至更快; 2)FastSpeech 2和2S的语音质量优于FastSpeech,而FastSpeech 2甚至可以超越自回归型号。音频样本可在https://speechresearch.github.io/fastspeech2/上找到。
translated by 谷歌翻译
This paper describes Tacotron 2, a neural network architecture for speech synthesis directly from text. The system is composed of a recurrent sequence-to-sequence feature prediction network that maps character embeddings to mel-scale spectrograms, followed by a modified WaveNet model acting as a vocoder to synthesize time-domain waveforms from those spectrograms. Our model achieves a mean opinion score (MOS) of 4.53 comparable to a MOS of 4.58 for professionally recorded speech. To validate our design choices, we present ablation studies of key components of our system and evaluate the impact of using mel spectrograms as the conditioning input to WaveNet instead of linguistic, duration, and F0 features. We further show that using this compact acoustic intermediate representation allows for a significant reduction in the size of the WaveNet architecture.
translated by 谷歌翻译
本文提出了一种表达语音合成架构,用于在单词级别建模和控制说话方式。它试图借助两个编码器来学习语音数据的单词级风格和韵律表示。通过查找声学特征的每个单词的样式令牌的组合,第二个模型样式,第二个输出单词级序列仅在语音信息上调节,以便从风格信息解开它。两个编码器输出与音素编码器输出对齐并连接,然后用非周度塔歇尔策略模型解码。额外的先前编码器用于自向预测样式标记,以便模型能够在没有参考话语的情况下运行。我们发现所产生的模型给出了对样式的单词级和全局控制,以及韵律转移能力。
translated by 谷歌翻译
本文介绍了蒙古人的高质量开源文本到语音(TTS)合成数据集,蒙古是一种低资源的语言,该语言是全球超过1000万人所讲的。该数据集名为MNTTS,由一位22岁专业女性蒙古播音员说的大约8个小时的录音录音组成。它是第一个开发的公开数据集,旨在促进学术界和行业中的蒙古TTS应用程序。在本文中,我们通过描述数据集开发程序并面临挑战来分享我们的经验。为了证明数据集的可靠性,我们建立了一个基于FastSpeech2模型和HIFI-GAN Vocoder的强大的非自动回调基线系统,并使用主观平均意见分数(MOS)和实时因素(RTF)指标对其进行了评估。评估结果表明,在我们的数据集上训练的功能强大的基线系统可在4和RTF上获得MOS,大约3.30美元\ times10^{ - 1} $,这使其适用于实际使用。数据集,培训配方和预估计的TTS模型是免费可用的\ footNote {\ label {github} \ url {https://github.com/walker.com/walker-hyf/mntts}}}。
translated by 谷歌翻译
最近的文本到语音(TTS)的质量与人类的质量相当。但是,其在口语对话中的应用尚未得到广泛研究。这项研究旨在实现与人类对话非常相似的TT。首先,我们记录并抄录实际自发对话。然后,提出的对话TTS分为两个阶段:第一阶段,各种自动编码器(VAE) - VITS或高斯混合物变化自动编码器(GMVAE) - 培训了训练,从端到端文本对语音(VIT),最近提出的端到端TTS模型。从语音中提取潜在的口语表示的样式编码器与TTS共同培训。在第二阶段,对风格预测指标进行了训练,以预测从对话历史中综合的说话风格。在推断期间,通过将样式预测器预测的语言样式表示为VAE/gmvae-vits,可以以适合对话背景的样式合成语音。主观评估结果表明,所提出的方法在对话级别的自然性方面优于原始VIT。
translated by 谷歌翻译
情感语音综合旨在使人类的声音具有各种情感影响。当前的研究主要集中于模仿属于特定情感类型的平均风格。在本文中,我们试图在运行时与情感混合在一起。我们提出了一种新颖的表述,可以衡量不同情绪的语音样本之间的相对差异。然后,我们将公式纳入序列到序列情感文本到语音框架中。在培训期间,该框架不仅明确地表征了情感风格,而且还通过用其他情感量化差异来探索情绪的序数。在运行时,我们通过手动定义情感属性向量来控制模型以产生所需的情绪混合物。客观和主观评估验证了拟议框架的有效性。据我们所知,这项研究是关于言语中混合情绪的建模,综合和评估混合情绪的第一项研究。
translated by 谷歌翻译
近年来,表现力的文本到语音表现出改善的性能。但是,综合语音的样式控制通常仅限于离散的情绪类别,并且需要目标扬声器记录的培训数据。在许多实际情况下,用户可能没有在目标情感中记录的参考语音,但仅通过键入所需情感风格的文本描述来控制语音样式。在本文中,我们提出了一个基于文本的界面,用于情感风格控制和多演讲者TTS中的跨言式风格转移。我们提出了双模式样式编码器,该编码器模拟了文本描述嵌入与语言模型嵌入语音样式之间的语义关系。为了进一步改善横向扬声器风格的转移,在多种风格的数据集上,我们提出了新型样式损失。实验结果表明,即使以看不见的风格,我们的模型也可以产生高质量的表达语音。
translated by 谷歌翻译
在本文中,介绍了文本到读取/唱歌系统,可以适应任何扬声器的声音。它利用基于TacoTron的多级箱子声学模型在只读语音数据训练,并且在音素级别提供韵律控制。还研究了基于传统DSP算法的数据集增强和额外的韵律操纵。神经TTS模型对看不见的扬声器的有限录音进行了微调,允许与目标的扬声器语音进行敲击/歌唱合成。描述了系统的详细管道,其包括从Capella歌曲的目标音调和持续时间值提取,并将其转换为在合成之前的目标扬声器的有效音符范围内。还研究了通过WSOLA输出的输出的韵律操纵的另外的阶段,以便更好地匹配目标持续时间值。合成的话语可以与乐器伴奏轨道混合以产生完整的歌曲。通过主观聆听测试评估所提出的系统,以及与可用的备用系统相比,该系统还旨在从只读训练数据产生合成歌唱语音。结果表明,该拟议的方法可以产生高质量的敲击/歌声,具有增加的自然。
translated by 谷歌翻译
产生表现力和上下文适当的韵律仍然是现代文本到语音(TTS)系统的挑战。对于长,多句的输入,这一点尤其明显。在本文中,我们检查了基于变压器的快速语音系统的简单扩展,目的是改善多句子TT的韵律。我们发现,漫长的上下文,强大的文本功能以及对多演讲者数据的培训都改善了韵律。更有趣的是,它们产生协同作用。长篇小说席卷了韵律,改善了连贯性,并发挥了变形金刚的优势。来自强大的语言模型(例如BERT)的微调单词级功能似乎从更多培训数据中获利,在多演讲者设置中很容易获得。我们调查有关暂停和起搏的客观指标,并对语音自然进行彻底的主观评估。我们的主要系统结合了所有扩展,取得了始终如一的良好结果,包括对所有竞争对手的言语自然性的显着改善。
translated by 谷歌翻译
Human speech can be characterized by different components, including semantic content, speaker identity and prosodic information. Significant progress has been made in disentangling representations for semantic content and speaker identity in Automatic Speech Recognition (ASR) and speaker verification tasks respectively. However, it is still an open challenging research question to extract prosodic information because of the intrinsic association of different attributes, such as timbre and rhythm, and because of the need for unsupervised training schemes to achieve robust large-scale and speaker-independent ASR. The aim of this paper is to address the disentanglement of emotional prosody from speech based on unsupervised reconstruction. Specifically, we identify, design, implement and integrate three crucial components in our proposed speech reconstruction model Prosody2Vec: (1) a unit encoder that transforms speech signals into discrete units for semantic content, (2) a pretrained speaker verification model to generate speaker identity embeddings, and (3) a trainable prosody encoder to learn prosody representations. We first pretrain the Prosody2Vec representations on unlabelled emotional speech corpora, then fine-tune the model on specific datasets to perform Speech Emotion Recognition (SER) and Emotional Voice Conversion (EVC) tasks. Both objective and subjective evaluations on the EVC task suggest that Prosody2Vec effectively captures general prosodic features that can be smoothly transferred to other emotional speech. In addition, our SER experiments on the IEMOCAP dataset reveal that the prosody features learned by Prosody2Vec are complementary and beneficial for the performance of widely used speech pretraining models and surpass the state-of-the-art methods when combining Prosody2Vec with HuBERT representations. Some audio samples can be found on our demo website.
translated by 谷歌翻译
本文介绍了对F0的音素级韵律控制的方法和多销箱文本到语音设置的持续时间,基于韵律聚类。使用自回归关注的模型,并将多个箱子架构模块并联,与韵律编码器并联。提出了对基本单扬声器方法的几种改进,从而增加了韵律控制范围和覆盖范围。更具体地说,我们采用数据增强,F0​​标准化,持续时间的平衡集群,以及扬声器无关的韵律聚类。这些修改使培训集中包含的所有发言者能够进行细粒度的音素级韵律控制,同时保持扬声器标识。该模型也可以微调到具有限制数据量的看不见的扬声器,并显示其维持其韵律控制能力,验证说话者无关的韵律聚类是有效的。实验结果验证了该模型维持了高输出语音质量,并且该方法允许在每个扬声器范围内有效的韵律控制,尽管多种式箱子设置介绍的变化。
translated by 谷歌翻译