最近结束语音合成的最新进步使得能够产生高度自然的语音。然而,训练这些模型通常需要大量的高保真语音数据,并且对于看不见的文本,合成语音的韵律相对不自然。为了解决这些问题,我们建议将基于精细的BERT基前端与基于预先训练的FastSeech2的声学模型结合起来,以改善韵律建模。在多任务学习中,预训练的伯爵在多电话消歧任务中,联合中文词组分割任务,联合中文字分割(CWS)和演讲(POS)标记任务,以及在多任务学习中的韵律结构预测(PSP)任务框架。FastSeech 2在大规模的外部数据上预先培训,这些数据很少,但更容易获得。实验结果表明,微调BERT模型和预训练的禁止轴2可以改善韵律,特别是对于那些结构复杂的句子。
translated by 谷歌翻译
End-to-end text-to-speech synthesis (TTS) can generate highly natural synthetic speech from raw text. However, rendering the correct pitch accents is still a challenging problem for end-to-end TTS. To tackle the challenge of rendering correct pitch accent in Japanese end-to-end TTS, we adopt PnG~BERT, a self-supervised pretrained model in the character and phoneme domain for TTS. We investigate the effects of features captured by PnG~BERT on Japanese TTS by modifying the fine-tuning condition to determine the conditions helpful inferring pitch accents. We manipulate content of PnG~BERT features from being text-oriented to speech-oriented by changing the number of fine-tuned layers during TTS. In addition, we teach PnG~BERT pitch accent information by fine-tuning with tone prediction as an additional downstream task. Our experimental results show that the features of PnG~BERT captured by pretraining contain information helpful inferring pitch accent, and PnG~BERT outperforms baseline Tacotron on accent correctness in a listening test.
translated by 谷歌翻译
最近,利用BERT预训练以改善文本到语音(TTS)中的音素编码器引起了人们的注意。但是,这些作品将使用基于字符的单元进行预训练以增强TTS音素编码器,这与将音素作为输入的TTS微调不一致。仅以音素作为输入的预训练可以减轻输入不匹配,但由于音素词汇量有限,因此缺乏对丰富表示形式和语义信息进行建模的能力。在本文中,我们提出了混合Phoneme Bert,这是BERT模型的新型变体,该模型使用混合音素和SUP-PHONEME表示来增强学习能力。具体而言,我们将相邻的音素合并为sup-phonemes,并将音素序列和合并后的sup-phoneme序列与模型输入相结合,这可以增强学习丰富的上下文表示的模型能力。实验结果表明,与FastSpeeCh 2基线相比,我们提出的混合词BERT可以显着改善TTS性能,并以0.30 CMOS增益提高了TTS性能。混合词BERT达到3倍推理加速度和与先前TTS预训练的模型PNG Bert相似的语音质量
translated by 谷歌翻译
在人类的言论中,说话者的态度不能只用文本内容完全表达。它必须带有语调。声明性的问题通常用于日常的广东话对话中,通常会以不断增长的语调发出。香草神经文本到语音(TTS)系统由于语义信息的丢失而无法为这些句子综合这些句子的上升。尽管使用额外的语言模型补充系统已经变得越来越普遍,但它们在建模升起的语调方面的性能尚未得到很好的研究。在本文中,我们建议通过基于BERT的语句/问题分类器来补充广州TTS模型。我们设计了不同的培训策略并比较他们的表现。我们对一个名为Cantts的粤语语料库进行实验。经验结果表明,单独的培训方法获得了最佳的概括性能和可行性。
translated by 谷歌翻译
神经端到端TTS模型的最新进展显示出在常规句子的TTS中表现出高质量的自然合成语音。但是,当TTS中考虑整个段落时,重现相似的高质量,在构建基于段落的TTS模型时需要考虑大量上下文信息。为了减轻培训的困难,我们建议通过考虑跨性别,嵌入式结构在培训中对语言和韵律信息进行建模。三个子模块,包括语言学意识,韵律和句子位置网络。具体而言,要了解嵌入在段落中的信息以及相应的组件句子之间的关系,我们利用语言学意识和韵律感知网络。段落中的信息由编码器捕获,段落中的句子间信息通过多头注意机制学习。段落中的相对句子位置由句子位置网络明确利用。拟议中的TTS模型在女性普通话中录制的讲故事的音频语料库(4.08小时)接受了培训,该模型表明,它可以产生相当自然而良好的语音段落。与基于句子的模型相比,可以更好地预测和渲染的跨句子上下文信息,例如连续句子之间的断裂和韵律变化。在段落文本上进行了测试,其长度与培训数据的典型段落长度相似,比训练数据的典型段落长得多,新模型产生的TTS语音始终优先于主观测试和基于句子的模型和在客观措施中确认。
translated by 谷歌翻译
In this paper, we present a novel method for phoneme-level prosody control of F0 and duration using intuitive discrete labels. We propose an unsupervised prosodic clustering process which is used to discretize phoneme-level F0 and duration features from a multispeaker speech dataset. These features are fed as an input sequence of prosodic labels to a prosody encoder module which augments an autoregressive attention-based text-to-speech model. We utilize various methods in order to improve prosodic control range and coverage, such as augmentation, F0 normalization, balanced clustering for duration and speaker-independent clustering. The final model enables fine-grained phoneme-level prosody control for all speakers contained in the training set, while maintaining the speaker identity. Instead of relying on reference utterances for inference, we introduce a prior prosody encoder which learns the style of each speaker and enables speech synthesis without the requirement of reference audio. We also fine-tune the multispeaker model to unseen speakers with limited amounts of data, as a realistic application scenario and show that the prosody control capabilities are maintained, verifying that the speaker-independent prosodic clustering is effective. Experimental results show that the model has high output speech quality and that the proposed method allows efficient prosody control within each speaker's range despite the variability that a multispeaker setting introduces.
translated by 谷歌翻译
本文介绍了语音(TTS)系统的Microsoft端到端神经文本:暴风雪挑战2021。这一挑战的目标是从文本中综合自然和高质量的演讲,并在两个观点中接近这一目标:首先是直接模型,并在48 kHz采样率下产生波形,这比以前具有16 kHz或24 kHz采样率的先前系统带来更高的感知质量;第二个是通过系统设计来模拟语音中的变化信息,从而提高了韵律和自然。具体而言,对于48 kHz建模,我们预测声学模型中的16 kHz熔点 - 谱图,并提出称为HIFINET的声码器直接从预测的16kHz MEL谱图中产生48kHz波形,这可以更好地促进培训效率,建模稳定性和语音。质量。我们从显式(扬声器ID,语言ID,音高和持续时间)和隐式(话语级和音素级韵律)视角系统地模拟变化信息:1)对于扬声器和语言ID,我们在培训和推理中使用查找嵌入; 2)对于音高和持续时间,我们在训练中提取来自成对的文本语音数据的值,并使用两个预测器来预测推理中的值; 3)对于话语级和音素级韵律,我们使用两个参考编码器来提取训练中的值,并使用两个单独的预测器来预测推理中的值。此外,我们介绍了一个改进的符合子块,以更好地模拟声学模型中的本地和全局依赖性。对于任务SH1,DelightFultts在MOS测试中获得4.17均匀分数,4.35在SMOS测试中,表明我们所提出的系统的有效性
translated by 谷歌翻译
最近,语音表示学习改善了许多与语音有关的任务,例如语音识别,语音分类和语音到文本翻译。但是,以上所有任务都朝着语音理解的方向发展,但是对于反向方向,言语综合,由于产生高质量语音的挑战性质,代表性学习的潜力尚未实现。为了解决这个问题,我们提出了我们的框架,对准的声音文本预处理($^3 $ t),该框架在培训期间重建了带有文本输入和声学文本对齐的蒙面声信号。通过这种方式,预处理的模型可以生成高质量的重建频谱图,可以直接应用于语音编辑和看不见的扬声器tts。实验显示了$^3 $ t在语音编辑上的SOTA模型,并在没有外部说话者验证模型的情况下改善了多扬声器语音综合。
translated by 谷歌翻译
在自然性和可读性方面,韵律边界在文本到语音综合(TTS)中起着重要作用。但是,获得韵律边界标签的获取依赖于手动注释,这是昂贵且耗时的。在本文中,我们建议通过带有预训练的音频编码器的神经文本语音模型自动从文本审计数据中提取韵律边界标签。该模型分别对文本和语音数据进行了预先训练,并以三重态格式对TTS数据进行了微调:{语音,文本,韵律}。自动评估和人类评估的实验结果表明:1)提出的文本言论韵律注释框架极大地超过了文本基本线;2)自动韵律边界注释的质量与人类注释相当;3)经过模型通知边界训练的TTS系统比使用手动系统的系统要好得多。
translated by 谷歌翻译
中文方言文本到语音(TTS)系统通常只能由本地语言学家使用,因为中文方言的书面形式具有不同的字符,成语,语法和使用普通话,甚至本地扬声器也无法输入正确的句子。对于普通话的文本输入,中国方言TT只能产生部分挑剔的语音,而韵律和自然性相对较差。为了降低使用栏并使其在商业广告中更实用,我们提出了一种新型的中国方言TTS前端,并带有翻译模块。它有助于使用正确的拼字法和语法将普通话文本转换为惯用表达式,以便可以改善合成语音的清晰度和自然性。为翻译任务提出了一种具有浏览抽样策略的非自动入围神经机器翻译模型。这是将翻译与TTS Frontend合并的第一项已知作品。我们对广东话的实验批准,拟议的前端可以帮助广东TTS系统通过普通话输入来提高0.27的MOS。
translated by 谷歌翻译
在本文中,我们开发了一种新的多弦乐中国神经唱歌声音合成(SVS)系统,名为Wesinger。为了提高合成声音的准确性和自然性,我们设计了几个特定的​​模块和技术:1)具有多尺度节奏损失和后处理步骤的深度双向LSTM的持续时间模型; 2)类似变压器的声学模型,具有渐进的俯仰加权解码器损失; 3)24 kHz音调感知的LPCNET神经声码器可产生高质量的唱歌波形; 4)一种新型的数据增强方法,具有多手柄预训练,以实现更强的鲁棒性和自然性。据我们所知,Wesinger是第一个同时采用24 kHz LPCNET和多手指预训练的SVS系统。定量和定性评估结果都证明了Wesinger在准确性和自然方面的有效性,并且Wesinger在最近的中国公共唱歌语料库Opencpop \ footNote上实现了最先进的表现{https://wenet.org.cn/ OPENCPOP/}。一些合成的歌曲样本在线可用\ footNote {https://zzw922cn.github.io/wesinger/}。
translated by 谷歌翻译
在神经文本到语音(TTS)中,两阶段系统或一系列单独学习的模型显示出接近人类语音的合成质量。例如,FastSpeech2将输入文本转换为MEL-SPECTROGRAM,然后HIFI-GAN从MEL-Spectogram产生了原始波形,它们分别称为声学特征发生器和神经声码器。但是,他们的训练管道有些麻烦,因为它需要进行微调和准确的语音文本对齐,以实现最佳性能。在这项工作中,我们提出了端到端的文本到语音(E2E-TTS)模型,该模型具有简化的训练管道,并优于单独学习的模型。具体而言,我们提出的模型是经过对齐模块的联合训练的FastSpeech2和HIFI-GAN。由于训练和推理之间没有声学特征不匹配,因此不需要微调。此外,我们通过在联合培训框架中采用对齐学习目标来消除对外部语音文本对齐工具的依赖。在LJSpeech语料库上进行的实验表明,所提出的模型优于公开可用的模型,ESPNET2-TT在主观评估(MOS)(MOS)和一些客观评估中的最新实现。
translated by 谷歌翻译
本文研究了一种新型的预训练技术,该技术具有未配对的语音数据Segend2C,用于基于编码器的自动语音识别(ASR)。在一个多任务学习框架内,我们使用声音单元(即伪代码)介绍了编码器 - 编码器网络的两个预训练任务,这些任务来自离线聚类模型。一种是通过在编码器输出中通过掩盖语言建模来预测伪代码,例如Hubert模型,而另一个使解码器学会学会重建伪代码自动加工,而不是生成文本脚本。通过这种方式,解码器学会了在学习生成正确的文本之前先用代码重建原始语音信息。在Librispeech语料库上进行的综合实验表明,在没有解码器预训练的情况下,提出的Speek2C可以相对将单词错误率(WER)降低19.2%,并且在最先进的WAV2VEC 2.0和HUBERT上的表现显着优于微调子集为10h和100h。我们在https://github.com/microsoft/speecht5/tree/main/main/speech2c上发布代码和模型。
translated by 谷歌翻译
诸如FastSpeech之类的非自动回归文本(TTS)模型可以比以前具有可比性的自回归模型合成语音的速度要快得多。 FastSpeech模型的培训依赖于持续时间预测的自回归教师模型(提供更多信息作为输入)和知识蒸馏(以简化输出中的数据分布),这可以缓解一对多的映射问题(即多个多个映射问题语音变化对应于TTS中的同一文本)。但是,FastSpeech有几个缺点:1)教师学生的蒸馏管线很复杂且耗时,2)从教师模型中提取的持续时间不够准确,并且从教师模型中提取的目标MEL光谱图会遭受信息损失的影响。由于数据的简化,两者都限制了语音质量。在本文中,我们提出了FastSpeech 2,它解决了FastSpeech中的问题,并更好地解决了TTS中的一对一映射问题1)直接用地面实现目标直接训练该模型,而不是教师的简化输出,以及2 )作为条件输入,引入更多语音信息(例如,音高,能量和更准确的持续时间)。具体而言,我们从语音波形中提取持续时间,音高和能量,并将其直接作为训练中的条件输入,并在推理中使用预测的值。我们进一步设计了FastSpeech 2s,这是首次尝试从文本中直接生成语音波形的尝试,从而享受完全端到端推断的好处。实验结果表明,1)FastSpeech 2在FastSpeech上实现了3倍的训练,而FastSpeech 2s的推理速度甚至更快; 2)FastSpeech 2和2S的语音质量优于FastSpeech,而FastSpeech 2甚至可以超越自回归型号。音频样本可在https://speechresearch.github.io/fastspeech2/上找到。
translated by 谷歌翻译
最近的一些研究测试了变压器语言模型表示的使用来推断文本到语音综合(TTS)的韵律特征。尽管这些研究总体上探讨了韵律,但在这项工作中,我们专门研究了对对比的个人代词的预测。这是一项特别具有挑战性的任务,因为它通常需要语义,话语和/或务实的知识才能正确预测。我们收集包含对比焦点的话语语料库,并评估了BERT模型的准确性,该模型的准确性是在这些样品上预测量化的量化声学突出特征。我们还研究了过去的话语如何为该预测提供相关信息。此外,我们评估了以声音突出特征为条件的TTS模型中代词突出性的可控性。
translated by 谷歌翻译
虽然现代自动语音识别(ASR)系统可以实现高性能,但它们可能会产生削弱读者体验并对下游任务造成伤害的错误。为了提高ASR假设的准确性和可靠性,我们提出了一种用于语音识别器的跨模型后处理系统,其中1)熔断来自不同方式的声学特征和文本特征,2)接合置信度估计器和多个误差校正器任务学习时尚和3)统一纠错和话语抑制模块。与单模或单任务模型相比,我们提出的系统被证明更有效和高效。实验结果表明,我们的后处理系统导致对工业ASR系统的单扬声器和多扬声器语音相对降低的10%相对减少,每个令牌约为1.7ms延迟确保在流语音识别中可以接受后处理引入的额外延迟。
translated by 谷歌翻译
产生表现力和上下文适当的韵律仍然是现代文本到语音(TTS)系统的挑战。对于长,多句的输入,这一点尤其明显。在本文中,我们检查了基于变压器的快速语音系统的简单扩展,目的是改善多句子TT的韵律。我们发现,漫长的上下文,强大的文本功能以及对多演讲者数据的培训都改善了韵律。更有趣的是,它们产生协同作用。长篇小说席卷了韵律,改善了连贯性,并发挥了变形金刚的优势。来自强大的语言模型(例如BERT)的微调单词级功能似乎从更多培训数据中获利,在多演讲者设置中很容易获得。我们调查有关暂停和起搏的客观指标,并对语音自然进行彻底的主观评估。我们的主要系统结合了所有扩展,取得了始终如一的良好结果,包括对所有竞争对手的言语自然性的显着改善。
translated by 谷歌翻译
Deep learning based text-to-speech (TTS) systems have been evolving rapidly with advances in model architectures, training methodologies, and generalization across speakers and languages. However, these advances have not been thoroughly investigated for Indian language speech synthesis. Such investigation is computationally expensive given the number and diversity of Indian languages, relatively lower resource availability, and the diverse set of advances in neural TTS that remain untested. In this paper, we evaluate the choice of acoustic models, vocoders, supplementary loss functions, training schedules, and speaker and language diversity for Dravidian and Indo-Aryan languages. Based on this, we identify monolingual models with FastPitch and HiFi-GAN V1, trained jointly on male and female speakers to perform the best. With this setup, we train and evaluate TTS models for 13 languages and find our models to significantly improve upon existing models in all languages as measured by mean opinion scores. We open-source all models on the Bhashini platform.
translated by 谷歌翻译
In this paper, we propose a novel multi-modal multi-task encoder-decoder pre-training framework (MMSpeech) for Mandarin automatic speech recognition (ASR), which employs both unlabeled speech and text data. The main difficulty in speech-text joint pre-training comes from the significant difference between speech and text modalities, especially for Mandarin speech and text. Unlike English and other languages with an alphabetic writing system, Mandarin uses an ideographic writing system where character and sound are not tightly mapped to one another. Therefore, we propose to introduce the phoneme modality into pre-training, which can help capture modality-invariant information between Mandarin speech and text. Specifically, we employ a multi-task learning framework including five self-supervised and supervised tasks with speech and text data. For end-to-end pre-training, we introduce self-supervised speech-to-pseudo-codes (S2C) and phoneme-to-text (P2T) tasks utilizing unlabeled speech and text data, where speech-pseudo-codes pairs and phoneme-text pairs are a supplement to the supervised speech-text pairs. To train the encoder to learn better speech representation, we introduce self-supervised masked speech prediction (MSP) and supervised phoneme prediction (PP) tasks to learn to map speech into phonemes. Besides, we directly add the downstream supervised speech-to-text (S2T) task into the pre-training process, which can further improve the pre-training performance and achieve better recognition results even without fine-tuning. Experiments on AISHELL-1 show that our proposed method achieves state-of-the-art performance, with a more than 40% relative improvement compared with other pre-training methods.
translated by 谷歌翻译
神经文本到语音研究的最新进展是利用低级中间语音表示(例如MEL-光谱图)的两阶段管道主导的。但是,这种预定的特征从根本上受到限制,因为它们不允许通过学习隐藏表示形式来利用数据驱动方法的全部潜力。因此,已经提出了几种端到端方法。但是,这样的模型更难训练,并且需要大量具有转录的高质量录音。在这里,我们提出了WavThruvec-一种两阶段的架构,通过使用高维WAV2VEC 2.0嵌入作为中间语音表示,可以解决瓶颈。由于这些隐藏的激活提供了高级语言特征,因此它们对噪音更强大。这使我们能够利用质量较低的注释语音数据集来训练第一阶段模块。同时,由于WAV2VEC 2.0的嵌入已经进行了时间对齐,因此可以在大规模未转录的音频语料库上对第二阶段组件进行培训。这导致了对量表词的概括能力的提高,以及对看不见的说话者的更好概括。我们表明,所提出的模型不仅与最新神经模型的质量相匹配,而且还介绍了有用的属性,可以实现语音转换或零弹性合成的任务。
translated by 谷歌翻译