我们提出了一种新颖的高保真表达语音合成模型,unitts,学习和控制重叠的样式属性避免干扰。 Unitts表示在应用属性之前和之后的音素嵌入之间的残差在单个统一的嵌入空间中表示多种样式属性。所提出的方法在控制难以清洁的多个属性方面是特别有效的,例如扬声器ID和情感,因为它在增加扬声器ID和情绪的方差时最小化冗余,并且另外,预测基于的持续时间,间距和能量发言人身份证和情感。在实验中,可视化结果表明,所提出的方法以可以轻松分离的方式学习多个属性。同样,unitts合成的高保真语音信号控制多种样式属性。合成的语音样本呈现在https://jackson-kang.github.io/pake_works/unitts/demos。
translated by 谷歌翻译
重音文本到语音(TTS)合成旨在以重音(L2)作为标准版本(L1)的变体生成语音。强调TTS合成具有挑战性,因为在语音渲染和韵律模式方面,L2在L1上都不同。此外,在话语中无法控制重音强度的解决方案。在这项工作中,我们提出了一种神经TTS体系结构,使我们能够控制重音及其在推理过程中的强度。这是通过三种新型机制来实现的,1)一种重音方差适配器,可以用三个韵律控制因子(即俯仰,能量和持续时间)对复杂的重音方差进行建模; 2)一种重音强度建模策略来量化重音强度; 3)一个一致性约束模块,以鼓励TTS系统在良好的水平上呈现预期的重音强度。实验表明,在重音渲染和强度控制方面,所提出的系统在基线模型上的性能优于基线模型。据我们所知,这是对具有明确强度控制的重音TT合成的首次研究。
translated by 谷歌翻译
机器生成的语音的特点是其有限或不自然的情绪变化。目前的语音系统文本与扁平情绪,从预定义的集合中选择的情感,从培训数据中的韵律序列中学到的平均变异,或者从源样式转移。我们向语音(TTS)系统提出了文本,其中用户可以从连续和有意义的情感空间(唤醒空间)中选择生成的语音的情绪。所提出的TTS系统可以从任何扬声器风格中的文本产生语音,具有对情绪的精细控制。我们展示该系统在培训期间无知的情感上的工作,并且可以鉴于他/她的演讲样本来扩展到以前看不见的扬声器。我们的作品将最先进的FastSeech2骨干的地平线扩展到多扬声器设置,并为其提供了多令人垂涎的连续(和可解释)的情感控制,而没有任何可观察到的综合演讲的退化。
translated by 谷歌翻译
In this paper, we present a novel method for phoneme-level prosody control of F0 and duration using intuitive discrete labels. We propose an unsupervised prosodic clustering process which is used to discretize phoneme-level F0 and duration features from a multispeaker speech dataset. These features are fed as an input sequence of prosodic labels to a prosody encoder module which augments an autoregressive attention-based text-to-speech model. We utilize various methods in order to improve prosodic control range and coverage, such as augmentation, F0 normalization, balanced clustering for duration and speaker-independent clustering. The final model enables fine-grained phoneme-level prosody control for all speakers contained in the training set, while maintaining the speaker identity. Instead of relying on reference utterances for inference, we introduce a prior prosody encoder which learns the style of each speaker and enables speech synthesis without the requirement of reference audio. We also fine-tune the multispeaker model to unseen speakers with limited amounts of data, as a realistic application scenario and show that the prosody control capabilities are maintained, verifying that the speaker-independent prosodic clustering is effective. Experimental results show that the model has high output speech quality and that the proposed method allows efficient prosody control within each speaker's range despite the variability that a multispeaker setting introduces.
translated by 谷歌翻译
近年来,表现力的文本到语音表现出改善的性能。但是,综合语音的样式控制通常仅限于离散的情绪类别,并且需要目标扬声器记录的培训数据。在许多实际情况下,用户可能没有在目标情感中记录的参考语音,但仅通过键入所需情感风格的文本描述来控制语音样式。在本文中,我们提出了一个基于文本的界面,用于情感风格控制和多演讲者TTS中的跨言式风格转移。我们提出了双模式样式编码器,该编码器模拟了文本描述嵌入与语言模型嵌入语音样式之间的语义关系。为了进一步改善横向扬声器风格的转移,在多种风格的数据集上,我们提出了新型样式损失。实验结果表明,即使以看不见的风格,我们的模型也可以产生高质量的表达语音。
translated by 谷歌翻译
With the rapid development of the speech synthesis system, recent text-to-speech models have reached the level of generating natural speech similar to what humans say. But there still have limitations in terms of expressiveness. In particular, the existing emotional speech synthesis models have shown controllability using interpolated features with scaling parameters in emotional latent space. However, the emotional latent space generated from the existing models is difficult to control the continuous emotional intensity because of the entanglement of features like emotions, speakers, etc. In this paper, we propose a novel method to control the continuous intensity of emotions using semi-supervised learning. The model learns emotions of intermediate intensity using pseudo-labels generated from phoneme-level sequences of speech information. An embedding space built from the proposed model satisfies the uniform grid geometry with an emotional basis. In addition, to improve the naturalness of intermediate emotional speech, a discriminator is applied to the generation of low-level elements like duration, pitch and energy. The experimental results showed that the proposed method was superior in controllability and naturalness. The synthesized speech samples are available at https://tinyurl.com/34zaehh2
translated by 谷歌翻译
情感语音综合旨在使人类的声音具有各种情感影响。当前的研究主要集中于模仿属于特定情感类型的平均风格。在本文中,我们试图在运行时与情感混合在一起。我们提出了一种新颖的表述,可以衡量不同情绪的语音样本之间的相对差异。然后,我们将公式纳入序列到序列情感文本到语音框架中。在培训期间,该框架不仅明确地表征了情感风格,而且还通过用其他情感量化差异来探索情绪的序数。在运行时,我们通过手动定义情感属性向量来控制模型以产生所需的情绪混合物。客观和主观评估验证了拟议框架的有效性。据我们所知,这项研究是关于言语中混合情绪的建模,综合和评估混合情绪的第一项研究。
translated by 谷歌翻译
Cross-speaker style transfer in speech synthesis aims at transferring a style from source speaker to synthesised speech of a target speaker's timbre. Most previous approaches rely on data with style labels, but manually-annotated labels are expensive and not always reliable. In response to this problem, we propose Style-Label-Free, a cross-speaker style transfer method, which can realize the style transfer from source speaker to target speaker without style labels. Firstly, a reference encoder structure based on quantized variational autoencoder (Q-VAE) and style bottleneck is designed to extract discrete style representations. Secondly, a speaker-wise batch normalization layer is proposed to reduce the source speaker leakage. In order to improve the style extraction ability of the reference encoder, a style invariant and contrastive data augmentation method is proposed. Experimental results show that the method outperforms the baseline. We provide a website with audio samples.
translated by 谷歌翻译
本文介绍了语音(TTS)系统的Microsoft端到端神经文本:暴风雪挑战2021。这一挑战的目标是从文本中综合自然和高质量的演讲,并在两个观点中接近这一目标:首先是直接模型,并在48 kHz采样率下产生波形,这比以前具有16 kHz或24 kHz采样率的先前系统带来更高的感知质量;第二个是通过系统设计来模拟语音中的变化信息,从而提高了韵律和自然。具体而言,对于48 kHz建模,我们预测声学模型中的16 kHz熔点 - 谱图,并提出称为HIFINET的声码器直接从预测的16kHz MEL谱图中产生48kHz波形,这可以更好地促进培训效率,建模稳定性和语音。质量。我们从显式(扬声器ID,语言ID,音高和持续时间)和隐式(话语级和音素级韵律)视角系统地模拟变化信息:1)对于扬声器和语言ID,我们在培训和推理中使用查找嵌入; 2)对于音高和持续时间,我们在训练中提取来自成对的文本语音数据的值,并使用两个预测器来预测推理中的值; 3)对于话语级和音素级韵律,我们使用两个参考编码器来提取训练中的值,并使用两个单独的预测器来预测推理中的值。此外,我们介绍了一个改进的符合子块,以更好地模拟声学模型中的本地和全局依赖性。对于任务SH1,DelightFultts在MOS测试中获得4.17均匀分数,4.35在SMOS测试中,表明我们所提出的系统的有效性
translated by 谷歌翻译
本文介绍了对F0的音素级韵律控制的方法和多销箱文本到语音设置的持续时间,基于韵律聚类。使用自回归关注的模型,并将多个箱子架构模块并联,与韵律编码器并联。提出了对基本单扬声器方法的几种改进,从而增加了韵律控制范围和覆盖范围。更具体地说,我们采用数据增强,F0​​标准化,持续时间的平衡集群,以及扬声器无关的韵律聚类。这些修改使培训集中包含的所有发言者能够进行细粒度的音素级韵律控制,同时保持扬声器标识。该模型也可以微调到具有限制数据量的看不见的扬声器,并显示其维持其韵律控制能力,验证说话者无关的韵律聚类是有效的。实验结果验证了该模型维持了高输出语音质量,并且该方法允许在每个扬声器范围内有效的韵律控制,尽管多种式箱子设置介绍的变化。
translated by 谷歌翻译
情绪转换(EVC)寻求转换话语的情绪状态,同时保留语言内容和扬声器身份。在EVC,情绪通常被视为离散类别,忽略了言论也传达了听众可以感知的各种强度水平的情绪。在本文中,我们的目标是明确地表征和控制情绪强度。我们建议解开语言内容的扬声器风格,并将扬声器风格编码成一个嵌入的嵌入空间,形成情绪嵌入的原型。我们进一步从情感标记的数据库中了解实际的情感编码器,并研究使用相对属性来表示细粒度的情绪强度。为确保情绪可理解性,我们将情感分类损失和情感嵌入了EVC网络培训中的相似性损失。根据需要,所提出的网络控制输出语音中的细粒度情绪强度。通过目标和主观评估,我们验证了建议网络的情感表达和情感强度控制的有效性。
translated by 谷歌翻译
本文提出了一种表达语音合成架构,用于在单词级别建模和控制说话方式。它试图借助两个编码器来学习语音数据的单词级风格和韵律表示。通过查找声学特征的每个单词的样式令牌的组合,第二个模型样式,第二个输出单词级序列仅在语音信息上调节,以便从风格信息解开它。两个编码器输出与音素编码器输出对齐并连接,然后用非周度塔歇尔策略模型解码。额外的先前编码器用于自向预测样式标记,以便模型能够在没有参考话语的情况下运行。我们发现所产生的模型给出了对样式的单词级和全局控制,以及韵律转移能力。
translated by 谷歌翻译
Text-based speech editing allows users to edit speech by intuitively cutting, copying, and pasting text to speed up the process of editing speech. In the previous work, CampNet (context-aware mask prediction network) is proposed to realize text-based speech editing, significantly improving the quality of edited speech. This paper aims at a new task: adding emotional effect to the editing speech during the text-based speech editing to make the generated speech more expressive. To achieve this task, we propose Emo-CampNet (emotion CampNet), which can provide the option of emotional attributes for the generated speech in text-based speech editing and has the one-shot ability to edit unseen speakers' speech. Firstly, we propose an end-to-end emotion-selectable text-based speech editing model. The key idea of the model is to control the emotion of generated speech by introducing additional emotion attributes based on the context-aware mask prediction network. Secondly, to prevent the emotion of the generated speech from being interfered by the emotional components in the original speech, a neutral content generator is proposed to remove the emotion from the original speech, which is optimized by the generative adversarial framework. Thirdly, two data augmentation methods are proposed to enrich the emotional and pronunciation information in the training set, which can enable the model to edit the unseen speaker's speech. The experimental results that 1) Emo-CampNet can effectively control the emotion of the generated speech in the process of text-based speech editing; And can edit unseen speakers' speech. 2) Detailed ablation experiments further prove the effectiveness of emotional selectivity and data augmentation methods. The demo page is available at https://hairuo55.github.io/Emo-CampNet/
translated by 谷歌翻译
本文介绍了一种在自回归关注文本到语音系统中控制音素级别的韵律的方法。除了通常完成的常见框架中,我们将从培训集中的语音数据中直接提取音素级F0和持续时间特征,而不是学习潜在韵律特征。每个韵律特征是使用无监督聚类离散化,以便为每个话语产生一系列韵律标签。该序列与音素序列并行使用,以便通过利用韵律编码器和相应的注意模块来调节解码器。实验结果表明,该方法保留了高质量的生成语音,同时允许对F0和持续时间进行音素级控制。通过用音符替换F0集群质心,该模型还可以在扬声器范围内提供对音符和八度音的控制。
translated by 谷歌翻译
Given a piece of text, a video clip and a reference audio, the movie dubbing (also known as visual voice clone V2C) task aims to generate speeches that match the speaker's emotion presented in the video using the desired speaker voice as reference. V2C is more challenging than conventional text-to-speech tasks as it additionally requires the generated speech to exactly match the varying emotions and speaking speed presented in the video. Unlike previous works, we propose a novel movie dubbing architecture to tackle these problems via hierarchical prosody modelling, which bridges the visual information to corresponding speech prosody from three aspects: lip, face, and scene. Specifically, we align lip movement to the speech duration, and convey facial expression to speech energy and pitch via attention mechanism based on valence and arousal representations inspired by recent psychology findings. Moreover, we design an emotion booster to capture the atmosphere from global video scenes. All these embeddings together are used to generate mel-spectrogram and then convert to speech waves via existing vocoder. Extensive experimental results on the Chem and V2C benchmark datasets demonstrate the favorable performance of the proposed method. The source code and trained models will be released to the public.
translated by 谷歌翻译
诸如FastSpeech之类的非自动回归文本(TTS)模型可以比以前具有可比性的自回归模型合成语音的速度要快得多。 FastSpeech模型的培训依赖于持续时间预测的自回归教师模型(提供更多信息作为输入)和知识蒸馏(以简化输出中的数据分布),这可以缓解一对多的映射问题(即多个多个映射问题语音变化对应于TTS中的同一文本)。但是,FastSpeech有几个缺点:1)教师学生的蒸馏管线很复杂且耗时,2)从教师模型中提取的持续时间不够准确,并且从教师模型中提取的目标MEL光谱图会遭受信息损失的影响。由于数据的简化,两者都限制了语音质量。在本文中,我们提出了FastSpeech 2,它解决了FastSpeech中的问题,并更好地解决了TTS中的一对一映射问题1)直接用地面实现目标直接训练该模型,而不是教师的简化输出,以及2 )作为条件输入,引入更多语音信息(例如,音高,能量和更准确的持续时间)。具体而言,我们从语音波形中提取持续时间,音高和能量,并将其直接作为训练中的条件输入,并在推理中使用预测的值。我们进一步设计了FastSpeech 2s,这是首次尝试从文本中直接生成语音波形的尝试,从而享受完全端到端推断的好处。实验结果表明,1)FastSpeech 2在FastSpeech上实现了3倍的训练,而FastSpeech 2s的推理速度甚至更快; 2)FastSpeech 2和2S的语音质量优于FastSpeech,而FastSpeech 2甚至可以超越自回归型号。音频样本可在https://speechresearch.github.io/fastspeech2/上找到。
translated by 谷歌翻译
Accent plays a significant role in speech communication, influencing understanding capabilities and also conveying a person's identity. This paper introduces a novel and efficient framework for accented Text-to-Speech (TTS) synthesis based on a Conditional Variational Autoencoder. It has the ability to synthesize a selected speaker's speech that is converted to any desired target accent. Our thorough experiments validate the effectiveness of our proposed framework using both objective and subjective evaluations. The results also show remarkable performance in terms of the ability to manipulate accents in the synthesized speech and provide a promising avenue for future accented TTS research.
translated by 谷歌翻译
使用未转录的参考样本来克隆说话者的声音是现代神经文本到语音(TTS)方法的巨大进步之一。最近还提出了模仿转录参考音频的韵律的方法。在这项工作中,我们首次将这两项任务与话语级别的扬声器嵌入在一起,首次将这两个任务融合在一起。我们进一步引入了一个轻巧的对准器,用于提取细粒度的韵律特征,可以在几秒钟内对单个样品进行填充。我们表明,正如我们的客观评估和人类研究表明,我们可以独立地独立地独立语言参考的声音以及与原始声音和韵律高度相似的韵律的韵律,正如我们的客观评估和人类研究表明。我们的所有代码和训练有素的模型都可以以及静态和交互式演示。
translated by 谷歌翻译
通过语音转换(VC)的数据增强已成功应用于仅可用于目标扬声器的中性数据时,已成功地应用于低资源表达文本到语音(TTS)。尽管VC的质量对于这种方法至关重要,但学习稳定的VC模型是一项挑战,因为在低资源场景中的数据量受到限制,并且高度表达的语音具有很大的声学变化。为了解决这个问题,我们提出了一种新型的数据增强方法,该方法结合了变化和VC技术。由于换挡数据的增强功能可以覆盖各种音高动态,因此即使只有目标扬声器中性数据的1000个话语,它也可以极大地稳定VC和TTS模型的训练。主观测试结果表明,与常规方法相比,具有拟议方法的基于快速2的情绪TTS系统改善了自然性和情绪相似性。
translated by 谷歌翻译
现有的语音克隆(VC)任务旨在将段落文本转换为具有参考音频指定的所需语音的语音。这显着提高了人工语音应用的发展。然而,也存在许多情景,这些方案不能被这些VC任务更好地反映,例如电影配音,这需要语音与与电影图一致的情绪。为了填补这个差距,在这项工作中,我们提出了一个名为Visual Voice Cloning(V2C)的新任务,该任务试图将文本段落转换为具有由参考视频指定的参考音频和所需情绪指定的所需语音的语音。为了促进该领域的研究,我们构建数据集,V2C动画,并根据现有的最先进(SOTA)VC技术提出强大的基线。我们的数据集包含10,217个动画电影剪辑,覆盖各种类型的类型(例如,喜剧,幻想)和情感(例如,快乐,悲伤)。我们进一步设计了一组名为MCD-DTW-SL的评估度量,这有助于评估地面真理语音和合成的相似性。广泛的实验结果表明,即使是SOTA VC方法也不能为我们的V2C任务产生令人满意的演讲。我们希望拟议的新任务与建设的数据集和评估度量一起将促进语音克隆领域的研究和更广泛的视野和语言社区。
translated by 谷歌翻译