我们引入了一种新的自动评估方法,用于说话者相似性评估,这与人类感知得分一致。现代神经文本到语音模型需要大量的干净训练数据,这就是为什么许多解决方案从单个扬声器模型转换为在许多不同扬声器的示例中训练的解决方案的原因。多扬声器模型带来了新的可能性,例如更快地创建新声音,也是一个新问题 - 扬声器泄漏,其中合成示例的扬声器身份可能与目标扬声器的示例不符。当前,发现此问题的唯一方法是通过昂贵的感知评估。在这项工作中,我们提出了一种评估说话者相似性的自动方法。为此,我们扩展了有关说话者验证系统的最新工作,并评估不同的指标和说话者嵌入模型如何以隐藏的参考和锚(Mushra)分数反映多个刺激。我们的实验表明,我们可以训练一个模型来预测扬声器嵌入的扬声器相似性,其精度为0.96的扬声器嵌入,并且在话语级别上最高0.78 Pearson分数。
translated by 谷歌翻译
In this paper, we present a novel method for phoneme-level prosody control of F0 and duration using intuitive discrete labels. We propose an unsupervised prosodic clustering process which is used to discretize phoneme-level F0 and duration features from a multispeaker speech dataset. These features are fed as an input sequence of prosodic labels to a prosody encoder module which augments an autoregressive attention-based text-to-speech model. We utilize various methods in order to improve prosodic control range and coverage, such as augmentation, F0 normalization, balanced clustering for duration and speaker-independent clustering. The final model enables fine-grained phoneme-level prosody control for all speakers contained in the training set, while maintaining the speaker identity. Instead of relying on reference utterances for inference, we introduce a prior prosody encoder which learns the style of each speaker and enables speech synthesis without the requirement of reference audio. We also fine-tune the multispeaker model to unseen speakers with limited amounts of data, as a realistic application scenario and show that the prosody control capabilities are maintained, verifying that the speaker-independent prosodic clustering is effective. Experimental results show that the model has high output speech quality and that the proposed method allows efficient prosody control within each speaker's range despite the variability that a multispeaker setting introduces.
translated by 谷歌翻译
无监督的零射声语音转换(VC)旨在修改话语的扬声器特性,以匹配看不见的目标扬声器,而无需依赖并行培训数据。最近,已经显示了语音表示的自我监督学习在不使用转录物的情况下产生有用的语言单元,这可以直接传递给VC模型。在本文中,我们展示了通过使用长度重采样解码器来实现高质量的音频样本,这使得VC模型能够与不同的语言特征提取器和声码器一起工作,而无需它们以相同的序列长度运行。我们表明,我们的方法可以胜过VCTK数据集的许多基线。在不修改架构的情况下,我们进一步展示了a)使用来自同一扬声器的不同音频段,b)添加循环一致性损失,并且c)添加扬声器分类损失可以有助于学习更好的扬声器嵌入。我们的模型使用这些技术训练了Libritts,实现了最佳性能,产生了音频样本对目标扬声器的声音,同时保留了在字符错误率方面与实际人类话语相当的语言内容。
translated by 谷歌翻译
这项工作探讨了在不存在的人类发声声中合成语音的任务。我们称之为此任务“扬声器生成”,并呈现Tacosawn,一个在此任务中竞争地执行的系统。Tacosawn是一种基于重复的关注文本到语音模型,了解备用空间的发行版,这使得新颖和各种扬声器采样。我们的方法易于实现,并且不需要从扬声器ID系统转移学习。我们呈现客观和主观指标,用于评估此任务的表现,并证明我们所提出的客观指标与人类对扬声器相似性相关联。我们的演示页面上有音频样本。
translated by 谷歌翻译
个性化语音合成系统是一个非常期望的应用程序,其中系统可以使用罕见的登记录制与用户的语音产生语音。最近有两种主要方法可以在近期建立这样的系统:扬声器适配和扬声器编码。一方面,扬声器适配方法微调训练有素的多扬声器文本到语音(TTS)模型,只有少数注册样本。然而,它们需要至少有数千个微调步骤以进行高质量适应,使其难以在设备上施加。另一方面,扬声器编码方法将注册话语编码为扬声器嵌入。训练的TTS模型可以在相应的扬声器嵌入上综合用户的语音。然而,扬声器编码器遭受了所看到和看不见的扬声器之间的泛化差距。在本文中,我们建议将元学习算法应用于扬声器适应方法。更具体地说,我们使用模型不可知的元学习(MAML)作为多扬声器TTS模型的训练算法,其旨在找到一个很好的元初始化,以便快速地将模型调整到任何几次扬声器适应任务。因此,我们还可以将元训练的TTS模型调整为有效地解除扬声器。我们的实验比较了两个基线的提出方法(Meta-TTS):扬声器适配方法基线和扬声器编码方法基线。评估结果表明,Meta-TTS可以从扬声器适应基线的少量适应步骤中综合高扬声器相似性语音,而不是扬声器适配基线,并且在相同的训练方案下优于扬声器编码基线。当基线的扬声器编码器用额外的8371个扬声器进行预先培训时,Meta-TTS仍然可以越优于库特布特数据集的基线,并在VCTK数据集上实现可比结果。
translated by 谷歌翻译
本文介绍了对F0的音素级韵律控制的方法和多销箱文本到语音设置的持续时间,基于韵律聚类。使用自回归关注的模型,并将多个箱子架构模块并联,与韵律编码器并联。提出了对基本单扬声器方法的几种改进,从而增加了韵律控制范围和覆盖范围。更具体地说,我们采用数据增强,F0​​标准化,持续时间的平衡集群,以及扬声器无关的韵律聚类。这些修改使培训集中包含的所有发言者能够进行细粒度的音素级韵律控制,同时保持扬声器标识。该模型也可以微调到具有限制数据量的看不见的扬声器,并显示其维持其韵律控制能力,验证说话者无关的韵律聚类是有效的。实验结果验证了该模型维持了高输出语音质量,并且该方法允许在每个扬声器范围内有效的韵律控制,尽管多种式箱子设置介绍的变化。
translated by 谷歌翻译
如今,随着越来越多的系统在传统的语音转换(VC)任务中实现了良好的性能,人们的注意力在极端条件下逐渐转向VC任务。在本文中,我们提出了一种零射声语音转换的新方法。我们的目标是获取讲话者内容解剖的中间陈述,以更好地删除发言者信息并获得纯净的内容信息。因此,我们所提出的框架包含一种模块,该模块从源扬声器的声学特征中移除扬声器信息。此外,扬声器信息控制被添加到我们的系统中以维持语音克隆性能。所提出的系统由主观和客观度量评估。结果表明,我们提出的系统显着降低了零射声语音转换中的权衡问题,而且还可以对扬声器验证系统进行高欺骗功率。
translated by 谷歌翻译
Voice anti-spoofing systems are crucial auxiliaries for automatic speaker verification (ASV) systems. A major challenge is caused by unseen attacks empowered by advanced speech synthesis technologies. Our previous research on one-class learning has improved the generalization ability to unseen attacks by compacting the bona fide speech in the embedding space. However, such compactness lacks consideration of the diversity of speakers. In this work, we propose speaker attractor multi-center one-class learning (SAMO), which clusters bona fide speech around a number of speaker attractors and pushes away spoofing attacks from all the attractors in a high-dimensional embedding space. For training, we propose an algorithm for the co-optimization of bona fide speech clustering and bona fide/spoof classification. For inference, we propose strategies to enable anti-spoofing for speakers without enrollment. Our proposed system outperforms existing state-of-the-art single systems with a relative improvement of 38% on equal error rate (EER) on the ASVspoof2019 LA evaluation set.
translated by 谷歌翻译
语音可理解性评估在患有病理语音疾病的患者的治疗中起着重要作用。需要自动和客观的措施,以帮助治疗师进行传统的主观和劳动密集型评估。在这项工作中,我们研究了一种新的方法,该方法是使用从健康的参考和病理扬声器获得的平行话语对的分离潜在语音表示中的差异来获得这种度量的。使用每个扬声器的所有可用话语,在英语数据库上进行了英语数据库,显示出高和显着的相关值(r = -0.9),具有主观的可理解性指标,而在四个不同的参考扬声器对中仅具有最小的偏差(+-0.01) 。我们还通过考虑每个扬声器的话语少得多,在1000次迭代中偏离1000次迭代的 +-0.02偏离 +-0.02)也证明了稳健性。我们的结果之一是最早表明可以使用删除的语音表示形式用于自动病理语音可理解性评估,从而产生了参考扬声器对不变方法,适用于仅有几个话语的场景。
translated by 谷歌翻译
在本文中,介绍了文本到读取/唱歌系统,可以适应任何扬声器的声音。它利用基于TacoTron的多级箱子声学模型在只读语音数据训练,并且在音素级别提供韵律控制。还研究了基于传统DSP算法的数据集增强和额外的韵律操纵。神经TTS模型对看不见的扬声器的有限录音进行了微调,允许与目标的扬声器语音进行敲击/歌唱合成。描述了系统的详细管道,其包括从Capella歌曲的目标音调和持续时间值提取,并将其转换为在合成之前的目标扬声器的有效音符范围内。还研究了通过WSOLA输出的输出的韵律操纵的另外的阶段,以便更好地匹配目标持续时间值。合成的话语可以与乐器伴奏轨道混合以产生完整的歌曲。通过主观聆听测试评估所提出的系统,以及与可用的备用系统相比,该系统还旨在从只读训练数据产生合成歌唱语音。结果表明,该拟议的方法可以产生高质量的敲击/歌声,具有增加的自然。
translated by 谷歌翻译
我们先前的实验表明,人类和机器似乎采用了不同的方法来歧视说话者歧视,尤其是在说话风格可变性的情况下。实验检查了阅读与对话演讲。听众专注于特定于说话者的特质,同时“一起告诉说话者”,以及“告诉说话者分开”时共享声学空间的相对距离。但是,无论目标或非目标试验如何,自动扬声器验证(ASV)系统使用相同的损失函数。为了在风格变异性的存在下提高ASV性能,从人类感知中学到的见解被用来设计一种新的训练损失功能,我们称为“ CLLRCE损失”。 CLLRCE损失既使用说话者特异性的特质,又使用扬声器之间的相对声学距离来训练ASV系统。当使用UCLA扬声器可变性数据库时,在X-Vector和条件设置中,CLLCE损失使EER显着相对改善1-66%,而MindCF分别与1-31%和1-56%相比,相比之下X矢量基线。使用涉及不同的对话语音任务的SITW评估任务,拟议的损失与自我发项式调节结合,导致EER的显着相对改善2-5%,而MindCF则比基线高6-12%。在SITW案例中,绩效的改善仅与调理保持一致。
translated by 谷歌翻译
使用未转录的参考样本来克隆说话者的声音是现代神经文本到语音(TTS)方法的巨大进步之一。最近还提出了模仿转录参考音频的韵律的方法。在这项工作中,我们首次将这两项任务与话语级别的扬声器嵌入在一起,首次将这两个任务融合在一起。我们进一步引入了一个轻巧的对准器,用于提取细粒度的韵律特征,可以在几秒钟内对单个样品进行填充。我们表明,正如我们的客观评估和人类研究表明,我们可以独立地独立地独立语言参考的声音以及与原始声音和韵律高度相似的韵律的韵律,正如我们的客观评估和人类研究表明。我们的所有代码和训练有素的模型都可以以及静态和交互式演示。
translated by 谷歌翻译
本文提出了一种用于多演讲者文本到语音的人类扬声器适应方法。使用常规的说话者适应方法,使用对扬声器歧视任务进行培训的扬声器编码器,从其参考语音中提取目标扬声器的嵌入矢量。但是,当参考语音不可用时,该方法无法获得目标扬声器的嵌入向量。我们的方法基于人类的优化框架,该框架结合了用户来探索扬声器 - 安装空间以查找目标扬声器的嵌入。提出的方法使用顺序线搜索算法,该算法反复要求用户在嵌入空间中的线段上选择一个点。为了有效地从多个刺激中选择最佳的语音样本,我们还开发了一个系统,在该系统中,用户可以在每个音素的声音之间切换在循环发音的同时。实验结果表明,即使不直接将参考语音用作说话者编码器的输入,提出的方法也可以在客观和主观评估中实现与常规评估相当的性能。
translated by 谷歌翻译
尽管最近的神经文本到语音(TTS)系统已经实现了高质量的语音合成,但存在TTS系统产生低质量语音的情况,主要是由知识蒸馏期间有限的训练数据或信息丢失引起的。因此,我们提出了一种新的方法,通过在感知损失的监督下通过培训TTS模型来改善语音质量,这测量了最大可能的语音质量分数和预测的距离。我们首先预先训练平均意见评分(MOS)预测模型,然后使用预先训练的MOS预测模型训练TTS模型以最大化合成语音的MOS。所提出的方法可以普遍应用(即,无论TTS模型架构还是语音质量校准的原因)和有效地应用(即,不增加推理时间或模型复杂性)。 MOS和手机错误率的评估结果表明,我们的建议方法在自然和可懂度方面提高了以前的模型。
translated by 谷歌翻译
学习一种新语言涉及不断比较语音作品与环境的参考作品。在言语获取的早期,孩子们进行了发音调整以符合他们的看护人的言论。一种语言的成年学习者调整他们的演讲以匹配导师参考。本文提出了一种合成产生正确的发音反馈的方法。此外,我们的目标是在保持演讲者的原始声音的同时产生校正后的生产。该系统提示用户发音短语。记录语音,并用与不准确音素相关的样品用零掩盖。该波形是对语音生成器的输入,作为具有U-NET体系结构的深度学习介绍系统实现,并经过培训以输出重建的语音。该训练集由未损坏的适当语音示例组成,并且对发电机进行了训练以重建原始的适当语音。我们评估了系统的性能在音素替代英语以及发音障碍儿童的最小对单词方面的性能。结果表明,人类听众稍微偏爱我们产生的语音,而不是用不同的扬声器的生产来平滑地替换音素。
translated by 谷歌翻译
近年来见证了自动扬声器验证(ASV)的非凡发展。但是,先前的作品表明,最新的ASV模型非常容易受到语音欺骗的攻击,而最近提出的高性能欺骗对策(CM)模型仅专注于独立的反欺骗任务,而忽略了该模型随后的发言人验证过程。如何将CM和ASV集成在一起仍然是一个悬而未决的问题。最近发生了欺骗意识的说话者验证(SASV)挑战,即当共同优化CM和ASV子系统时,可以提供更好的性能。在挑战的情况下,参与者提出的集成系统必须同时拒绝冒名顶替者和欺骗目标扬声器的攻击,这些攻击者直觉有效地与可靠,欺骗的ASV系统的期望相匹配。这项工作着重于基于融合的SASV解决方案,并提出了一个多模型融合框架,以利用多个最先进的ASV和CM模型的功能。拟议的框架将SASV-EER从8.75%提高到1.17 \%,与SASV挑战中最佳基线系统相比,相对改善为86%。
translated by 谷歌翻译
非平行的多与众不同的语音转换仍然是一项有趣但具有挑战性的语音处理任务。最近,基于有条件的自动编码器的方法AutoVC通过使用信息限制的瓶颈来删除说话者身份和语音内容,从而实现了出色的转换结果。但是,由于纯粹的自动编码器训练方法,很难评估内容和说话者身份的分离效果。在本文中,一个新颖的语音转换框架,名为$ \ boldsymbol t $ ext $ \ boldsymbol g $ uided $ \ boldsymbol a $ utovc(tgavc),提议更有效地将内容和音色与语音分开,其中预期的内容嵌入其中根据文本转录生产的旨在指导语音内容的提取。此外,对对抗性训练将用于消除从语音中提取的估计内容中的说话者身份信息。在预期内容嵌入和对抗培训的指导下,对内容编码器进行了培训,以从语音中提取嵌入说话者的内容。 Aishell-3数据集的实验表明,所提出的模型在自然性和转换语音的相似性方面优于AUTOVC。
translated by 谷歌翻译
神经文本到语音研究的最新进展是利用低级中间语音表示(例如MEL-光谱图)的两阶段管道主导的。但是,这种预定的特征从根本上受到限制,因为它们不允许通过学习隐藏表示形式来利用数据驱动方法的全部潜力。因此,已经提出了几种端到端方法。但是,这样的模型更难训练,并且需要大量具有转录的高质量录音。在这里,我们提出了WavThruvec-一种两阶段的架构,通过使用高维WAV2VEC 2.0嵌入作为中间语音表示,可以解决瓶颈。由于这些隐藏的激活提供了高级语言特征,因此它们对噪音更强大。这使我们能够利用质量较低的注释语音数据集来训练第一阶段模块。同时,由于WAV2VEC 2.0的嵌入已经进行了时间对齐,因此可以在大规模未转录的音频语料库上对第二阶段组件进行培训。这导致了对量表词的概括能力的提高,以及对看不见的说话者的更好概括。我们表明,所提出的模型不仅与最新神经模型的质量相匹配,而且还介绍了有用的属性,可以实现语音转换或零弹性合成的任务。
translated by 谷歌翻译
重音文本到语音(TTS)合成旨在以重音(L2)作为标准版本(L1)的变体生成语音。强调TTS合成具有挑战性,因为在语音渲染和韵律模式方面,L2在L1上都不同。此外,在话语中无法控制重音强度的解决方案。在这项工作中,我们提出了一种神经TTS体系结构,使我们能够控制重音及其在推理过程中的强度。这是通过三种新型机制来实现的,1)一种重音方差适配器,可以用三个韵律控制因子(即俯仰,能量和持续时间)对复杂的重音方差进行建模; 2)一种重音强度建模策略来量化重音强度; 3)一个一致性约束模块,以鼓励TTS系统在良好的水平上呈现预期的重音强度。实验表明,在重音渲染和强度控制方面,所提出的系统在基线模型上的性能优于基线模型。据我们所知,这是对具有明确强度控制的重音TT合成的首次研究。
translated by 谷歌翻译
Speech quality assessment has been a critical component in many voice communication related applications such as telephony and online conferencing. Traditional intrusive speech quality assessment requires the clean reference of the degraded utterance to provide an accurate quality measurement. This requirement limits the usability of these methods in real-world scenarios. On the other hand, non-intrusive subjective measurement is the ``golden standard" in evaluating speech quality as human listeners can intrinsically evaluate the quality of any degraded speech with ease. In this paper, we propose a novel end-to-end model structure called Convolutional Context-Aware Transformer (CCAT) network to predict the mean opinion score (MOS) of human raters. We evaluate our model on three MOS-annotated datasets spanning multiple languages and distortion types and submit our results to the ConferencingSpeech 2022 Challenge. Our experiments show that CCAT provides promising MOS predictions compared to current state-of-art non-intrusive speech assessment models with average Pearson correlation coefficient (PCC) increasing from 0.530 to 0.697 and average RMSE decreasing from 0.768 to 0.570 compared to the baseline model on the challenge evaluation test set.
translated by 谷歌翻译