我们研究了可以将可变持续时间语音段映射到固定维度表示的无监督模型。在unlabelledspeech是唯一可用资源的设置中,这种声学词嵌入可以形成“零资源”语音搜索,发现和索引系统的基础。大多数现有的无监督嵌入方法仍然使用一些监督,例如词或音素边界。这里我们提出编码器 - 解码器对应自动编码器(EncDec-CAE),它使用自动发现的段而不是真正的单词段:无监督的术语发现系统寻找相同未知类型的单词对,并训练EncDec-CAE重构一个给另一个作为输入的词。我们将它与标准编码器 - 解码器自动编码器(AE)进行比较,这是一种变量AE,具有先前的latentembedding和下采样。在单词discrimintask中,EncDec-CAE在两种语言中的平均精度相对于其最接近的竞争对手的性能高出24%。
translated by 谷歌翻译
我们通过将自动编码神经网络应用于语音波形来考虑无监督提取有意义的语音潜在表示的任务。目标是学习能够从信号中捕获高级语义内容的表示,例如,音素身份,同时不会混淆信号中的低级细节,例如底层音高轮廓或背景噪音。自动编码器模型的行为取决于应用于潜在表示的约束类型。我们比较了三种变体:简单的降维瓶颈,高斯变分自动编码器(VAE)和离散矢量量化VAE(VQ-VAE)。我们根据说话人的独立性,预测语音内容的能力以及精确重建单个谱图帧的能力来分析学习表征的质量。此外,对于使用VQ-VAE提取的差异编码,我们测量将它们映射到电话的容易程度。我们引入了一种正则化方案,该方案强制表示集中于话语的语音内容,并报告性能与ZeroSpeech 2017无监督声学单元发现任务中的顶级条目相当。
translated by 谷歌翻译
在没有监督的情况下学习有用的表示仍然是机器学习的关键挑战在本文中,我们提出了一种简单而强大的生成模型,可以学习这种离散表示。我们的模型VectorQuantised-Variational AutoEncoder(VQ-VAE)与VAE的不同之处在于两个关键方面:编码器网络输出离散码而不是连续码;并且theprior是学习而不是静态的。为了学习离散的潜在表现,我们结合了矢量量化(VQ)的思想。使用VQ方法允许模型避开“后塌陷”问题 - 当潜伏性与强大的回归解码器配对时忽略潜伏性 - 通常在VAE框架中观察到。将这些表示与自回归先验配对,该模型可以生成高质量的图像,视频和语音,以及进行高质量的说话者转换和音素的无监督学习,从而提供了学习表示的实用性的进一步证据。
translated by 谷歌翻译
生成通用且适当的合成语音需要控制与语音文本分开的输出表达。重要的非文本语音变化很少被注释,在这种情况下,输出控制必须以无人监督的方式进行。在本文中,我们对统计语音合成中无监督学习控制的方法进行了深入研究。例如,我们表明,在某些自动编码器模型中,流行的无监督训练启发式可以被解释为变分推断。我们通常将这些模型连接到VQ-VAE,这是另一个最近提出的深变分自动编码器类,我们展示的可以从一个类似的数学参数中得出。讨论了这些新的概率解释的含义。我们通过应用于情绪语音合成的声学建模来说明各种方法的实用性,其中发现用于学习表达控制(无法访问情感标签)的无监督方法得到的结果在许多方面匹配或超过先前的最佳监督方法。
translated by 谷歌翻译
本文提出了一种神经端到端文本到语音(TTS)模型,该模型可以控制生成的语音中潜在的属性,这些属性很少在训练数据中注释,例如说话风格,重音,背景噪声和记录条件。该模型被公式化为具有两级分层潜变量的条件生成模型。第一级是acategorical变量,它表示属性组(例如干净/嘈杂)并提供可解释性。以第一级为条件的第二级是多变量高斯变量,其表征特定属性配置(例如,噪声水平,说话速率)并且能够对这些属性进行解缠结的细粒度控制。这相当于使用高斯混合模型(GMM)进行潜在分布。广泛的评估证明了其控制上述属性的能力。特别是,无论目标说话者的训练数据的质量如何,它都能够始终如一地合成高质量的清洁语音。
translated by 谷歌翻译
我们提出了零资源语音挑战2019,它建议在没有任何文本或语音标签的情况下构建aspeech合成器:因此,没有T的TTS(没有文本的文本到语音)。我们以未知语言(语音数据集)为目标语音提供原始音频,但没有对齐,文本或标签。参与者必须以无人监督的方式发现子词单元(使用UnitDiscovery数据集)并以某种方式将它们与语音记录对齐最有效的方法是从新颖的扬声器中合成新颖的话语,类似于目标说话者的声音。我们描述了用于评估的指标,一个基线系统,包括无监督的子字单元发现和标准TTS系统,以及使用黄金电话转换的顶线TTS。我们概述了11个团队提交的19个系统并讨论了主要结果。
translated by 谷歌翻译
我们提供了一个完全卷积的wav-to-wav网络,用于转换扬声器的声音,而不依赖于文本。我们的网络基于编码器 - 解码器架构,其中编码器针对自动语音识别(ASR)的任务进行预训练,并且训练多扬声器波形解码器以自回归方式重建原始信号。在叙述的有声读物上弄湿网络,并通过转换TTSrobot的声音来演示在这些声音中执行多语音TTS的能力。我们观察到所产生的声音的质量没有降低,与参考TTS声音相比。我们的方法的模块化分离了TTS模块的目标语音生成,以隐私感知的方式实现客户端个性化TTS。
translated by 谷歌翻译
本文提出了一种非并行的多对多语音转换(VC)方法,该方法使用称为辅助分类器VAE(ACVAE)的条件变分自动编码器(VAE)的变体。该方法具有三个关键特征。首先,采用完全卷积体系结构构建编码器和解码器网络,使网络能够学习捕获源和​​目标声学特征序列中时间依赖性的转换规则。其次,它使用信息理论正则化进行模型训练,以确保属性类标签中的信息不会在转换过程中丢失。使用常规CVAE,编码器和decoderare可以自由地忽略属性类标签输入。这可能是有问题的,因为在这种情况下,属性类标签对于在测试时控制输入语音的语音特性几乎没有影响。通过引入辅助分类器并训练编码器和解码器可以避免这种情况,从而分类器正确地预测解码器输出的属性类别。第三,它通过简单地将输入语音的频谱细节移植到其转换版本中来避免在测试时产生模糊的语音。主观评价实验表明,这种简单的方法在非并行的多对多说话人身份转换任务中运行良好。
translated by 谷歌翻译
We present an extension to the Tacotron speech synthesis architecture that learns a latent embedding space of prosody, derived from a reference acoustic representation containing the desired prosody. We show that conditioning Tacotron on this learned embedding space results in synthesized audio that matches the prosody of the reference signal with fine time detail even when the reference and synthesis speakers are different. Additionally, we show that a reference prosody embedding can be used to synthesize text that is different from that of the reference utterance. We define several quantitative and subjective met-rics for evaluating prosody transfer, and report results with accompanying audio samples from single-speaker and 44-speaker Tacotron models on a prosody transfer task.
translated by 谷歌翻译
我们提出了一个分解的分层变分自动编码器,它从顺序数据中学习了解错和可解释的表示,而没有监督。具体而言,我们利用信息临界数据的多尺度特性,通过在分解的层次图形模型中明确地将其制定,该模型将序列相关的先验和序列独立的驱动因素强加给不同的潜在变量集。该模型在twospeech语料库中进行评估,以定性地证明其通过操纵不同的潜在变量集来转换角色语言内容的能力;并且,在自动语音识别任务的不匹配的训练/测试场景中,它能够超越用于说话者验证的i-矢量基线并且将单词错误率降低多达35%。
translated by 谷歌翻译
本文介绍了基于变换自动编码器(VAE)的语音转换(VC)的WaveNet声码器的改进框架,它减少了训练数据和测试数据之间不匹配引起的质量失真。传统的WaveNet声码器采用自然声学特征进行训练,但对VC转换阶段的转换特征进行了调节,这种不匹配通常会导致显着的质量和相似性降低。在这项工作中,我们利用VAE的特定结构来改进具有由VAE生成的自重构特征的WaveNet声码器,其具有与转换的特征类似的特征,同时具有与目标训练数据相同的数据长度。换句话说,我们提出的方法不需要任何对齐。客观和主观的实验结果证明了我们提出的框架的有效性。
translated by 谷歌翻译
我们提出了一种VAE架构,用于编码和生成高维序列数据,如视频或音频。我们的深度生成模型学习数据的分支表示,分为静态和动态部分,使我们能够从随时间保留的特征(内容)中大致区分潜在的时间相关特征(动态)。这个体系结构通过对这些特征集中的任何一个进行条件化,使我们能够部分控制生成内容和动态。在我们对人工生成的卡通视频剪辑和录音的实验中,我们表明我们可以通过这样的内容来将给定序列的内容转换为另一个。对于音频,这允许我们将男性扬声器转换为女性扬声器,反之亦然,而对于视频,我们可以分别操纵形状和动态。此外,我们给出了假设的经验证据,即随机RNN作为潜状态模型在压缩和生成长序列方面比确定性序列更有效,这可能是视频压缩中的相关应用。
translated by 谷歌翻译
我们提出了一种用于歌唱转换的深度学习方法。建议的网络不以文本或笔记为条件,它直接将一个歌手的音频转换为另一个歌手的声音。训练是在没有任何形式的监督下进行的:没有歌词或任何形式的语音特征,非音乐,歌手之间没有匹配的样本。所提出的网络使用单个CNN编码器用于所有歌手,单个WaveNet解码器,以及强制潜在表示与歌手无关的分类。每个歌手由一个嵌入向量表示,解码器以其为条件。为了处理相对较小的数据集,我们提出了一种新的数据增强方案,以及基于反向翻译的新训练损失和协议。我们的评估提供了证据,证明转换产生的自然签名声音是高度可识别的目标语。
translated by 谷歌翻译
Zero-resource speech technology is a growing research area that aims to develop methods for speech processing in the absence of transcriptions, lexicons, or language modelling text. Early term discovery systems focused on identifying isolated recurring patterns in a corpus, while more recent full-coverage systems attempt to completely segment and cluster the audio into word-like units-effectively performing unsupervised speech recognition. This article presents the first attempt we are aware of to apply such a system to large-vocabulary multi-speaker data. Our system uses a Bayesian modelling framework with segmen-tal word representations: each word segment is represented as a fixed-dimensional acoustic embedding obtained by mapping the sequence of feature frames to a single embedding vector. We compare our system on English and Xitsonga datasets to state-of-the-art baselines, using a variety of measures including word error rate (obtained by mapping the unsupervised output to ground truth transcriptions). Very high word error rates are reported-in the order of 70-80% for speaker-dependent and 80-95% for speaker-independent systems-highlighting the difficulty of this task. Nevertheless, in terms of cluster quality and word segmentation metrics, we show that by imposing a consistent top-down segmentation while also using bottom-up knowledge from detected syllable boundaries, both single-speaker and multi-speaker versions of our system outperform a purely bottom-up single-speaker syllable-based approach. We also show that the discovered clusters can be made less speaker-and gender-specific by using an unsupervised autoencoder-like feature extractor to learn better frame-level features (prior to embedding). Our system's discovered clusters are still less pure than those of unsupervised term discovery systems, but provide far greater coverage.
translated by 谷歌翻译
非并行语音转换(VC)的有效方法是利用深度神经网络(DNN),特别是变分自动编码器(VAE),以无监督的方式对语音的潜在结构进行编码。先前的研究证实了使用STRAIGHT光谱对VC进行VAE的有效性。然而,VAE使用其他类型的光谱特征,例如与人类感知相关并且已广泛用于VC的梅尔斯特系数(MCCs),尚未得到正确的研究。不是使用特定类型的光谱特征,而是预期VAE可以同时使用多种类型的光谱特征而受益,从而提高VAE对VC的能力。为此,我们为VC提出了一种新颖的VAE框架(称为跨域VAE,CDVAE)。具体而言,所提出的框架通过明确地规定多个目标来使用STRAIGHT光谱和MCC,以便约束所学习的编码器和解码器的行为。实验结果表明,所提出的CD-VAE框架在主观测试方面优于传统的VAE框架。
translated by 谷歌翻译
We propose a flexible framework for spectral conversion (SC) that facilitates training with unaligned corpora. Many SC frameworks require parallel corpora, phonetic alignments , or explicit frame-wise correspondence for learning conversion functions or for synthesizing a target spectrum with the aid of alignments. However, these requirements gravely limit the scope of practical applications of SC due to scarcity or even unavailability of parallel corpora. We propose an SC framework based on variational auto-encoder which enables us to exploit non-parallel corpora. The framework comprises an encoder that learns speaker-independent phonetic representations and a decoder that learns to reconstruct the designated speaker. It removes the requirement of parallel corpora or phonetic alignments to train a spectral conversion system. We report objective and subjective evaluations to validate our proposed method and compare it to SC methods that have access to aligned corpora.
translated by 谷歌翻译
无监督子字建模旨在学习“零资源”设置中的语音音频的低级表示:即,不使用转录或来自目标语言的其他资源(例如文本语料库或发音词典)。一个好的表示应该捕捉语音内容和摘要远离其他类型的可变性,如说话者差异和频道噪音。此领域的先前工作主要集中在仅从目标语言数据中学习,并且仅在本质上进行了评估。在这里,我们直接比较多种方法,包括一些仅使用目标语言语音数据的方法和一些使用来自其他(非目标)语言的转录语音的方法,并且我们使用两个内在度量以及下游无监督分词和聚类任务来评估。我们发现,结合两种现有的仅使用目标语言的方法比单独使用任何一种方法都能产生更好的特征。然而,通过使用其他语言训练的模型提取目标语言瓶颈特征,获得了更好的结果。仅使用一种语言进行跨语言培训就足以提供这种益处,但多语言培训可以提供更多帮助。除了这些包含内在对策和外在任务的结果之外,我们还讨论了不同类型的学习特征之间的定性差异。
translated by 谷歌翻译
An ability to model a generative process and learn a latent representation for speech in an unsupervised fashion will be crucial to process vast quantities of unlabelled speech data. Recently, deep probabilistic generative models such as Variational Au-toencoders (VAEs) have achieved tremendous success in model-ing natural images. In this paper, we apply a convolutional VAE to model the generative process of natural speech. We derive latent space arithmetic operations to disentangle learned latent representations. We demonstrate the capability of our model to modify the phonetic content or the speaker identity for speech segments using the derived operations, without the need for parallel supervisory data.
translated by 谷歌翻译
我们描述了一种基于神经网络的文本到语音(TTS)合成系统,它能够以许多不同发言者的声音产生语音,包括训练期间看不到的那些。我们的系统由三个独立训练的组件组成:(1)扬声器编码器网络,使用来自数千个没有抄本的扬声器的嘈杂语音的独立数据集训练aspeaker验证任务,从目标发言者的参考语音的秒数生成固定维度的嵌入向量; (2)基于Tacotron 2的序列到序列合成网络,它以语音嵌入为条件,从文本生成amel谱图; (3)基于自回归WaveNet的声码器,将mel频谱图转换为时域波形样本的序列。我们证明了所提出的模型能够将受到训练的扬声器编码器学习的说话者变异性的知识传递给新任务,并且能够合成来自训练期间未见的说话者的自然语音。为了获得最佳的泛化性能,我们重点介绍了在大型多变量集合器上训练扬声器编码器的重要性。最后,weshow随机采样的扬声器嵌入可用于在新颖扬声器的声音中合成语音,与训练中使用的语音不同,表明该模型已经学习了高质量的说话人表示。
translated by 谷歌翻译
人类能够从人的外表想象出一个人的声音,并从他/她的声音中想象出这个人的外表。在本文中,我们首先尝试开发一种方法,该方法可以将语音转换为与输入面部图像匹配的语音,并通过利用面部和声音之间的相关性来生成与输入语音的语音匹配的面部图像。我们提出了一个模型,包括语音转换器,面部编码器/解码器和avoice编码器。我们使用由面编码器编码的输入面部图像的潜码作为语音转换器的辅助输入并训练语音转换器,以便可以通过语音编码器从生成的语音中恢复原始潜码。我们还将面部解码器与面部编码器一起训练,以确保潜在代码将包含足够的信息来重建输入面部图像。我们通过实验证实,以这种方式训练的语音转换器能够将输入语音转换为与输入面部图像匹配的语音,并且语音编码器和面部解码器可以用于生成与输入语音的语音匹配的面部图像。
translated by 谷歌翻译