While modern Text-to-Speech (TTS) systems can produce speech rated highly in terms of subjective evaluation, the distance between real and synthetic speech distributions remains understudied, where we use the term \textit{distribution} to mean the sample space of all possible real speech recordings from a given set of speakers; or of the synthetic samples that could be generated for the same set of speakers. We evaluate the distance of real and synthetic speech distributions along the dimensions of the acoustic environment, speaker characteristics and prosody using a range of speech processing measures and the respective Wasserstein distances of their distributions. We reduce these distribution distances along said dimensions by providing utterance-level information derived from the measures to the model and show they can be generated at inference time. The improvements to the dimensions translate to overall distribution distance reduction approximated using Automatic Speech Recognition (ASR) by evaluating the fitness of the synthetic data as training data.
translated by 谷歌翻译
许多自动语音识别(ASR)数据集包括一个单一的预定义测试集,该测试集由一个或多个演讲者组成,其语音从未出现在培训集中。但是,对于说话者数量很少的数据集,这种“持有说明器”的数据分配策略可能不是理想的选择。这项研究调查了具有最小ASR培训资源的五种语言的十种不同数据拆分方法。我们发现(1)模型性能取决于选择哪个扬声器进行测试; (2)所有固定扬声器的平均单词错误率(WER)不仅与多个随机拆分的平均差异相当,而且与任何给定的单个随机拆分相当; (3)当数据以启发性或对抗性分开时,通常也可以比较; (4)话语持续时间和强度是可变性的相对预测因素,而不管数据分解如何。这些结果表明,广泛使用的宣传者输出的ASR数据分配方法可以产生不反映未见数据或说话者模型性能的结果。在面对数据稀疏时,随机拆分可以产生更可靠和可推广的估计。
translated by 谷歌翻译
In this paper, we present a novel method for phoneme-level prosody control of F0 and duration using intuitive discrete labels. We propose an unsupervised prosodic clustering process which is used to discretize phoneme-level F0 and duration features from a multispeaker speech dataset. These features are fed as an input sequence of prosodic labels to a prosody encoder module which augments an autoregressive attention-based text-to-speech model. We utilize various methods in order to improve prosodic control range and coverage, such as augmentation, F0 normalization, balanced clustering for duration and speaker-independent clustering. The final model enables fine-grained phoneme-level prosody control for all speakers contained in the training set, while maintaining the speaker identity. Instead of relying on reference utterances for inference, we introduce a prior prosody encoder which learns the style of each speaker and enables speech synthesis without the requirement of reference audio. We also fine-tune the multispeaker model to unseen speakers with limited amounts of data, as a realistic application scenario and show that the prosody control capabilities are maintained, verifying that the speaker-independent prosodic clustering is effective. Experimental results show that the model has high output speech quality and that the proposed method allows efficient prosody control within each speaker's range despite the variability that a multispeaker setting introduces.
translated by 谷歌翻译
言语分离的许多最近进步主要针对具有高重叠程度的短音频话语的合成混合物。这些数据集与真实的会话数据显着不同,因此,在这些数据集上培训和评估的模型不会概括到真实的会话方案。使用大多数这些模型用于长形式语音的另一个问题是由于时间频率掩模或置换不变训练(PIT)损耗的无监督聚类,因此是分离的语音段的非明确顺序。这导致准确地缝合用于自动语音识别(ASR)的下游任务的均匀扬声器段。在本文中,我们提出了一种扬声器调节分离器,在直接从混合信号中提取的扬声器嵌入物上训练。我们使用定向丢失训练此模型,该丢失调节分离的段的顺序。使用此模型,我们对真实会话数据的单词错误率(WER)进行了重大改进,而无需额外的重新拼接步骤。
translated by 谷歌翻译
已经提出了语音转换(VC)以通过使用它来增强有限培训数据来改进低资源语言的语音识别系统。但直到最近,计算速度等实际问题限制了VC为此目的的使用。此外,尚不清楚在一个资源良好的语言上培训的VC模型是否可以从其他低资源语言应用于数据增强的目的。在这项工作中,我们评估VC系统是否可以在凌乱上使用,以改善低资源语音识别。具体地,我们将最近的几种技术与英语一起设计和培训实用的VC系统,然后使用该系统以几种低资源语言培训语音识别模型的数据。我们发现,当使用合理量的增强数据时,所有四种低资源语言都有改进了语音识别性能。
translated by 谷歌翻译
在本文中,我们提出了GLOWVC:一种基于多语言的多语言流程模型,用于与语言无关的语音转换。我们建立在Glow-TTS上,该架构提供了一个架构,该体系结构可以在训练过程中使用语言特征,而无需将其用于VC推理。我们考虑了我们的模型的两个版本:glowVC条件和glowVC阐释。 GLOWVC条件模拟具有扬声器条件流的旋光图的分布,并将Mel-Spectrogragron空间置于内容和音高相关的尺寸中,而GlowVC-Plapic-Plapic-Plocific-Plocific opplicit over opplicit of the SughtliciT模型,无条件的流量和删除空间表示空间 - 内容 - 音调和与扬声器相关的维度。我们根据可见语言和看不见的语言的内部和跨语性转换来评估我们的模型,说话者的相似性和自然性。 GlowVC在清晰度方面的模型大大优于AutoVC基线,同时在语言内VC中获得了高扬声器的相似性,并且在跨语言环境中稍差。此外,我们证明了glowvc-suplicic在自然性方面超过了glowvc条件和自动vc。
translated by 谷歌翻译
在本文中,我们呈现VDTTS,一个视觉驱动的文本到语音模型。通过配音而激励,VDTTS利用视频帧作为伴随文本的附加输入,并生成与视频信号匹配的语音。我们展示了这允许VDTTS,与普通的TTS模型不同,产生不仅具有自然暂停和间距等韵律变化的语音,而且还与输入视频同步。实验,我们显示我们的模型产生良好的同步输出,接近地面真理的视频语音同步质量,在几个具有挑战性的基准中,包括来自VoxceleB2的“野外”内容。我们鼓励读者查看演示视频,演示视频语音同步,对扬声器ID交换和韵律的鲁棒性。
translated by 谷歌翻译
扬声器日流是一个标签音频或视频录制的任务,与扬声器身份或短暂的任务标记对应于扬声器标识的类,以识别“谁谈到何时发表讲话”。在早期,对MultiSpeaker录音的语音识别开发了扬声器日益衰退算法,以使扬声器自适应处理能够实现扬声器自适应处理。这些算法还将自己的价值作为独立应用程序随着时间的推移,为诸如音频检索等下游任务提供特定于扬声器的核算。最近,随着深度学习技术的出现,这在讲话应用领域的研究和实践中引起了革命性的变化,对扬声器日益改善已经进行了快速进步。在本文中,我们不仅审查了扬声器日益改善技术的历史发展,而且还审查了神经扬声器日益改善方法的最新进步。此外,我们讨论了扬声器日复速度系统如何与语音识别应用相结合,以及最近深度学习的激增是如何引领联合建模这两个组件互相互补的方式。通过考虑这种令人兴奋的技术趋势,我们认为本文对社区提供了有价值的贡献,以通过巩固具有神经方法的最新发展,从而促进更有效的扬声器日益改善进一步进展。
translated by 谷歌翻译
口语理解(SLU)是大多数人机相互作用系统中的核心任务。随着智能家居,智能手机和智能扬声器的出现,SLU已成为该行业的关键技术。在经典的SLU方法中,自动语音识别(ASR)模块将语音信号转录为文本表示,自然语言理解(NLU)模块从中提取语义信息。最近,基于深神经网络的端到端SLU(E2E SLU)已经获得了动力,因为它受益于ASR和NLU部分的联合优化,因此限制了管道架构的误差效应的级联反应。但是,对于E2E模型用于预测语音输入的概念和意图的实际语言特性知之甚少。在本文中,我们提出了一项研究,以确定E2E模型执行SLU任务的信号特征和其他语言特性。该研究是在必须处理非英语(此处法语)语音命令的智能房屋的应用领域进行的。结果表明,良好的E2E SLU性能并不总是需要完美的ASR功能。此外,结果表明,与管道模型相比,E2E模型在处理背景噪声和句法变化方面具有出色的功能。最后,更细粒度的分析表明,E2E模型使用输入信号的音调信息来识别语音命令概念。本文概述的结果和方法提供了一个跳板,以进一步分析语音处理中的E2E模型。
translated by 谷歌翻译
使用未知数量的扬声器数量的单通道远场录制的自动语音识别(ASR)传统上由级联模块解决。最近的研究表明,与模块化系统相比,端到端(E2E)多扬声器ASR模型可以实现卓越的识别准确性。但是,这些模型不会确保由于其对完整音频上下文的依赖性而实时适用性。这项工作采用实时适用性,作为模型设计的第一优先级,并解决了以前的多扬声器经常性神经网络传感器(MS-RNN-T)的几个挑战。首先,我们在训练期间介绍一般的重叠言论模拟,在LibrisPeechMix测试集上产生14%的相对字错误率(WER)改进。其次,我们提出了一种新的多转RNN-T(MT-RNN-T)模型,其具有基于重叠的目标布置策略,其概括为任意数量的扬声器,而没有模型架构的变化。我们调查在Liblics测试集上培训训练期间看到的最大扬声器数量的影响,并在两位扬声器MS-RNN-T上报告28%的相对加速。第三,我们试验丰富的转录战略,共同承认和分割多方言论。通过深入分析,我们讨论所提出的系统的潜在陷阱以及未来的未来研究方向。
translated by 谷歌翻译
在本文中,我们探索了一个改进的框架,以训练单腔神经增强模型,以识别强大的语音识别。设计的训练框架扩展了现有的混合训练标准,以利用未配对的干净语音和真实的嘈杂数据。发现未配对的干净言语对于提高实际嘈杂言论的分离语音质量至关重要。所提出的方法还对处理和未加工的信号进行混合,以减轻处理工件。单渠道Chime-3真实测试集上的实验表明,在语音识别性能方面,对在不匹配的模拟数据上训练的增强系统的语音识别性能以有监督的方式或以不受欢迎的方式对匹配的真实数据进行了显着改善。与未经处理的信号相比,使用端到端和混合声模型在未经扭曲的数据进行重新纠正的情况下,该系统已实现了16%至39%的相对减少。
translated by 谷歌翻译
尽管针对正常语音的自动语音识别(ASR)技术取得了迅速的进展,但迄今为止,准确认识违反障碍和老年语音仍然是高度挑战的任务。由于这些用户中经常发现的移动性问题,很难为ASR系统开发收集大量此类数据。为此,数据增强技术起着至关重要的作用。与现有的数据增强技术相反,仅修改光谱轮廓的说话速率或整体形状,使用一组新颖的扬声器依赖(SD)生成对抗网络(Gan )本文基于数据增强方法。这些既可以灵活地允许:a)在可用的语音数据可用时修改时间或速度的正常语音光谱,并更接近受损说话者的扬声器; b)对于非平行数据,SVD分解了正常语音频谱基础特征,要转换为目标老年人说话者的特征,然后再与时间基础重组以生成最先进的TDNN的增强数据和构象体ASR系统培训。实验是针对四个任务进行的:英语Uapseech和Torgo违反语音语音Corpora;英国痴呆症皮特和广东话JCCOCC MOCA老年语音数据集。所提出的基于GAN的数据增强方法始终优于基线速度扰动方法,最多可在Torgo和Dementiabank数据上降低4.91%和3.0%的绝对速度(相对相对9.61%和6.4%)。应用基于LHUC的扬声器适应后,保留了一致的性能改进。
translated by 谷歌翻译
在这项工作中,我们提出了一个说话者的匿名管道,该管道利用高质量的自动语音识别和合成系统来生成以语音转录和匿名扬声器嵌入为条件的语音。使用电话作为中间表示,可确保从输入中完全消除说话者身份信息,同时尽可能保留原始的语音内容。我们在Librispeech和VCTK Corpora上的实验结果揭示了两个关键发现:1)尽管自动语音识别会产生不完美的转录,但我们的神经语音合成系统可以处理此类错误,使我们的系统可行且健壮,并且2)结合来自不同资源的扬声器嵌入,有益及其适当的归一化至关重要。总体而言,我们的最终最佳系统在2020年语音隐私挑战挑战中提供的基线在与懒惰的攻击者的稳健性方面相当大,同时保持了匿名语音的高度理解性和自然性。
translated by 谷歌翻译
In this paper, we use data augmentation to improve performance of deep neural network (DNN) embeddings for speaker recognition. The DNN, which is trained to discriminate between speakers, maps variable-length utterances to fixed-dimensional embeddings that we call x-vectors. Prior studies have found that embeddings leverage large-scale training datasets better than i-vectors. However, it can be challenging to collect substantial quantities of labeled data for training. We use data augmentation, consisting of added noise and reverberation, as an inexpensive method to multiply the amount of training data and improve robustness. The x-vectors are compared with i-vector baselines on Speakers in the Wild and NIST SRE 2016 Cantonese. We find that while augmentation is beneficial in the PLDA classifier, it is not helpful in the i-vector extractor. However, the x-vector DNN effectively exploits data augmentation, due to its supervised training. As a result, the x-vectors achieve superior performance on the evaluation datasets.
translated by 谷歌翻译
本文介绍了语音(TTS)系统的Microsoft端到端神经文本:暴风雪挑战2021。这一挑战的目标是从文本中综合自然和高质量的演讲,并在两个观点中接近这一目标:首先是直接模型,并在48 kHz采样率下产生波形,这比以前具有16 kHz或24 kHz采样率的先前系统带来更高的感知质量;第二个是通过系统设计来模拟语音中的变化信息,从而提高了韵律和自然。具体而言,对于48 kHz建模,我们预测声学模型中的16 kHz熔点 - 谱图,并提出称为HIFINET的声码器直接从预测的16kHz MEL谱图中产生48kHz波形,这可以更好地促进培训效率,建模稳定性和语音。质量。我们从显式(扬声器ID,语言ID,音高和持续时间)和隐式(话语级和音素级韵律)视角系统地模拟变化信息:1)对于扬声器和语言ID,我们在培训和推理中使用查找嵌入; 2)对于音高和持续时间,我们在训练中提取来自成对的文本语音数据的值,并使用两个预测器来预测推理中的值; 3)对于话语级和音素级韵律,我们使用两个参考编码器来提取训练中的值,并使用两个单独的预测器来预测推理中的值。此外,我们介绍了一个改进的符合子块,以更好地模拟声学模型中的本地和全局依赖性。对于任务SH1,DelightFultts在MOS测试中获得4.17均匀分数,4.35在SMOS测试中,表明我们所提出的系统的有效性
translated by 谷歌翻译
Automatic Speech Recognition (ASR) for air traffic control is generally trained by pooling Air Traffic Controller (ATCO) and pilot data into one set. This is motivated by the fact that pilot's voice communications are more scarce than ATCOs. Due to this data imbalance and other reasons (e.g., varying acoustic conditions), the speech from ATCOs is usually recognized more accurately than from pilots. Automatically identifying the speaker roles is a challenging task, especially in the case of the noisy voice recordings collected using Very High Frequency (VHF) receivers or due to the unavailability of the push-to-talk (PTT) signal, i.e., both audio channels are mixed. In this work, we propose to (1) automatically segment the ATCO and pilot data based on an intuitive approach exploiting ASR transcripts and (2) subsequently consider an automatic recognition of ATCOs' and pilots' voice as two separate tasks. Our work is performed on VHF audio data with high noise levels, i.e., signal-to-noise (SNR) ratios below 15 dB, as this data is recognized to be helpful for various speech-based machine-learning tasks. Specifically, for the speaker role identification task, the module is represented by a simple yet efficient knowledge-based system exploiting a grammar defined by the International Civil Aviation Organization (ICAO). The system accepts text as the input, either manually verified annotations or automatically generated transcripts. The developed approach provides an average accuracy in speaker role identification of about 83%. Finally, we show that training an acoustic model for ASR tasks separately (i.e., separate models for ATCOs and pilots) or using a multitask approach is well suited for the noisy data and outperforms the traditional ASR system where all data is pooled together.
translated by 谷歌翻译
至于其他形式的AI,最近已经对不同用户同伙的性能差异进行了研究。在语音识别方面实现公平性的一种方法是(1)确定遭受低标准表现的说话者队列,以及(2)采取针对发现同类的公平性缓解措施。在本文中,我们使用产品规模的AI助手语音识别系统的数据报告了发现和缓解性能差异的初步发现。我们将基于地理和人口统计学信息的队列发现与一种更可扩展的方法进行比较,该方法将使用扬声器嵌入技术分组没有人类标签的说话者。为了缓解公平性,我们发现对代表性不足的队列的过度采样,以及通过其他输入变量对扬声器队列的建模,从而减少了表现和底部性能队列之间的差距,而不会降低整体识别精度。
translated by 谷歌翻译
Deep learning based text-to-speech (TTS) systems have been evolving rapidly with advances in model architectures, training methodologies, and generalization across speakers and languages. However, these advances have not been thoroughly investigated for Indian language speech synthesis. Such investigation is computationally expensive given the number and diversity of Indian languages, relatively lower resource availability, and the diverse set of advances in neural TTS that remain untested. In this paper, we evaluate the choice of acoustic models, vocoders, supplementary loss functions, training schedules, and speaker and language diversity for Dravidian and Indo-Aryan languages. Based on this, we identify monolingual models with FastPitch and HiFi-GAN V1, trained jointly on male and female speakers to perform the best. With this setup, we train and evaluate TTS models for 13 languages and find our models to significantly improve upon existing models in all languages as measured by mean opinion scores. We open-source all models on the Bhashini platform.
translated by 谷歌翻译
自我监督学习(SSL)在语音识别方面取得了巨大的成功,而有限的探索已尝试完成其他语音处理任务。由于语音信号包含多方面的信息,包括说话者身份,副语言学,口语内容等,学习所有语音任务的通用表示都具有挑战性。为了解决该问题,我们提出了一个新的预培训模型WAVLM,以解决全堆栈的下游语音任务。 Wavlm共同学习了蒙面的语音预测和预训练。通过这种方式,WAVLM不仅可以通过掩盖的语音预测来保持语音内容建模能力,而且还可以通过语音denoing来提高非ASR任务的潜力。此外,WAVLM还采用封闭式的变压器结构的封闭相对位置偏置,以更好地捕获输入语音的序列排序。我们还将培训数据集从60k小时扩展到94K小时。 WAVLM大型在精湛的基准上实现了最先进的性能,并在其代表性基准上为各种语音处理任务带来了重大改进。代码和预培训模型可在https://aka.ms/wavlm上找到。
translated by 谷歌翻译
在我们以前的工作中,我们提出了一个歧视性自动编码器(DCAE)进行语音识别。 DCAE将两个训练方案结合在一起。首先,由于DCAE的目标是学习编码器映射,因此重建语音和输入语音之间的平方误差被最小化。其次,在代码层中,基于框架的语音嵌入是通过最小化地面真相标签和预测的Triphone-State分数之间的分类跨熵来获得的。 DCAE是根据Kaldi工具包开发的,通过将各种TDNN模型视为编码器。在本文中,我们进一步提出了三个新版本的DCAE。首先,使用了一个新的目标函数,该函数使用了地面真相和预测的Triphone-State序列之间的分类跨膜和相互信息。所得的DCAE称为基于链的DCAE(C-DCAE)。为了应用于强大的语音识别,我们将C-DCAE进一步扩展到层次结构和平行结构,从而导致HC-DCAE和PC-DCAE。在这两个模型中,重建的嘈杂语音与输入嘈杂语音以及增强语音和参考清洁语音之间的误差之间的误差都归功于目标函数。 WSJ和Aurora-4 Corpora的实验结果表明,我们的DCAE模型优于基线系统。
translated by 谷歌翻译