自动语音识别(ASR)需要对说话者的差异很强。语音转换(VC)修改了输入语音的扬声器特征。这是ASR数据增强的吸引人功能。在本文中,我们证明了语音转换可以用作数据增强技术,即使在包含2,456位扬声器的LibrisPeech上,也可以用作提高ASR性能。对于ASR增强,有必要对广泛的输入语音稳健。这激发了使用非自动回旋,非并行VC模型的使用,并在VC模型中使用了预验证的ASR编码器。这项工作表明,尽管包括许多演讲者,但演讲者的多样性可能仍然是ASR质量的限制。最后,对我们的风险投资性能的审讯为客观评估VC质量提供了有用的指标。
translated by 谷歌翻译
注意层是现代端到端自动语音识别系统不可或缺的一部分,例如作为变压器或构象体体系结构的一部分。注意通常是多头的,每个头部都有一组独立的学习参数,并在相同的输入特征序列上运行。多头注意的输出是单个头部输出的融合。我们经验分析了不同注意力头部产生的表示之间的多样性,并证明在训练过程中头部高度相关。我们研究了一些增加注意力头多样性的方法,包括为每个头部使用不同的注意力机制和辅助训练损失功能来促进头部多样性。我们表明,在训练过程中引入多样性辅助损失功能是一种更有效的方法,并且在Librispeech语料库上获得了多达6%的相对相对的改善。最后,我们在注意力头的多样性与头部参数梯度的相似性之间建立了联系。
translated by 谷歌翻译
语言模型(LMS)显着提高端到端模型(E2E)模型在训练过程中很少见的单词的识别准确性,当时在浅融合或重新恢复设置中。在这项工作中,我们介绍了LMS在判别培训框架中学习混合自动回旋传感器(HAT)模型的研究,以减轻有关使用LMS的训练与推理差距。对于浅融合设置,我们在假设生成和损失计算过程中都使用LMS,而LM感知的MWER训练模型可实现10 \%的相对改进,比用标准MWER在语音搜索测试集中培训的模型相对改进,其中包含稀有单词。对于重新设置,我们学会了一个小型神经模块,以数据依赖性方式产生串联的融合权重。该模型与常规MWER训练的模型相同,但无需清除融合重量。
translated by 谷歌翻译
我们提出了Maestro,这是一种自制的培训方法,可以统一从语音和文本方式中学到的表示形式。从语音信号中进行的自我监督学习旨在学习信号中固有的潜在结构,而从文本尝试捕获词汇信息的文本尝试中学习。从不配对的语音和文本序列中学习对齐表示是一项具有挑战性的任务。先前的工作要么隐含地强制执行从这两种方式中学到的表示形式,要通过多任务和参数共享在潜在空间中对齐,或通过语音综合通过模态转换而明确地进行。前者受到两种方式之间的干扰,而后者则引入了额外的复杂性。在本文中,我们提出了一种新颖的算法Maestro,旨在同时从这两种方式中学习统一的表示,可以转移到各种下游任务,例如自动语音识别(ASR)和语音翻译(ST)。 Maestro通过序列比对,持续时间预测和匹配的嵌入在学习空间中通过对齐的蒙版模型损失来学习统一的表示形式。我们在Voxpopuli多语言ASR上建立了一个新的最先进(SOTA),单词错误率相对相对降低8%(WER),多域Speetstew ASR(相对3.7%)和21种英语多语言ST在Covost 2上2.8 BLEU的改善平均21种语言。
translated by 谷歌翻译
我们总结了使用巨大的自动语音识别(ASR)模型的大量努力的结果,该模型使用包含大约一百万小时音频的大型,多样的未标记数据集进行了预训练。我们发现,即使对于拥有数万个小时的标记数据的非常大的任务,预训练,自我培训和扩大模型大小的组合也大大提高了数据效率。特别是,在具有34K小时标记数据的ASR任务上,通过微调80亿个参数预先训练的构象异构体模型,我们可以匹配最先进的(SOTA)性能(SOTA)的性能,只有3%的培训数据和通过完整的训练集可以显着改善SOTA。我们还报告了从使用大型预训练和自我训练的模型来完成一系列下游任务所获得的普遍利益,这些任务涵盖了广泛的语音域,并涵盖了多个数据集大小的大小,包括在许多人中获得SOTA性能公共基准。此外,我们利用预先训练的网络的学会表示,在非ASR任务上实现SOTA结果。
translated by 谷歌翻译