语言模型融合可帮助智能助手识别声学数据中很少见的单词,但在仅文本语料库中很丰富(键入搜索日志)。但是,这样的语料库具有阻碍下游性能的属性,包括(1)太大,(2)困扰域不匹配的内容,以及(3)重头而不是重型尾巴(很多重复的搜索查询,例如“例如”天气”)。我们表明,选择语言建模数据的三种简单策略可以极大地改善稀有单词的识别,而不会损害整体表现。首先,为了解决重头体,我们根据软日志功能将数据置于示例,从而减少了高频(头)句子。其次,为了鼓励罕见的暴露,我们明确过滤了声学数据中罕见的单词。最后,我们通过基于困惑的对比选择来解决域 - 不匹配,对与目标域相匹配的示例过滤。我们将大量的Web搜索查询量下降了53倍,并获得比没有下调的更好的LM困惑。当使用最先进的生产语音引擎浅融合时,与在RAW COPPUS上训练的基线LM相比,我们的LM在稀有句子上的相对量最多可相对24%(没有整体上) 。通过对现场语音搜索流量进行有利的并排评估,进一步验证了这些收益。
translated by 谷歌翻译
语言模型(LMS)显着提高端到端模型(E2E)模型在训练过程中很少见的单词的识别准确性,当时在浅融合或重新恢复设置中。在这项工作中,我们介绍了LMS在判别培训框架中学习混合自动回旋传感器(HAT)模型的研究,以减轻有关使用LMS的训练与推理差距。对于浅融合设置,我们在假设生成和损失计算过程中都使用LMS,而LM感知的MWER训练模型可实现10 \%的相对改进,比用标准MWER在语音搜索测试集中培训的模型相对改进,其中包含稀有单词。对于重新设置,我们学会了一个小型神经模块,以数据依赖性方式产生串联的融合权重。该模型与常规MWER训练的模型相同,但无需清除融合重量。
translated by 谷歌翻译
端到端(E2E)模型通常通过浅融合伴随语言模型(LMS),以提高其整体质量以及对稀有单词的认可。同时,几项先前的作品表明,LMS容易在训练数据中无意中记住稀有或独特的序列。在这项工作中,我们设计了一个框架,用于检测LM培训数据中随机文本序列的记忆(我们称为Canaries),当一个人只有Black-Box(Query)访问LM融合语音识别器,而不是直接访问到达LM融合语音识别器LM。在与变压器LM融合的生产级构象体RNN-T E2E模型中,我们表明可以从300m示例的LM训练数据中检测到单一疾病的金丝雀的记忆。我们还激发了保护隐私的动机,我们还表明,通过示例梯度倾斜的LM培训而没有损害整体质量,这种记忆会大大减少。
translated by 谷歌翻译
端到端(E2E)自动语音识别模型如经常性神经网络传感器(RNN-T)正成为流媒体级语音助手的流行选择。虽然E2E模型在学习培训数据的学习代表时非常有效,但他们对看不见的域的准确性仍然是一个具有挑战性的问题。此外,这些模型需要配对的音频和文本培训数据,计算得昂贵,并且难以适应对话语音的快速不断发展的性质。在这项工作中,我们探讨了使用利用文本数据源的似然比来调整RNN-T模型的上下文偏置方法。我们表明这种方法在提高稀有单词识别方面是有效的,并导致在多个OUT的N-BEST ORACLE WER(n = 8)中为10%的相对提高10%,在多个外部域数据集没有常规数据集没有任何劣化。我们还表明,通过适应第二遍辅助模型的互补偏置适应性提供了加性WER改进。
translated by 谷歌翻译
由于无标记的文本和语音数据的广泛可用性,最近基于仅音频数据的仅文本和半监督培训已广受欢迎。在这项工作中,我们建议将纯文本和半监督培训纳入基于注意力的审议模型。通过将纯文本数据合并到培训审议文本编码器的变压器(BERT)的双向编码器表示中,以及使用联合声学和文本解码器(JATD)和半诉讼程序的大规模文本到语音和纯音频和音频话语培训,与基线审议相比,我们的各种任务减少了4%-12%。与最先进的语言模型(LM)纠正方法相比,审议模型将Google语音搜索降低了11%。我们表明,与具有合理的终端潜伏期的最先进的LM委员相比,审议模型还获得了正面的人类并排评估。
translated by 谷歌翻译
我们研究应用语言模型(LM)对指示语言自动语音识别(ASR)系统输出的影响。我们微调WAV2VEC $ 2.0 $型号的$ 18 $指示性语言,并通过根据各种来源派生的文本训练的语言模型调整结果。我们的发现表明,平均字符错误率(CER)降低了$ 28 $ \%,平均单词错误率(WER)在解码LM后降低了$ 36 $ \%。我们表明,与多样化的LM相比,大型LM可能无法提供实质性的改进。我们还证明,可以在特定于域的数据上获得高质量的转录,而无需重新培训ASR模型并显示了生物医学领域的结果。
translated by 谷歌翻译
在移动设备上的语音模型(在设备个性化)上的个性化是一个活跃的研究领域,但是通常,移动设备比配对的音频文本数据具有更多的仅文本数据。我们探索培训有关仅文本数据的个性化语言模型,该模型在推理期间用于提高该用户的语音识别性能。我们在一个用户群体的Librispeech语料库上进行了实验,并为Gutenberg Project的每个用户提供了个性化的文本数据。我们发布此特定于用户的LibrisPeech(UserLibri)数据集,以帮助未来的个性化研究。LibrisPeech音频转录对分为来自测试清洁数据集的55个用户,另外有52位用户。我们能够降低流媒体和非启动模型中的两个集合中每个用户的平均单词错误率,包括在流式传输时为更难的测试用户组的2.5改进。
translated by 谷歌翻译
Recent studies have shown that using an external Language Model (LM) benefits the end-to-end Automatic Speech Recognition (ASR). However, predicting tokens that appear less frequently in the training set is still quite challenging. The long-tail prediction problems have been widely studied in many applications, but only been addressed by a few studies for ASR and LMs. In this paper, we propose a new memory augmented lookup dictionary based Transformer architecture for LM. The newly introduced lookup dictionary incorporates rich contextual information in training set, which is vital to correctly predict long-tail tokens. With intensive experiments on Chinese and English data sets, our proposed method is proved to outperform the baseline Transformer LM by a great margin on both word/character error rate and tail tokens error rate. This is achieved without impact on the decoding efficiency. Overall, we demonstrate the effectiveness of our proposed method in boosting the ASR decoding performance, especially for long-tail tokens.
translated by 谷歌翻译
上下文ASR将偏见项列表与音频一起列出,随着ASR使用变得更加普遍,最近引起了最新的兴趣。我们正在发布上下文偏见列表,以伴随Enation21数据集,为此任务创建公共基准。我们使用WENET工具包中预处理的端到端ASR模型在此基准测试上介绍了基线结果。我们显示了应用于两种不同解码算法的浅融合上下文偏置的结果。我们的基线结果证实了观察到的观察,即端到端模型尤其是在训练过程中很少见或从未见过的单词,并且现有的浅融合技术不能充分解决这个问题。我们提出了一个替代拼写预测模型,与没有其他拼写的上下文偏见相比,相对相对,将稀有单词相对34.7%,而访问量的单词相对97.2%。该模型在概念上与先前工作中使用的模型相似,但是更容易实现,因为它不依赖发音字典或现有的文本对语音系统。
translated by 谷歌翻译
端到端(E2E)模型的仅文本适应仍然是自动语音识别(ASR)的具有挑战性的任务。基于语言模型(LM)基于融合的方法需要在推理过程中额外的外部LM,从而大大增加了计算成本。为了克服这一点,我们建议使用仅文本数据的E2E模型的内部LM适应(ILMA)。经过音频转录对训练,E2E模型隐含地学习了一个内部LM,该LM表征令牌序列概率,该序列概率在零零贡献后由E2E模型输出近似。在ILMA期间,我们对内部LM微调,即不包括编码器的E2E组件,以最大程度地减少跨熵损失。为了使ILMA有效,除了标准E2E损失外,必须使用内部LM损失来训练E2E模型。此外,我们建议通过最大程度地减少适应性和非适应性内部LMS的输出分布之间的kullback-leibler差异来使ILMA正规化。当我们仅更新关节网络的最后一个线性层时,ILMA是最有效的。 ILMA可以在不增加运行时计算成本的情况下对E2E模型进行快速的文本适应。 ILMA通过经过30k训练的变压器传感器模型进行了实验,可从非适应性基线实现高达34.9%的相对单词错误率。
translated by 谷歌翻译
在长时间到数小时的长时间话语中,提高端到端ASR模型的性能是语音识别的持续挑战。一个常见的解决方案是使用单独的语音活动检测器(VAD)事先将音频分割,该声音活动检测器(VAD)纯粹基于声音/非语音信息来决定段边界位置。但是,VAD细分器可能是现实世界语音的最佳选择,例如,一个完整的句子应该整体上可能包含犹豫(“设置... 5点钟的警报”) 。我们建议用端到端的ASR模型替换VAD,能够以流方式预测段边界,从而使细分决定不仅在更好的声学特征上,而且还可以在解码文本的语义特征上进行,并具有可忽略的额外功能计算。在现实世界长音频(YouTube)的实验中,长度长达30分钟,我们证明了相对改善的8.5%,并且与VAD段基线相比,中位段延迟潜伏期的中位数延迟延迟减少了250毫秒。 - ART构象体RNN-T模型。
translated by 谷歌翻译
Modern speech recognition systems exhibits rapid performance degradation under domain shift. This issue is especially prevalent in data-scarce settings, such as low-resource languages, where diversity of training data is limited. In this work we propose M2DS2, a simple and sample-efficient finetuning strategy for large pretrained speech models, based on mixed source and target domain self-supervision. We find that including source domain self-supervision stabilizes training and avoids mode collapse of the latent representations. For evaluation, we collect HParl, a $120$ hour speech corpus for Greek, consisting of plenary sessions in the Greek Parliament. We merge HParl with two popular Greek corpora to create GREC-MD, a test-bed for multi-domain evaluation of Greek ASR systems. In our experiments we find that, while other Unsupervised Domain Adaptation baselines fail in this resource-constrained environment, M2DS2 yields significant improvements for cross-domain adaptation, even when a only a few hours of in-domain audio are available. When we relax the problem in a weakly supervised setting, we find that independent adaptation for audio using M2DS2 and language using simple LM augmentation techniques is particularly effective, yielding word error rates comparable to the fully supervised baselines.
translated by 谷歌翻译
End-to-end speech recognition models trained using joint Connectionist Temporal Classification (CTC)-Attention loss have gained popularity recently. In these models, a non-autoregressive CTC decoder is often used at inference time due to its speed and simplicity. However, such models are hard to personalize because of their conditional independence assumption that prevents output tokens from previous time steps to influence future predictions. To tackle this, we propose a novel two-way approach that first biases the encoder with attention over a predefined list of rare long-tail and out-of-vocabulary (OOV) words and then uses dynamic boosting and phone alignment network during decoding to further bias the subword predictions. We evaluate our approach on open-source VoxPopuli and in-house medical datasets to showcase a 60% improvement in F1 score on domain-specific rare words over a strong CTC baseline.
translated by 谷歌翻译
最近的言语和语言技术的方法预先rain非常大型模型,用于特定任务。然而,这种大型模型的好处通常仅限于世界上少数资源丰富的语言。在这项工作中,我们对来自印度次大陆的低资源语言构建ASR系统进行多种贡献。首先,我们从各种领域策划40个印度语言的17,000小时的原始语音数据,包括教育,新闻,技术和金融。其次,使用这种原始语音数据,我们预先存在于40个印度语言的Wav2Vec样式模型的多个变体。第三,我们分析佩带的模型以查找关键特点:码本矢量的类似探测音素在语言中共享,跨层的表示是语言系列的判别,并且注意力头通常会在小型本地窗口中注意。第四,我们微调了9种语言的下游ASR模型,并在3个公共数据集上获得最先进的结果,包括非常低的资源语言,如Sinhala和Nepali。我们的工作建立了多语言预介质是建立ASR系统的有效策略,为印度次大陆的语言上不同的扬声器建立ASR系统。
translated by 谷歌翻译
我们总结了使用巨大的自动语音识别(ASR)模型的大量努力的结果,该模型使用包含大约一百万小时音频的大型,多样的未标记数据集进行了预训练。我们发现,即使对于拥有数万个小时的标记数据的非常大的任务,预训练,自我培训和扩大模型大小的组合也大大提高了数据效率。特别是,在具有34K小时标记数据的ASR任务上,通过微调80亿个参数预先训练的构象异构体模型,我们可以匹配最先进的(SOTA)性能(SOTA)的性能,只有3%的培训数据和通过完整的训练集可以显着改善SOTA。我们还报告了从使用大型预训练和自我训练的模型来完成一系列下游任务所获得的普遍利益,这些任务涵盖了广泛的语音域,并涵盖了多个数据集大小的大小,包括在许多人中获得SOTA性能公共基准。此外,我们利用预先训练的网络的学会表示,在非ASR任务上实现SOTA结果。
translated by 谷歌翻译
在端到端RNN-TransDucer(RNN-T)中使用外部语言模型(ELM)使用仅文本数据进行语音识别是具有挑战性的。最近,已经开发了一类方法,例如密度比(DR)和内部语言模型估计(ILME),表现优于经典的浅融合(SF)方法。这些方法背后的基本思想是,RNN-T后验应首先先于隐式学习的内部语言模型(ILM),以便整合ELM。尽管最近的研究表明RNN-T仅学习一些低阶语言模型信息,但DR方法使用具有完整背景的训练有素的神经语言模型,这可能不适合估计ILM并恶化整合性能。基于DR方法,我们通过用低阶弱语言模型代替估计来提出低阶密度比方法(LODR)。在英语librispeech&tedlium-2和中国wenetspeech和aishell-1数据集的内域和跨域情景上进行了广泛的经验实验。结果表明,在大多数测试中,LODR在所有任务中始终胜过所有任务,而通常接近ILME,并且比DR更好。
translated by 谷歌翻译
在本文中,我们介绍了从包含超过80,000个小时的未标记的语音的大型数据集预处理捷克单语音频变压器方面的进展,随后使用内域数据组合对自动语音识别任务进行微调,并对模型进行微调。6000小时的跨域转录语音。我们在两个公共数据集(CommunVoice和Voxpopuli)和Malach Project中的一个非常具有挑战性的数据集中评估了各种微调设置的大量实验调色板。我们的结果表明,单语WAV2VEC 2.0模型是强大的ASR系统,它可以利用大型标记和未标记的数据集并成功与最先进的LVCSR系统竞争。此外,当没有用于目标ASR任务的培训数据时,WAV2VEC模型被证明是很好的零射门学习者。
translated by 谷歌翻译
我们提出Vakyansh,这是一种用指示语言识别语音识别的端到端工具包。印度拥有近121种语言和大约125亿扬声器。然而,大多数语言在数据和预验证的模型方面都是低资源。通过Vakyansh,我们介绍了自动数据管道,用于数据创建,模型培训,模型评估和部署。我们以23个指示语言和Train Wav2Vec 2.0预验证的模型创建14,000小时的语音数据。然后,对这些预审预告措施的模型进行了修订,以创建18个指示语言的最先进的语音识别模型,其次是语言模型和标点符号修复模型。我们以使命开源所有这些资源,这将激发语音社区使用ASR模型以指示语言开发语音的首次应用程序。
translated by 谷歌翻译
End-2-End(E2E)模型由于其性能和优势而在某些ASR任务中变得越来越流行。这些E2E模型直接近似鉴于声学输入的代币的后验分布。因此,E2E系统在输出令牌上隐式定义了语言模型(LM),这使得对独立训练的语言模型的开发不如常规ASR系统不那么直接。这使得很难动态地调整E2E ASR系统,以更好地识别诸如命名实体之类的特殊单词。在这项工作中,我们提出了一种培训上下文意识到的E2E模型和将语言模型调整为命名实体的上下文密度比率方法。我们将上述技术应用于E2E ASR系统,该系统会转录医生和患者对话,以更好地适应E2E系统对对话中的名称。我们提出的技术在E2E基线上的名称相对提高了46.5%,而不会降低整个测试集的总体识别精度。此外,它还相对超过了上下文浅融合基线的22.1%。
translated by 谷歌翻译
对于自动语音识别(ASR)系统而言,检测和恢复量不足(OOV)单词总是具有挑战性的。许多现有的方法着重于通过修改声学和语言模型并巧妙地集成到模型的上下文单词来对OOV单词进行建模。为了培训这样的复杂模型,我们需要大量数据,其中包括上下文单词,额外的训练时间和增加模型大小。但是,在获取ASR转录以恢复基于上下文的OOV单词之后,对后处理方法的探索并未得到太多探索。在这项工作中,我们提出了一种后处理技术,以提高基于上下文的OOV恢复的性能。我们创建了一个具有声音增强的语言模型,并在电话级上用OOV单词列表制作了子图。我们提出了两种方法来确定合适的成本函数,以根据上下文检索OOV单词。成本函数是根据语音和声学知识来定义的,用于匹配和恢复解码中的正确上下文单词。在文字级别和句子级别上都评估了提议的成本函数的有效性。评估结果表明,这种方法可以平均在多个类别中恢复50%基于上下文的OOV单词。
translated by 谷歌翻译