Neural network language model (NNLM) plays an essential role in automatic speech recognition (ASR) systems, especially in adaptation tasks when text-only data is available. In practice, an NNLM is typically trained on a combination of data sampled from multiple corpora. Thus, the data sampling strategy is important to the adaptation performance. Most existing works focus on designing static sampling strategies. However, each corpus may show varying impacts at different NNLM training stages. In this paper, we introduce a novel adaptive multi-corpora training algorithm that dynamically learns and adjusts the sampling probability of each corpus along the training process. The algorithm is robust to corpora sizes and domain relevance. Compared with static sampling strategy baselines, the proposed approach yields remarkable improvement by achieving up to relative 7% and 9% word error rate (WER) reductions on in-domain and out-of-domain adaptation tasks, respectively.
translated by 谷歌翻译
语音模型的适应对于处理服务器端代理培训数据和用户本地设备上接收到的实际数据之间的差异至关重要。通过使用联合学习(FL),我们引入了一种有效的方法,以在私人设备上连续调整神经网络语言模型(NNLMS),并具有自动语音识别(ASR)的应用。为了解决在设备培训语料库中的潜在语音转录错误,我们对比较利用令牌置信度得分的各种策略进行了实证研究,以提高FL环境中的NNLM质量。实验表明,与NO模型适应相比,所提出的方法分别在两个语音评估数据集上分别降低了相对2.6%和10.8%的单词错误率(WER)。我们还提供分析,以评估我们提出的程序的隐私保证。
translated by 谷歌翻译
Modern speech recognition systems exhibits rapid performance degradation under domain shift. This issue is especially prevalent in data-scarce settings, such as low-resource languages, where diversity of training data is limited. In this work we propose M2DS2, a simple and sample-efficient finetuning strategy for large pretrained speech models, based on mixed source and target domain self-supervision. We find that including source domain self-supervision stabilizes training and avoids mode collapse of the latent representations. For evaluation, we collect HParl, a $120$ hour speech corpus for Greek, consisting of plenary sessions in the Greek Parliament. We merge HParl with two popular Greek corpora to create GREC-MD, a test-bed for multi-domain evaluation of Greek ASR systems. In our experiments we find that, while other Unsupervised Domain Adaptation baselines fail in this resource-constrained environment, M2DS2 yields significant improvements for cross-domain adaptation, even when a only a few hours of in-domain audio are available. When we relax the problem in a weakly supervised setting, we find that independent adaptation for audio using M2DS2 and language using simple LM augmentation techniques is particularly effective, yielding word error rates comparable to the fully supervised baselines.
translated by 谷歌翻译
最近,将音频转换为文本的系统自动语音识别(ASR)在机器学习社区中引起了很多关注。因此,Huggingface发布了许多公开模型。但是,这些ASR模型中的大多数都有英文提供。泰语中只有少数模型可用。此外,大多数泰国ASR型号都是封闭的,现有开源模型的性能缺乏稳健性。为了解决这个问题,我们使用泰语CommonVoice Corpus V8培训了一种新的ASR模型,并在预训练的XLSR-WAV2VEC模型上训练ASR模型,并训练Trigram语言模型以提高我们的ASR模型的性能。我们希望我们的模型对泰国的个人和ASR社区有益。
translated by 谷歌翻译
我们解决了神经机翻译中的两个域适应问题。首先,我们希望达到领域的稳健性,即培训数据的域名的良好质量,以及培训数据中的域名不间断。其次,我们希望我们的系统是Adaptive的,即,可以使用只有数百个域的平行句子来实现Finetune系统。在本文中,我们介绍了两个先前方法的新组合,文字自适应建模,解决了域的鲁棒性和荟萃学习,解决了域适应性,并且我们呈现了显示我们新组合改善这些属性的经验结果。
translated by 谷歌翻译
在端到端RNN-TransDucer(RNN-T)中使用外部语言模型(ELM)使用仅文本数据进行语音识别是具有挑战性的。最近,已经开发了一类方法,例如密度比(DR)和内部语言模型估计(ILME),表现优于经典的浅融合(SF)方法。这些方法背后的基本思想是,RNN-T后验应首先先于隐式学习的内部语言模型(ILM),以便整合ELM。尽管最近的研究表明RNN-T仅学习一些低阶语言模型信息,但DR方法使用具有完整背景的训练有素的神经语言模型,这可能不适合估计ILM并恶化整合性能。基于DR方法,我们通过用低阶弱语言模型代替估计来提出低阶密度比方法(LODR)。在英语librispeech&tedlium-2和中国wenetspeech和aishell-1数据集的内域和跨域情景上进行了广泛的经验实验。结果表明,在大多数测试中,LODR在所有任务中始终胜过所有任务,而通常接近ILME,并且比DR更好。
translated by 谷歌翻译
由于训练和测试分布之间的不匹配,自动语音识别(ASR)的跨域性能可能会受到严重阻碍。由于目标域通常缺乏标记的数据,并且在声学和语言水平上存在域移位,因此对ASR进行无监督的域适应性(UDA)是一项挑战。先前的工作表明,通过利用未标记的数据的自我检查,自我监督的学习(SSL)或伪标记(PL)可以有效地进行UDA。但是,这些自我介绍也面临不匹配的域分布中的性能退化,而以前的工作未能解决。这项工作提出了一个系统的UDA框架,可以在预训练和微调范式中充分利用具有自学贴标签的未标记数据。一方面,我们应用持续的预训练和数据重播技术来减轻SSL预训练模型的域不匹配。另一方面,我们提出了一种基于PL技术的域自适应微调方法,并具有三种独特的修改:首先,我们设计了一种双分支PL方法,以降低对错误的伪标签的敏感性;其次,我们设计了一种不确定性感知的置信度过滤策略,以提高伪标签的正确性。第三,我们引入了两步PL方法,以结合目标域语言知识,从而产生更准确的目标域伪标记。各种跨域场景的实验结果表明,所提出的方法可以有效地提高跨域的性能,并显着超过以前的方法。
translated by 谷歌翻译
交叉语言语音适应旨在解决利用多种丰富资源语言来构建低资源目标语言的模型的问题。由于低资源语言具有有限的培训数据,语音识别模型可以容易地过度装备。在本文中,我们建议使用适配器来研究多种适配器的性能,用于参数有效的交叉语音语音适应。基于我们以前的MetaAdapter,隐含地利用适配器,我们提出了一种名为SimAdapter的新算法,用于从Adapters明确学习知识。我们的算法利用了可以轻松集成到变压器结构中的适配器.METAADAPTER利用元学习将一般知识从训练数据转移到测试语言。 SimAdapter旨在使用适配器微调期间了解源语言与目标语言之间的相似性。我们在公共语音数据集中对五种低资源语言进行广泛的实验。结果表明,与强大的全型微调基线相比,我们的MetaAdapter和SimAdapter方法可以将WER减小2.98%和2.55%,只有2.5%和15.5%的培训参数。此外,我们还表明这两种新型算法可以集成,以便更好的性能,相对减少高达3.55%。
translated by 谷歌翻译
端到端(E2E)自动语音识别模型如经常性神经网络传感器(RNN-T)正成为流媒体级语音助手的流行选择。虽然E2E模型在学习培训数据的学习代表时非常有效,但他们对看不见的域的准确性仍然是一个具有挑战性的问题。此外,这些模型需要配对的音频和文本培训数据,计算得昂贵,并且难以适应对话语音的快速不断发展的性质。在这项工作中,我们探讨了使用利用文本数据源的似然比来调整RNN-T模型的上下文偏置方法。我们表明这种方法在提高稀有单词识别方面是有效的,并导致在多个OUT的N-BEST ORACLE WER(n = 8)中为10%的相对提高10%,在多个外部域数据集没有常规数据集没有任何劣化。我们还表明,通过适应第二遍辅助模型的互补偏置适应性提供了加性WER改进。
translated by 谷歌翻译
尽管近年来基于深度学习的端到端自动语音识别(ASR)表现出色,但它在从不同数据分布中得出的测试样本中遭受了严重的性能回归。先前在计算机视觉区域探索的测试时间适应(TTA)旨在调整对源域进行训练的模型,以在未访问源数据的情况下对经常不域的测试样品(通常是域外)产生更好的预测。在这里,我们提出了ASR的单一测试时间适应(SUTA)框架,这是我们最佳知识的第一个TTA研究。单块tta是一个更现实的设置,不假设测试数据是从相同的分布中采样的,并且由于预集批次的适应性数据而不会延迟按需推断。 SUTA由具有有效适应策略的无监督目标组成。经验结果表明,SUTA有效地改善了对多个室外目标语料库和内域测试样本评估的源ASR模型的性能。
translated by 谷歌翻译
端到端(E2E)模型的仅文本适应仍然是自动语音识别(ASR)的具有挑战性的任务。基于语言模型(LM)基于融合的方法需要在推理过程中额外的外部LM,从而大大增加了计算成本。为了克服这一点,我们建议使用仅文本数据的E2E模型的内部LM适应(ILMA)。经过音频转录对训练,E2E模型隐含地学习了一个内部LM,该LM表征令牌序列概率,该序列概率在零零贡献后由E2E模型输出近似。在ILMA期间,我们对内部LM微调,即不包括编码器的E2E组件,以最大程度地减少跨熵损失。为了使ILMA有效,除了标准E2E损失外,必须使用内部LM损失来训练E2E模型。此外,我们建议通过最大程度地减少适应性和非适应性内部LMS的输出分布之间的kullback-leibler差异来使ILMA正规化。当我们仅更新关节网络的最后一个线性层时,ILMA是最有效的。 ILMA可以在不增加运行时计算成本的情况下对E2E模型进行快速的文本适应。 ILMA通过经过30k训练的变压器传感器模型进行了实验,可从非适应性基线实现高达34.9%的相对单词错误率。
translated by 谷歌翻译
Neural transducer is now the most popular end-to-end model for speech recognition, due to its naturally streaming ability. However, it is challenging to adapt it with text-only data. Factorized neural transducer (FNT) model was proposed to mitigate this problem. The improved adaptation ability of FNT on text-only adaptation data came at the cost of lowered accuracy compared to the standard neural transducer model. We propose several methods to improve the performance of the FNT model. They are: adding CTC criterion during training, adding KL divergence loss during adaptation, using a pre-trained language model to seed the vocabulary predictor, and an efficient adaptation approach by interpolating the vocabulary predictor with the n-gram language model. A combination of these approaches results in a relative word-error-rate reduction of 9.48\% from the standard FNT model. Furthermore, n-gram interpolation with the vocabulary predictor improves the adaptation speed hugely with satisfactory adaptation performance.
translated by 谷歌翻译
自动语音识别(ASR)系统的转录质量在转录来自看不见的域的音频时会大大降低。我们提出了一种无监督的误差校正方法,用于无监督的ASR域适应性,旨在恢复域不匹配引起的转录误差。与依靠转录音频进行训练的现有校正方法不同,我们的方法仅需要针对目标域的未标记数据,在该数据中,将伪标记技术应用于生成校正培训样品。为了减少对伪数据的过度拟合,我们还提出了一个编码器校正模型,该模型可以考虑其他信息,例如对话上下文和声学特征。实验结果表明,我们的方法在未适应的ASR系统中获得了显着的单词错误率(WER)。校正模型也可以在其他适应方法的基础上应用,以相对额外的改善。
translated by 谷歌翻译
最近的言语和语言技术的方法预先rain非常大型模型,用于特定任务。然而,这种大型模型的好处通常仅限于世界上少数资源丰富的语言。在这项工作中,我们对来自印度次大陆的低资源语言构建ASR系统进行多种贡献。首先,我们从各种领域策划40个印度语言的17,000小时的原始语音数据,包括教育,新闻,技术和金融。其次,使用这种原始语音数据,我们预先存在于40个印度语言的Wav2Vec样式模型的多个变体。第三,我们分析佩带的模型以查找关键特点:码本矢量的类似探测音素在语言中共享,跨层的表示是语言系列的判别,并且注意力头通常会在小型本地窗口中注意。第四,我们微调了9种语言的下游ASR模型,并在3个公共数据集上获得最先进的结果,包括非常低的资源语言,如Sinhala和Nepali。我们的工作建立了多语言预介质是建立ASR系统的有效策略,为印度次大陆的语言上不同的扬声器建立ASR系统。
translated by 谷歌翻译
虽然自我监督的语音表示学习(SSL)模型执行了各种下游任务,但已经观察到这些模型过于拟合未标记数据来源的域。为了减轻此问题,我们提出了PADA(修剪辅助域的适应性),并在大量室外(OOD)数据上进行预训练的模型中的冗余权重。直观地,这有助于为目标域ASR芬太尼腾出空间。可以通过各种修剪策略来识别多余的权重,这些策略已作为本工作的一部分进行了详细讨论。具体而言,我们研究了最近发现的任务不合时宜的和任务感知的修剪对PADA的效果,并根据后者提出了一个新的修剪范式,我们称之为跨域任务意识到的修剪(CD-TAW)。 CD-TAW从精心调整的OOD模型中获得了初始修剪面膜,这使其与本文讨论的其余修剪策略完全不同。当在没有语言模型(LM)解码的2小时子集中进行微调时,我们提出的CD-TAW方法比基线相对相对改善高达20.6%。此外,我们进行了详细的分析,以突出提出的方法的关键设计选择。
translated by 谷歌翻译
众所周知,培训数据的数量和质量在创建良好的机器学习模型中起着重要作用。在本文中,我们将其进一步迈出一步,并证明培训示例的安排方式也至关重要。课程学习建立在有组织和结构化的知识同化的观察基础上,具有更快的培训和更好理解的能力。当人类学会说话时,他们首先尝试说出基本的电话,然后逐渐朝着更复杂的结构(例如单词和句子)发展。该方法被称为课程学习,我们在自动语音识别的背景下使用它。我们假设端到端模型在提供有组织的训练集时可以实现更好的性能,该训练集由示例组成,这些示例表现出越来越高的难度(即课程)。为了在训练集上强加结构并定义一个简单示例的概念,我们探索了多个评分功能,这些功能要么使用外部神经网络的反馈,要么将模型本身的反馈纳入。经验结果表明,通过不同的课程,我们可以平衡培训时间和网络的表现。
translated by 谷歌翻译
最近,我们提供了Wenet,这是一种面向生产的端到端语音识别工具包,它引入了统一的两通道(U2)框架和内置运行时,以解决单个中的流和非流传输模式。模型。为了进一步提高ASR性能并促进各种生产要求,在本文中,我们提出了Wenet 2.0,并提供四个重要的更新。 (1)我们提出了U2 ++,这是一个带有双向注意解码器的统一的两次通行框架,其中包括通过左右注意力解码器的未来上下文信息,以提高共享编码器的代表性和在夺回阶段的表现。 (2)我们将基于N-Gram的语言模型和基于WFST的解码器引入WENET 2.0,从而促进了在生产方案中使用丰富的文本数据。 (3)我们设计了一个统一的上下文偏见框架,该框架利用特定于用户的上下文(例如联系人列表)为生产提供快速适应能力,并提高了使用LM和没有LM场景的ASR准确性。 (4)我们设计了一个统一的IO,以支持大规模数据进行有效的模型培训。总而言之,全新的WENET 2.0可在各种Corpora上的原始WENET上取得高达10 \%的相对识别性能提高,并提供了一些重要的以生产为导向的功能。
translated by 谷歌翻译
自我监督的语音识别模型需要大量标记的培训数据,以学习自动语音识别(ASR)的高保真表示,这是计算要求且耗时的,从而阻碍了这些模型在资源受限环境中的使用。我们考虑确定最佳数据子集以训练ASR的自我监督语音模型的任务。我们表达了一个令人惊讶的观察,即用于采样最有用的示例中使用的数据集修剪策略并没有比随机的子集选择在微调自我监督的ASR任务上更好。然后,我们提出了Cowerage算法,以在自我监督的ASR中更好地子集选择,该算法是基于我们的发现,即确保基于培训单词错误率(WER)在早期训练时期的范围覆盖示例,可以提高概括性能。在WAV2VEC 2.0模型和TIMIT,LibrisPeech和LjSpeech数据集上进行的广泛实验显示了COWERAGE的有效性,比现有数据集修剪方法和随机采样的绝对改善高达17%。我们还证明,培训实例的覆盖范围可确保包括语音多样的示例,从而在自我监督的语音识别模型中更好地测试准确性。
translated by 谷歌翻译
我们总结了使用巨大的自动语音识别(ASR)模型的大量努力的结果,该模型使用包含大约一百万小时音频的大型,多样的未标记数据集进行了预训练。我们发现,即使对于拥有数万个小时的标记数据的非常大的任务,预训练,自我培训和扩大模型大小的组合也大大提高了数据效率。特别是,在具有34K小时标记数据的ASR任务上,通过微调80亿个参数预先训练的构象异构体模型,我们可以匹配最先进的(SOTA)性能(SOTA)的性能,只有3%的培训数据和通过完整的训练集可以显着改善SOTA。我们还报告了从使用大型预训练和自我训练的模型来完成一系列下游任务所获得的普遍利益,这些任务涵盖了广泛的语音域,并涵盖了多个数据集大小的大小,包括在许多人中获得SOTA性能公共基准。此外,我们利用预先训练的网络的学会表示,在非ASR任务上实现SOTA结果。
translated by 谷歌翻译
End-to-end speech recognition models trained using joint Connectionist Temporal Classification (CTC)-Attention loss have gained popularity recently. In these models, a non-autoregressive CTC decoder is often used at inference time due to its speed and simplicity. However, such models are hard to personalize because of their conditional independence assumption that prevents output tokens from previous time steps to influence future predictions. To tackle this, we propose a novel two-way approach that first biases the encoder with attention over a predefined list of rare long-tail and out-of-vocabulary (OOV) words and then uses dynamic boosting and phone alignment network during decoding to further bias the subword predictions. We evaluate our approach on open-source VoxPopuli and in-house medical datasets to showcase a 60% improvement in F1 score on domain-specific rare words over a strong CTC baseline.
translated by 谷歌翻译