Neural transducer is now the most popular end-to-end model for speech recognition, due to its naturally streaming ability. However, it is challenging to adapt it with text-only data. Factorized neural transducer (FNT) model was proposed to mitigate this problem. The improved adaptation ability of FNT on text-only adaptation data came at the cost of lowered accuracy compared to the standard neural transducer model. We propose several methods to improve the performance of the FNT model. They are: adding CTC criterion during training, adding KL divergence loss during adaptation, using a pre-trained language model to seed the vocabulary predictor, and an efficient adaptation approach by interpolating the vocabulary predictor with the n-gram language model. A combination of these approaches results in a relative word-error-rate reduction of 9.48\% from the standard FNT model. Furthermore, n-gram interpolation with the vocabulary predictor improves the adaptation speed hugely with satisfactory adaptation performance.
translated by 谷歌翻译
端到端(E2E)模型的仅文本适应仍然是自动语音识别(ASR)的具有挑战性的任务。基于语言模型(LM)基于融合的方法需要在推理过程中额外的外部LM,从而大大增加了计算成本。为了克服这一点,我们建议使用仅文本数据的E2E模型的内部LM适应(ILMA)。经过音频转录对训练,E2E模型隐含地学习了一个内部LM,该LM表征令牌序列概率,该序列概率在零零贡献后由E2E模型输出近似。在ILMA期间,我们对内部LM微调,即不包括编码器的E2E组件,以最大程度地减少跨熵损失。为了使ILMA有效,除了标准E2E损失外,必须使用内部LM损失来训练E2E模型。此外,我们建议通过最大程度地减少适应性和非适应性内部LMS的输出分布之间的kullback-leibler差异来使ILMA正规化。当我们仅更新关节网络的最后一个线性层时,ILMA是最有效的。 ILMA可以在不增加运行时计算成本的情况下对E2E模型进行快速的文本适应。 ILMA通过经过30k训练的变压器传感器模型进行了实验,可从非适应性基线实现高达34.9%的相对单词错误率。
translated by 谷歌翻译
最近,语音界正在看到从基于深神经网络的混合模型移动到自动语音识别(ASR)的端到端(E2E)建模的显着趋势。虽然E2E模型在大多数基准测试中实现最先进的,但在ASR精度方面,混合模型仍然在当前的大部分商业ASR系统中使用。有很多实际的因素会影响生产模型部署决定。传统的混合模型,用于数十年的生产优化,通常擅长这些因素。在不为所有这些因素提供优异的解决方案,E2E模型很难被广泛商业化。在本文中,我们将概述最近的E2E模型的进步,专注于解决行业视角的挑战技术。
translated by 谷歌翻译
在端到端RNN-TransDucer(RNN-T)中使用外部语言模型(ELM)使用仅文本数据进行语音识别是具有挑战性的。最近,已经开发了一类方法,例如密度比(DR)和内部语言模型估计(ILME),表现优于经典的浅融合(SF)方法。这些方法背后的基本思想是,RNN-T后验应首先先于隐式学习的内部语言模型(ILM),以便整合ELM。尽管最近的研究表明RNN-T仅学习一些低阶语言模型信息,但DR方法使用具有完整背景的训练有素的神经语言模型,这可能不适合估计ILM并恶化整合性能。基于DR方法,我们通过用低阶弱语言模型代替估计来提出低阶密度比方法(LODR)。在英语librispeech&tedlium-2和中国wenetspeech和aishell-1数据集的内域和跨域情景上进行了广泛的经验实验。结果表明,在大多数测试中,LODR在所有任务中始终胜过所有任务,而通常接近ILME,并且比DR更好。
translated by 谷歌翻译
End-to-end speech recognition models trained using joint Connectionist Temporal Classification (CTC)-Attention loss have gained popularity recently. In these models, a non-autoregressive CTC decoder is often used at inference time due to its speed and simplicity. However, such models are hard to personalize because of their conditional independence assumption that prevents output tokens from previous time steps to influence future predictions. To tackle this, we propose a novel two-way approach that first biases the encoder with attention over a predefined list of rare long-tail and out-of-vocabulary (OOV) words and then uses dynamic boosting and phone alignment network during decoding to further bias the subword predictions. We evaluate our approach on open-source VoxPopuli and in-house medical datasets to showcase a 60% improvement in F1 score on domain-specific rare words over a strong CTC baseline.
translated by 谷歌翻译
端到端(E2E)自动语音识别模型如经常性神经网络传感器(RNN-T)正成为流媒体级语音助手的流行选择。虽然E2E模型在学习培训数据的学习代表时非常有效,但他们对看不见的域的准确性仍然是一个具有挑战性的问题。此外,这些模型需要配对的音频和文本培训数据,计算得昂贵,并且难以适应对话语音的快速不断发展的性质。在这项工作中,我们探讨了使用利用文本数据源的似然比来调整RNN-T模型的上下文偏置方法。我们表明这种方法在提高稀有单词识别方面是有效的,并导致在多个OUT的N-BEST ORACLE WER(n = 8)中为10%的相对提高10%,在多个外部域数据集没有常规数据集没有任何劣化。我们还表明,通过适应第二遍辅助模型的互补偏置适应性提供了加性WER改进。
translated by 谷歌翻译
语言模型(LMS)显着提高端到端模型(E2E)模型在训练过程中很少见的单词的识别准确性,当时在浅融合或重新恢复设置中。在这项工作中,我们介绍了LMS在判别培训框架中学习混合自动回旋传感器(HAT)模型的研究,以减轻有关使用LMS的训练与推理差距。对于浅融合设置,我们在假设生成和损失计算过程中都使用LMS,而LM感知的MWER训练模型可实现10 \%的相对改进,比用标准MWER在语音搜索测试集中培训的模型相对改进,其中包含稀有单词。对于重新设置,我们学会了一个小型神经模块,以数据依赖性方式产生串联的融合权重。该模型与常规MWER训练的模型相同,但无需清除融合重量。
translated by 谷歌翻译
作为语音识别的最流行的序列建模方法之一,RNN-Transducer通过越来越复杂的神经网络模型,以增长的规模和增加训练时代的增长,实现了不断发展的性能。尽管强大的计算资源似乎是培训卓越模型的先决条件,但我们试图通过仔细设计更有效的培训管道来克服它。在这项工作中,我们提出了一条高效的三阶段渐进式训练管道,以在合理的短时间内从头开始建立具有非常有限的计算资源的高效神经传感器模型。每个阶段的有效性在LibrisPeech和Convebobly Corpora上都经过实验验证。拟议的管道能够在短短2-3周内以单个GPU接近最先进的性能来训练换能器模型。我们最好的构型传感器在Librispeech测试中获得4.1%的速度,仅使用35个训练时代。
translated by 谷歌翻译
Recently, RNN-Transducers have achieved remarkable results on various automatic speech recognition tasks. However, lattice-free sequence discriminative training methods, which obtain superior performance in hybrid modes, are rarely investigated in RNN-Transducers. In this work, we propose three lattice-free training objectives, namely lattice-free maximum mutual information, lattice-free segment-level minimum Bayes risk, and lattice-free minimum Bayes risk, which are used for the final posterior output of the phoneme-based neural transducer with a limited context dependency. Compared to criteria using N-best lists, lattice-free methods eliminate the decoding step for hypotheses generation during training, which leads to more efficient training. Experimental results show that lattice-free methods gain up to 6.5% relative improvement in word error rate compared to a sequence-level cross-entropy trained model. Compared to the N-best-list based minimum Bayes risk objectives, lattice-free methods gain 40% - 70% relative training time speedup with a small degradation in performance.
translated by 谷歌翻译
本文提出了一种新的方法,使用未标记的语音数据进行无标记的神经网络(RNN) - 转换器(RNN-T)端到端(E2E)自动语音识别(ASR)系统进行无监督的微调和自我训练。传统系统使用未标记的音频数据时,使用ASR假设作为目标进行微调/自我训练,并且容易受到基本模型的ASR性能的影响。在这里,为了减轻使用未标记数据时ASR误差的影响,我们提出了多种假设的RNN-T损失,该损失将多个ASR 1最佳假设纳入损失函数中。对于微调任务,在LibrisPeech上进行的ASR实验表明,与test_other设置相比,与单类假设方法相比,多重肢体方法的相对降低可相对降低14.2%的单词错误率(WER)。对于自训练任务,使用来自华尔街日报(WSJ),Aurora-4的监督数据以及Chime-4真实嘈杂数据作为未标记的数据,对ASR模型进行了培训。与单障碍方法相比,多种假设方法在Chime-4的单渠道真实噪声评估集上相对减少了3.3%。
translated by 谷歌翻译
上下文偏见是端到端自动语音识别(ASR)系统的一项重要且具有挑战性现有方法主要包括上下文lm偏置,并将偏置编码器添加到端到端的ASR模型中。在这项工作中,我们介绍了一种新颖的方法,通过在端到端ASR系统之上添加上下文拼写校正模型来实现上下文偏见。我们将上下文信息与共享上下文编码器合并到序列到序列拼写校正模型中。我们提出的模型包括两种不同的机制:自动回旋(AR)和非自动回旋(NAR)。我们提出过滤算法来处理大尺寸的上下文列表以及性能平衡机制,以控制模型的偏置程度。我们证明所提出的模型是一种普遍的偏见解决方案,它是对域的不敏感的,可以在不同的情况下采用。实验表明,所提出的方法在ASR系统上的相对单词错误率(WER)降低多达51%,并且优于传统偏见方法。与AR溶液相比,提出的NAR模型可将模型尺寸降低43.2%,并将推断加速2.1倍。
translated by 谷歌翻译
演讲者的适应性对于建立强大的自动语音识别(ASR)系统很重要。在这项工作中,我们根据基于配置符号的声学模型(AM)在300H数据集中的功能空间方法研究了扬声器自适应训练(SAT)的各种方法。我们提出了一种称为加权简单添加的方法,该方法将加权的说话者信息向量添加到构象异构体AM的多头自发动模块的输入中。使用此方法用于SAT,我们在HUB5'00和HUB5'01的Callhome部分方面取得了3.5%和4.5%的相对改善。此外,我们以先前的作品为基础,在此基础上,我们为基于构象异构体的混合动力AM提出了一种新颖的竞争培训配方。我们扩展并改善了此食谱,在该配方中,我们在打电筒300H HUB5'00数据集上的单词误差(WER)方面取得了11%的相对改善。我们还通过将参数总数减少34%,从而使该配方有效。
translated by 谷歌翻译
最近,基于注意的编码器 - 解码器(AED)模型对多个任务的端到端自动语音识别(ASR)显示了高性能。在此类模型中解决了过度控制,本文介绍了轻松关注的概念,这是一种简单地逐渐注入对训练期间对编码器 - 解码器注意重量的统一分配,其易于用两行代码实现。我们调查轻松关注跨不同AED模型架构和两个突出的ASR任务,华尔街日志(WSJ)和LibRisPeech的影响。我们发现,在用外部语言模型解码时,随着宽松的注意力训练的变压器始终如一地始终如一地遵循标准基线模型。在WSJ中,我们为基于变压器的端到端语音识别设置了一个新的基准,以3.65%的单词错误率,最优于13.1%的相对状态,同时仅引入单个HyperParameter。
translated by 谷歌翻译
对于普通话端到端(E2E)自动语音识别(ASR)任务,与基于角色的建模单元相比,基于发音的建模单元可以改善模型培训中的建模单元的共享,但遇到了同音词。在这项研究中,我们建议使用一种新颖的发音意识到的独特字符编码来构建基于E2E RNN-T的普通话ASR系统。所提出的编码是发音基本音节和字符索引(CI)的组合。通过引入CI,RNN-T模型可以在利用发音信息来提取建模单元的同时克服同音问题。通过提出的编码,可以通过一对一的映射将模型输出转换为最终识别结果。我们在Aishell和MagicData数据集上进行了实验,实验结果表明了该方法的有效性。
translated by 谷歌翻译
最近,我们提供了Wenet,这是一种面向生产的端到端语音识别工具包,它引入了统一的两通道(U2)框架和内置运行时,以解决单个中的流和非流传输模式。模型。为了进一步提高ASR性能并促进各种生产要求,在本文中,我们提出了Wenet 2.0,并提供四个重要的更新。 (1)我们提出了U2 ++,这是一个带有双向注意解码器的统一的两次通行框架,其中包括通过左右注意力解码器的未来上下文信息,以提高共享编码器的代表性和在夺回阶段的表现。 (2)我们将基于N-Gram的语言模型和基于WFST的解码器引入WENET 2.0,从而促进了在生产方案中使用丰富的文本数据。 (3)我们设计了一个统一的上下文偏见框架,该框架利用特定于用户的上下文(例如联系人列表)为生产提供快速适应能力,并提高了使用LM和没有LM场景的ASR准确性。 (4)我们设计了一个统一的IO,以支持大规模数据进行有效的模型培训。总而言之,全新的WENET 2.0可在各种Corpora上的原始WENET上取得高达10 \%的相对识别性能提高,并提供了一些重要的以生产为导向的功能。
translated by 谷歌翻译
自动语音识别(ASR)系统已经发现它们在非常多样化的域中的众多工业应用中使用。由于域 - 特定于域的系统比域名评估的通用对应力更好,因此对内存和计算有效的域适应的需要是显而易见的。特别是,适用用于救援ASR假设的基于参数的基于变压器的语言模型是具有挑战性的。在这项工作中,我们引入域提示,一种方法,该方法列举了少数域令牌嵌入参数以将基于变压器的LM归入特定域。只需少数额外的额外参数,我们通过使用未存在的LM的基线达到7-14%的效率。尽管具有参数效率,但这些改进与具有数亿参数的完全精细调谐模型的改进相当。通过提示,数据集大小,初始化和域的消融,我们提供了在ASR系统中使用域提示的优势的证据。
translated by 谷歌翻译
最近,蒙面的预测预训练在自我监督的学习(SSL)方面取得了显着的进展,以进行语音识别。它通常需要以无监督的方式获得的代码簿,从而使其准确和难以解释。我们提出了两种监督指导的代码书生成方法,以提高自动语音识别(ASR)的性能以及预训练效率,要么通过使用混合ASR系统来解码以生成音素级别对准(命名为PBERT),要么通过在上进行集群进行聚类。从端到端CTC模型(命名CTC聚类)提取的监督语音功能。混合动力和CTC模型均经过与微调相同的少量标记语音训练。实验表明,我们的方法对各种SSL和自我训练基准的优势具有显着优势,相对减少了17.0%。我们的预训练模型在非ASR语音任务中还显示出良好的可传递性。
translated by 谷歌翻译
End-to-end multilingual ASR has become more appealing because of several reasons such as simplifying the training and deployment process and positive performance transfer from high-resource to low-resource languages. However, scaling up the number of languages, total hours, and number of unique tokens is not a trivial task. This paper explores large-scale multilingual ASR models on 70 languages. We inspect two architectures: (1) Shared embedding and output and (2) Multiple embedding and output model. In the shared model experiments, we show the importance of tokenization strategy across different languages. Later, we use our optimal tokenization strategy to train multiple embedding and output model to further improve our result. Our multilingual ASR achieves 13.9%-15.6% average WER relative improvement compared to monolingual models. We show that our multilingual ASR generalizes well on an unseen dataset and domain, achieving 9.5% and 7.5% WER on Multilingual Librispeech (MLS) with zero-shot and finetuning, respectively.
translated by 谷歌翻译
将作为上下文知识获得的偏见单词合并对于许多自动语音识别(ASR)应用至关重要。本文建议将图形神经网络(GNN)编码用于端到端上下文ASR中的树受限指针生成器(TCPGEN)组件。通过用基于树的GNN编码前缀树中的有偏见的单词,可以在每个树节点上通过合并有关其扎根的树枝上的所有文字的信息来实现端到端ASR解码中未来文字的lookahead,从而实现。允许更准确地预测偏见单词的生成概率。使用模拟的偏置任务在Librispeech语料库上评估系统,并通过提出一种新颖的视觉接地上下文ASR管道,在AMI语料库上评估了系统,该管道从每次会议旁边的幻灯片中提取有偏见的单词。结果表明,与原始TCPGEN相比,具有GNN编码的TCPGEN对偏置单词的相对减少了约15%,而解码的计算成本的增加可忽略不计。
translated by 谷歌翻译
RNN-T模型由于其在线流媒体模式下运营的竞争力和能力,因此在文献和商业系统中广受欢迎。在这项工作中,我们进行了一项广泛的研究,比较了单调和原始RNN-T模型的几种预测网络体系结构。我们根据普通的最新构象编码器比较4种类型的预测网络,并在LibrisPeech和内部医学对话数据集上获得报告结果。我们的研究涵盖了离线批处理模式和在线流媒体方案。与以前的一些作品相反,我们的结果表明,当用作预测网络以及构象异构体编码器时,变压器并不总是胜过LSTM。受分数启发的启发,我们提出了一个新的简单预测网络体系结构N-CONCAT,它在我们在线流式传输基准测试中的表现优于其他。变压器和N-Gram降低的体系结构的表现非常相似,但在先前的上下文方面具有一些重要的不同行为。总体而言,与LSTM基线相比,我们获得了多达4.1%的相对相对改善,同时将预测网络参数降低了几乎数量级(8.4倍)。
translated by 谷歌翻译