梁搜索是端到端模型的主要ASR解码算法,生成树结构化假设。但是,最近的研究表明,通过假设合并进行解码可以通过可比或更好的性能实现更有效的搜索。但是,复发网络中的完整上下文与假设合并不兼容。我们建议在RNN传感器的预测网络中使用矢量定量的长期记忆单元(VQ-LSTM)。通过与ASR网络共同培训离散表示形式,可以积极合并假设以生成晶格。我们在总机语料库上进行的实验表明,提出的VQ RNN传感器改善了具有常规预测网络的换能器的ASR性能,同时还产生了具有相同光束尺寸的Oracle Word错误率(WER)的密集晶格。其他语言模型撤退实验还证明了拟议的晶格生成方案的有效性。
translated by 谷歌翻译
格子形成了从自动语音识别系统产生的多个假设的紧凑型表示,并且已被证明可以提高与使用一个最佳假设的口语理解和语音转换等下游任务的性能。在这项工作中,我们展望了莱迪思提示在二次通过中抢救N-Best列表的有效性。我们用经常性网络编码格子,并培训注意Encoder-解码器模型,用于N-Best Rescoring。重新调用模型的重点模型在首先达到4-5%的相对字错误率和6-8%,注意到晶格和声学特征。我们展示了救援模型,注意了格格特优于模型,以注意力为N-Best假设。我们还研究了不同的方法来纳入格子编码器中的晶格重量,并展示他们对N-Best Rescoring的重要性。
translated by 谷歌翻译
最近,端到端(E2E)框架在各种自动语音识别(ASR)任务上取得了显着的结果。但是,无格的最大互信息(LF-MMI),作为在混合ASR系统中显示出卓越性能的鉴别性培训标准之一,很少在E2E ASR框架中采用。在这项工作中,我们提出了一种新的方法,将LF-MMI标准集成到培训和解码阶段的E2E ASR框架中。该方法显示了其在两个最广泛使用的E2E框架上的有效性,包括基于注意的编码器解码器(AED)和神经传感器(NTS)。实验表明,LF-MMI标准的引入始终如一地导致各种数据集和不同E2E ASR框架的显着性能改进。我们最好的模型在Aishell-1开发/测试集上实现了4.1 \%/ 4.4 \%的竞争力;我们还在强大的基线上实现了对Aishell-2和Librispeech数据集的显着误差。
translated by 谷歌翻译
最近,基于注意的编码器 - 解码器(AED)模型对多个任务的端到端自动语音识别(ASR)显示了高性能。在此类模型中解决了过度控制,本文介绍了轻松关注的概念,这是一种简单地逐渐注入对训练期间对编码器 - 解码器注意重量的统一分配,其易于用两行代码实现。我们调查轻松关注跨不同AED模型架构和两个突出的ASR任务,华尔街日志(WSJ)和LibRisPeech的影响。我们发现,在用外部语言模型解码时,随着宽松的注意力训练的变压器始终如一地始终如一地遵循标准基线模型。在WSJ中,我们为基于变压器的端到端语音识别设置了一个新的基准,以3.65%的单词错误率,最优于13.1%的相对状态,同时仅引入单个HyperParameter。
translated by 谷歌翻译
The network architecture of end-to-end (E2E) automatic speech recognition (ASR) can be classified into several models, including connectionist temporal classification (CTC), recurrent neural network transducer (RNN-T), attention mechanism, and non-autoregressive mask-predict models. Since each of these network architectures has pros and cons, a typical use case is to switch these separate models depending on the application requirement, resulting in the increased overhead of maintaining all models. Several methods for integrating two of these complementary models to mitigate the overhead issue have been proposed; however, if we integrate more models, we will further benefit from these complementary models and realize broader applications with a single system. This paper proposes four-decoder joint modeling (4D) of CTC, attention, RNN-T, and mask-predict, which has the following three advantages: 1) The four decoders are jointly trained so that they can be easily switched depending on the application scenarios. 2) Joint training may bring model regularization and improve the model robustness thanks to their complementary properties. 3) Novel one-pass joint decoding methods using CTC, attention, and RNN-T further improves the performance. The experimental results showed that the proposed model consistently reduced the WER.
translated by 谷歌翻译
在自动语音识别(ASR)研究中,歧视性标准在DNN-HMM系统中取得了出色的性能。鉴于这一成功,采用判别标准是有望提高端到端(E2E)ASR系统的性能。有了这一动机,以前的作品将最小贝叶斯风险(MBR,歧视性标准之一)引入了E2E ASR系统中。但是,基于MBR的方法的有效性和效率受到损害:MBR标准仅用于系统培训,这在训练和解码之间造成了不匹配;基于MBR的方法中的直接解码过程导致需要预先训练的模型和缓慢的训练速度。为此,在这项工作中提出了新的算法,以整合另一种广泛使用的判别标准,无晶格的最大互信息(LF-MMI),不仅在训练阶段,而且在解码过程中。提出的LF-MI训练和解码方法显示了它们对两个广泛使用的E2E框架的有效性:基于注意力的编码器解码器(AEDS)和神经传感器(NTS)。与基于MBR的方法相比,提出的LF-MMI方法:保持训练和解码之间的一致性;避开直立的解码过程;来自具有卓越训练效率的随机初始化模型的火车。实验表明,LF-MI方法的表现优于其MBR对应物,并始终导致各种框架和数据集从30小时到14.3k小时上的统计学意义改进。所提出的方法在Aishell-1(CER 4.10%)和Aishell-2(CER 5.02%)数据集上实现了最先进的结果(SOTA)。代码已发布。
translated by 谷歌翻译
This paper proposes a modification to RNN-Transducer (RNN-T) models for automatic speech recognition (ASR). In standard RNN-T, the emission of a blank symbol consumes exactly one input frame; in our proposed method, we introduce additional blank symbols, which consume two or more input frames when emitted. We refer to the added symbols as big blanks, and the method multi-blank RNN-T. For training multi-blank RNN-Ts, we propose a novel logit under-normalization method in order to prioritize emissions of big blanks. With experiments on multiple languages and datasets, we show that multi-blank RNN-T methods could bring relative speedups of over +90%/+139% to model inference for English Librispeech and German Multilingual Librispeech datasets, respectively. The multi-blank RNN-T method also improves ASR accuracy consistently. We will release our implementation of the method in the NeMo (\url{https://github.com/NVIDIA/NeMo}) toolkit.
translated by 谷歌翻译
经常性的神经网络传感器(RNN-T)目标在建立当今最好的自动语音识别(ASR)系统中发挥着重要作用。与连接员时间分类(CTC)目标类似,RNN-T损失使用特定规则来定义生成一组对准以形成用于全汇训练的格子。但是,如果这些规则是最佳的,则在很大程度上未知,并且会导致最佳ASR结果。在这项工作中,我们介绍了一种新的传感器目标函数,它概括了RNN-T丢失来接受标签的图形表示,从而提供灵活和有效的框架来操纵训练格子,例如用于限制对齐或研究不同的转换规则。我们证明,与标准RNN-T相比,具有CTC样格子的基于传感器的ASR实现了更好的结果,同时确保了严格的单调对齐,这将允许更好地优化解码过程。例如,所提出的CTC样换能器系统对于测试 - LibrisPeech的其他条件,实现了5.9%的字误差率,相对于基于等效的RNN-T系统的提高,对应于4.8%。
translated by 谷歌翻译
Connectionist时间分类(CTC)的模型很有吸引力,因为它们在自动语音识别(ASR)中的快速推断。语言模型(LM)集成方法(例如浅融合和重新恢复)可以通过利用文本语料库的知识来提高基于CTC的ASR的识别准确性。但是,它们大大减慢了CTC的推论。在这项研究中,我们建议提炼基于CTC的ASR的BERT知识,从而扩展了我们先前针对基于注意的ASR的研究。基于CTC的ASR在训练过程中学习了BERT的知识,并且在测试过程中不使用BERT,从而维持CTC的快速推断。与基于注意力的模型不同,基于CTC的模型做出了框架级预测,因此它们需要与BERT的令牌级预测进行蒸馏。我们建议通过计算最合理的CTC路径来获得比对。对自发日语(CSJ)和TED-LIUM2语料库的实验评估表明,我们的方法改善了基于CTC的ASR的性能,而无需推理速度成本。
translated by 谷歌翻译
对于普通话端到端(E2E)自动语音识别(ASR)任务,与基于角色的建模单元相比,基于发音的建模单元可以改善模型培训中的建模单元的共享,但遇到了同音词。在这项研究中,我们建议使用一种新颖的发音意识到的独特字符编码来构建基于E2E RNN-T的普通话ASR系统。所提出的编码是发音基本音节和字符索引(CI)的组合。通过引入CI,RNN-T模型可以在利用发音信息来提取建模单元的同时克服同音问题。通过提出的编码,可以通过一对一的映射将模型输出转换为最终识别结果。我们在Aishell和MagicData数据集上进行了实验,实验结果表明了该方法的有效性。
translated by 谷歌翻译
在端到端RNN-TransDucer(RNN-T)中使用外部语言模型(ELM)使用仅文本数据进行语音识别是具有挑战性的。最近,已经开发了一类方法,例如密度比(DR)和内部语言模型估计(ILME),表现优于经典的浅融合(SF)方法。这些方法背后的基本思想是,RNN-T后验应首先先于隐式学习的内部语言模型(ILM),以便整合ELM。尽管最近的研究表明RNN-T仅学习一些低阶语言模型信息,但DR方法使用具有完整背景的训练有素的神经语言模型,这可能不适合估计ILM并恶化整合性能。基于DR方法,我们通过用低阶弱语言模型代替估计来提出低阶密度比方法(LODR)。在英语librispeech&tedlium-2和中国wenetspeech和aishell-1数据集的内域和跨域情景上进行了广泛的经验实验。结果表明,在大多数测试中,LODR在所有任务中始终胜过所有任务,而通常接近ILME,并且比DR更好。
translated by 谷歌翻译
RNN-T模型由于其在线流媒体模式下运营的竞争力和能力,因此在文献和商业系统中广受欢迎。在这项工作中,我们进行了一项广泛的研究,比较了单调和原始RNN-T模型的几种预测网络体系结构。我们根据普通的最新构象编码器比较4种类型的预测网络,并在LibrisPeech和内部医学对话数据集上获得报告结果。我们的研究涵盖了离线批处理模式和在线流媒体方案。与以前的一些作品相反,我们的结果表明,当用作预测网络以及构象异构体编码器时,变压器并不总是胜过LSTM。受分数启发的启发,我们提出了一个新的简单预测网络体系结构N-CONCAT,它在我们在线流式传输基准测试中的表现优于其他。变压器和N-Gram降低的体系结构的表现非常相似,但在先前的上下文方面具有一些重要的不同行为。总体而言,与LSTM基线相比,我们获得了多达4.1%的相对相对改善,同时将预测网络参数降低了几乎数量级(8.4倍)。
translated by 谷歌翻译
口语理解(SLU)系统提取文本成绩单和语义与意图和插槽相关的语言。 SLU系统通常由(1)自动语音识别(ASR)模块组成,(2)接口来自ASR相关输出的接口模块,以及(3)自然语言理解(NLU)模块。 SLU系统中的接口随附文本转录或更丰富的信息(例如从ASR到NLU)的信息。在本文中,我们研究界面如何影响与口语理解的联合培训。最值得注意的是,我们在公开可用的50小时SLURP数据集中获得了最新结果。我们首先利用通过文本界面连接的大型ASR和NLU模型,然后通过序列损耗函数共同训练这两个模型。对于未利用预位模型的场景,使用更丰富的神经界面通过联合序列损失训练获得了最佳结果。最后,我们显示了利用预期模型随培训数据规模增加的总体减少影响。
translated by 谷歌翻译
我们报告了激进的量化策略,这些策略极大地加速了复发性神经网络传感器(RNN-T)的推理。我们使用4位整数表示进行权重和激活,并应用量化意识训练(QAT)来重新训练完整模型(声学编码器和语言模型)并实现近乎ISO的准确性。我们表明,根据网络本地属性量身定制的自定义量化方案对于在限制QAT的计算开销的同时,至关重要。密度比语言模型融合已显示出在RNN-T工作负载上的准确性提高,但严重增加了推理的计算成本。我们表明,我们的量化策略可以使用大型宽度宽度进行假设搜索,同时实现与流媒体兼容的运行时间,并且与完整的Precision模型相比,我们可以实现与流相兼容的运行时间和7.6 $ \ times $的完整模型压缩比。通过硬件仿真,我们估计端到端量化的RNN-T(包括LM Fusion)的3.4 $ \ times $从fp16到INT4,导致实时因子(RTF)为0.06。在NIST HUB5 2000,HUB5 2001和RT-03测试集中,我们保留了与LM Fusion相关的大部分收益,将平均WER提高了$ 1.5%。
translated by 谷歌翻译
可以通过组合自动语音识别(ASR)和文本摘要(TS)来实现来自语音的文本摘要的语音摘要。通过这种级联方法,我们可以利用最先进的模型和大型训练数据集,用于两个子任务,即变压器和TS的ASR和双向编码器表示的变压器。但是,ASR错误直接影响级联方法的输出概要的质量。我们提出了一个级联语音摘要模型,它对ASR错误具有强大,并且利用ASR生成的多个假设来衰减摘要摘要的效果。我们调查了几个方案来组合ASR假设。首先,我们建议使用由ASR系统提供的其后部值作为基于BERT的TS系统的输入来加权的子字嵌入向量的总和。然后,我们介绍了一种更一般的方案,它使用添加到预先训练的BERT模块的关注的融合模块来对齐并组合几个ASR假设。最后,我们在How2 DataSet上执行语音摘要实验和我们将使用本文发布的新组合的基于TED的数据集。这些实验表明,通过这些方案再培训基于伯特的TS系统可以改善总结性能,并且基于注意的熔融模块特别有效。
translated by 谷歌翻译
语音识别的RNN-TransDucer(RNN-T)框架一直在越来越受欢迎,尤其是用于实时部署的ASR系统,因为它将高精度与自然流识别结合在一起。RNN-T的缺点之一是其损耗函数相对较慢,并且可以使用大量内存。在词汇大小较大的情况下,使用RNN-T损失的过多GPU记忆使用可能会使使用RNN-T损失是不切实际的:例如,对于基于中文的ASR而言。我们介绍了一种方法,用于更快,更快的记忆效率RNN-T损失计算。我们首先使用在编码器和解码器嵌入式中线性的简单木器网络获得RNN-T递归的修剪边界;我们可以在不使用很多内存的情况下对此进行评估。然后,我们使用那些修剪界限来评估完整的非线性木匠网络。
translated by 谷歌翻译
上下文ASR将偏见项列表与音频一起列出,随着ASR使用变得更加普遍,最近引起了最新的兴趣。我们正在发布上下文偏见列表,以伴随Enation21数据集,为此任务创建公共基准。我们使用WENET工具包中预处理的端到端ASR模型在此基准测试上介绍了基线结果。我们显示了应用于两种不同解码算法的浅融合上下文偏置的结果。我们的基线结果证实了观察到的观察,即端到端模型尤其是在训练过程中很少见或从未见过的单词,并且现有的浅融合技术不能充分解决这个问题。我们提出了一个替代拼写预测模型,与没有其他拼写的上下文偏见相比,相对相对,将稀有单词相对34.7%,而访问量的单词相对97.2%。该模型在概念上与先前工作中使用的模型相似,但是更容易实现,因为它不依赖发音字典或现有的文本对语音系统。
translated by 谷歌翻译
知识蒸馏(KD),最称为模型压缩的有效方法,旨在将更大的网络(教师)的知识转移到更小的网络(学生)。传统的KD方法通常采用以监督方式培训的教师模型,其中输出标签仅作为目标处理。我们进一步扩展了这一受监督方案,我们为KD,即Oracle老师推出了一种新型的教师模型,它利用源输入和输出标签的嵌入来提取更准确的知识来转移到学生。所提出的模型遵循变压器网络的编码器解码器注意结构,这允许模型从输出标签上参加相关信息。在三种不同的序列学习任务中进行了广泛的实验:语音识别,场景文本识别和机器翻译。从实验结果来看,我们经验证明,拟议的模型在这些任务中改善了学生,同时在教师模型的培训时间内实现了相当大的速度。
translated by 谷歌翻译
手写的文本识别问题是由计算机视觉社区的研究人员广泛研究的,因为它的改进和适用于日常生活的范围,它是模式识别的子域。自从过去几十年以来,基于神经网络的系统的计算能力提高了计算能力,因此有助于提供最新的手写文本识别器。在同一方向上,我们采用了两个最先进的神经网络系统,并将注意力机制合并在一起。注意技术已被广泛用于神经机器翻译和自动语音识别的领域,现在正在文本识别域中实现。在这项研究中,我们能够在IAM数据集上达到4.15%的字符错误率和9.72%的单词错误率,7.07%的字符错误率和GW数据集的16.14%单词错误率与现有的Flor合并后,GW数据集的单词错误率等。建筑学。为了进一步分析,我们还使用了类似于Shi等人的系统。具有贪婪解码器的神经网络系统,观察到基本模型的字符错误率提高了23.27%。
translated by 谷歌翻译
本文提出了一种新的方法,使用未标记的语音数据进行无标记的神经网络(RNN) - 转换器(RNN-T)端到端(E2E)自动语音识别(ASR)系统进行无监督的微调和自我训练。传统系统使用未标记的音频数据时,使用ASR假设作为目标进行微调/自我训练,并且容易受到基本模型的ASR性能的影响。在这里,为了减轻使用未标记数据时ASR误差的影响,我们提出了多种假设的RNN-T损失,该损失将多个ASR 1最佳假设纳入损失函数中。对于微调任务,在LibrisPeech上进行的ASR实验表明,与test_other设置相比,与单类假设方法相比,多重肢体方法的相对降低可相对降低14.2%的单词错误率(WER)。对于自训练任务,使用来自华尔街日报(WSJ),Aurora-4的监督数据以及Chime-4真实嘈杂数据作为未标记的数据,对ASR模型进行了培训。与单障碍方法相比,多种假设方法在Chime-4的单渠道真实噪声评估集上相对减少了3.3%。
translated by 谷歌翻译