This paper proposes a modification to RNN-Transducer (RNN-T) models for automatic speech recognition (ASR). In standard RNN-T, the emission of a blank symbol consumes exactly one input frame; in our proposed method, we introduce additional blank symbols, which consume two or more input frames when emitted. We refer to the added symbols as big blanks, and the method multi-blank RNN-T. For training multi-blank RNN-Ts, we propose a novel logit under-normalization method in order to prioritize emissions of big blanks. With experiments on multiple languages and datasets, we show that multi-blank RNN-T methods could bring relative speedups of over +90%/+139% to model inference for English Librispeech and German Multilingual Librispeech datasets, respectively. The multi-blank RNN-T method also improves ASR accuracy consistently. We will release our implementation of the method in the NeMo (\url{https://github.com/NVIDIA/NeMo}) toolkit.
translated by 谷歌翻译
梁搜索是端到端模型的主要ASR解码算法,生成树结构化假设。但是,最近的研究表明,通过假设合并进行解码可以通过可比或更好的性能实现更有效的搜索。但是,复发网络中的完整上下文与假设合并不兼容。我们建议在RNN传感器的预测网络中使用矢量定量的长期记忆单元(VQ-LSTM)。通过与ASR网络共同培训离散表示形式,可以积极合并假设以生成晶格。我们在总机语料库上进行的实验表明,提出的VQ RNN传感器改善了具有常规预测网络的换能器的ASR性能,同时还产生了具有相同光束尺寸的Oracle Word错误率(WER)的密集晶格。其他语言模型撤退实验还证明了拟议的晶格生成方案的有效性。
translated by 谷歌翻译
语音识别的RNN-TransDucer(RNN-T)框架一直在越来越受欢迎,尤其是用于实时部署的ASR系统,因为它将高精度与自然流识别结合在一起。RNN-T的缺点之一是其损耗函数相对较慢,并且可以使用大量内存。在词汇大小较大的情况下,使用RNN-T损失的过多GPU记忆使用可能会使使用RNN-T损失是不切实际的:例如,对于基于中文的ASR而言。我们介绍了一种方法,用于更快,更快的记忆效率RNN-T损失计算。我们首先使用在编码器和解码器嵌入式中线性的简单木器网络获得RNN-T递归的修剪边界;我们可以在不使用很多内存的情况下对此进行评估。然后,我们使用那些修剪界限来评估完整的非线性木匠网络。
translated by 谷歌翻译
经常性的神经网络传感器(RNN-T)目标在建立当今最好的自动语音识别(ASR)系统中发挥着重要作用。与连接员时间分类(CTC)目标类似,RNN-T损失使用特定规则来定义生成一组对准以形成用于全汇训练的格子。但是,如果这些规则是最佳的,则在很大程度上未知,并且会导致最佳ASR结果。在这项工作中,我们介绍了一种新的传感器目标函数,它概括了RNN-T丢失来接受标签的图形表示,从而提供灵活和有效的框架来操纵训练格子,例如用于限制对齐或研究不同的转换规则。我们证明,与标准RNN-T相比,具有CTC样格子的基于传感器的ASR实现了更好的结果,同时确保了严格的单调对齐,这将允许更好地优化解码过程。例如,所提出的CTC样换能器系统对于测试 - LibrisPeech的其他条件,实现了5.9%的字误差率,相对于基于等效的RNN-T系统的提高,对应于4.8%。
translated by 谷歌翻译
格子形成了从自动语音识别系统产生的多个假设的紧凑型表示,并且已被证明可以提高与使用一个最佳假设的口语理解和语音转换等下游任务的性能。在这项工作中,我们展望了莱迪思提示在二次通过中抢救N-Best列表的有效性。我们用经常性网络编码格子,并培训注意Encoder-解码器模型,用于N-Best Rescoring。重新调用模型的重点模型在首先达到4-5%的相对字错误率和6-8%,注意到晶格和声学特征。我们展示了救援模型,注意了格格特优于模型,以注意力为N-Best假设。我们还研究了不同的方法来纳入格子编码器中的晶格重量,并展示他们对N-Best Rescoring的重要性。
translated by 谷歌翻译
语言识别对于自动语音识别(ASR)中的许多下游任务至关重要,并且有益于将多语言端到端的ASR集成为附加任务。在本文中,我们建议通过集成每帧语言标识符(LID)预测器来修改基于层压编码器的复发神经网络传感器(RNN-T)模型的结构。带有级联编码器的RNN-T可以使用不右键的第一通用解码来实现较低延迟的流动ASR,并使用二频道解码使用更长的右文本实现较低的单词错误率(WERS)。通过利用当前文章中的这种差异和统计池的流传输实现,该建议的方法可以实现准确的流盖预测,而几乎没有额外的测试时间成本。语音搜索数据集的实验结果具有9个语言语言位置,表明所提出的方法平均达到96.2%的盖子预测准确性,而与输入中的Oracle盖相同的二次通用方法。
translated by 谷歌翻译
最近,基于注意的编码器 - 解码器(AED)模型对多个任务的端到端自动语音识别(ASR)显示了高性能。在此类模型中解决了过度控制,本文介绍了轻松关注的概念,这是一种简单地逐渐注入对训练期间对编码器 - 解码器注意重量的统一分配,其易于用两行代码实现。我们调查轻松关注跨不同AED模型架构和两个突出的ASR任务,华尔街日志(WSJ)和LibRisPeech的影响。我们发现,在用外部语言模型解码时,随着宽松的注意力训练的变压器始终如一地始终如一地遵循标准基线模型。在WSJ中,我们为基于变压器的端到端语音识别设置了一个新的基准,以3.65%的单词错误率,最优于13.1%的相对状态,同时仅引入单个HyperParameter。
translated by 谷歌翻译
设备的端到端(E2E)模型已显示出对质量和延迟的英语语音搜索任务的常规模型的改进。 E2E模型还显示了多语言自动语音识别(ASR)的有希望的结果。在本文中,我们将以前的容量解决方案扩展到流应用程序,并提出流媒体多语言E2E ASR系统,该系统在设备上完全运行,质量和延迟与单个单语言模型相当。为了实现这一目标,我们提出了一个编码器端量模型和一个终端(EOU)联合层,以提高质量和延迟权衡。我们的系统以语言不可知论的方式构建,允许它实时支持本条件的代码切换。为了解决大型模型的可行性问题,我们进行了设备分析,并用最近开发的嵌入解码器代替了耗时的LSTM解码器。通过这些更改,我们设法在不到实时的时间内在移动设备上运行了这样的系统。
translated by 谷歌翻译
最近,语音界正在看到从基于深神经网络的混合模型移动到自动语音识别(ASR)的端到端(E2E)建模的显着趋势。虽然E2E模型在大多数基准测试中实现最先进的,但在ASR精度方面,混合模型仍然在当前的大部分商业ASR系统中使用。有很多实际的因素会影响生产模型部署决定。传统的混合模型,用于数十年的生产优化,通常擅长这些因素。在不为所有这些因素提供优异的解决方案,E2E模型很难被广泛商业化。在本文中,我们将概述最近的E2E模型的进步,专注于解决行业视角的挑战技术。
translated by 谷歌翻译
口语理解(SLU)系统提取文本成绩单和语义与意图和插槽相关的语言。 SLU系统通常由(1)自动语音识别(ASR)模块组成,(2)接口来自ASR相关输出的接口模块,以及(3)自然语言理解(NLU)模块。 SLU系统中的接口随附文本转录或更丰富的信息(例如从ASR到NLU)的信息。在本文中,我们研究界面如何影响与口语理解的联合培训。最值得注意的是,我们在公开可用的50小时SLURP数据集中获得了最新结果。我们首先利用通过文本界面连接的大型ASR和NLU模型,然后通过序列损耗函数共同训练这两个模型。对于未利用预位模型的场景,使用更丰富的神经界面通过联合序列损失训练获得了最佳结果。最后,我们显示了利用预期模型随培训数据规模增加的总体减少影响。
translated by 谷歌翻译
在本文中,我们提出了一种新的双通方法来统一一个模型中的流和非流媒体端到端(E2E)语音识别。我们的型号采用混合CTC /注意架构,其中编码器中的构装层被修改。我们提出了一种基于动态的块的注意力策略,以允许任意右上下文长度。在推理时间,CTC解码器以流式方式生成n最佳假设。只有更改块大小,可以轻松控制推理延迟。然后,CTC假设被注意力解码器重新筛选以获得最终结果。这种有效的备用过程导致句子级延迟非常小。我们在开放的170小时Aishell-1数据集上的实验表明,所提出的方法可以简单有效地统一流和非流化模型。在Aishell-1测试集上,与标准的非流式变压器相比,我们的统一模型在非流式ASR中实现了5.60%的相对字符错误率(CER)减少。同一模型在流式ASR系统中实现了5.42%的CER,640ms延迟。
translated by 谷歌翻译
在启用语音的应用程序中,一个预定的热词在同时用来激活设备以便进行查询。 toavoid重复一个热词,我们提出了一个端到端的流(E2E)打算查询检测器,该查询检测器识别向设备指向的发音,并滤除针对设备的其他发出内容。提出的方法将预期的查询检测器置于E2E模型中,该模型将语音识别的不同组件折叠成一个神经网络。E2E对台面解码和预期的查询检测进行建模,也使我们可以基于早期的部分偏置检测结果, ,这对于减少潜伏期和使系统响应很重要。我们证明,与独立的预期检测器相比,检测准确性和600个MSLATENCE的相对相对改善的相对提高一级误差率(EER)的相对提高了22%。在我们的实验中,提出的模型检测用户正在用用户开始讲话后,用8.7%的Eerwithin与设备进行对话。
translated by 谷歌翻译
Recognizing a word shortly after it is spoken is an important requirement for automatic speech recognition (ASR) systems in real-world scenarios. As a result, a large body of work on streaming audio-only ASR models has been presented in the literature. However, streaming audio-visual automatic speech recognition (AV-ASR) has received little attention in earlier works. In this work, we propose a streaming AV-ASR system based on a hybrid connectionist temporal classification (CTC)/attention neural network architecture. The audio and the visual encoder neural networks are both based on the conformer architecture, which is made streamable using chunk-wise self-attention (CSA) and causal convolution. Streaming recognition with a decoder neural network is realized by using the triggered attention technique, which performs time-synchronous decoding with joint CTC/attention scoring. For frame-level ASR criteria, such as CTC, a synchronized response from the audio and visual encoders is critical for a joint AV decision making process. In this work, we propose a novel alignment regularization technique that promotes synchronization of the audio and visual encoder, which in turn results in better word error rates (WERs) at all SNR levels for streaming and offline AV-ASR models. The proposed AV-ASR model achieves WERs of 2.0% and 2.6% on the Lip Reading Sentences 3 (LRS3) dataset in an offline and online setup, respectively, which both present state-of-the-art results when no external training data are used.
translated by 谷歌翻译
常规的自动语音识别系统不会产生标点符号,这对于语音识别结果的可读性很重要。随后的自然语言处理任务(例如机器翻译)也需要它们。标点符号预测模型上有许多作品将标点符号插入语音识别结果中作为后处理。但是,这些研究并未利用声学信息进行标点符号预测,并且直接受语音识别错误的影响。在这项研究中,我们提出了一个端到端模型,该模型将语音作为输入并输出标点的文本。在使用声学信息时,该模型有望在语音识别错误方面可靠地预测标点符号。我们还建议使用辅助损失,以使用中间层和未插入文本的输出来训练模型。通过实验,我们将提出的模型的性能与级联系统的性能进行比较。所提出的模型比级联系统获得更高的标点符号预测准确性,而无需牺牲语音识别错误率。还证明,使用中间输出针对未插入文本的多任务学习有效。此外,与级联系统相比,提出的模型仅具有约1/7的参数。
translated by 谷歌翻译
Recently, RNN-Transducers have achieved remarkable results on various automatic speech recognition tasks. However, lattice-free sequence discriminative training methods, which obtain superior performance in hybrid modes, are rarely investigated in RNN-Transducers. In this work, we propose three lattice-free training objectives, namely lattice-free maximum mutual information, lattice-free segment-level minimum Bayes risk, and lattice-free minimum Bayes risk, which are used for the final posterior output of the phoneme-based neural transducer with a limited context dependency. Compared to criteria using N-best lists, lattice-free methods eliminate the decoding step for hypotheses generation during training, which leads to more efficient training. Experimental results show that lattice-free methods gain up to 6.5% relative improvement in word error rate compared to a sequence-level cross-entropy trained model. Compared to the N-best-list based minimum Bayes risk objectives, lattice-free methods gain 40% - 70% relative training time speedup with a small degradation in performance.
translated by 谷歌翻译
Existing training criteria in automatic speech recognition(ASR) permit the model to freely explore more than one time alignments between the feature and label sequences. In this paper, we use entropy to measure a model's uncertainty, i.e. how it chooses to distribute the probability mass over the set of allowed alignments. Furthermore, we evaluate the effect of entropy regularization in encouraging the model to distribute the probability mass only on a smaller subset of allowed alignments. Experiments show that entropy regularization enables a much simpler decoding method without sacrificing word error rate, and provides better time alignment quality.
translated by 谷歌翻译
End-to-end speech recognition models trained using joint Connectionist Temporal Classification (CTC)-Attention loss have gained popularity recently. In these models, a non-autoregressive CTC decoder is often used at inference time due to its speed and simplicity. However, such models are hard to personalize because of their conditional independence assumption that prevents output tokens from previous time steps to influence future predictions. To tackle this, we propose a novel two-way approach that first biases the encoder with attention over a predefined list of rare long-tail and out-of-vocabulary (OOV) words and then uses dynamic boosting and phone alignment network during decoding to further bias the subword predictions. We evaluate our approach on open-source VoxPopuli and in-house medical datasets to showcase a 60% improvement in F1 score on domain-specific rare words over a strong CTC baseline.
translated by 谷歌翻译
最近,我们提供了Wenet,这是一种面向生产的端到端语音识别工具包,它引入了统一的两通道(U2)框架和内置运行时,以解决单个中的流和非流传输模式。模型。为了进一步提高ASR性能并促进各种生产要求,在本文中,我们提出了Wenet 2.0,并提供四个重要的更新。 (1)我们提出了U2 ++,这是一个带有双向注意解码器的统一的两次通行框架,其中包括通过左右注意力解码器的未来上下文信息,以提高共享编码器的代表性和在夺回阶段的表现。 (2)我们将基于N-Gram的语言模型和基于WFST的解码器引入WENET 2.0,从而促进了在生产方案中使用丰富的文本数据。 (3)我们设计了一个统一的上下文偏见框架,该框架利用特定于用户的上下文(例如联系人列表)为生产提供快速适应能力,并提高了使用LM和没有LM场景的ASR准确性。 (4)我们设计了一个统一的IO,以支持大规模数据进行有效的模型培训。总而言之,全新的WENET 2.0可在各种Corpora上的原始WENET上取得高达10 \%的相对识别性能提高,并提供了一些重要的以生产为导向的功能。
translated by 谷歌翻译
已知历史和未来的上下文信息对于准确的声学建模很重要。但是,获取未来的上下文会带来流式ASR的延迟。在本文中,我们提出了一个新的框架 - 块,模拟未来的上下文和解码(Cuside)以进行流语言识别。引入了一个新的仿真模块,以递归地模拟未来的上下文帧,而无需等待未来的上下文。使用自我监督的损失与ASR模型共同训练模拟模块;ASR模型通过通常的ASR损失(例如我们实验中使用的CTC-CRF)进行了优化。实验表明,与使用真实的未来框架作为正确的上下文相比,使用模拟的未来上下文可以大大降低延迟,同时保持识别精度。使用Cuside,我们在Aishell-1数据集上获得了新的最新流媒体ASR结果。
translated by 谷歌翻译
The network architecture of end-to-end (E2E) automatic speech recognition (ASR) can be classified into several models, including connectionist temporal classification (CTC), recurrent neural network transducer (RNN-T), attention mechanism, and non-autoregressive mask-predict models. Since each of these network architectures has pros and cons, a typical use case is to switch these separate models depending on the application requirement, resulting in the increased overhead of maintaining all models. Several methods for integrating two of these complementary models to mitigate the overhead issue have been proposed; however, if we integrate more models, we will further benefit from these complementary models and realize broader applications with a single system. This paper proposes four-decoder joint modeling (4D) of CTC, attention, RNN-T, and mask-predict, which has the following three advantages: 1) The four decoders are jointly trained so that they can be easily switched depending on the application scenarios. 2) Joint training may bring model regularization and improve the model robustness thanks to their complementary properties. 3) Novel one-pass joint decoding methods using CTC, attention, and RNN-T further improves the performance. The experimental results showed that the proposed model consistently reduced the WER.
translated by 谷歌翻译