语言识别对于自动语音识别(ASR)中的许多下游任务至关重要,并且有益于将多语言端到端的ASR集成为附加任务。在本文中,我们建议通过集成每帧语言标识符(LID)预测器来修改基于层压编码器的复发神经网络传感器(RNN-T)模型的结构。带有级联编码器的RNN-T可以使用不右键的第一通用解码来实现较低延迟的流动ASR,并使用二频道解码使用更长的右文本实现较低的单词错误率(WERS)。通过利用当前文章中的这种差异和统计池的流传输实现,该建议的方法可以实现准确的流盖预测,而几乎没有额外的测试时间成本。语音搜索数据集的实验结果具有9个语言语言位置,表明所提出的方法平均达到96.2%的盖子预测准确性,而与输入中的Oracle盖相同的二次通用方法。
translated by 谷歌翻译
设备的端到端(E2E)模型已显示出对质量和延迟的英语语音搜索任务的常规模型的改进。 E2E模型还显示了多语言自动语音识别(ASR)的有希望的结果。在本文中,我们将以前的容量解决方案扩展到流应用程序,并提出流媒体多语言E2E ASR系统,该系统在设备上完全运行,质量和延迟与单个单语言模型相当。为了实现这一目标,我们提出了一个编码器端量模型和一个终端(EOU)联合层,以提高质量和延迟权衡。我们的系统以语言不可知论的方式构建,允许它实时支持本条件的代码切换。为了解决大型模型的可行性问题,我们进行了设备分析,并用最近开发的嵌入解码器代替了耗时的LSTM解码器。通过这些更改,我们设法在不到实时的时间内在移动设备上运行了这样的系统。
translated by 谷歌翻译
We explore unifying a neural segmenter with two-pass cascaded encoder ASR into a single model. A key challenge is allowing the segmenter (which runs in real-time, synchronously with the decoder) to finalize the 2nd pass (which runs 900 ms behind real-time) without introducing user-perceived latency or deletion errors during inference. We propose a design where the neural segmenter is integrated with the causal 1st pass decoder to emit a end-of-segment (EOS) signal in real-time. The EOS signal is then used to finalize the non-causal 2nd pass. We experiment with different ways to finalize the 2nd pass, and find that a novel dummy frame injection strategy allows for simultaneous high quality 2nd pass results and low finalization latency. On a real-world long-form captioning task (YouTube), we achieve 2.4% relative WER and 140 ms EOS latency gains over a baseline VAD-based segmenter with the same cascaded encoder.
translated by 谷歌翻译
在本文中,我们提出了一个动态的级联编码器自动语音识别(ASR)模型,该模型统一了不同部署方案的模型。此外,该模型可以显着降低模型尺寸和功耗而不会损失质量。也就是说,使用动态级联编码器模型,我们探索了三种技术,以最大程度地提高每个模型大小的性能:1)在共享编码器时为每个子模型使用单独的解码器;2)使用漏斗 - 提高编码器效率;3)平衡因果关系的大小,以提高质量和适合部署限制。总体而言,与基线级联编码器模型相比,拟议的大中等模型的尺寸较小30%,并将功耗降低了33%。统一大型,中和小型模型的三重大小模型可实现37%的总尺寸减少,而质量损失最小,同时大大减少了拥有单独模型的工程工作。
translated by 谷歌翻译
在启用语音的应用程序中,一个预定的热词在同时用来激活设备以便进行查询。 toavoid重复一个热词,我们提出了一个端到端的流(E2E)打算查询检测器,该查询检测器识别向设备指向的发音,并滤除针对设备的其他发出内容。提出的方法将预期的查询检测器置于E2E模型中,该模型将语音识别的不同组件折叠成一个神经网络。E2E对台面解码和预期的查询检测进行建模,也使我们可以基于早期的部分偏置检测结果, ,这对于减少潜伏期和使系统响应很重要。我们证明,与独立的预期检测器相比,检测准确性和600个MSLATENCE的相对相对改善的相对提高一级误差率(EER)的相对提高了22%。在我们的实验中,提出的模型检测用户正在用用户开始讲话后,用8.7%的Eerwithin与设备进行对话。
translated by 谷歌翻译
最近,语音界正在看到从基于深神经网络的混合模型移动到自动语音识别(ASR)的端到端(E2E)建模的显着趋势。虽然E2E模型在大多数基准测试中实现最先进的,但在ASR精度方面,混合模型仍然在当前的大部分商业ASR系统中使用。有很多实际的因素会影响生产模型部署决定。传统的混合模型,用于数十年的生产优化,通常擅长这些因素。在不为所有这些因素提供优异的解决方案,E2E模型很难被广泛商业化。在本文中,我们将概述最近的E2E模型的进步,专注于解决行业视角的挑战技术。
translated by 谷歌翻译
声学和语言特征是口语识别(LID)任务的重要提示。最近的高级盖系统主要使用缺乏明确语言特征编码的声学特征。在本文中,我们通过将RNN换能器模型集成到语言嵌入框架中,提出了一种基于换能器的新型语言嵌入方法,用于盖子任务。从RNN传感器的语言表示能力的优势中受益,该方法可以利用语音感知的声学特征和盖子任务的明确语言特征。实验是在大规模的多语言Librispeech和Voxlingua107数据集上进行的。实验结果表明,所提出的方法显着提高了盖子任务的性能,分别对内域和跨域数据集的相对改善为12%至59%和16%至24%。
translated by 谷歌翻译
In this paper, we introduce our work of building a Streaming Multilingual Speech Model (SM2), which can transcribe or translate multiple spoken languages into texts of the target language. The backbone of SM2 is Transformer Transducer, which has high streaming capability. Instead of human labeled speech translation (ST) data, SM2 models are trained using weakly supervised data generated by converting the transcriptions in speech recognition corpora with a machine translation service. With 351 thousand hours of anonymized speech training data from 25 languages, SM2 models achieve comparable or even better ST quality than some recent popular large-scale non-streaming speech models. More importantly, we show that SM2 has the truly zero-shot capability when expanding to new target languages, yielding high quality ST results for {source-speech, target-text} pairs that are not seen during training.
translated by 谷歌翻译
End-to-end formulation of automatic speech recognition (ASR) and speech translation (ST) makes it easy to use a single model for both multilingual ASR and many-to-many ST. In this paper, we propose streaming language-agnostic multilingual speech recognition and translation using neural transducers (LAMASSU). To enable multilingual text generation in LAMASSU, we conduct a systematic comparison between specified and unified prediction and joint networks. We leverage a language-agnostic multilingual encoder that substantially outperforms shared encoders. To enhance LAMASSU, we propose to feed target LID to encoders. We also apply connectionist temporal classification regularization to transducer training. Experimental results show that LAMASSU not only drastically reduces the model size but also outperforms monolingual ASR and bilingual ST models.
translated by 谷歌翻译
由于无标记的文本和语音数据的广泛可用性,最近基于仅音频数据的仅文本和半监督培训已广受欢迎。在这项工作中,我们建议将纯文本和半监督培训纳入基于注意力的审议模型。通过将纯文本数据合并到培训审议文本编码器的变压器(BERT)的双向编码器表示中,以及使用联合声学和文本解码器(JATD)和半诉讼程序的大规模文本到语音和纯音频和音频话语培训,与基线审议相比,我们的各种任务减少了4%-12%。与最先进的语言模型(LM)纠正方法相比,审议模型将Google语音搜索降低了11%。我们表明,与具有合理的终端潜伏期的最先进的LM委员相比,审议模型还获得了正面的人类并排评估。
translated by 谷歌翻译
已知历史和未来的上下文信息对于准确的声学建模很重要。但是,获取未来的上下文会带来流式ASR的延迟。在本文中,我们提出了一个新的框架 - 块,模拟未来的上下文和解码(Cuside)以进行流语言识别。引入了一个新的仿真模块,以递归地模拟未来的上下文帧,而无需等待未来的上下文。使用自我监督的损失与ASR模型共同训练模拟模块;ASR模型通过通常的ASR损失(例如我们实验中使用的CTC-CRF)进行了优化。实验表明,与使用真实的未来框架作为正确的上下文相比,使用模拟的未来上下文可以大大降低延迟,同时保持识别精度。使用Cuside,我们在Aishell-1数据集上获得了新的最新流媒体ASR结果。
translated by 谷歌翻译
神经传感器已被广泛用于自动语音识别(ASR)。在本文中,我们将其介绍给流端到端语音翻译(ST),该语音旨在将音频信号直接转换为其他语言的文本。与执行ASR之后的级联ST相比,基于文本的机器翻译(MT),拟议的变压器传感器(TT)基于ST模型大大降低了推理潜伏期,利用语音信息并避免了从ASR到MT的错误传播。为了提高建模能力,我们提出了TT中联合网络的注意集合。此外,我们将基于TT的ST扩展到多语言ST,该ST同时生成多种语言的文本。大规模5万(k)小时的伪标记训练集的实验结果表明,基于TT的ST不仅显着减少了推理时间,而且还优于非流式级联ST进行英语 - 德语翻译。
translated by 谷歌翻译
流动自动语音识别(ASR)模型更为流行,适合基于语音的应用程序。但是,非流入模型在查看整个音频上下文时提供了更好的性能。为了利用语音搜索等流媒体应用程序中非流游模型的好处,它通常在第二通过重新评分模式下使用。使用蒸汽模型生成的候选假设是使用非流程模型重新评分的。在这项工作中,我们在独立和重新评分模式的Flipkart语音搜索任务上评估了基于注意力的端到端ASR模型。这些模型基于收听拼写(LAS)编码器编码器架构。我们基于LSTM,变压器和构象异构体进行不同的编码器变化。我们将这些模型的延迟要求与它们的性能进行比较。总体而言,我们表明,变压器模型提供了可接受的延迟要求。我们报告的相对改善约为16%,第二次通过LAS重新评分,延迟开销低于5ms。我们还强调了CNN前端使用变压器体系结构的重要性,以达到可比的单词错误率(WER)。此外,我们观察到,在第二次通过重新评分模式下,所有编码器都提供了相似的好处,而在独立文本生成模式下,性能差异很明显。
translated by 谷歌翻译
我们提出了一种简单有效的自我监督学习方法,以供语音识别。该方法以随机预测量化器生成的离散标签的形式学习了一个模型,以预测蒙版的语音信号。尤其是量化器的语音输入带有随机初始化的矩阵,并在随机限制的代码簿中进行最近的邻居查找。在自我监督的学习过程中,矩阵和密码簿均未更新。由于未对随机预测量化器进行训练,并与语音识别模型分开,因此该设计使该方法具有灵活性,并且与通用语音识别体系结构兼容。在LibrisPeech上,我们的方法与以前的工作相比,使用非流式模型获得了与以前的工作相似的单词率,并且比WAV2VEC 2.0和WAP2VEC 2.0和w2v-bert提供了较低的单词率率和延迟。在多语言任务上,该方法还提供了与WAV2VEC 2.0和W2V-bert的显着改进。
translated by 谷歌翻译
在长时间到数小时的长时间话语中,提高端到端ASR模型的性能是语音识别的持续挑战。一个常见的解决方案是使用单独的语音活动检测器(VAD)事先将音频分割,该声音活动检测器(VAD)纯粹基于声音/非语音信息来决定段边界位置。但是,VAD细分器可能是现实世界语音的最佳选择,例如,一个完整的句子应该整体上可能包含犹豫(“设置... 5点钟的警报”) 。我们建议用端到端的ASR模型替换VAD,能够以流方式预测段边界,从而使细分决定不仅在更好的声学特征上,而且还可以在解码文本的语义特征上进行,并具有可忽略的额外功能计算。在现实世界长音频(YouTube)的实验中,长度长达30分钟,我们证明了相对改善的8.5%,并且与VAD段基线相比,中位段延迟潜伏期的中位数延迟延迟减少了250毫秒。 - ART构象体RNN-T模型。
translated by 谷歌翻译
This paper proposes a modification to RNN-Transducer (RNN-T) models for automatic speech recognition (ASR). In standard RNN-T, the emission of a blank symbol consumes exactly one input frame; in our proposed method, we introduce additional blank symbols, which consume two or more input frames when emitted. We refer to the added symbols as big blanks, and the method multi-blank RNN-T. For training multi-blank RNN-Ts, we propose a novel logit under-normalization method in order to prioritize emissions of big blanks. With experiments on multiple languages and datasets, we show that multi-blank RNN-T methods could bring relative speedups of over +90%/+139% to model inference for English Librispeech and German Multilingual Librispeech datasets, respectively. The multi-blank RNN-T method also improves ASR accuracy consistently. We will release our implementation of the method in the NeMo (\url{https://github.com/NVIDIA/NeMo}) toolkit.
translated by 谷歌翻译
专家(MOE)的稀疏门控混合物可以用少量计算复杂性来放大网络容量。在这项工作中,我们调查多语言自动语音识别(ASR)网络如何用简单的路由算法进行缩放,以便实现更好的准确性。更具体地,我们将稀疏门的MOE技术应用于两种网络:序列到序列变压器(S2S-T)和变压器换能器(T-T)。我们通过一组关于多语言数据的一组ASR实验证明了MOE网络可以分别使用S2S-T和T-T将相对字误差率降低16.5 \%和4.7 \%。此外,我们在各种条件下彻底调查了MOE对T-T架构上的T-T架构的影响:流模式,非流模式,使用语言ID和带有MOE的标签解码器。
translated by 谷歌翻译
在本文中,我们提出了一种新的双通方法来统一一个模型中的流和非流媒体端到端(E2E)语音识别。我们的型号采用混合CTC /注意架构,其中编码器中的构装层被修改。我们提出了一种基于动态的块的注意力策略,以允许任意右上下文长度。在推理时间,CTC解码器以流式方式生成n最佳假设。只有更改块大小,可以轻松控制推理延迟。然后,CTC假设被注意力解码器重新筛选以获得最终结果。这种有效的备用过程导致句子级延迟非常小。我们在开放的170小时Aishell-1数据集上的实验表明,所提出的方法可以简单有效地统一流和非流化模型。在Aishell-1测试集上,与标准的非流式变压器相比,我们的统一模型在非流式ASR中实现了5.60%的相对字符错误率(CER)减少。同一模型在流式ASR系统中实现了5.42%的CER,640ms延迟。
translated by 谷歌翻译
本文介绍了一个新型的流媒体自动语音识别(ASR)框架,用于由带有任意几何形状的遥远麦克风阵列捕获的多对话者重叠语音。我们的名为T-Sot-VA的框架在独立开发了两种最近的技术上。基于令牌级别的序列化输出训练(T-SOT),数量几何形状 - 反应连续的语音分离或VARARRARY和流媒体多对话者ASR。为了结合两种技术的最佳,我们新设计了一个基于T-SOT的ASR模型,该模型基于Vararray的两个分离的语音信号生成序列化的多对话者转录。我们还为这种ASR模型提出了一种预训练方案,我们基于单膜单键式ASR训练数据来模拟Vararray的输出信号。使用AMI会议语料库的对话转录实验表明,基于提议的框架的系统大大优于常规的框架。我们的系统分别在保留流媒体推理能力的同时,在多远离微米频道设置中分别实现了AMI开发和评估集的最新单词错误率为13.7%和15.5%。
translated by 谷歌翻译
Direct speech-to-speech translation (S2ST), in which all components can be optimized jointly, is advantageous over cascaded approaches to achieve fast inference with a simplified pipeline. We present a novel two-pass direct S2ST architecture, {\textit UnitY}, which first generates textual representations and predicts discrete acoustic units subsequently. We enhance the model performance by subword prediction in the first-pass decoder, advanced two-pass decoder architecture design and search strategy, and better training regularization. To leverage large amounts of unlabeled text data, we pre-train the first-pass text decoder based on the self-supervised denoising auto-encoding task. Experimental evaluations on benchmark datasets at various data scales demonstrate that UnitY outperforms a single-pass speech-to-unit translation model by 2.5-4.2 ASR-BLEU with 2.83x decoding speed-up. We show that the proposed methods boost the performance even when predicting spectrogram in the second pass. However, predicting discrete units achieves 2.51x decoding speed-up compared to that case.
translated by 谷歌翻译