Connectionist时间分类(CTC)的模型很有吸引力,因为它们在自动语音识别(ASR)中的快速推断。语言模型(LM)集成方法(例如浅融合和重新恢复)可以通过利用文本语料库的知识来提高基于CTC的ASR的识别准确性。但是,它们大大减慢了CTC的推论。在这项研究中,我们建议提炼基于CTC的ASR的BERT知识,从而扩展了我们先前针对基于注意的ASR的研究。基于CTC的ASR在训练过程中学习了BERT的知识,并且在测试过程中不使用BERT,从而维持CTC的快速推断。与基于注意力的模型不同,基于CTC的模型做出了框架级预测,因此它们需要与BERT的令牌级预测进行蒸馏。我们建议通过计算最合理的CTC路径来获得比对。对自发日语(CSJ)和TED-LIUM2语料库的实验评估表明,我们的方法改善了基于CTC的ASR的性能,而无需推理速度成本。
translated by 谷歌翻译
连接派时间分类(CTC)的模型在自动语音识别(ASR)方面具有吸引力,因为它们的非自动性性质。为了利用仅文本数据,语言模型(LM)集成方法(例如重新纠正和浅融合)已被广泛用于CTC。但是,由于需要降低推理速度,因此他们失去了CTC的非自动性性本质。在这项研究中,我们提出了一种使用电话条件的蒙版LM(PC-MLM)的误差校正方法。在提出的方法中,掩盖了来自CTC的贪婪解码输出中的较不自信的单词令牌。然后,PC-MLM预测这些蒙版的单词令牌给定的单词和手机补充了CTC。我们进一步将其扩展到可删除的PC-MLM,以解决插入错误。由于CTC和PC-MLM均为非自动回旋模型,因此该方法可以快速LM集成。在域适应设置中对自发日本(CSJ)和TED-LIUM2语料库进行的实验评估表明,我们所提出的方法在推理速度方面优于重新逆转和浅融合,并且在CSJ上的识别准确性方面。
translated by 谷歌翻译
知识蒸馏(KD),最称为模型压缩的有效方法,旨在将更大的网络(教师)的知识转移到更小的网络(学生)。传统的KD方法通常采用以监督方式培训的教师模型,其中输出标签仅作为目标处理。我们进一步扩展了这一受监督方案,我们为KD,即Oracle老师推出了一种新型的教师模型,它利用源输入和输出标签的嵌入来提取更准确的知识来转移到学生。所提出的模型遵循变压器网络的编码器解码器注意结构,这允许模型从输出标签上参加相关信息。在三种不同的序列学习任务中进行了广泛的实验:语音识别,场景文本识别和机器翻译。从实验结果来看,我们经验证明,拟议的模型在这些任务中改善了学生,同时在教师模型的培训时间内实现了相当大的速度。
translated by 谷歌翻译
最近,语音界正在看到从基于深神经网络的混合模型移动到自动语音识别(ASR)的端到端(E2E)建模的显着趋势。虽然E2E模型在大多数基准测试中实现最先进的,但在ASR精度方面,混合模型仍然在当前的大部分商业ASR系统中使用。有很多实际的因素会影响生产模型部署决定。传统的混合模型,用于数十年的生产优化,通常擅长这些因素。在不为所有这些因素提供优异的解决方案,E2E模型很难被广泛商业化。在本文中,我们将概述最近的E2E模型的进步,专注于解决行业视角的挑战技术。
translated by 谷歌翻译
语言模型(LMS)显着提高端到端模型(E2E)模型在训练过程中很少见的单词的识别准确性,当时在浅融合或重新恢复设置中。在这项工作中,我们介绍了LMS在判别培训框架中学习混合自动回旋传感器(HAT)模型的研究,以减轻有关使用LMS的训练与推理差距。对于浅融合设置,我们在假设生成和损失计算过程中都使用LMS,而LM感知的MWER训练模型可实现10 \%的相对改进,比用标准MWER在语音搜索测试集中培训的模型相对改进,其中包含稀有单词。对于重新设置,我们学会了一个小型神经模块,以数据依赖性方式产生串联的融合权重。该模型与常规MWER训练的模型相同,但无需清除融合重量。
translated by 谷歌翻译
会话言论通常在话语水平上以松散的句法结构体现,但同时表现出连续话语的局部相干关系。事先工作已经表明,使用经常性神经网络或长短期存储器语言模型(LM)捕获较长的上下文信息可能遭受最近的偏置,而不是在远程上下文中。为了捕获词语和跨越话语之间的长期语义互动,我们提出了对话语音的自动语音识别(ASR)中语言建模的不同谈话历史融合方法。此外,引入了一种新的函数融合机制,该机制被引入熔断器并利用当前话语的声学嵌入和其相应的对话历史的语义含量以协作方式。为了塑造我们的想法,我们将ASR N-Best假设救援人员框架作为预测问题,利用BERT,一个标志性的预训练LM,作为成分车辆,以便于从给定的N最佳假设列表中选择Oracle假设。在AMI基准数据集上进行的实证实验似乎展示了我们对某些目前的线上的方法相关的可行性和功效。
translated by 谷歌翻译
End-to-end speech recognition models trained using joint Connectionist Temporal Classification (CTC)-Attention loss have gained popularity recently. In these models, a non-autoregressive CTC decoder is often used at inference time due to its speed and simplicity. However, such models are hard to personalize because of their conditional independence assumption that prevents output tokens from previous time steps to influence future predictions. To tackle this, we propose a novel two-way approach that first biases the encoder with attention over a predefined list of rare long-tail and out-of-vocabulary (OOV) words and then uses dynamic boosting and phone alignment network during decoding to further bias the subword predictions. We evaluate our approach on open-source VoxPopuli and in-house medical datasets to showcase a 60% improvement in F1 score on domain-specific rare words over a strong CTC baseline.
translated by 谷歌翻译
经常性的神经网络传感器(RNN-T)目标在建立当今最好的自动语音识别(ASR)系统中发挥着重要作用。与连接员时间分类(CTC)目标类似,RNN-T损失使用特定规则来定义生成一组对准以形成用于全汇训练的格子。但是,如果这些规则是最佳的,则在很大程度上未知,并且会导致最佳ASR结果。在这项工作中,我们介绍了一种新的传感器目标函数,它概括了RNN-T丢失来接受标签的图形表示,从而提供灵活和有效的框架来操纵训练格子,例如用于限制对齐或研究不同的转换规则。我们证明,与标准RNN-T相比,具有CTC样格子的基于传感器的ASR实现了更好的结果,同时确保了严格的单调对齐,这将允许更好地优化解码过程。例如,所提出的CTC样换能器系统对于测试 - LibrisPeech的其他条件,实现了5.9%的字误差率,相对于基于等效的RNN-T系统的提高,对应于4.8%。
translated by 谷歌翻译
在这项工作中,我们开发了新的自学习技术,具有基于注意的序列 - 序列(SEQ2Seq)模型,用于自动语音识别(ASR)。对于未筛选的语音数据,ASR系统的假设必须用作标签。然而,不完美的ASR结果使得无监督的学习难以始终如一地提高识别性能,特别是在多个强大的教师模型不可用的情况下。与传统的无监督学习方法相比,我们采用\ emph {多任务学习}(MTL)框架,其中$ N $最佳ASR假设用作每个任务的标签。通过MTL框架更新SEQ2Seq网络,以查找可以涵盖多个假设的公共表示。通过这样做,可以缓解\ emph {硬决策}错误的效果。我们首先通过在美国和英国英语演讲之间通过ASR实验证明我们的自学方法的有效性。我们的实验结果表明,与仅与美国英语数据培训的基线模型相比,我们的方法可以将英国语音数据上的WER减少14.55 \%至10.36 \%。此外,我们研究了我们提出的方法在联邦学习情景中的效果。
translated by 谷歌翻译
由于无标记的文本和语音数据的广泛可用性,最近基于仅音频数据的仅文本和半监督培训已广受欢迎。在这项工作中,我们建议将纯文本和半监督培训纳入基于注意力的审议模型。通过将纯文本数据合并到培训审议文本编码器的变压器(BERT)的双向编码器表示中,以及使用联合声学和文本解码器(JATD)和半诉讼程序的大规模文本到语音和纯音频和音频话语培训,与基线审议相比,我们的各种任务减少了4%-12%。与最先进的语言模型(LM)纠正方法相比,审议模型将Google语音搜索降低了11%。我们表明,与具有合理的终端潜伏期的最先进的LM委员相比,审议模型还获得了正面的人类并排评估。
translated by 谷歌翻译
梁搜索是端到端模型的主要ASR解码算法,生成树结构化假设。但是,最近的研究表明,通过假设合并进行解码可以通过可比或更好的性能实现更有效的搜索。但是,复发网络中的完整上下文与假设合并不兼容。我们建议在RNN传感器的预测网络中使用矢量定量的长期记忆单元(VQ-LSTM)。通过与ASR网络共同培训离散表示形式,可以积极合并假设以生成晶格。我们在总机语料库上进行的实验表明,提出的VQ RNN传感器改善了具有常规预测网络的换能器的ASR性能,同时还产生了具有相同光束尺寸的Oracle Word错误率(WER)的密集晶格。其他语言模型撤退实验还证明了拟议的晶格生成方案的有效性。
translated by 谷歌翻译
最近,自我监督的预先磨普已经实现了端到端(E2E)自动语音识别(ASR)的令人印象深刻的结果。然而,主要的序列到序列(S2S)E2E模型仍然很难充分利用自我监督的预训练方法,因为其解码器在声学表示上被调节,因此不能分开预先磨损。在本文中,我们提出了一种基于混合CTC /注意E2E模型的预磨削变压器(Preformer)S2S ASR架构,以充分利用预磨削的声学模型(AMS)和语言模型(LMS)。在我们的框架中,编码器初始化了Preprina(Wav2Vec2.0)。 Preformer在训练和推理期间利用CTC作为辅助任务。此外,我们设计了一个十字解码器(OCD),其放宽对声学表示的依赖性,以便可以用预净化的LM(DistilGPT2)初始化它。实验在Aishell-1语料库上进行,并在测试集上达到4.6±6 \%$ Character error rate(cer)。与我们的Vanilla混合CTC /注意力变压器基线相比,我们所提出的CTC /注意力的预浆料产生27亿美元的相对CER减少。据我们所知,这是第一个在S2S ASR系统中使用普里雷米和LM的第一项工作。
translated by 谷歌翻译
常规的自动语音识别系统不会产生标点符号,这对于语音识别结果的可读性很重要。随后的自然语言处理任务(例如机器翻译)也需要它们。标点符号预测模型上有许多作品将标点符号插入语音识别结果中作为后处理。但是,这些研究并未利用声学信息进行标点符号预测,并且直接受语音识别错误的影响。在这项研究中,我们提出了一个端到端模型,该模型将语音作为输入并输出标点的文本。在使用声学信息时,该模型有望在语音识别错误方面可靠地预测标点符号。我们还建议使用辅助损失,以使用中间层和未插入文本的输出来训练模型。通过实验,我们将提出的模型的性能与级联系统的性能进行比较。所提出的模型比级联系统获得更高的标点符号预测准确性,而无需牺牲语音识别错误率。还证明,使用中间输出针对未插入文本的多任务学习有效。此外,与级联系统相比,提出的模型仅具有约1/7的参数。
translated by 谷歌翻译
可以通过组合自动语音识别(ASR)和文本摘要(TS)来实现来自语音的文本摘要的语音摘要。通过这种级联方法,我们可以利用最先进的模型和大型训练数据集,用于两个子任务,即变压器和TS的ASR和双向编码器表示的变压器。但是,ASR错误直接影响级联方法的输出概要的质量。我们提出了一个级联语音摘要模型,它对ASR错误具有强大,并且利用ASR生成的多个假设来衰减摘要摘要的效果。我们调查了几个方案来组合ASR假设。首先,我们建议使用由ASR系统提供的其后部值作为基于BERT的TS系统的输入来加权的子字嵌入向量的总和。然后,我们介绍了一种更一般的方案,它使用添加到预先训练的BERT模块的关注的融合模块来对齐并组合几个ASR假设。最后,我们在How2 DataSet上执行语音摘要实验和我们将使用本文发布的新组合的基于TED的数据集。这些实验表明,通过这些方案再培训基于伯特的TS系统可以改善总结性能,并且基于注意的熔融模块特别有效。
translated by 谷歌翻译
最近,基于注意的编码器 - 解码器(AED)模型对多个任务的端到端自动语音识别(ASR)显示了高性能。在此类模型中解决了过度控制,本文介绍了轻松关注的概念,这是一种简单地逐渐注入对训练期间对编码器 - 解码器注意重量的统一分配,其易于用两行代码实现。我们调查轻松关注跨不同AED模型架构和两个突出的ASR任务,华尔街日志(WSJ)和LibRisPeech的影响。我们发现,在用外部语言模型解码时,随着宽松的注意力训练的变压器始终如一地始终如一地遵循标准基线模型。在WSJ中,我们为基于变压器的端到端语音识别设置了一个新的基准,以3.65%的单词错误率,最优于13.1%的相对状态,同时仅引入单个HyperParameter。
translated by 谷歌翻译
上下文偏见是端到端自动语音识别(ASR)系统的一项重要且具有挑战性现有方法主要包括上下文lm偏置,并将偏置编码器添加到端到端的ASR模型中。在这项工作中,我们介绍了一种新颖的方法,通过在端到端ASR系统之上添加上下文拼写校正模型来实现上下文偏见。我们将上下文信息与共享上下文编码器合并到序列到序列拼写校正模型中。我们提出的模型包括两种不同的机制:自动回旋(AR)和非自动回旋(NAR)。我们提出过滤算法来处理大尺寸的上下文列表以及性能平衡机制,以控制模型的偏置程度。我们证明所提出的模型是一种普遍的偏见解决方案,它是对域的不敏感的,可以在不同的情况下采用。实验表明,所提出的方法在ASR系统上的相对单词错误率(WER)降低多达51%,并且优于传统偏见方法。与AR溶液相比,提出的NAR模型可将模型尺寸降低43.2%,并将推断加速2.1倍。
translated by 谷歌翻译
The network architecture of end-to-end (E2E) automatic speech recognition (ASR) can be classified into several models, including connectionist temporal classification (CTC), recurrent neural network transducer (RNN-T), attention mechanism, and non-autoregressive mask-predict models. Since each of these network architectures has pros and cons, a typical use case is to switch these separate models depending on the application requirement, resulting in the increased overhead of maintaining all models. Several methods for integrating two of these complementary models to mitigate the overhead issue have been proposed; however, if we integrate more models, we will further benefit from these complementary models and realize broader applications with a single system. This paper proposes four-decoder joint modeling (4D) of CTC, attention, RNN-T, and mask-predict, which has the following three advantages: 1) The four decoders are jointly trained so that they can be easily switched depending on the application scenarios. 2) Joint training may bring model regularization and improve the model robustness thanks to their complementary properties. 3) Novel one-pass joint decoding methods using CTC, attention, and RNN-T further improves the performance. The experimental results showed that the proposed model consistently reduced the WER.
translated by 谷歌翻译
最近,蒙面的预测预训练在自我监督的学习(SSL)方面取得了显着的进展,以进行语音识别。它通常需要以无监督的方式获得的代码簿,从而使其准确和难以解释。我们提出了两种监督指导的代码书生成方法,以提高自动语音识别(ASR)的性能以及预训练效率,要么通过使用混合ASR系统来解码以生成音素级别对准(命名为PBERT),要么通过在上进行集群进行聚类。从端到端CTC模型(命名CTC聚类)提取的监督语音功能。混合动力和CTC模型均经过与微调相同的少量标记语音训练。实验表明,我们的方法对各种SSL和自我训练基准的优势具有显着优势,相对减少了17.0%。我们的预训练模型在非ASR语音任务中还显示出良好的可传递性。
translated by 谷歌翻译
Collecting sufficient labeled data for spoken language understanding (SLU) is expensive and time-consuming. Recent studies achieved promising results by using pre-trained models in low-resource scenarios. Inspired by this, we aim to ask: which (if any) pre-training strategies can improve performance across SLU benchmarks? To answer this question, we employ four types of pre-trained models and their combinations for SLU. We leverage self-supervised speech and language models (LM) pre-trained on large quantities of unpaired data to extract strong speech and text representations. We also explore using supervised models pre-trained on larger external automatic speech recognition (ASR) or SLU corpora. We conduct extensive experiments on the SLU Evaluation (SLUE) benchmark and observe self-supervised pre-trained models to be more powerful, with pre-trained LM and speech models being most beneficial for the Sentiment Analysis and Named Entity Recognition task, respectively.
translated by 谷歌翻译
格子形成了从自动语音识别系统产生的多个假设的紧凑型表示,并且已被证明可以提高与使用一个最佳假设的口语理解和语音转换等下游任务的性能。在这项工作中,我们展望了莱迪思提示在二次通过中抢救N-Best列表的有效性。我们用经常性网络编码格子,并培训注意Encoder-解码器模型,用于N-Best Rescoring。重新调用模型的重点模型在首先达到4-5%的相对字错误率和6-8%,注意到晶格和声学特征。我们展示了救援模型,注意了格格特优于模型,以注意力为N-Best假设。我们还研究了不同的方法来纳入格子编码器中的晶格重量,并展示他们对N-Best Rescoring的重要性。
translated by 谷歌翻译