增量学习是一种范式,可以通过流数据大规模构建模型构建和更新。对于端到端的自动语音识别(ASR)任务,缺乏人类注释的标签,以及需要保留模型建设政策的隐私政策,这使其成为艰巨的挑战。受这些挑战的激励,在本文中,我们使用基于云的框架为生产系统展示了从隐私保存自动语音识别(ILASR)的增量学习中的见解。我们的意思是,通过保留隐私性,对没有人类注释的短暂数据使用。该系统是用于增量/持续学习的生产LevelAsASR模型的一步,该模型提供了接近实时测试床,以在云中进行端到端ASR实验,同时遵守保留隐私的政策。我们表明,即使在没有人类注释的标签的情况下,拟议的系统也可以在六个月的新时间内显着改善生产模型(3%),而在增量学习中,较弱的监督和大批量大小。在新时期,这种改进比测试集的新单词和短语相比为20%。我们在ASR的同时进一步探讨了拥有有效的教师模型和使用大批量大小的实用性的同时,以保护隐私的增量方式展示了模型构建的有效性。
translated by 谷歌翻译
我们使用实际用户设备上的联合学习训练了一个关键字发现模型,并在部署模型以推断电话时观察到了重大改进。为了补偿在设备培训缓存中缺少的数据域,我们采用了联合联邦中心化培训。为了在没有策划标签的设备上学习,我们根据用户反馈信号制定了置信度过滤策略,用于联合蒸馏。这些技术创建了模型,可在实时A/B实验中显着改善离线评估和用户体验指标的质量指标。
translated by 谷歌翻译
我们总结了使用巨大的自动语音识别(ASR)模型的大量努力的结果,该模型使用包含大约一百万小时音频的大型,多样的未标记数据集进行了预训练。我们发现,即使对于拥有数万个小时的标记数据的非常大的任务,预训练,自我培训和扩大模型大小的组合也大大提高了数据效率。特别是,在具有34K小时标记数据的ASR任务上,通过微调80亿个参数预先训练的构象异构体模型,我们可以匹配最先进的(SOTA)性能(SOTA)的性能,只有3%的培训数据和通过完整的训练集可以显着改善SOTA。我们还报告了从使用大型预训练和自我训练的模型来完成一系列下游任务所获得的普遍利益,这些任务涵盖了广泛的语音域,并涵盖了多个数据集大小的大小,包括在许多人中获得SOTA性能公共基准。此外,我们利用预先训练的网络的学会表示,在非ASR任务上实现SOTA结果。
translated by 谷歌翻译
语音模型的适应对于处理服务器端代理培训数据和用户本地设备上接收到的实际数据之间的差异至关重要。通过使用联合学习(FL),我们引入了一种有效的方法,以在私人设备上连续调整神经网络语言模型(NNLMS),并具有自动语音识别(ASR)的应用。为了解决在设备培训语料库中的潜在语音转录错误,我们对比较利用令牌置信度得分的各种策略进行了实证研究,以提高FL环境中的NNLM质量。实验表明,与NO模型适应相比,所提出的方法分别在两个语音评估数据集上分别降低了相对2.6%和10.8%的单词错误率(WER)。我们还提供分析,以评估我们提出的程序的隐私保证。
translated by 谷歌翻译
最先进的自动语音识别(ASR)系统经过数以万计的标记语音数据训练。人类转录很昂贵且耗时。诸如转录的质量和一致性之类的因素可以极大地影响使用这些数据训练的ASR模型的性能。在本文中,我们表明我们可以通过利用最近的自学和半监督学习技术来培训强大的教师模型来生产高质量的伪标签。具体来说,我们仅使用(无监督/监督培训)和迭代嘈杂的学生教师培训来培训6亿个参数双向教师模型。该模型在语音搜索任务上达到了4.0%的单词错误率(WER),比基线相对好11.1%。我们进一步表明,通过使用这种强大的教师模型来生成用于训练的高质量伪标签,与使用人类标签相比,流媒体模型可以实现13.6%的相对减少(5.9%至5.1%)。
translated by 谷歌翻译
联合学习(FL)启用了分布式系统中用户设备(客户端)上的最新自动语音识别(ASR)模型,从而阻止将原始用户数据传输到中央服务器。 ASR实用采用实践采用面临的主要挑战是在客户身上获得地面真相标签。现有的方法依靠客户手动抄录演讲,这对于获得大型培训语料库是不切实际的。一个有希望的替代方法是使用半/自制的学习方法来利用未标记的用户数据。为此,我们提出了Fednst,这是一种使用私人和未标记的用户数据训练分布式ASR模型的新颖方法。我们探索Fednst的各个方面,例如具有不同比例的标记和未标记数据的培训模型,并评估1173个模拟客户端的建议方法。在LibrisPeech上评估Fednst,其中960个小时的语音数据被平均分为服务器(标签)和客户端(未标记)数据,显示了仅对服务器数据训练的监督基线,相对单词错误率降低}(WERR)22.5%。
translated by 谷歌翻译
最近,蒙面的预测预训练在自我监督的学习(SSL)方面取得了显着的进展,以进行语音识别。它通常需要以无监督的方式获得的代码簿,从而使其准确和难以解释。我们提出了两种监督指导的代码书生成方法,以提高自动语音识别(ASR)的性能以及预训练效率,要么通过使用混合ASR系统来解码以生成音素级别对准(命名为PBERT),要么通过在上进行集群进行聚类。从端到端CTC模型(命名CTC聚类)提取的监督语音功能。混合动力和CTC模型均经过与微调相同的少量标记语音训练。实验表明,我们的方法对各种SSL和自我训练基准的优势具有显着优势,相对减少了17.0%。我们的预训练模型在非ASR语音任务中还显示出良好的可传递性。
translated by 谷歌翻译
在本文中,我们提出了一种三阶段培训方法,提高低资源语言的语音识别准确性。我们探索并提出了一种有效的技术组合,如传输学习,编码器冻结,使用文本到语音(TTS)和半监督学习(SSL)。为了提高低资源意大利ASR的准确性,我们可以分别利用训练有素的英语模型,未标记的文本语料库和未标记的音频语料库,分别分别使用传输学习,TTS增强和SSL。在第一阶段,我们使用从训练有素的英语模型的转移学习。这主要有助于学习来自资源丰富的语言的声学信息。该阶段通过基线减少约24%的相对字错误率(WER)。在第二阶段,我们通过TTS数据增强利用未标记的文本数据来将语言信息合并到模型中。我们还在此阶段探索冻结声学编码器。 TTS数据增强有助于我们进一步减少〜21%相对〜21%。最后,在第三阶段,我们通过使用来自未标记的音频数据的SSL来减少另一个4%的相对。总体而言,我们的双通话识别系统在第一次通过的单调散文注意力(Mocha)和第二次通过的全部关注,相对于基线,减少了〜42%的WER。
translated by 谷歌翻译
我们利用Libri-Light数据集的未标记音频来获得半监督学习中最新的发展的最新发展,以获得自动语音识别的最新结果。更确切地说,我们使用使用WAV2VEC 2.0预训练的巨型构象模型进行了嘈杂的学生培训,并使用巨型构象模型进行了训练。通过这样做,我们能够在Librispeech测试/测试中获得1.4%/2.6%的单词率率(WERS),而目前的最新设备为1.7%/3.3%。
translated by 谷歌翻译
Self-supervised approaches for speech representation learning are challenged by three unique problems: (1) there are multiple sound units in each input utterance, (2) there is no lexicon of input sound units during the pre-training phase, and (3) sound units have variable lengths with no explicit segmentation. To deal with these three problems, we propose the Hidden-Unit BERT (HuBERT) approach for self-supervised speech representation learning, which utilizes an offline clustering step to provide aligned target labels for a BERT-like prediction loss. A key ingredient of our approach is applying the prediction loss over the masked regions only, which forces the model to learn a combined acoustic and language model over the continuous inputs. HuBERT relies primarily on the consistency of the unsupervised clustering step rather than the intrinsic quality of the assigned cluster labels. Starting with a simple k-means teacher of 100 clusters, and using two iterations of clustering, the HuBERT model either matches or improves upon the state-ofthe-art wav2vec 2.0 performance on the Librispeech (960h) and Libri-light (60,000h) benchmarks with 10min, 1h, 10h, 100h, and 960h fine-tuning subsets. Using a 1B parameter model, HuBERT shows up to 19% and 13% relative WER reduction on the more challenging dev-other and test-other evaluation subsets. 1
translated by 谷歌翻译
至于其他形式的AI,最近已经对不同用户同伙的性能差异进行了研究。在语音识别方面实现公平性的一种方法是(1)确定遭受低标准表现的说话者队列,以及(2)采取针对发现同类的公平性缓解措施。在本文中,我们使用产品规模的AI助手语音识别系统的数据报告了发现和缓解性能差异的初步发现。我们将基于地理和人口统计学信息的队列发现与一种更可扩展的方法进行比较,该方法将使用扬声器嵌入技术分组没有人类标签的说话者。为了缓解公平性,我们发现对代表性不足的队列的过度采样,以及通过其他输入变量对扬声器队列的建模,从而减少了表现和底部性能队列之间的差距,而不会降低整体识别精度。
translated by 谷歌翻译
在这项工作中,我们开发了新的自学习技术,具有基于注意的序列 - 序列(SEQ2Seq)模型,用于自动语音识别(ASR)。对于未筛选的语音数据,ASR系统的假设必须用作标签。然而,不完美的ASR结果使得无监督的学习难以始终如一地提高识别性能,特别是在多个强大的教师模型不可用的情况下。与传统的无监督学习方法相比,我们采用\ emph {多任务学习}(MTL)框架,其中$ N $最佳ASR假设用作每个任务的标签。通过MTL框架更新SEQ2Seq网络,以查找可以涵盖多个假设的公共表示。通过这样做,可以缓解\ emph {硬决策}错误的效果。我们首先通过在美国和英国英语演讲之间通过ASR实验证明我们的自学方法的有效性。我们的实验结果表明,与仅与美国英语数据培训的基线模型相比,我们的方法可以将英国语音数据上的WER减少14.55 \%至10.36 \%。此外,我们研究了我们提出的方法在联邦学习情景中的效果。
translated by 谷歌翻译
We present RAVEn, a self-supervised multi-modal approach to jointly learn visual and auditory speech representations. Our pre-training objective involves encoding masked inputs, and then predicting contextualised targets generated by slowly-evolving momentum encoders. Driven by the inherent differences between video and audio, our design is asymmetric w.r.t. the two modalities' pretext tasks: Whereas the auditory stream predicts both the visual and auditory targets, the visual one predicts only the auditory targets. We observe strong results in low- and high-resource labelled data settings when fine-tuning the visual and auditory encoders resulting from a single pre-training stage, in which the encoders are jointly trained. Notably, RAVEn surpasses all self-supervised methods on visual speech recognition (VSR) on LRS3, and combining RAVEn with self-training using only 30 hours of labelled data even outperforms a recent semi-supervised method trained on 90,000 hours of non-public data. At the same time, we achieve state-of-the-art results in the LRS3 low-resource setting for auditory speech recognition (as well as for VSR). Our findings point to the viability of learning powerful speech representations entirely from raw video and audio, i.e., without relying on handcrafted features. Code and models will be made public.
translated by 谷歌翻译
Speech-centric machine learning systems have revolutionized many leading domains ranging from transportation and healthcare to education and defense, profoundly changing how people live, work, and interact with each other. However, recent studies have demonstrated that many speech-centric ML systems may need to be considered more trustworthy for broader deployment. Specifically, concerns over privacy breaches, discriminating performance, and vulnerability to adversarial attacks have all been discovered in ML research fields. In order to address the above challenges and risks, a significant number of efforts have been made to ensure these ML systems are trustworthy, especially private, safe, and fair. In this paper, we conduct the first comprehensive survey on speech-centric trustworthy ML topics related to privacy, safety, and fairness. In addition to serving as a summary report for the research community, we point out several promising future research directions to inspire the researchers who wish to explore further in this area.
translated by 谷歌翻译
450万小时的英语演讲从10个不同的10个不同来源,跨越高达10亿参数的不同来源,我们探索了自动语音识别的规模前沿。我们提出了数据选择技术,以有效地缩放培训数据,以找到大规模数据集中最有价值的样本。为了有效地进行模型尺寸,我们利用各种优化,例如稀疏传感器丢失和模型分片。通过培训1-10B参数通用英语ASR模型,我们将语音识别性能的限制推动在许多域中。此外,我们的模型学习强大的语音表示,在新域名和言语方面具有零和少量功能,超出了多个内部和公共基准的先前结果。对于由于脑损伤而具有障碍的扬声器,我们最好的零射击和少量射频分别在Aphasiabank测试集中实现了22%和60%,同时在公共社交媒体视频中实现了最佳性能。此外,相同的通用模型在SPGISPeech Financial-Domain数据集上达到了500倍的域内数据等效性能。
translated by 谷歌翻译
Modern speech recognition systems exhibits rapid performance degradation under domain shift. This issue is especially prevalent in data-scarce settings, such as low-resource languages, where diversity of training data is limited. In this work we propose M2DS2, a simple and sample-efficient finetuning strategy for large pretrained speech models, based on mixed source and target domain self-supervision. We find that including source domain self-supervision stabilizes training and avoids mode collapse of the latent representations. For evaluation, we collect HParl, a $120$ hour speech corpus for Greek, consisting of plenary sessions in the Greek Parliament. We merge HParl with two popular Greek corpora to create GREC-MD, a test-bed for multi-domain evaluation of Greek ASR systems. In our experiments we find that, while other Unsupervised Domain Adaptation baselines fail in this resource-constrained environment, M2DS2 yields significant improvements for cross-domain adaptation, even when a only a few hours of in-domain audio are available. When we relax the problem in a weakly supervised setting, we find that independent adaptation for audio using M2DS2 and language using simple LM augmentation techniques is particularly effective, yielding word error rates comparable to the fully supervised baselines.
translated by 谷歌翻译
自我监督学习(SSL)在语音识别方面取得了巨大的成功,而有限的探索已尝试完成其他语音处理任务。由于语音信号包含多方面的信息,包括说话者身份,副语言学,口语内容等,学习所有语音任务的通用表示都具有挑战性。为了解决该问题,我们提出了一个新的预培训模型WAVLM,以解决全堆栈的下游语音任务。 Wavlm共同学习了蒙面的语音预测和预训练。通过这种方式,WAVLM不仅可以通过掩盖的语音预测来保持语音内容建模能力,而且还可以通过语音denoing来提高非ASR任务的潜力。此外,WAVLM还采用封闭式的变压器结构的封闭相对位置偏置,以更好地捕获输入语音的序列排序。我们还将培训数据集从60k小时扩展到94K小时。 WAVLM大型在精湛的基准上实现了最先进的性能,并在其代表性基准上为各种语音处理任务带来了重大改进。代码和预培训模型可在https://aka.ms/wavlm上找到。
translated by 谷歌翻译
由于训练和测试分布之间的不匹配,自动语音识别(ASR)的跨域性能可能会受到严重阻碍。由于目标域通常缺乏标记的数据,并且在声学和语言水平上存在域移位,因此对ASR进行无监督的域适应性(UDA)是一项挑战。先前的工作表明,通过利用未标记的数据的自我检查,自我监督的学习(SSL)或伪标记(PL)可以有效地进行UDA。但是,这些自我介绍也面临不匹配的域分布中的性能退化,而以前的工作未能解决。这项工作提出了一个系统的UDA框架,可以在预训练和微调范式中充分利用具有自学贴标签的未标记数据。一方面,我们应用持续的预训练和数据重播技术来减轻SSL预训练模型的域不匹配。另一方面,我们提出了一种基于PL技术的域自适应微调方法,并具有三种独特的修改:首先,我们设计了一种双分支PL方法,以降低对错误的伪标签的敏感性;其次,我们设计了一种不确定性感知的置信度过滤策略,以提高伪标签的正确性。第三,我们引入了两步PL方法,以结合目标域语言知识,从而产生更准确的目标域伪标记。各种跨域场景的实验结果表明,所提出的方法可以有效地提高跨域的性能,并显着超过以前的方法。
translated by 谷歌翻译
最近,语音界正在看到从基于深神经网络的混合模型移动到自动语音识别(ASR)的端到端(E2E)建模的显着趋势。虽然E2E模型在大多数基准测试中实现最先进的,但在ASR精度方面,混合模型仍然在当前的大部分商业ASR系统中使用。有很多实际的因素会影响生产模型部署决定。传统的混合模型,用于数十年的生产优化,通常擅长这些因素。在不为所有这些因素提供优异的解决方案,E2E模型很难被广泛商业化。在本文中,我们将概述最近的E2E模型的进步,专注于解决行业视角的挑战技术。
translated by 谷歌翻译
由于无标记的文本和语音数据的广泛可用性,最近基于仅音频数据的仅文本和半监督培训已广受欢迎。在这项工作中,我们建议将纯文本和半监督培训纳入基于注意力的审议模型。通过将纯文本数据合并到培训审议文本编码器的变压器(BERT)的双向编码器表示中,以及使用联合声学和文本解码器(JATD)和半诉讼程序的大规模文本到语音和纯音频和音频话语培训,与基线审议相比,我们的各种任务减少了4%-12%。与最先进的语言模型(LM)纠正方法相比,审议模型将Google语音搜索降低了11%。我们表明,与具有合理的终端潜伏期的最先进的LM委员相比,审议模型还获得了正面的人类并排评估。
translated by 谷歌翻译