虽然自我监督的语音表示学习(SSL)模型执行了各种下游任务,但已经观察到这些模型过于拟合未标记数据来源的域。为了减轻此问题,我们提出了PADA(修剪辅助域的适应性),并在大量室外(OOD)数据上进行预训练的模型中的冗余权重。直观地,这有助于为目标域ASR芬太尼腾出空间。可以通过各种修剪策略来识别多余的权重,这些策略已作为本工作的一部分进行了详细讨论。具体而言,我们研究了最近发现的任务不合时宜的和任务感知的修剪对PADA的效果,并根据后者提出了一个新的修剪范式,我们称之为跨域任务意识到的修剪(CD-TAW)。 CD-TAW从精心调整的OOD模型中获得了初始修剪面膜,这使其与本文讨论的其余修剪策略完全不同。当在没有语言模型(LM)解码的2小时子集中进行微调时,我们提出的CD-TAW方法比基线相对相对改善高达20.6%。此外,我们进行了详细的分析,以突出提出的方法的关键设计选择。
translated by 谷歌翻译
学习高级语音表征的自学学习(SSL)一直是在低资源环境中构建自动语音识别(ASR)系统的一种流行方法。但是,文献中提出的共同假设是,可以使用可用于SSL预训练的相同域或语言的大量未标记数据,我们承认,在现实世界中,这是不可行的。在本文中,作为Interspeech Gram Vaani ASR挑战的一部分,我们尝试研究域,语言,数据集大小和上游训练SSL数据对最终性能下游ASR任务的效果。我们还建立在持续的训练范式的基础上,以研究使用SSL训练的模型所拥有的先验知识的效果。广泛的实验和研究表明,ASR系统的性能易受用于SSL预训练的数据。它们的性能随着相似性和预训练数据量的增加而提高。我们认为,我们的工作将有助于语音社区在低资源环境中建立更好的ASR系统,并引导研究改善基于SSL的语音系统预培训的概括。
translated by 谷歌翻译
自我监督的预训练可以有效地改善低资源自动语音识别(ASR)的性能。但是,现有的自我监督的预训练是任务不合时宜的,即可以应用于各种下游任务。尽管它扩大了其应用的范围,但预训练模型的容量并未完全用于ASR任务,并且学习的表示形式可能对ASR不最佳。在这项工作中,为了为低资源ASR构建更好的预训练模型,我们提出了一种称为WAV2VEC-S的预训练方法,我们使用特定于任务的半监督预培训来完善自我监督的预培训因此,ASR任务的预训练模型更有效地利用了预培训模型的能力来生成针对ASR的任务特定表示。实验表明,与WAV2VEC 2.0相比,WAV2VEC-S仅需要训练前时间的边际增长,但可以显着改善在内域,跨域和跨语言数据集上的ASR性能。 1H和10H微调分别为24.5%和6.6%。此外,我们表明,半监督的预训练可以通过规范相关分析来弥合自我监管的预训练模型与相应的微调模型之间的表示差距。
translated by 谷歌翻译
自我监督学习(SSL)在语音识别方面取得了巨大的成功,而有限的探索已尝试完成其他语音处理任务。由于语音信号包含多方面的信息,包括说话者身份,副语言学,口语内容等,学习所有语音任务的通用表示都具有挑战性。为了解决该问题,我们提出了一个新的预培训模型WAVLM,以解决全堆栈的下游语音任务。 Wavlm共同学习了蒙面的语音预测和预训练。通过这种方式,WAVLM不仅可以通过掩盖的语音预测来保持语音内容建模能力,而且还可以通过语音denoing来提高非ASR任务的潜力。此外,WAVLM还采用封闭式的变压器结构的封闭相对位置偏置,以更好地捕获输入语音的序列排序。我们还将培训数据集从60k小时扩展到94K小时。 WAVLM大型在精湛的基准上实现了最先进的性能,并在其代表性基准上为各种语音处理任务带来了重大改进。代码和预培训模型可在https://aka.ms/wavlm上找到。
translated by 谷歌翻译
已经证明,基于自我监督的学习(SSL)模型可以生成强大的表示,可用于改善下游语音任务的性能。可以使用几种最先进的SSL模型,并且这些模型中的每一个都优化了不同的损失,这会导致其功能互补的可能性。本文提出了使用此类SSL表示和模型的集合,该集合利用了各种预审预周化模型提取的特征的互补性质。我们假设这导致了更丰富的特征表示,并显示了ASR下游任务的结果。为此,我们使用了三个SSL模型,这些模型在ASR任务上显示出了出色的结果,即Hubert,Wav2Vec2.0和小波。我们使用从预训练的模型获得下游ASR任务的嵌入方式来探索用于ASR任务的模型集合和功能集合。我们使用LiblisPeech(100H)和WSJ数据集的单个模型和预训练的功能获得了改进的性能,用于下游任务。
translated by 谷歌翻译
由于训练和测试分布之间的不匹配,自动语音识别(ASR)的跨域性能可能会受到严重阻碍。由于目标域通常缺乏标记的数据,并且在声学和语言水平上存在域移位,因此对ASR进行无监督的域适应性(UDA)是一项挑战。先前的工作表明,通过利用未标记的数据的自我检查,自我监督的学习(SSL)或伪标记(PL)可以有效地进行UDA。但是,这些自我介绍也面临不匹配的域分布中的性能退化,而以前的工作未能解决。这项工作提出了一个系统的UDA框架,可以在预训练和微调范式中充分利用具有自学贴标签的未标记数据。一方面,我们应用持续的预训练和数据重播技术来减轻SSL预训练模型的域不匹配。另一方面,我们提出了一种基于PL技术的域自适应微调方法,并具有三种独特的修改:首先,我们设计了一种双分支PL方法,以降低对错误的伪标签的敏感性;其次,我们设计了一种不确定性感知的置信度过滤策略,以提高伪标签的正确性。第三,我们引入了两步PL方法,以结合目标域语言知识,从而产生更准确的目标域伪标记。各种跨域场景的实验结果表明,所提出的方法可以有效地提高跨域的性能,并显着超过以前的方法。
translated by 谷歌翻译
最近,蒙面的预测预训练在自我监督的学习(SSL)方面取得了显着的进展,以进行语音识别。它通常需要以无监督的方式获得的代码簿,从而使其准确和难以解释。我们提出了两种监督指导的代码书生成方法,以提高自动语音识别(ASR)的性能以及预训练效率,要么通过使用混合ASR系统来解码以生成音素级别对准(命名为PBERT),要么通过在上进行集群进行聚类。从端到端CTC模型(命名CTC聚类)提取的监督语音功能。混合动力和CTC模型均经过与微调相同的少量标记语音训练。实验表明,我们的方法对各种SSL和自我训练基准的优势具有显着优势,相对减少了17.0%。我们的预训练模型在非ASR语音任务中还显示出良好的可传递性。
translated by 谷歌翻译
Automatic speech recognition (ASR) has been established as a well-performing technique for many scenarios where lots of labeled data is available. Additionally, unsupervised representation learning recently helped to tackle tasks with limited data. Following this, hardware limitations and applications give rise to the question how to efficiently take advantage of large pretrained models and reduce their complexity for downstream tasks. In this work, we study a challenging low resource conversational telephony speech corpus from the medical domain in Vietnamese and German. We show the benefits of using unsupervised techniques beyond simple fine-tuning of large pre-trained models, discuss how to adapt them to a practical telephony task including bandwidth transfer and investigate different data conditions for pre-training and fine-tuning. We outperform the project baselines by 22% relative using pretraining techniques. Further gains of 29% can be achieved by refinements of architecture and training and 6% by adding 0.8 h of in-domain adaptation data.
translated by 谷歌翻译
本文介绍了基于Wav2VEC 2.0的跨语言语音表示学习的大规模模型。我们在128种语言中培训最多2B个公共讲话音频的近半小时的型号的模型,比公共数据的数量级比最大的已知事先工作。我们的评估涵盖了广泛的任务,域,数据制度和语言,都是高低资源。在Covost-2语音翻译基准测试中,我们将先前的最先进的状态平均为7.4 BLEU超过21个翻译方向进入英语。对于语音识别,XLS-R在Babel,MLS,CommonVoice以及Voxpopuli上的最佳已知工作中提高,降低了相对的误差率14-34%。 XLS-R还在Voxlingua107语言识别上设置了新的技术状态。此外,我们表明,具有足够的模型规模,交叉思维预先预测可以在将英语演讲翻译成其他语言时才能优于英语撇印,这是一个有利于单晶的预借预制的设置。我们希望XLS-R可以帮助改善世界上更多语言的语音处理任务。
translated by 谷歌翻译
自我监督的语音识别模型需要大量标记的培训数据,以学习自动语音识别(ASR)的高保真表示,这是计算要求且耗时的,从而阻碍了这些模型在资源受限环境中的使用。我们考虑确定最佳数据子集以训练ASR的自我监督语音模型的任务。我们表达了一个令人惊讶的观察,即用于采样最有用的示例中使用的数据集修剪策略并没有比随机的子集选择在微调自我监督的ASR任务上更好。然后,我们提出了Cowerage算法,以在自我监督的ASR中更好地子集选择,该算法是基于我们的发现,即确保基于培训单词错误率(WER)在早期训练时期的范围覆盖示例,可以提高概括性能。在WAV2VEC 2.0模型和TIMIT,LibrisPeech和LjSpeech数据集上进行的广泛实验显示了COWERAGE的有效性,比现有数据集修剪方法和随机采样的绝对改善高达17%。我们还证明,培训实例的覆盖范围可确保包括语音多样的示例,从而在自我监督的语音识别模型中更好地测试准确性。
translated by 谷歌翻译
最近,先驱工作发现,演讲预训练模型可以解决全堆栈语音处理任务,因为该模型利用底层学习扬声器相关信息和顶层以编码与内容相关的信息。由于网络容量有限,我们认为如果模型专用于音频内容信息学习,则可以进一步提高语音识别性能。为此,我们向自我监督学习(ILS-SSL)提出中间层监督,这将模型通过在中间层上添加额外的SSL丢失来尽可能地专注于内容信息。 LibrisPeech测试 - 其他集合的实验表明,我们的方法显着优于Hubert,这实现了基数/大型模型的W / O语言模型设置的相对字错误率降低了23.5%/ 11.6%。详细分析显示我们模型的底层与拼音单元具有更好的相关性,这与我们的直觉一致,并解释了我们对ASR的方法的成功。
translated by 谷歌翻译
Modern speech recognition systems exhibits rapid performance degradation under domain shift. This issue is especially prevalent in data-scarce settings, such as low-resource languages, where diversity of training data is limited. In this work we propose M2DS2, a simple and sample-efficient finetuning strategy for large pretrained speech models, based on mixed source and target domain self-supervision. We find that including source domain self-supervision stabilizes training and avoids mode collapse of the latent representations. For evaluation, we collect HParl, a $120$ hour speech corpus for Greek, consisting of plenary sessions in the Greek Parliament. We merge HParl with two popular Greek corpora to create GREC-MD, a test-bed for multi-domain evaluation of Greek ASR systems. In our experiments we find that, while other Unsupervised Domain Adaptation baselines fail in this resource-constrained environment, M2DS2 yields significant improvements for cross-domain adaptation, even when a only a few hours of in-domain audio are available. When we relax the problem in a weakly supervised setting, we find that independent adaptation for audio using M2DS2 and language using simple LM augmentation techniques is particularly effective, yielding word error rates comparable to the fully supervised baselines.
translated by 谷歌翻译
最近的言语和语言技术的方法预先rain非常大型模型,用于特定任务。然而,这种大型模型的好处通常仅限于世界上少数资源丰富的语言。在这项工作中,我们对来自印度次大陆的低资源语言构建ASR系统进行多种贡献。首先,我们从各种领域策划40个印度语言的17,000小时的原始语音数据,包括教育,新闻,技术和金融。其次,使用这种原始语音数据,我们预先存在于40个印度语言的Wav2Vec样式模型的多个变体。第三,我们分析佩带的模型以查找关键特点:码本矢量的类似探测音素在语言中共享,跨层的表示是语言系列的判别,并且注意力头通常会在小型本地窗口中注意。第四,我们微调了9种语言的下游ASR模型,并在3个公共数据集上获得最先进的结果,包括非常低的资源语言,如Sinhala和Nepali。我们的工作建立了多语言预介质是建立ASR系统的有效策略,为印度次大陆的语言上不同的扬声器建立ASR系统。
translated by 谷歌翻译
自我监督的学习(SSL)在各种与语音有关的下游任务(包括自动语音识别(ASR))中表现出巨大的成功。 SSL模型的输出嵌入被视为语音信号的强大短期表示。但是,在ASR任务中,主要目标是获得正确的声学单元,字符或字节对编码(BPE)的正确顺序。通常,对于ASR等序列到序列任务,编码器解码器架构非常出色。因此,在本文中,我们提出了一个新的范式,该范式在自学学习过程中利用解码器的力量。我们使用隐藏的单位Bert(Hubert)SSL框架来计算编码器的常规掩蔽预测损失。此外,我们在SSL框架中引入了解码器,并为解码器提出了目标准备策略。最后,我们使用多任务SSL设置,其中我们共同优化编码器和解码器损耗。我们假设SSL模型中的解码器的存在有助于它学习基于声学单元的语言模型,这可能会改善ASR下游任务的性能。我们将我们提出的SSL模型与Hubert进行了比较,并通过对各种LibrisPeech子集进行填充,在ASR上的性能相对相对提高了25%。
translated by 谷歌翻译
在本文中,我们提出了一种三阶段培训方法,提高低资源语言的语音识别准确性。我们探索并提出了一种有效的技术组合,如传输学习,编码器冻结,使用文本到语音(TTS)和半监督学习(SSL)。为了提高低资源意大利ASR的准确性,我们可以分别利用训练有素的英语模型,未标记的文本语料库和未标记的音频语料库,分别分别使用传输学习,TTS增强和SSL。在第一阶段,我们使用从训练有素的英语模型的转移学习。这主要有助于学习来自资源丰富的语言的声学信息。该阶段通过基线减少约24%的相对字错误率(WER)。在第二阶段,我们通过TTS数据增强利用未标记的文本数据来将语言信息合并到模型中。我们还在此阶段探索冻结声学编码器。 TTS数据增强有助于我们进一步减少〜21%相对〜21%。最后,在第三阶段,我们通过使用来自未标记的音频数据的SSL来减少另一个4%的相对。总体而言,我们的双通话识别系统在第一次通过的单调散文注意力(Mocha)和第二次通过的全部关注,相对于基线,减少了〜42%的WER。
translated by 谷歌翻译
We show for the first time that learning powerful representations from speech audio alone followed by fine-tuning on transcribed speech can outperform the best semi-supervised methods while being conceptually simpler. wav2vec 2.0 masks the speech input in the latent space and solves a contrastive task defined over a quantization of the latent representations which are jointly learned. Experiments using all labeled data of Librispeech achieve 1.8/3.3 WER on the clean/other test sets. When lowering the amount of labeled data to one hour, wav2vec 2.0 outperforms the previous state of the art on the 100 hour subset while using 100 times less labeled data. Using just ten minutes of labeled data and pre-training on 53k hours of unlabeled data still achieves 4.8/8.2 WER. This demonstrates the feasibility of speech recognition with limited amounts of labeled data. 1 1 Code and models are available at https://github.com/pytorch/fairseq Preprint. Under review.
translated by 谷歌翻译
语音的视频录制包含相关的音频和视觉信息,为语音表示从扬声器的唇部运动和产生的声音提供了强大的信号。我们介绍了视听隐藏单元BERT(AV-HUBERT),是视听语音的自我监督的代表学习框架,这些屏幕屏蔽了多流视频输入并预测自动发现和迭代地精制多模式隐藏单元。 AV-HUBERT学习强大的视听语音表示,这些语音表示受益于唇读和自动语音识别。在最大的公众唇读基准LRS3(433小时)中,AV-Hubert达到32.5%WER,只有30个小时的标签数据,优于前一种最先进的方法(33.6%)培训,达到了一千次转录的视频数据(31k小时)。当使用来自LRS3的所有433小时的标记数据并结合自培训时,唇读WER进一步降低至26.9%。使用我们在相同的基准测试中使用您的视听表示,用于音频语音识别的相对效率为40%,而最先进的性能(1.3%Vs 2.3%)。我们的代码和模型可在https://github.com/facebookResearch/av_hubert获得
translated by 谷歌翻译
Self-supervised approaches for speech representation learning are challenged by three unique problems: (1) there are multiple sound units in each input utterance, (2) there is no lexicon of input sound units during the pre-training phase, and (3) sound units have variable lengths with no explicit segmentation. To deal with these three problems, we propose the Hidden-Unit BERT (HuBERT) approach for self-supervised speech representation learning, which utilizes an offline clustering step to provide aligned target labels for a BERT-like prediction loss. A key ingredient of our approach is applying the prediction loss over the masked regions only, which forces the model to learn a combined acoustic and language model over the continuous inputs. HuBERT relies primarily on the consistency of the unsupervised clustering step rather than the intrinsic quality of the assigned cluster labels. Starting with a simple k-means teacher of 100 clusters, and using two iterations of clustering, the HuBERT model either matches or improves upon the state-ofthe-art wav2vec 2.0 performance on the Librispeech (960h) and Libri-light (60,000h) benchmarks with 10min, 1h, 10h, 100h, and 960h fine-tuning subsets. Using a 1B parameter model, HuBERT shows up to 19% and 13% relative WER reduction on the more challenging dev-other and test-other evaluation subsets. 1
translated by 谷歌翻译
Collecting sufficient labeled data for spoken language understanding (SLU) is expensive and time-consuming. Recent studies achieved promising results by using pre-trained models in low-resource scenarios. Inspired by this, we aim to ask: which (if any) pre-training strategies can improve performance across SLU benchmarks? To answer this question, we employ four types of pre-trained models and their combinations for SLU. We leverage self-supervised speech and language models (LM) pre-trained on large quantities of unpaired data to extract strong speech and text representations. We also explore using supervised models pre-trained on larger external automatic speech recognition (ASR) or SLU corpora. We conduct extensive experiments on the SLU Evaluation (SLUE) benchmark and observe self-supervised pre-trained models to be more powerful, with pre-trained LM and speech models being most beneficial for the Sentiment Analysis and Named Entity Recognition task, respectively.
translated by 谷歌翻译
在本文中,我们介绍了从包含超过80,000个小时的未标记的语音的大型数据集预处理捷克单语音频变压器方面的进展,随后使用内域数据组合对自动语音识别任务进行微调,并对模型进行微调。6000小时的跨域转录语音。我们在两个公共数据集(CommunVoice和Voxpopuli)和Malach Project中的一个非常具有挑战性的数据集中评估了各种微调设置的大量实验调色板。我们的结果表明,单语WAV2VEC 2.0模型是强大的ASR系统,它可以利用大型标记和未标记的数据集并成功与最先进的LVCSR系统竞争。此外,当没有用于目标ASR任务的培训数据时,WAV2VEC模型被证明是很好的零射门学习者。
translated by 谷歌翻译