培训多语言自动语音识别(ASR)系统具有挑战性,因为声学和词汇信息通常是特定于语言的。由于缺乏开源数据集和不同方法的结果,培训对Indo语言的多语言系统更加困难。我们将端到端多语言语音识别系统的性能与以语言识别(LID)为条件的单语模型的性能进行比较。来自多语言模型的解码信息用于语言识别,然后与单语模型结合使用,以改善跨语言的50%WER。我们还提出了一种类似的技术来解决代码切换问题,并在印度英语和孟加拉国英语中分别达到21.77和28.27。我们的工作谈到了如何将基于变压器的ASR尤其是WAV2VEC 2.0应用于开发用于指示语言的多语言ASR和代码转换ASR。
translated by 谷歌翻译
我们介绍了一个CLSRIL-23,一个自我监督的基于学习的音频预训练模型,它学习了来自23个指示语言的原始音频的交叉语言语音表示。它基于Wav2Vec 2.0之上,通过培训蒙面潜在语音表示的对比任务来解决,并共同了解所有语言共享的潜伏的量化。我们在预磨练期间比较语言明智的损失,以比较单机和多语言预制的影响。还比较了一些下游微调任务的表现,并且我们的实验表明,在学习语音表示方面,我们的实验表明,在学习语言的语音表示方面,以及在沿着流的性能方面的学习语音表示。在Hindi中使用多语言预磨模模型时,在WER中观察到5%的减少,9.5%。所有代码模型也都是开放的。 CLSRIL-23是一款以23美元的价格培训的型号,以及近10,000小时的音频数据培训,以促进在语言中的语音识别研究。我们希望将使用自我监督方法创建新的最新状态,特别是对于低资源指示语言。
translated by 谷歌翻译
最近的言语和语言技术的方法预先rain非常大型模型,用于特定任务。然而,这种大型模型的好处通常仅限于世界上少数资源丰富的语言。在这项工作中,我们对来自印度次大陆的低资源语言构建ASR系统进行多种贡献。首先,我们从各种领域策划40个印度语言的17,000小时的原始语音数据,包括教育,新闻,技术和金融。其次,使用这种原始语音数据,我们预先存在于40个印度语言的Wav2Vec样式模型的多个变体。第三,我们分析佩带的模型以查找关键特点:码本矢量的类似探测音素在语言中共享,跨层的表示是语言系列的判别,并且注意力头通常会在小型本地窗口中注意。第四,我们微调了9种语言的下游ASR模型,并在3个公共数据集上获得最先进的结果,包括非常低的资源语言,如Sinhala和Nepali。我们的工作建立了多语言预介质是建立ASR系统的有效策略,为印度次大陆的语言上不同的扬声器建立ASR系统。
translated by 谷歌翻译
直接语音到语音翻译(S2ST)模型与传统级联系统可用的数据量相比,几乎没有平行的S2ST数据遇到数据稀缺问题,该数据包括自动语音识别(ASR),机器翻译(MT)和文本到语音(TTS)合成。在这项工作中,我们使用未标记的语音数据和数据扩展来探索自我监督的预训练,以解决此问题。我们利用了最近提出的语音到单位翻译(S2UT)框架,该框架将目标语音编码为离散表示形式,并转移前训练前和有效的部分填充技术,可很好地适用于语音到文本翻译(S2T)通过研究语音编码器和离散单位解码器预训练,S2UT域。我们在西班牙语 - 英语翻译上进行的实验表明,与多任务学习相比,自我监督的预训练始终如一地提高模型性能,平均为6.6-12.1 BLEU增长,并且可以与数据增强技术相结合,以应用MT来创建弱监督监督的培训数据。音频样本可在以下网址获得:https://facebookresearch.github.io/speech_translation/enhanced_direct_s2st_units/index.html。
translated by 谷歌翻译
本文介绍了基于Wav2VEC 2.0的跨语言语音表示学习的大规模模型。我们在128种语言中培训最多2B个公共讲话音频的近半小时的型号的模型,比公共数据的数量级比最大的已知事先工作。我们的评估涵盖了广泛的任务,域,数据制度和语言,都是高低资源。在Covost-2语音翻译基准测试中,我们将先前的最先进的状态平均为7.4 BLEU超过21个翻译方向进入英语。对于语音识别,XLS-R在Babel,MLS,CommonVoice以及Voxpopuli上的最佳已知工作中提高,降低了相对的误差率14-34%。 XLS-R还在Voxlingua107语言识别上设置了新的技术状态。此外,我们表明,具有足够的模型规模,交叉思维预先预测可以在将英语演讲翻译成其他语言时才能优于英语撇印,这是一个有利于单晶的预借预制的设置。我们希望XLS-R可以帮助改善世界上更多语言的语音处理任务。
translated by 谷歌翻译
最近,蒙面的预测预训练在自我监督的学习(SSL)方面取得了显着的进展,以进行语音识别。它通常需要以无监督的方式获得的代码簿,从而使其准确和难以解释。我们提出了两种监督指导的代码书生成方法,以提高自动语音识别(ASR)的性能以及预训练效率,要么通过使用混合ASR系统来解码以生成音素级别对准(命名为PBERT),要么通过在上进行集群进行聚类。从端到端CTC模型(命名CTC聚类)提取的监督语音功能。混合动力和CTC模型均经过与微调相同的少量标记语音训练。实验表明,我们的方法对各种SSL和自我训练基准的优势具有显着优势,相对减少了17.0%。我们的预训练模型在非ASR语音任务中还显示出良好的可传递性。
translated by 谷歌翻译
已经证明了深度学习技术在各种任务中有效,特别是在语音识别系统的发展中,即旨在以一系列写词中的音频句子转录音频句子的系统。尽管该地区进展,但语音识别仍然可以被认为是困难的,特别是对于缺乏可用数据的语言,例如巴西葡萄牙语(BP)。从这个意义上讲,这项工作介绍了仅使用打开可用的音频数据的公共自动语音识别(ASR)系统的开发,从Wav2Vec 2.0 XLSR-53模型的微调,在许多语言中,通过BP数据进行了多种。最终模型在7个不同的数据集中呈现12.4%的平均误差率(在应用语言模型时10.5%)。根据我们的知识,这是开放ASR系统中BP的最佳结果。
translated by 谷歌翻译
开发语音技术是对低资源语言的挑战,其中注释和原始语音数据稀疏。马耳他是一种这样的语言。近年来,对马耳他的计算处理有所增加,包括语音技术,但后者的资源仍然稀疏。在本文中,我们考虑提高这些语言的语音识别的数据增强技术,专注于马耳他作为测试用例。我们考虑三种不同类型的数据增强:无监督的培训,多语言培训和合成演讲的使用作为培训数据。目标是确定这些技术或它们的组合,是改善起始点是大约7小时转录语音的语言的语言的最有效。我们的结果表明,在这里研究了三种数据增强技术,导致我们在不使用语言模型的情况下实现15%的绝对增长。
translated by 谷歌翻译
在本文中,我们介绍了从包含超过80,000个小时的未标记的语音的大型数据集预处理捷克单语音频变压器方面的进展,随后使用内域数据组合对自动语音识别任务进行微调,并对模型进行微调。6000小时的跨域转录语音。我们在两个公共数据集(CommunVoice和Voxpopuli)和Malach Project中的一个非常具有挑战性的数据集中评估了各种微调设置的大量实验调色板。我们的结果表明,单语WAV2VEC 2.0模型是强大的ASR系统,它可以利用大型标记和未标记的数据集并成功与最先进的LVCSR系统竞争。此外,当没有用于目标ASR任务的培训数据时,WAV2VEC模型被证明是很好的零射门学习者。
translated by 谷歌翻译
无监督的语音识别表现出了使每种语言都可以访问的自动语音识别(ASR)系统的巨大潜力。但是,现有方法仍然严重依赖手工制作的预处理。与端到端进行监督语音识别的趋势类似,我们介绍了WAV2VEC-U 2.0,它消除了所有音频端的预处理,并通过更好的体系结构提高了准确性。此外,我们引入了一个辅助自我监督的目标,该目标将模型的预测与输入联系起来。实验表明,WAV2VEC-U 2.0在概念上更简单的同时,可以改善不同语言的无监督识别结果。
translated by 谷歌翻译
在非洲使用的2,000多种语言几乎都没有广泛可用的自动语音识别系统,并且所需的数据也仅适用于几种语言。我们已经尝试了两种技术,这些技术可能为非洲语言提供大型词汇识别的途径:多语言建模和自我监督学习。我们收集了可用的开源数据并收集了15种语言的数据,并使用这些技术训练了实验模型。我们的结果表明,汇总多语言端到端模型中可用的少量数据,并预先培训无监督的数据可以帮助提高许多非洲语言的语音识别质量。
translated by 谷歌翻译
最近,语音界正在看到从基于深神经网络的混合模型移动到自动语音识别(ASR)的端到端(E2E)建模的显着趋势。虽然E2E模型在大多数基准测试中实现最先进的,但在ASR精度方面,混合模型仍然在当前的大部分商业ASR系统中使用。有很多实际的因素会影响生产模型部署决定。传统的混合模型,用于数十年的生产优化,通常擅长这些因素。在不为所有这些因素提供优异的解决方案,E2E模型很难被广泛商业化。在本文中,我们将概述最近的E2E模型的进步,专注于解决行业视角的挑战技术。
translated by 谷歌翻译
基于自我监督的变压器模型,例如WAV2VEC 2.0和Hubert,对现有的自动语音识别方法(ASR)产生了重大改进。当用可用标记的数据进行微调时,在许多语言的基于WAV2VEC 2.0预验证的XLSR-53模型的性能中很明显。但是,鉴定这些模型的性能可能取决于预训练数据集中包含的语言或类似语言数据的数量。在本文中,我们使用几种低资源语言的XLSR-53预告片预测模型进行了持续预处理(COPT)。 COPT比半监督训练(SST)更有效,这是使用ASR中未标记数据的标准方法,因为它忽略了对未标记数据的伪标记的需求。我们在单词错误率(WERS)中显示了COPT结果,等于或稍好于使用SST。此外,我们表明,使用COPT模型进行伪标记,并在SST中使用这些标签,从而进一步改善了WER。
translated by 谷歌翻译
交叉语言语音适应旨在解决利用多种丰富资源语言来构建低资源目标语言的模型的问题。由于低资源语言具有有限的培训数据,语音识别模型可以容易地过度装备。在本文中,我们建议使用适配器来研究多种适配器的性能,用于参数有效的交叉语音语音适应。基于我们以前的MetaAdapter,隐含地利用适配器,我们提出了一种名为SimAdapter的新算法,用于从Adapters明确学习知识。我们的算法利用了可以轻松集成到变压器结构中的适配器.METAADAPTER利用元学习将一般知识从训练数据转移到测试语言。 SimAdapter旨在使用适配器微调期间了解源语言与目标语言之间的相似性。我们在公共语音数据集中对五种低资源语言进行广泛的实验。结果表明,与强大的全型微调基线相比,我们的MetaAdapter和SimAdapter方法可以将WER减小2.98%和2.55%,只有2.5%和15.5%的培训参数。此外,我们还表明这两种新型算法可以集成,以便更好的性能,相对减少高达3.55%。
translated by 谷歌翻译
我们提出Vakyansh,这是一种用指示语言识别语音识别的端到端工具包。印度拥有近121种语言和大约125亿扬声器。然而,大多数语言在数据和预验证的模型方面都是低资源。通过Vakyansh,我们介绍了自动数据管道,用于数据创建,模型培训,模型评估和部署。我们以23个指示语言和Train Wav2Vec 2.0预验证的模型创建14,000小时的语音数据。然后,对这些预审预告措施的模型进行了修订,以创建18个指示语言的最先进的语音识别模型,其次是语言模型和标点符号修复模型。我们以使命开源所有这些资源,这将激发语音社区使用ASR模型以指示语言开发语音的首次应用程序。
translated by 谷歌翻译
最近,自我监督的预先磨普已经实现了端到端(E2E)自动语音识别(ASR)的令人印象深刻的结果。然而,主要的序列到序列(S2S)E2E模型仍然很难充分利用自我监督的预训练方法,因为其解码器在声学表示上被调节,因此不能分开预先磨损。在本文中,我们提出了一种基于混合CTC /注意E2E模型的预磨削变压器(Preformer)S2S ASR架构,以充分利用预磨削的声学模型(AMS)和语言模型(LMS)。在我们的框架中,编码器初始化了Preprina(Wav2Vec2.0)。 Preformer在训练和推理期间利用CTC作为辅助任务。此外,我们设计了一个十字解码器(OCD),其放宽对声学表示的依赖性,以便可以用预净化的LM(DistilGPT2)初始化它。实验在Aishell-1语料库上进行,并在测试集上达到4.6±6 \%$ Character error rate(cer)。与我们的Vanilla混合CTC /注意力变压器基线相比,我们所提出的CTC /注意力的预浆料产生27亿美元的相对CER减少。据我们所知,这是第一个在S2S ASR系统中使用普里雷米和LM的第一项工作。
translated by 谷歌翻译
自我监督学习(SSL)在语音识别方面取得了巨大的成功,而有限的探索已尝试完成其他语音处理任务。由于语音信号包含多方面的信息,包括说话者身份,副语言学,口语内容等,学习所有语音任务的通用表示都具有挑战性。为了解决该问题,我们提出了一个新的预培训模型WAVLM,以解决全堆栈的下游语音任务。 Wavlm共同学习了蒙面的语音预测和预训练。通过这种方式,WAVLM不仅可以通过掩盖的语音预测来保持语音内容建模能力,而且还可以通过语音denoing来提高非ASR任务的潜力。此外,WAVLM还采用封闭式的变压器结构的封闭相对位置偏置,以更好地捕获输入语音的序列排序。我们还将培训数据集从60k小时扩展到94K小时。 WAVLM大型在精湛的基准上实现了最先进的性能,并在其代表性基准上为各种语音处理任务带来了重大改进。代码和预培训模型可在https://aka.ms/wavlm上找到。
translated by 谷歌翻译
本文提出了我们为在葡萄牙语中自发和准备的语音和语音情感识别的共享任务自动语音识别(SE&R 2022)的共同任务自动语音识别的努力。挑战的目的是考虑葡萄牙语的ASR研究,考虑到不同方言的准备和自发语音。我们的方法包括在域特异性方法中微调ASR模型,应用增益归一化和选择性噪声插入。提出的方法比可用的4个曲目中的3个曲目中提供的强大基线改进了
translated by 谷歌翻译
捷克语是一种非常特殊的语言,因为它在形式和口语形式之间的差异很大。虽然正式(书面)形式主要用于官方文件,文学和公开演讲,但通言(口语)表格在休闲演讲中被广泛使用。该差距引入了ASR系统的严重问题,尤其是在培训或评估包含大量口语语音(例如Malach Project)的数据集上的ASR模型时。在本文中,我们正在根据端到端ASR系统中的新范式解决这个问题,最近引入了自我监督的音频变压器。具体而言,我们正在研究口语语音对WAV2VEC 2.0模型性能的影响及其直接转录口语演讲的能力。我们在培训成绩单,语言模型和评估笔录中以正式和口语形式提出结果。
translated by 谷歌翻译
本文介绍了Yidun Nisp团队向视频关键字唤醒挑战提交的系统。我们提出了一个普通话关键字发现系统(KWS),具有几种新颖且有效的改进,包括大骨干(B)模型,一个关键字偏置(B)机制和版本建模单元的引入。通过考虑一下,我们将总系统BBS-KWS作为缩写。 BBS-KWS系统由端到端的自动语音识别(ASR)模块和KWS模块组成。 ASR模块将语音特征转换为文本表示,文本表示将大骨干网络应用于声学模型,并考虑了音节建模单元。另外,关键字偏置机制用于改善ASR推断阶段中的关键字的召回率。 KWS模块应用多个标准,以确定关键字的缺席或存在,例如多级匹配,模糊匹配和连接主义时间分类(CTC)前缀分数。为了进一步改进我们的系统,我们对CN-Celeb数据集进行半监督学习,以获得更好的概括。在VKW任务中,BBS-KWS系统实现了基线的显着收益,并在两条轨道中获得了第一名。
translated by 谷歌翻译