交叉语言语音适应旨在解决利用多种丰富资源语言来构建低资源目标语言的模型的问题。由于低资源语言具有有限的培训数据,语音识别模型可以容易地过度装备。在本文中,我们建议使用适配器来研究多种适配器的性能,用于参数有效的交叉语音语音适应。基于我们以前的MetaAdapter,隐含地利用适配器,我们提出了一种名为SimAdapter的新算法,用于从Adapters明确学习知识。我们的算法利用了可以轻松集成到变压器结构中的适配器.METAADAPTER利用元学习将一般知识从训练数据转移到测试语言。 SimAdapter旨在使用适配器微调期间了解源语言与目标语言之间的相似性。我们在公共语音数据集中对五种低资源语言进行广泛的实验。结果表明,与强大的全型微调基线相比,我们的MetaAdapter和SimAdapter方法可以将WER减小2.98%和2.55%,只有2.5%和15.5%的培训参数。此外,我们还表明这两种新型算法可以集成,以便更好的性能,相对减少高达3.55%。
translated by 谷歌翻译
Multilingual end-to-end models have shown great improvement over monolingual systems. With the development of pre-training methods on speech, self-supervised multilingual speech representation learning like XLSR has shown success in improving the performance of multilingual automatic speech recognition (ASR). However, similar to the supervised learning, multilingual pre-training may also suffer from language interference and further affect the application of multilingual system. In this paper, we introduce several techniques for improving self-supervised multilingual pre-training by leveraging auxiliary language information, including the language adversarial training, language embedding and language adaptive training during the pre-training stage. We conduct experiments on a multilingual ASR task consisting of 16 languages. Our experimental results demonstrate 14.3% relative gain over the standard XLSR model, and 19.8% relative gain over the no pre-training multilingual model.
translated by 谷歌翻译
本文介绍了基于Wav2VEC 2.0的跨语言语音表示学习的大规模模型。我们在128种语言中培训最多2B个公共讲话音频的近半小时的型号的模型,比公共数据的数量级比最大的已知事先工作。我们的评估涵盖了广泛的任务,域,数据制度和语言,都是高低资源。在Covost-2语音翻译基准测试中,我们将先前的最先进的状态平均为7.4 BLEU超过21个翻译方向进入英语。对于语音识别,XLS-R在Babel,MLS,CommonVoice以及Voxpopuli上的最佳已知工作中提高,降低了相对的误差率14-34%。 XLS-R还在Voxlingua107语言识别上设置了新的技术状态。此外,我们表明,具有足够的模型规模,交叉思维预先预测可以在将英语演讲翻译成其他语言时才能优于英语撇印,这是一个有利于单晶的预借预制的设置。我们希望XLS-R可以帮助改善世界上更多语言的语音处理任务。
translated by 谷歌翻译
多语言语言模型(\ mllms),如mbert,xlm,xlm-r,\ textit {etc。}已成为一种可行的选择,使预先估计到大量语言的力量。鉴于他们的成功在零射击转移学习中,在(i)建立更大的\ mllms〜覆盖了大量语言(ii)创建覆盖更广泛的任务和语言来评估的详尽工作基准mllms〜(iii)分析单音零点,零拍摄交叉和双语任务(iv)对Monolingual的性能,了解\ mllms〜(v)增强(通常)学习的通用语言模式(如果有的话)有限的容量\ mllms〜以提高他们在已见甚至看不见语言的表现。在这项调查中,我们审查了现有的文学,涵盖了上述与\ MLLMS有关的广泛研究领域。根据我们的调查,我们建议您有一些未来的研究方向。
translated by 谷歌翻译
A recent family of techniques, dubbed lightweight fine-tuning methods, facilitates parameter-efficient transfer learning by updating only a small set of additional parameters while keeping the parameters of the pretrained language model frozen. While proven to be an effective method, there are no existing studies on if and how such knowledge of the downstream fine-tuning approach should affect the pretraining stage. In this work, we show that taking the ultimate choice of fine-tuning method into consideration boosts the performance of parameter-efficient fine-tuning. By relying on optimization-based meta-learning using MAML with certain modifications for our distinct purpose, we prime the pretrained model specifically for parameter-efficient fine-tuning, resulting in gains of up to 1.7 points on cross-lingual NER fine-tuning. Our ablation settings and analyses further reveal that the tweaks we introduce in MAML are crucial for the attained gains.
translated by 谷歌翻译
基于变压器的架构在许多下游流动任务中显示出显着的结果,包括问题应答。另一方面,数据的可用性阻碍了获得低资源语言的合法性能。在本文中,我们调查了预先训练的多语言模型的适用性,以提高低资源语言的问题的表现。我们使用与MLQA DataSet类似的七种语言进行多语言变压器架构测试了四种语言和任务适配器的组合。此外,我们还提出了使用语言和任务适配器回答的低资源问题的零拍摄转移学习。我们观察到堆叠语言和任务适配器对低资源语言的微语文变压器模型的性能显着提高。
translated by 谷歌翻译
最近最近提出了使用音韵特征而不是音素作为输入到序列TTS的输入,用于零拍摄的多语言语音合成。这种方法对于代码切换是有用的,因为它促进了嵌入在本机的流中的外语的无缝发出。在我们的工作中,我们培训了一种语言 - 无人物多相箱模型,在不同语言中常见的一组音牙衍生特征上,其目标是实现交叉语言扬声器适应。我们首先尝试语言语音相似性对几种源语言组合的交叉语言的影响。随后,我们可以在看见或一个看不见的语言中使用非常有限的新扬声器语音数据进行微调,并实现了相同质量的合成语音,同时保留了目标扬声器的身份。随着目标扬声器数据的32和8个话语,我们获得高扬声器相似性分数和与相应文献相当的自然。在仅为2种可用的适应话语的极端情况下,我们发现我们的模型表现为几滴学习者,因为在所见和看不见的语言方案中的性能相似。
translated by 谷歌翻译
语音处理系统目前不支持绝大多数语言,部分原因是低资源语言中的数据缺乏。交叉语言传输提供了一种引人注目的方法来帮助通过将高资源数据纳入低资源系统来帮助桥接这种数字鸿沟。目前的交叉算法在一些基于文本的任务和与一些低资源语言中的语音相关任务中表现出了成功。但是,缩放语音系统以支持数百个低资源语言仍未解决。为了帮助桥接这种差距,我们提出了一种语言相似性方法,可以有效地识别数百种语言的声学交叉传输对。我们展示了我们在语言家庭分类,语音识别和语音综合任务中的方法的有效性。
translated by 谷歌翻译
与辅助语言的元学习已经表明了对交叉语言自然语言处理的有希望的改进。然而,以前的研究采样使用相同语言的元培训和元测试数据,这限制了模型交叉传输的能力。在本文中,我们提出了XLA-MAML,在元学习阶段执行直接交叉调整。我们对自然语言推理和问题进行零射击和几次拍摄实验。实验结果表明了我们在不同语言,任务和预磨料模型中的方法的有效性。我们还对元学习的各种交叉特定设置进行了分析,包括采样策略和并行性。
translated by 谷歌翻译
以前的工作主要侧重于改善NLU任务的交叉传输,具有多语言预用编码器(MPE),或提高与伯特的监督机器翻译的性能。然而,探索了,MPE是否可以有助于促进NMT模型的交叉传递性。在本文中,我们专注于NMT中的零射频转移任务。在此任务中,NMT模型培训,只有一个语言对的并行数据集和搁置架MPE,然后它直接测试在零拍语言对上。我们为此任务提出了Sixt,一个简单而有效的模型。 SIXT利用了两阶段培训计划利用MPE,并进一步改进了解离编码器和容量增强的解码器。使用此方法,SIMPT显着优于MBart,这是一个用于NMT的预磨削的多语言编码器解码器模型,平均改善了14个源语言的零拍摄的任何英语测试集上的7.1 BLEU。此外,培训计算成本和培训数据较少,我们的模型在15个任何英语测试组上实现了比Criss和M2M-100,两个强大的多语言NMT基线更好的性能。
translated by 谷歌翻译
Self-supervised pre-training of a speech foundation model, followed by supervised fine-tuning, has shown impressive quality improvements on automatic speech recognition (ASR) tasks. Fine-tuning separate foundation models for many downstream tasks are expensive since the foundation model is usually very big. Parameter-efficient fine-tuning methods (e.g. adapter, sparse update methods) offer an alternative paradigm where a small set of parameters are updated to adapt the foundation model to new tasks. However, these methods still suffer from a high computational memory cost and slow training speed because they require backpropagation through the entire neural network at each step. In the paper, we analyze the performance of features at different layers of a foundation model on the speech recognition task and propose a novel hierarchical feature fusion method for resource-efficient transfer learning from speech foundation models. Experimental results show that the proposed method can achieve better performance on speech recognition task than existing algorithms with fewer number of trainable parameters, less computational memory cost and faster training speed. After combining with Adapters at all layers, the proposed method can achieve the same performance as fine-tuning the whole model with $97\%$ fewer trainable encoder parameters and $53\%$ faster training speed.
translated by 谷歌翻译
本文研究了一个可转移的音素嵌入框架,旨在在几次设置下处理跨语义的文本到语音(TTS)问题。转移学习是一种常见的方法,因为从头开始训练几乎没有训练数据,但必将过度合适。尽管如此,我们发现幼稚的转移学习方法在极少数的设置下未能适应看不见的语言,那里提供了不到8分钟的数据。我们通过提出一个由基于音素的TTS模型和一个代码簿模块组成的框架来解决问题,以将不同语言的音素投射到学习的潜在空间中。此外,通过利用音素级别的自我监督的学习特征,我们有效地提高了综合语音的质量。实验表明,使用4秒的数据使用4个话语,足以在使用我们的框架适应不见语的语言时综合可理解的语音。
translated by 谷歌翻译
抽象性摘要领域的最新进展利用了预训练的语言模型,而不是从头开始训练模型。但是,这样的模型训练和伴随着大量的开销。研究人员提出了一些轻巧的替代方案,例如较小的适配器来减轻缺点。尽管如此,就提高效率而没有绩效不愉快的牺牲,使用使用适配器是否有利于总结的任务。在这项工作中,我们对具有不同复杂性的摘要任务进行了多方面的调查:语言,域和任务转移。在我们的实验中,对预训练的语言模型进行微调通常比使用适配器更好。性能差距与所使用的训练数据量正相关。值得注意的是,在极低的资源条件下,适配器超过微调。我们进一步提供了有关多语言,模型收敛性和鲁棒性的见解,希望能阐明抽象性摘要中微调或适配器的实用选择。
translated by 谷歌翻译
We present a method for introducing a text encoder into pre-trained end-to-end speech translation systems. It enhances the ability of adapting one modality (i.e., source-language speech) to another (i.e., source-language text). Thus, the speech translation model can learn from both unlabeled and labeled data, especially when the source-language text data is abundant. Beyond this, we present a denoising method to build a robust text encoder that can deal with both normal and noisy text data. Our system sets new state-of-the-arts on the MuST-C En-De, En-Fr, and LibriSpeech En-Fr tasks.
translated by 谷歌翻译
Multilingual machine translation suffers from negative interference across languages. A common solution is to relax parameter sharing with language-specific modules like adapters. However, adapters of related languages are unable to transfer information, and their total number of parameters becomes prohibitively expensive as the number of languages grows. In this work, we overcome these drawbacks using hyper-adapters -- hyper-networks that generate adapters from language and layer embeddings. While past work had poor results when scaling hyper-networks, we propose a rescaling fix that significantly improves convergence and enables training larger hyper-networks. We find that hyper-adapters are more parameter efficient than regular adapters, reaching the same performance with up to 12 times less parameters. When using the same number of parameters and FLOPS, our approach consistently outperforms regular adapters. Also, hyper-adapters converge faster than alternative approaches and scale better than regular dense networks. Our analysis shows that hyper-adapters learn to encode language relatedness, enabling positive transfer across languages.
translated by 谷歌翻译
将语义解析器定位以支持新语言需要有效的跨语性概括。最近的工作发现了机器翻译或零击方法的成功,尽管这些方法可能难以模拟母语人士如何提出问题。我们考虑如何有效利用新语言的最小注释示例来进行几次跨语性语义解析。我们引入了一阶元学习算法,以在跨语性转移过程中训练具有最大样品效率的语义解析器。我们的算法使用高资源语言来训练解析器,并同时优化低资源语言的跨语性概括。 ATIS上六种语言的结果表明,我们的泛化步骤的组合产生了准确的语义解析器,以每种新语言中的源培训数据$ 10%的$ 10%。我们的方法还使用英语对蜘蛛的竞争模型进行训练,并将其推广到中文,同样对$ 10%的培训数据进行了采样。
translated by 谷歌翻译
我们介绍了一种用于跨语言训练ASR系统的方法,使用目标语言绝对没有转录的训练数据,并且没有相关语言的语音知识。我们的方法使用了一种解密算法的新应用,该算法仅在目标语言中仅操作不配对的语音和文本数据。我们将此破译应用于由通用电话识别器产生的电话序列,由语言语音语料库培训,我们遵循平稳半监督培训,以获得新语言的声学模型。据我们所知,这是零资源交叉语言ASR的第一种实用方法,不依赖于任何手工制作的语音信息。我们对来自Globalphone语料库的读语音进行了实验,并表明可以在目标语言中仅在20分钟的数据上学习解密模型。当用于生成半监督培训的伪标签时,我们获得了比在同一数据上培训的等同完全监督模型的25%至仅5%的绝对差。
translated by 谷歌翻译
通过多种语言对培训的多语言神经机器翻译(MNMT),由于模型参数的较少和较低的培训成本,通过在多种语言之间共享知识,引起了人们的关注。尽管如此,由于不同翻译方向之间的负面干扰,尤其是在高资源语言上,因此,多语言培训在共享参数中受到语言干扰退化的困扰。在本文中,我们提出了具有高资源语言特定培训(HLT-MT)的多语言翻译模型,以减轻负面干扰,该干扰采用了具有特定于语言的选择机制的两阶段培训。具体而言,我们首先仅使用高资源对训练多语言模型,然后选择解码器顶部的语言特定模块,以增强高资源方向的翻译质量。接下来,对所有可用语料库进行进一步培训,将知识从高资源语言(HRLS)转移到低资源语言(LRLS)。实验结果表明,HLT-MT在WMT-10和Opus-100基准测试上的表现优于各种强基础。此外,分析实验验证了我们方法在减轻多语言训练中负面干扰方面的有效性。
translated by 谷歌翻译
We present Mu$^{2}$SLAM, a multilingual sequence-to-sequence model pre-trained jointly on unlabeled speech, unlabeled text and supervised data spanning Automatic Speech Recognition (ASR), Automatic Speech Translation (AST) and Machine Translation (MT), in over 100 languages. By leveraging a quantized representation of speech as a target, Mu$^{2}$SLAM trains the speech-text models with a sequence-to-sequence masked denoising objective similar to T5 on the decoder and a masked language modeling (MLM) objective on the encoder, for both unlabeled speech and text, while utilizing the supervised tasks to improve cross-lingual and cross-modal representation alignment within the model. On CoVoST AST, Mu$^{2}$SLAM establishes a new state-of-the-art for models trained on public datasets, improving on xx-en translation over the previous best by 1.9 BLEU points and on en-xx translation by 1.1 BLEU points. On Voxpopuli ASR, our model matches the performance of an mSLAM model fine-tuned with an RNN-T decoder, despite using a relatively weaker sequence-to-sequence architecture. On text understanding tasks, our model improves by more than 6\% over mSLAM on XNLI, getting closer to the performance of mT5 models of comparable capacity on XNLI and TydiQA, paving the way towards a single model for all speech and text understanding tasks.
translated by 谷歌翻译
对于多语言序列到序列预审预周序模型(多语言SEQ2SEQ PLM),例如姆巴特(Mbart),自制的预处理任务接受了多种单语言的培训,例如25种来自CommonCrawl的语言,而下游的跨语言任务通常在双语语言子集上进行,例如英语 - 德国人,存在数据差异,即领域的差异,以及跨语言学习客观差异,即在训练和填充阶段之间的任务差异。为了弥合上述跨语言域和任务差距,我们将使用额外的代码切换恢复任务扩展了香草预后管道。具体而言,第一阶段采用自我监督的代码转换还原任务作为借口任务,从而允许多语言SEQ2SEQ PLM获取一些域内对齐信息。在第二阶段,我们正常在下游数据上微调模型。 NLG评估(12个双语翻译任务,30个零射击任务和2项跨语言摘要任务)和NLU评估(7个跨语性自然语言推理任务)的实验表明,我们的模型超过了强大的基线MBART,具有标准的FINETUNNING,这表明了我们的模型策略,一致。分析表明,我们的方法可以缩小跨语性句子表示的欧几里得距离,并通过微不足道的计算成本改善模型概括。我们在:https://github.com/zanchangtong/csr4mbart上发布代码。
translated by 谷歌翻译