多语种NMT已成为MT在生产中部署的有吸引力的解决方案。但是要匹配双语质量,它符合较大且较慢的型号。在这项工作中,我们考虑了几种方法在推理时更快地使多语言NMT变得更快而不会降低其质量。我们在两种20语言多平行设置中尝试几个“光解码器”架构:在TED会谈中小规模和帕拉克曲线上的大规模。我们的实验表明,将具有词汇过滤的浅解码器组合在于,在翻译质量下没有损失的速度超过两倍。我们用Bleu和Chrf(380语言对),鲁棒性评估和人类评估验证了我们的研究结果。
translated by 谷歌翻译
虽然已经提出了许多背景感知神经机器转换模型在翻译中包含语境,但大多数模型在句子级别对齐的并行文档上培训结束到底。因为只有少数域(和语言对)具有此类文档级并行数据,所以我们无法在大多数域中执行准确的上下文感知转换。因此,我们通过将文档级语言模型结合到解码器中,提出了一种简单的方法将句子级转换模型转换为上下文感知模型。我们的上下文感知解码器仅在句子级并行语料库和单语演模板上构建;因此,不需要文档级并行数据。在理论上,这项工作的核心部分是使用上下文和当前句子之间的点亮互信息的语境信息的新颖表示。我们以三种语言对,英语到法语,英语到俄语,以及日语到英语,通过评估,通过评估以及对上下文意识翻译的对比测试。
translated by 谷歌翻译
本报告介绍了在大型多语种计算机翻译中为WMT21共享任务的Microsoft的机器翻译系统。我们参加了所有三种评估轨道,包括大轨道和两个小轨道,前者是无约束的,后两者完全受约束。我们的模型提交到共享任务的初始化用deltalm \脚注{\ url {https://aka.ms/deltalm}},一个通用的预训练的多语言编码器 - 解码器模型,并相应地使用巨大的收集并行进行微调数据和允许的数据源根据轨道设置,以及应用逐步学习和迭代背翻译方法进一步提高性能。我们的最终提交在自动评估度量方面排名第一的三条轨道。
translated by 谷歌翻译
在本文中,我们描述了三星研究的提交菲律宾-Konvergen AI团队为WMT'21大规模多语言翻译任务 - 小轨道2.我们向共享任务提交标准SEQ2Seq变压器模型,没有任何培训或架构技巧,主要依靠我们的数据预处理技术来提高性能。我们的最终提交模型在Flores-101 DevTest集中筹集了22.92平均Bleu,并在比赛的隐藏试验集上获得了22.97平均平均Bleu,整体排名第六。尽管只使用标准变压器,我们的型号在印度尼西亚排名第一的javanese,表明数据预处理的重要事项,如果不是更多的,而不是切割边缘模型架构和训练技术。
translated by 谷歌翻译
基于变压器的语言模型导致所有域的所有域都令人印象深刻的自然语言处理。在语言建模任务上预先预订这些模型以及在文本分类,问题应答和神经机翻译等下游任务上的FineTuning它们一直显示了示例性结果。在这项工作中,我们提出了一种多任务FineTuning方法,它将双语机器翻译任务与辅助因果语言建模任务相结合,以提高印度语言前任务的性能。我们对三种语言对,Marathi-Hindi,Marathi-English和Hindi-English进行了实证研究,在那里我们将多任务FineTuning方法与标准的FineTuning方法进行比较,我们使用MBart50模型。我们的研究表明,多任务FineTuning方法可以是比标准FineTuning更好的技术,并且可以改善语言对的双语机器换算。
translated by 谷歌翻译
本文介绍了我们提交给WMT21共享新闻翻译任务的受限轨道。我们专注于三个相对低的资源语言对孟加拉,从印地语,英语往返Hausa,以及来自Zulu的Xhosa。为了克服相对低行数据的限制,我们使用采用并行和单晶体数据的多任务目标训练多语言模型。此外,我们使用后退转换增强数据。我们还培养了一种双语模型,包括后退转换和知识蒸馏,然后使用序列到序列映射来组合两种模型。我们看到迄今为止英语和来自Hausa的Bleu Point的相对收益约为70%,以及与双语基线相比,孟加拉和从Zulu的孟加拉和从Zulu的相对改善约25%。
translated by 谷歌翻译
嘈杂的频道模型在神经机翻译(NMT)中特别有效。然而,最近的方法如“波束搜索和重新划分”(BSR)在推理期间引起了大量的计算开销,使实际应用不可行。我们的目标是建立一个摊销嘈杂的频道NMT模型,使得从它贪婪解码将生成转换,以最大化与使用BSR生成的翻译相同的奖励。我们尝试三种方法:知识蒸馏,1阶梯偏差仿制学习和Q学习。第一方法获得来自伪语料库的噪声信道信号,后两种方法旨在直接针对嘈杂的通道MT奖励优化。所有三种级别的速度推动速度推断为1-2级。对于所有三种方法,所生成的翻译无法实现与BSR相当的奖励,但BLEU近似的翻译质量类似于BSR产生的翻译的质量。
translated by 谷歌翻译
神经自回归序列模型涂抹许多可能​​序列之间的概率,包括退化的序列,例如空或重复序列。在这项工作中,我们解决了一个特定的情况,其中模型为不合理的短序列分配高概率。我们定义了量化速率以量化此问题。在确认神经机翻译中高度过度的过天气后,我们建议明确地减少培训期间的过天平率。我们进行一组实验来研究建议的正规化对模型分布和解码性能的影响。我们使用神经电脑翻译任务作为测试用,并考虑三个不同大小的不同数据集。我们的实验显示了三个主要结果。首先,我们可以通过调整正规化的强度来控制模型的过天平率。其次,通过提高过度损失贡献,令牌的概率和等级在不应该是它的位置下降。第三,所提出的正则化影响光束搜索的结果,特别是当使用大梁时。用大梁的翻译质量(在BLEU中测量)的降解显着减少了较低的过天速速率,但与较小光束尺寸相比的劣化仍有剩余状态。从这些观察中,我们得出结论,高度过度的过度性是神经自回归模型中过于可能的短序列的退化情况背后的主要原因。
translated by 谷歌翻译
我们介绍Samanantar,是最大的公开可用的并行Corpora Collection,用于指示语言。该集合中的英语和11个上线语言之间总共包含4970万句对(来自两种语言系列)。具体而言,我们从现有的公共可用并行基层编译1240万句对,另外,从网络上挖掘3740万句对,导致4倍增加。我们通过组合许多语料库,工具和方法来挖掘网站的并行句子:(a)Web爬行单格式语料库,(b)文档OCR,用于从扫描的文档中提取句子,(c)用于对齐句子的多语言表示模型,以及(d)近似最近的邻居搜索搜索大量句子。人类评估新矿业的Corpora的样本验证了11种语言的高质量平行句子。此外,我们使用英语作为枢轴语言,从英式并行语料库中提取所有55个指示语言对之间的834百万句子对。我们培训了跨越Samanantar上所有这些语言的多语种NMT模型,这在公开可用的基准上表现出现有的模型和基准,例如弗洛雷斯,建立萨曼塔尔的效用。我们的数据和模型可在Https://indicnlp.ai4bharat.org/samanantar/上公开提供,我们希望他们能够帮助推进NMT和Multibingual NLP的研究。
translated by 谷歌翻译
这项工作适用于最低贝叶斯风险(MBR)解码,以优化翻译质量的各种自动化指标。机器翻译中的自动指标最近取得了巨大的进步。特别是,在人类评级(例如BLEurt,或Comet)上微调,在与人类判断的相关性方面是优于表面度量的微调。我们的实验表明,神经翻译模型与神经基于基于神经参考度量,BLEURT的组合导致自动和人类评估的显着改善。通过与经典光束搜索输出不同的翻译获得该改进:这些翻译的可能性较低,并且较少受到Bleu等表面度量的青睐。
translated by 谷歌翻译
攻击神经机翻译模型是离散序列的本身组合任务,解决了近似启发式。大多数方法使用梯度独立地攻击每个样品上的模型。我们可以学会产生有意义的对抗攻击吗?而不是机械地应用梯度与现有方法相比,我们学会通过基于语言模型训练对抗性发生器来攻击模型。我们提出了蒙面的对抗生成(MAG)模型,该模型在整个培训过程中学会扰乱翻译模型。实验表明,它提高了机器翻译模型的鲁棒性,同时比竞争方法更快。
translated by 谷歌翻译
不断增长的数据量导致更大的通用模型。通常遗漏特定用例,因为通用模型在域特定情况下往往表现不佳。我们的工作通过用于从通用域(并行文本)语料库的域名数据的方法解决了这个差距,用于机器翻译的任务。所提出的方法根据具有单孔域的特定数据集的余弦相似度在并行通用域数据中排列句子。然后,我们选择具有最高相似性分数的顶级k句,以培训调整的新机器翻译系统到特定的域数据。我们的实验结果表明,在通用或通用和域数据的混合训练的域内训练的模型训练的模型。也就是说,我们的方法以低计算成本和数据大小选择高质量的域特定培训实例。
translated by 谷歌翻译
MINED BITEXTS可以包含不完美的翻译,从而产生神经机翻译(NMT)的不可靠的训练信号。在已知过滤这样的对以提高最终模型质量的情况下,我们认为它在低资源条件下是次优的,甚至开采数据可以限制。在我们的工作中,我们提出了通过自动编辑来改进挖掘的BIESTS:给出语言XF中的句子,而且可能是IT XE的不完美翻译,我们的模型生成了一个修订的版本XF'或XE',产生更等值翻译对(即<XF,XE'或<XF',XE>)。我们使用一个简单的编辑策略(1)挖掘在给定的BITExt中的每个句子的潜在不完美的翻译,(2)学习一个模型来重建原始翻译并以多任务方式翻译。实验表明,我们的方法在大多数情况下,在大多数情况下,我们的方法成功地提高了5个低资源语言对和10个翻译方向,在大多数情况下改善了竞争反播基线。
translated by 谷歌翻译
我们对真正低资源语言的神经机翻译(NMT)进行了实证研究,并提出了一个训练课程,适用于缺乏并行培训数据和计算资源的情况,反映了世界上大多数世界语言和研究人员的现实致力于这些语言。以前,已经向低资源语言储存了使用后翻译(BT)和自动编码(AE)任务的无监督NMT。我们证明利用可比的数据和代码切换作为弱监管,与BT和AE目标相结合,即使仅使用适度的计算资源,低资源语言也会显着改进。在这项工作中提出的培训课程实现了Bleu分数,可通过+12.2 Bleu为古吉拉特和+3.7 Bleu为哈萨克斯培训的监督NMT培训,展示了弱势监督的巨大监督态度资源语言。在受到监督数据的培训时,我们的培训课程达到了索马里数据集(索马里29.3的BLEU的最先进的结果)。我们还观察到增加更多时间和GPU来培训可以进一步提高性能,强调报告在MT研究中的报告资源使用的重要性。
translated by 谷歌翻译
最近的言语和语言技术的方法预先rain非常大型模型,用于特定任务。然而,这种大型模型的好处通常仅限于世界上少数资源丰富的语言。在这项工作中,我们对来自印度次大陆的低资源语言构建ASR系统进行多种贡献。首先,我们从各种领域策划40个印度语言的17,000小时的原始语音数据,包括教育,新闻,技术和金融。其次,使用这种原始语音数据,我们预先存在于40个印度语言的Wav2Vec样式模型的多个变体。第三,我们分析佩带的模型以查找关键特点:码本矢量的类似探测音素在语言中共享,跨层的表示是语言系列的判别,并且注意力头通常会在小型本地窗口中注意。第四,我们微调了9种语言的下游ASR模型,并在3个公共数据集上获得最先进的结果,包括非常低的资源语言,如Sinhala和Nepali。我们的工作建立了多语言预介质是建立ASR系统的有效策略,为印度次大陆的语言上不同的扬声器建立ASR系统。
translated by 谷歌翻译
在本文中,我们提出了一种新的生成模型,逐步逐步的去噪AutoEncoder(Sundae),不依赖于自回归模型。类似地与去噪扩散技术,在从随机输入开始并从随机输入开始并每次直到收敛改善它们时,日出施加Sundae。我们提出了一个简单的新改进运算符,它比扩散方法更少迭代,同时在定性地在自然语言数据集上产生更好的样本。Sundae在WMT'14英语到德语翻译任务上实现最先进的结果(非自回归方法),在巨大清洁的常见爬网数据集和Python代码的数据集上对无条件语言建模的良好定性结果来自GitHub。通过在模板中填充任意空白模式,Sundae的非自动增加性质开辟了超出左右提示的可能性。
translated by 谷歌翻译
虽然端到端的神经机翻译(NMT)取得了令人印象深刻的进步,但嘈杂的输入通常会导致模型变得脆弱和不稳定。生成对抗性示例作为增强数据被证明是有用的,以减轻这个问题。对逆势示例生成(AEG)的现有方法是字级或字符级。在本文中,我们提出了一个短语级侵犯示例生成(PAEG)方法来增强模型的鲁棒性。我们的方法利用基于梯度的策略来替代源输入中的弱势位置的短语。我们在三个基准中验证了我们的方法,包括LDC中文 - 英语,IWSLT14德语,以及WMT14英语 - 德语任务。实验结果表明,与以前的方法相比,我们的方法显着提高了性能。
translated by 谷歌翻译
无向神经序列模型实现了与最先进的定向序列模型竞争的性能,这些序列模型在机器翻译任务中从左到右单调。在这项工作中,我们培训一项政策,该政策是通过加强学习来学习预先训练的,无向翻译模型的发电顺序。我们表明,通过我们学习的订单解码的翻译可以实现比从左到右解码的输出量更高的BLEU分数或由来自Mansimov等人的学习顺序解码的输出。 (2019)关于WMT'14德语翻译任务。从De-Zh,WMT'16英语 - 罗马尼亚语和WMT'21英语翻译任务的最大来源和目标长度为30的示例,我们的学习订单优于六个任务中的四个启发式生成订单。我们接下来通过定性和定量分析仔细分析学习的订单模式。我们表明我们的政策通常遵循外部到内部顺序,首先预测最左右的位置,然后向中间移动,同时在开始时跳过不太重要的单词。此外,该政策通常在连续步骤中预测单个语法构成结构的位置。我们相信我们的调查结果可以对无向生成模型的机制提供更多的见解,并鼓励在这方面进一步研究。我们的代码在HTTPS://github.com/jiangyctarheel/undirectect - generation
translated by 谷歌翻译
以前的工作主要侧重于改善NLU任务的交叉传输,具有多语言预用编码器(MPE),或提高与伯特的监督机器翻译的性能。然而,探索了,MPE是否可以有助于促进NMT模型的交叉传递性。在本文中,我们专注于NMT中的零射频转移任务。在此任务中,NMT模型培训,只有一个语言对的并行数据集和搁置架MPE,然后它直接测试在零拍语言对上。我们为此任务提出了Sixt,一个简单而有效的模型。 SIXT利用了两阶段培训计划利用MPE,并进一步改进了解离编码器和容量增强的解码器。使用此方法,SIMPT显着优于MBart,这是一个用于NMT的预磨削的多语言编码器解码器模型,平均改善了14个源语言的零拍摄的任何英语测试集上的7.1 BLEU。此外,培训计算成本和培训数据较少,我们的模型在15个任何英语测试组上实现了比Criss和M2M-100,两个强大的多语言NMT基线更好的性能。
translated by 谷歌翻译
我们解决了神经机翻译中的两个域适应问题。首先,我们希望达到领域的稳健性,即培训数据的域名的良好质量,以及培训数据中的域名不间断。其次,我们希望我们的系统是Adaptive的,即,可以使用只有数百个域的平行句子来实现Finetune系统。在本文中,我们介绍了两个先前方法的新组合,文字自适应建模,解决了域的鲁棒性和荟萃学习,解决了域适应性,并且我们呈现了显示我们新组合改善这些属性的经验结果。
translated by 谷歌翻译