最近的一项研究表明,与人类翻译相比,神经机器翻译包含由相对高频单词制成的更强相关的公式序列,但与相对较少的单词制成的公式性序列相对较少。这些结果是基于质量报纸文章的翻译而获得的,其中人类翻译被认为不是很字面的。本研究试图使用议会语料库复制这项研究。该文本是由三个著名的神经机器翻译系统从法语翻译成英语的:DeepL,Google Translate和Microsoft Translator。结果证实了对新闻语料库的观察结果,但差异不太强烈。他们认为,在比较人类和机器翻译时,最好使用通常会导致更多字面翻译的文本流派,例如议会语料库。关于三个神经机系统之间的差异,与DeepL和Microsoft Translations相比,Google翻译似乎含有较少的高度搭建大型大型大型,而胶合图技术识别出的。
translated by 谷歌翻译
The Annals of Joseon Dynasty (AJD) contain the daily records of the Kings of Joseon, the 500-year kingdom preceding the modern nation of Korea. The Annals were originally written in an archaic Korean writing system, `Hanja', and were translated into Korean from 1968 to 1993. The resulting translation was however too literal and contained many archaic Korean words; thus, a new expert translation effort began in 2012. Since then, the records of only one king have been completed in a decade. In parallel, expert translators are working on English translation, also at a slow pace and produced only one king's records in English so far. Thus, we propose H2KE, a neural machine translation model, that translates historical documents in Hanja to more easily understandable Korean and to English. Built on top of multilingual neural machine translation, H2KE learns to translate a historical document written in Hanja, from both a full dataset of outdated Korean translation and a small dataset of more recently translated contemporary Korean and English. We compare our method against two baselines: a recent model that simultaneously learns to restore and translate Hanja historical document and a Transformer based model trained only on newly translated corpora. The experiments reveal that our method significantly outperforms the baselines in terms of BLEU scores for both contemporary Korean and English translations. We further conduct extensive human evaluation which shows that our translation is preferred over the original expert translations by both experts and non-expert Korean speakers.
translated by 谷歌翻译
在本文中,作为一个案例研究,我们在与谷歌翻译的机器翻译中对性别偏差进行了系统研究。我们翻译了包含匈牙利语的职业名称的句子,这是一种与性别中性代词的语言,进入英语。我们的目标是通过将翻译与最佳非偏见翻译者进行比较来提出偏见的公平措施。在评估偏见时,我们使用以下参考点:(1)源和目标语言国家的职业中的男女分布,以及(2)匈牙利调查结果,审查某些工作是通常被认为是女性化或男性化的。我们还研究了如何将句子扩展到职业的形容词效应了翻译代词的性别。因此,我们发现对双方的偏见,但对女性的偏见结果更频繁。翻译更接近我们对客观职业统计的看法。最后,职业对翻译产生了更大的效果而不是形容词。
translated by 谷歌翻译
本文记录了伊图哥本哈根(ITU Copenhagen)生产的法罗伊斯(Faroese)和丹麦(Faroese)之间的句子对数据集。数据涵盖了两种源语言的tranlsation,旨在用作此语言对的机器翻译系统的培训数据。
translated by 谷歌翻译
This report summarizes the work carried out by the authors during the Twelfth Montreal Industrial Problem Solving Workshop, held at Universit\'e de Montr\'eal in August 2022. The team tackled a problem submitted by CBC/Radio-Canada on the theme of Automatic Text Simplification (ATS).
translated by 谷歌翻译
神经机器翻译(NMT)是一个开放的词汇问题。结果,处理在培训期间没有出现的单词(又称唱歌外(OOV)单词)长期以来一直是NMT系统的基本挑战。解决此问题的主要方法是字节对编码(BPE),将包括OOV单词在内的单词分为子字段中。在自动评估指标方面,BPE为广泛的翻译任务取得了令人印象深刻的结果。尽管通常假定使用BPE,但NMT系统能够处理OOV单词,但BPE在翻译OOV单词中的有效性尚未明确测量。在本文中,我们研究了BPE在多大程度上成功地翻译了单词级别的OOV单词。我们根据单词类型,段数,交叉注意权重和训练数据中段NGram的段频率分析OOV单词的翻译质量。我们的实验表明,尽管仔细的BPE设置似乎在整个数据集中翻译OOV单词时相当有用,但很大一部分的OOV单词被错误地翻译而成。此外,我们强调了BPE在为特殊案例(例如命名本性和涉及的语言彼此接近的语言)翻译OOV单词中的有效性稍高。
translated by 谷歌翻译
本章提供了计算语言学方法的介绍,重点是它们在翻译实践和研究中的应用。它涵盖了在翻译背景下对语言数据收集,存储,索引和分析的计算模型,方法和工具,并讨论了该领域的主要方法论问题和挑战。虽然对现有计算语言学方法和工具的详尽审查超出了本章的范围,但我们描述了最具代表性的方法,并用典型应用的描述来说明它们。
translated by 谷歌翻译
识别跨语言抄袭是挑战性的,特别是对于遥远的语言对和感知翻译。我们介绍了这项任务的新型多语言检索模型跨语言本体论(CL \ nobreakdash-osa)。 CL-OSA表示从开放知识图Wikidata获得的实体向量的文档。反对其他方法,Cl \ nobreakdash-osa不需要计算昂贵的机器翻译,也不需要使用可比较或平行语料库进行预培训。它可靠地歧义同音异义和缩放,以允许其应用于Web级文档集合。我们展示了CL-OSA优于从五个大局部多样化的测试语料中检索候选文档的最先进的方法,包括日语英语等遥控语言对。为了识别在角色级别的跨语言抄袭,CL-OSA主要改善了感觉识别翻译的检测。对于这些挑战性案例,CL-OSA在良好的Plagdet得分方面的表现超过了最佳竞争对手的比例超过两种。我们研究的代码和数据公开可用。
translated by 谷歌翻译
我们提出一个免费的日语平行语料库。它包括1500万个对齐段,并通过编译和过滤几种现有资源来获得。在本文中,我们描述了现有资源,其数量和质量,我们应用的过滤以提高语料库的质量以及现成的语料库的内容。我们还通过训练和评估一些标准的MT系统来评估该语料库的实用性和过滤质量。
translated by 谷歌翻译
世界各地的数百万人无法访问网络上的内容,因为大多数内容都没有用他们的语言提供。机器翻译(MT)系统有可能改变这种语言。目前的MT系统为高资源语言对提供了非常准确的结果,例如德语和英语。但是,对于许多低资源语言,MT仍在积极研究中。关键挑战是缺少数据集来构建这些系统。我们呈现Lesan,一个用于低资源语言的MT系统。我们的管道通过利用在线和离线来源来解决低资源MT的关键瓶颈,是埃塞俄比亚的自定义OCR系统和自动对准模块。管道中的最终步骤是序列模型的序列,它将并将语料库与输入进行并联,给我们一个翻译模型。 Lesan的翻译模型是基于变压器架构。构建基础模型后,返回转换,用于利用单旋语。目前莱森支持Tigrinya,Amharic和英语的翻译。我们执行广泛的人类评估,并表明Lesan优于最先进的系统,例如谷歌翻译和全部六对的微软翻译。莱森自由地提供,迄今为止已达到超过1000万译本。目前,只有217个Tigrinya和15,009个Amharic Wikipedia文章。我们相信莱森将通过MT为数百万人民促进对网络的进入。
translated by 谷歌翻译
我们介绍了第一个用于濒危Erzya语言与俄语以及我们为训练和评估它收集的数据集的神经机器翻译系统。BLEU分别分别为Erzya和Russian的BLEU分数分别为17和19,其中一半以上的翻译被以母语为母语的人可以接受。我们还调整了模型以在Erzya和其他10种语言之间转换,但是如果没有其他并行数据,这些方向上的质量仍然很低。我们将翻译模型与收集的文本语料库一起发布,新的语言标识模型以及适合Erzya语言的多语言句子编码器。这些资源将在https://github.com/slone-nlp/myv-nmt上找到。
translated by 谷歌翻译
本文介绍了对土耳其语可用于的语料库和词汇资源的全面调查。我们审查了广泛的资源,重点关注公开可用的资源。除了提供有关可用语言资源的信息外,我们还提供了一组建议,并确定可用于在土耳其语言学和自然语言处理中进行研究和建筑应用的数据中的差距。
translated by 谷歌翻译
Large language models (LLMs) that have been trained on multilingual but not parallel text exhibit a remarkable ability to translate between languages. We probe this ability in an in-depth study of the pathways language model (PaLM), which has demonstrated the strongest machine translation (MT) performance among similarly-trained LLMs to date. We investigate various strategies for choosing translation examples for few-shot prompting, concluding that example quality is the most important factor. Using optimized prompts, we revisit previous assessments of PaLM's MT capabilities with more recent test sets, modern MT metrics, and human evaluation, and find that its performance, while impressive, still lags that of state-of-the-art supervised systems. We conclude by providing an analysis of PaLM's MT output which reveals some interesting properties and prospects for future work.
translated by 谷歌翻译
本文介绍了一个大规模的多模式和多语言数据集,该数据集旨在促进在语言中的上下文使用中对图像进行接地的研究。数据集由选择明确说明在电影字幕句子中表达的概念的图像组成。数据集是一个宝贵的资源,因为(i)图像与文本片段一致,而不是整个句子; (ii)对于文本片段和句子,可以使用多个图像; (iii)这些句子是自由形式和现实世界的; (iv)平行文本是多语言的。我们为人类设置了一个填充游戏,以评估数据集的自动图像选择过程的质量。我们在两个自动任务上显示了数据集的实用程序:(i)填充填充; (ii)词汇翻译。人类评估和自动模型的结果表明,图像可以是文本上下文的有用补充。该数据集将受益于单词视觉基础的研究,尤其是在自由形式句子的背景下,可以从https://doi.org/10.5281/zenodo.5034604获得创意常识许可。
translated by 谷歌翻译
本文使用寄存器预测任务进行了39种语言的基于频率语料库相似性的实验。目的是量化(i)不同语料库与同一语言和(ii)单个语音的同质性之间的距离。这两个目标对于衡量基于语料库的语言分析如何从一个数据集推广到另一个数据集都至关重要。问题在于,以前的工作集中在印欧语上,提出了一个问题,即这些措施是否能够在各种语言上提供强大的概括。本文使用寄存器预测任务来评估跨39种语言的竞争措施:他们能够区分代表不同生产环境的语料库?每个实验都将单个语言的三个语料库与所有语言共享的三个数字寄存器进行比较:社交媒体,网页和Wikipedia。结果表明,语料库相似性的衡量标准保留了不同语言家族,写作系统和形态类型的有效性。此外,当对不域外的语料库,应用于低资源语言以及应用于不同的寄存器集时,这些措施仍然坚固。鉴于我们需要在可用于分析的迅速增加的情况下进行概括,因此这些发现很重要。
translated by 谷歌翻译
在本文中,我们分享了我们努力建立能够翻译一千多种语言的实用机器翻译(MT)系统的发现。我们在三个研究领域中描述了结果:(i)通过利用半监督预训练的语言识别和开发数据驱动的过滤技术来构建1500多种语言的清洁,网挖数据集; (ii)通过利用大规模的多语言模型来开发用于服务不足的语言的实用MT模型,该模型训练了有监督的并行数据,以使用100多种高资源语言和单语言数据集,以增加1000多种语言; (iii)研究这些语言的评估指标的局限性,并对我们MT模型的输出进行定性分析,突出显示了这些类型模型的几种频繁误差模式。我们希望我们的工作为旨在为当前研究的语言构建MT系统的从业者提供有用的见解,并突出显示可以补充Data-Sparse设置中大量多语言模型的弱点的研究方向。
translated by 谷歌翻译
世界各地的隐私法律和法规的景观是复杂而不断变化的。国家和超国家法律,协议,法令和其他政府发行的规则构成了公司必须遵循的拼凑而成才能在国际上进行运作。为了检查该拼凑而成的状态和演变,我们介绍了1,043条隐私法,法规和准则的政府隐私指示语料库或GPI语料库,涵盖了182个司法管辖区。该语料库可以对法律焦点进行大规模定量和定性检查。我们检查了创建GPI的时间分布,并说明了过去50年中隐私立法的急剧增加,尽管较细粒度的检查表明,增加的速度取决于GPIS所说的个人数据类型。我们的探索还表明,大多数隐私法分别解决了相对较少的个人数据类型,这表明全面的隐私立法仍然很少见。此外,主题建模结果显示了GPI中常见主题的普遍性,例如财务,医疗保健和电信。最后,我们将语料库释放到研究界,以促进进一步的研究。
translated by 谷歌翻译
我们在本文中介绍了我们认为是视频游戏机翻译的首次尝试之一。我们的研究表明,只有有限的内域数据训练的模型超出了可公开可用的系统,随后的人类评估揭示了最终翻译中的有趣发现。本文的第一部分介绍了视频游戏翻译的一些挑战,一些现有文献以及本实验中使用的系统和数据集。最后一节讨论了我们对所得翻译的分析以及这种自动化系统的潜在好处。一个这样的发现突出了该模型学习从英语到法语的视频游戏翻译的典型规则和模式的能力。因此,我们的结论表明,鉴于令人鼓舞的结果,工作的高度重复性以及翻译人员在该领域中通常不良的工作条件,视频游戏机译的具体情况可能非常有用。但是,与文化部门中MT的其他用例一样,我们认为这在很大程度上取决于该工具的适当实施,该工具应与人类翻译人员进行交互方式来刺激创造力,而不是为了生产力而不是原始的后编辑。
translated by 谷歌翻译
中国人在马来群岛各国的中国社区中突出特征。在这些国家,中国人经历了对当地语言和文化的调整过程,这导致每个国家发生中国变体。在本文中,我们对从五个马来群岛国家收集的中国新闻文本进行了定量分析看法。统计结果表明,这五个国家中使用的中国变体与现代中国大陆同行不同。同时,我们设法提取并分类了每个国家使用的几个中文单词。所有这些差异反映了中国人如何在海外发展,并证明了ROM当地社会和文化对中国发展的深远影响。
translated by 谷歌翻译
An obstacle to research in automatic paraphrase identification and generation is the lack of large-scale, publiclyavailable labeled corpora of sentential paraphrases. This paper describes the creation of the recently-released Microsoft Research Paraphrase Corpus, which contains 5801 sentence pairs, each hand-labeled with a binary judgment as to whether the pair constitutes a paraphrase. The corpus was created using heuristic extraction techniques in conjunction with an SVM-based classifier to select likely sentence-level paraphrases from a large corpus of topicclustered news data. These pairs were then submitted to human judges, who confirmed that 67% were in fact semantically equivalent. In addition to describing the corpus itself, we explore a number of issues that arose in defining guidelines for the human raters.
translated by 谷歌翻译