在线健康社区(OHC)是外行共享健康信息的主要渠道。为了分析OHC的健康消费者生成的内容(HCGC),确定外行使用的口语医学表达是一个至关重要的挑战。开放式和协作的消费者健康词汇(OAC CHV)是应对这种挑战的受控词汇。但是,OAC CHV仅以英语提供,将适用性限制在其他语言上。这项研究旨在提出一个跨语言自动识别框架,以将英语OAC CHV扩展为跨语言。我们的框架需要英语HCGC语料库和非英语(即本研究中的中文)HCGC语料库作为输入。使用Skip-gram算法确定两个单语词向量空间,以便每个空间在语言中编码来自外行的通用单词关联。基于等距假设,该框架将两个单语言空间归结为双语单词矢量空间,在该空间中,我们采用余弦相似性作为指标来识别跨语言的语义相似单词。在实验中,我们的框架表明,它可以有效地检索类似的医学术语,包括口语,跨语言,并进一步促进跨语言CHV的汇编。
translated by 谷歌翻译
识别跨语言抄袭是挑战性的,特别是对于遥远的语言对和感知翻译。我们介绍了这项任务的新型多语言检索模型跨语言本体论(CL \ nobreakdash-osa)。 CL-OSA表示从开放知识图Wikidata获得的实体向量的文档。反对其他方法,Cl \ nobreakdash-osa不需要计算昂贵的机器翻译,也不需要使用可比较或平行语料库进行预培训。它可靠地歧义同音异义和缩放,以允许其应用于Web级文档集合。我们展示了CL-OSA优于从五个大局部多样化的测试语料中检索候选文档的最先进的方法,包括日语英语等遥控语言对。为了识别在角色级别的跨语言抄袭,CL-OSA主要改善了感觉识别翻译的检测。对于这些挑战性案例,CL-OSA在良好的Plagdet得分方面的表现超过了最佳竞争对手的比例超过两种。我们研究的代码和数据公开可用。
translated by 谷歌翻译
两个关键假设塑造了排名检索的通常视图:(1)搜索者可以为他们希望看到的文档中的疑问选择单词,并且(2)排名检索的文档就足以,因为搜索者将足够就足够了能够认识到他们希望找到的那些。当要搜索的文档处于搜索者未知的语言时,既不是真的。在这种情况下,需要跨语言信息检索(CLIR)。本章审查了艺术技术的交流信息检索,并概述了一些开放的研究问题。
translated by 谷歌翻译
跨语言嵌入技术(CLWE)的技术在应对低资源语言的自然语言处理挑战方面起着基本作用。它的主要方法假设嵌入之间的关系可以由线性映射表示,但是没有探索该假设所存在的条件。这种研究差距最近变得非常危急,因为已经证明,放松映射是非线性的,在某些情况下可以提高性能。我们首次提出了一个理论分析,该分析将单词嵌入中编码的类比保存是一种必要且充分的条件,用于在这些嵌入之间的地面clwe映射是线性的。在一个涵盖十二种不同语言的五个代表性类比类别的新型跨语性类比数据集中,我们进行了实验,为我们的理论主张提供直接的经验支持。这些结果提供了对其他研究人员的观察结果的更多见解,并为制定更有效的跨语性代表性学习策略做出了贡献。
translated by 谷歌翻译
非洲语言仍然滞留在自然语言处理技术的进步中,是缺乏代表性数据的一个原因,具有可以在语言之间传输信息的技术可以帮助减少缺乏数据问题。本文列车Setswana和Sepedi单语法向量,并使用Vecmap为Setsssssssssssssssssssssssssssssssssssssssssssssssssssssssssssssssssssssssssssssssssssssssssssssssssssssssssssssssssssssssswana-sepedi创建交叉语言嵌入式。 Word Embeddings是字向量,其代表单词作为连续浮动数字,其中语义类似的单词映射到N维空间中的附近点。 Word Embeddings的想法是基于分布假设,即在类似上下文中分发了语义类似的单词(Harris,1954)。通过学习两个单独训练的单丝矢量的共享矢量空间来利用单晶嵌入来利用单晶的嵌入,使得具有类似含义的单词由类似的载体表示。在本文中,我们调查Setswana-Sepedi单声道单词矢量的十字旋转嵌入。我们使用Vecmap中的无监督十字形嵌入式培训Setswana-Sepedi跨语言嵌入式。我们使用语义评估任务评估Setswana-Sepedi交叉词表示的质量。对于语义相似性任务,我们将单词和Simlex任务翻译成SetSwana和Sepedi。我们将此数据集发布为其他研究人员的这项工作的一部分。我们评估嵌入式的内在质量,以确定是否有改进单词嵌入的语义表示。
translated by 谷歌翻译
跨语言嵌入(CLWE)已被证明在许多跨语性任务中有用。但是,大多数现有的学习Clwe的方法,包括具有上下文嵌入的方法是无知的。在这项工作中,我们提出了一个新颖的框架,以通过仅利用双语词典的跨语性信号来使上下文嵌入在感觉层面上。我们通过首先提出一种新颖的感知感知的跨熵损失来明确地提出一种新颖的感知跨熵损失来实现我们的框架。通过感知感知的跨熵损失预算的单语Elmo和BERT模型显示出对单词感官歧义任务的显着改善。然后,我们提出了一个感官对齐目标,除了跨语义模型预训练的感知感知跨熵损失以及几种语言对的跨语义模型(英语对德语/西班牙语/日本/中文)。与最佳的基线结果相比,我们的跨语言模型分别在零摄影,情感分类和XNLI任务上达到0.52%,2.09%和1.29%的平均绩效提高。
translated by 谷歌翻译
知识库,例如Wikidata Amass大量命名实体信息,例如多语言标签,这些信息对于各种多语言和跨语义应用程序非常有用。但是,从信息一致性的角度来看,不能保证这样的标签可以跨语言匹配,从而极大地损害了它们对机器翻译等字段的有用性。在这项工作中,我们研究了单词和句子对准技术的应用,再加上匹配算法,以将从Wikidata提取的10种语言中提取的跨语性实体标签对齐。我们的结果表明,Wikidata的主标签之间的映射将通过任何使用的方法都大大提高(F1分数最高20美元)。我们展示了依赖句子嵌入的方法如何超过所有其他脚本,甚至在不同的脚本上。我们认为,这种技术在测量标签对的相似性上的应用,再加上富含高质量实体标签的知识库,是机器翻译的绝佳资产。
translated by 谷歌翻译
跨域对齐在从机器翻译到转移学习的任务中起关键作用。最近,在单语嵌入中运行的纯监督方法已成功地用于推断双语词典而不依赖监督。但是,当前的最新方法仅关注点向量,尽管在表示单词时已证明分布嵌入可以嵌入更丰富的语义信息。在本文中,我们提出了与概率嵌入对齐的随机优化方法。最后,我们通过对齐单语言数据训练的单词嵌入方式来评估无监督单词翻译问题的方法。我们表明,所提出的方法在几种语言对的双语词典归纳任务上取得了良好的性能,并且比基于点矢量的方法更好。
translated by 谷歌翻译
Wikidata是一个经常更新,社区驱动和多语言知识图形。因此,Wikidata是实体联系的一个有吸引力的基础,这是最近发表论文的增加显而易见的。该调查侧重于四个主题:(1)存在哪些Wikidata实体链接数据集,它们是多么广泛使用,它们是如何构建的? (2)对实体联系数据集的设计进行Wikidata的特点,如果是的话,怎么样? (3)当前实体链接方法如何利用Wikidata的特定特征? (4)现有实体链接方法未开发哪种Wikidata特征?本次调查显示,当前的Wikidata特定实体链接数据集在其他知识图表中的方案中的注释方案中没有不同。因此,没有提升多语言和时间依赖数据集的可能性,是自然适合维基帽的数据集。此外,我们表明大多数实体链接方法使用Wikidata以与任何其他知识图相同的方式,因为任何其他知识图都缺少了利用Wikidata特定特征来提高质量的机会。几乎所有方法都使用标签等特定属性,有时是描述,而是忽略超关系结构等特征。因此,例如,通过包括超关系图嵌入或类型信息,仍有改进的余地。许多方法还包括来自维基百科的信息,这些信息很容易与Wikidata组合并提供有价值的文本信息,Wikidata缺乏。
translated by 谷歌翻译
Cross-lingual transfer learning without labeled target language data or parallel text has been surprisingly effective in zero-shot cross-lingual classification, question answering, unsupervised machine translation, etc. However, some recent publications have claimed that domain mismatch prevents cross-lingual transfer, and their results show that unsupervised bilingual lexicon induction (UBLI) and unsupervised neural machine translation (UNMT) do not work well when the underlying monolingual corpora come from different domains (e.g., French text from Wikipedia but English text from UN proceedings). In this work, we show that a simple initialization regimen can overcome much of the effect of domain mismatch in cross-lingual transfer. We pre-train word and contextual embeddings on the concatenated domain-mismatched corpora, and use these as initializations for three tasks: MUSE UBLI, UN Parallel UNMT, and the SemEval 2017 cross-lingual word similarity task. In all cases, our results challenge the conclusions of prior work by showing that proper initialization can recover a large portion of the losses incurred by domain mismatch.
translated by 谷歌翻译
一些基于变压器的模型可以执行跨语言转移学习:这些模型可以通过一种语言对特定任务进行培训,并以另一种语言的同一任务给予相对良好的结果,尽管仅在单语任务中进行了预先培训。但是,关于这些基于变压器的模型是否学习跨语言的通用模式,目前尚无共识。我们提出了一种单词级的任务不可能的方法,以评估此类模型构建的上下文化表示的对齐方式。我们表明,与以前的方法相比,我们的方法提供了更准确的翻译成对,以评估单词级别对齐。我们的结果表明,基于多语言变压器模型的某些内部层优于其他明确对齐的表示,甚至根据多语言对齐的更严格的定义,更是如此。
translated by 谷歌翻译
学术数据中的引文信息是进入刊物的重要洞察的重要来源和学术话语。引文分析结果和引用的机器学习的适用性严重取决于此类数据的完整性。现在学术数据的一个特定的缺点是非英语出版物通常不包括在数据集中,或者语言元数据不可用。因此,唯一研究了不同语言(交叉引用)的出版物之间的引文仅对非常有限的程度。在本文中,我们对基于超过100万英文论文的交叉引用分析,跨越三个科学学科,三十年的时间跨度。我们的调查涵盖了引用的语言和学科之间的差异,随着时间的推移,趋势以及交叉引用的使用特征以及影响。在我们的研究结果中,引文的增加率为中文所写的出版物,引用主要针对当地非英语语言,以及交叉和单声道引用之间的引文意图的一致性。为了促进进一步的研究,我们会公开收集的数据和源代码。
translated by 谷歌翻译
潜在的Dirichlet分配(LDA)如潜在的概率主题模型已延伸到双语设置。其中几个扩展中的基本建模假设是输入语料库是文档对的形式,其成分文件共享单个主题分布。然而,对于类似的小型公司而言,这种假设是强大的,这些数据在基本上类似的文件,即又是最常见的或易于获得的。在本文中,我们通过提出配对的文档来具有分开的,但绑定的主题分布来放松此假设。 %与配对文件的分布之间的绑定机制。我们建议界限的强度应该取决于每对对的语义相似性。估计以不同语言编写的文档的相似性,我们使用与浅层神经网络学习的交叉语言嵌入式。我们通过扩展两个主题模型来评估所提出的绑定机制:LDA的双语适应,该LDA假定单词袋输入和模型,该模型包含语义相干段的边界的形式的文本结构的一部分。为了评估新颖的主题模型的表现,我们对五种双语,英语文件的同类实验进行了内在和外在的实验,用法语,德语,意大利语,西班牙语和葡萄牙文档进行了英语文件的五种双语。结果展示了通过归一化的点亮互信息测量的主题一致性的方法的效率,以及通过困惑测量的泛化性能,并且在每个语言的交叉文档检索任务中的平均互惠级别方面对。
translated by 谷歌翻译
编码单词语义属性的密集词向量或“Word Embeddings”现在已成为机器翻译(MT),问题应答(QA),字感消解(WSD)和信息检索(IR)中的NLP任务的积分。在本文中,我们使用各种现有方法为14个印度语言创建多个单词嵌入。我们将这些嵌入的嵌入式为所有这些语言,萨姆萨姆,孟加拉,古吉拉蒂,印地教派,kannada,konkani,malayalam,marathi,尼泊尔,odiya,punjabi,梵语,泰米尔和泰雅古士在一个单一的存储库中。相对较新的方法,强调迎合上下文(BERT,ELMO等),表明了显着的改进,但需要大量资源来产生可用模型。我们释放使用上下文和非上下文方法生成的预训练嵌入。我们还使用Muse和XLM来培训所有上述语言的交叉语言嵌入。为了展示我们嵌入的效果,我们为所有这些语言评估了我们对XPOS,UPOS和NER任务的嵌入模型。我们使用8种不同的方法释放了436个型号。我们希望他们对资源受限的印度语言NLP有用。本文的标题是指最初在1924年出版的福斯特的着名小说“一段是印度”。
translated by 谷歌翻译
数据增强是自然语言处理(NLP)模型的鲁棒性评估的重要组成部分,以及增强他们培训的数据的多样性。在本文中,我们呈现NL-Cogmenter,这是一种新的参与式Python的自然语言增强框架,它支持创建两个转换(对数据的修改)和过滤器(根据特定功能的数据拆分)。我们描述了框架和初始的117个变换和23个过滤器,用于各种自然语言任务。我们通过使用其几个转换来分析流行自然语言模型的鲁棒性来证明NL-Upmenter的功效。基础架构,Datacards和稳健性分析结果在NL-Augmenter存储库上公开可用(\ url {https://github.com/gem-benchmark/nl-augmenter})。
translated by 谷歌翻译
MARCO排名数据集已广泛用于培训IR任务的深度学习模型,在不同的零射击方案上实现了相当大的效果。但是,这种类型的资源是英语以外的语言的稀缺。在这项工作中,我们呈现MMARCO,MS Marco段落的多语言版本,该数据集包括使用机器翻译创建的13种语言。我们通过微调单语和多语言重新排名模型以及此数据集的密集多语言模型进行了评估。实验结果表明,在我们翻译的数据集上微调微调的多语言模型可以单独对原始英文版的模型进行微调的卓越效果。我们蒸馏的多语言RE-RANKER与非蒸馏模型具有竞争力,而参数较少的5.4倍。最后,我们展现了翻译质量和检索效果之间的正相关性,提供了证据,即翻译方法的改进可能导致多语言信息检索的改进。翻译的数据集和微调模型可在https://github.com/unicamp-dl/mmarco.git上获得。
translated by 谷歌翻译
虽然审慎的语言模型(PLM)主要用作通用文本编码器,可以对各种下游任务进行微调,但最近的工作表明它们也可以重新连接以产生高质量的单词表示(即静态单词)嵌入)并在类型级词汇任务中产生良好的性能。虽然现有的工作主要集中在单语和双语环境中PLM的词汇专业化,但在这项工作中,我们将大规模多语言变压器(例如MMTS,例如Mbert或XLM-R)公开,以此为大规模的多语言词法知识,并利用Babelnet作为易于获得的丰富来源。多语言和跨语性类型级词汇知识。具体来说,我们利用Babelnet的多语言合成器来创建$ 50 $语言的同义词对,然后对MMTS(Mbert和XLM-R)进行对比目标指导的词汇专业化程序。我们表明,如此庞大的多语言词汇专业化为两项标准的跨语性词汇任务,双语词典感应和跨语性单词相似性以及跨语性句子检索带来了巨大的收益。至关重要的是,我们观察到在专业化中看不见的语言的收益,表明多语言词汇专业化使得概括无词法约束。在一系列随后的受控实验中,我们证明了MMT对专业化语言中单词表示的预处理质量对性能的影响要比一组约束集的语言多样性更大。令人鼓舞的是,这表明涉及低资源语言的词汇任务从资源丰富的语言的词汇知识中受益最大,通常更多。
translated by 谷歌翻译
跨语言嵌入可以应用于多种语言的几种自然语言处理应用程序。与先前使用基于欧几里得空间嵌入单词嵌入的作品不同,这篇简短的论文提出了一种简单有效的跨语言2VEC模型,该模型适应了PoinCar \'E Ball of双曲空间的球模型,从 - 英语平行语料库。已经表明,双曲线嵌入可以捕获和保留分层关系。我们在高呼气和类比任务上评估了模型。所提出的模型在跨语言类比任务上与香草word2Vec模型实现了可比的性能,超呼气任务表明,跨语义的poincar \'e Word2vec模型可以从跨语言中捕获潜在的层次结构,而这些文本跨越跨语言,这些结构是从跨语言中捕获的基于欧几里得的Word2Vec表示。我们的结果表明,通过保留潜在的分层信息,双曲线空间可以为跨语性嵌入提供更好的表示。
translated by 谷歌翻译
在科学研究中,该方法是解决科学问题和关键研究对象的必不可少手段。随着科学的发展,正在提出,修改和使用许多科学方法。作者在抽象和身体文本中描述了该方法的详细信息,并且反映该方法名称的学术文献中的关键实体称为方法实体。在大量的学术文献中探索各种方法实体有助于学者了解现有方法,为研究任务选择适当的方法并提出新方法。此外,方法实体的演变可以揭示纪律的发展并促进知识发现。因此,本文对方法论和经验作品进行了系统的综述,重点是从全文学术文献中提取方法实体,并努力使用这些提取的方法实体来建立知识服务。首先提出了本综述涉及的关键概念的定义。基于这些定义,我们系统地审查了提取和评估方法实体的方法和指标,重点是每种方法的利弊。我们还调查了如何使用提取的方法实体来构建新应用程序。最后,讨论了现有作品的限制以及潜在的下一步。
translated by 谷歌翻译
State-of-the-art natural language processing systems rely on supervision in the form of annotated data to learn competent models. These models are generally trained on data in a single language (usually English), and cannot be directly used beyond that language. Since collecting data in every language is not realistic, there has been a growing interest in crosslingual language understanding (XLU) and low-resource cross-language transfer. In this work, we construct an evaluation set for XLU by extending the development and test sets of the Multi-Genre Natural Language Inference Corpus (MultiNLI) to 15 languages, including low-resource languages such as Swahili and Urdu. We hope that our dataset, dubbed XNLI, will catalyze research in cross-lingual sentence understanding by providing an informative standard evaluation task. In addition, we provide several baselines for multilingual sentence understanding, including two based on machine translation systems, and two that use parallel data to train aligned multilingual bag-of-words and LSTM encoders. We find that XNLI represents a practical and challenging evaluation suite, and that directly translating the test data yields the best performance among available baselines.
translated by 谷歌翻译