Wordnets是丰富的词典语义资源。链接的Wordnets是Wordnets的扩展,哪个在不同语言的Wordnets中链接类似的概念。这种资源在许多自然语言处理(NLP)应用中非常有用,主要是基于知识的方法。在这种方法中,这些资源被视为金标准/甲骨文。因此,这些资源保持正确的信息至关重要。因此,他们是由人类专家创造的。但是,多种语言的人类专家很难通过。因此,社区将受益于分享此类手动创造的资源。在本文中,我们释放了与Princeton Wordnet相关联的18个印度语言Wordnets的映射。我们认为,此类资源的可用性将对这些语言的NLP中的进展直接影响。
translated by 谷歌翻译
非洲语言仍然滞留在自然语言处理技术的进步中,是缺乏代表性数据的一个原因,具有可以在语言之间传输信息的技术可以帮助减少缺乏数据问题。本文列车Setswana和Sepedi单语法向量,并使用Vecmap为Setsssssssssssssssssssssssssssssssssssssssssssssssssssssssssssssssssssssssssssssssssssssssssssssssssssssssssssssssssssssssswana-sepedi创建交叉语言嵌入式。 Word Embeddings是字向量,其代表单词作为连续浮动数字,其中语义类似的单词映射到N维空间中的附近点。 Word Embeddings的想法是基于分布假设,即在类似上下文中分发了语义类似的单词(Harris,1954)。通过学习两个单独训练的单丝矢量的共享矢量空间来利用单晶嵌入来利用单晶的嵌入,使得具有类似含义的单词由类似的载体表示。在本文中,我们调查Setswana-Sepedi单声道单词矢量的十字旋转嵌入。我们使用Vecmap中的无监督十字形嵌入式培训Setswana-Sepedi跨语言嵌入式。我们使用语义评估任务评估Setswana-Sepedi交叉词表示的质量。对于语义相似性任务,我们将单词和Simlex任务翻译成SetSwana和Sepedi。我们将此数据集发布为其他研究人员的这项工作的一部分。我们评估嵌入式的内在质量,以确定是否有改进单词嵌入的语义表示。
translated by 谷歌翻译
编码单词语义属性的密集词向量或“Word Embeddings”现在已成为机器翻译(MT),问题应答(QA),字感消解(WSD)和信息检索(IR)中的NLP任务的积分。在本文中,我们使用各种现有方法为14个印度语言创建多个单词嵌入。我们将这些嵌入的嵌入式为所有这些语言,萨姆萨姆,孟加拉,古吉拉蒂,印地教派,kannada,konkani,malayalam,marathi,尼泊尔,odiya,punjabi,梵语,泰米尔和泰雅古士在一个单一的存储库中。相对较新的方法,强调迎合上下文(BERT,ELMO等),表明了显着的改进,但需要大量资源来产生可用模型。我们释放使用上下文和非上下文方法生成的预训练嵌入。我们还使用Muse和XLM来培训所有上述语言的交叉语言嵌入。为了展示我们嵌入的效果,我们为所有这些语言评估了我们对XPOS,UPOS和NER任务的嵌入模型。我们使用8种不同的方法释放了436个型号。我们希望他们对资源受限的印度语言NLP有用。本文的标题是指最初在1924年出版的福斯特的着名小说“一段是印度”。
translated by 谷歌翻译
同源存在于不同语言的同一文本的多种变体中(例如,德语“Hund”和“猎犬”中的英语意味着“狗”)。它们对各种自然语言处理(NLP)应用构成了挑战,例如机器翻译,交叉语音歧义,计算系统发育和信息检索。解决这一挑战的可能解决方案是识别跨语言对的同源。在本文中,我们描述了为十二个印度语言的两种同源数据集,即梵语,印地文,issamese,奥里亚,kannada,古吉拉蒂,泰米尔,泰卢固,旁遮普,孟加拉,马拉萨和马拉雅拉姆。我们将同源数据从印度语态语言字典数字化,并利用链接的印度语言Wordnets来生成同源集。此外,我们使用Wordnet数据来创建一个False Friends'DataSet for Eleven Language对。我们还使用以前可用的基线同源检测方法评估我们数据集的功效。我们还借助词汇表进行了手动评估,并通过本文释放策划的金标准数据集。
translated by 谷歌翻译
同源是不同语言的同一词汇形式的变体;例如,英语中的“Fonema”和英语中的“音素”是同源的,这两者都意味着'声音单位'。在任何两种语言中自动检测同源的任务可以帮助下游的NLP任务,例如交叉信息检索,计算系统发育和机器翻译。在本文中,我们展示了使用跨语言词嵌入来检测十四印度语言中的同源。我们的方法介绍了从知识图中使用上下文,以生成用于同源检测的改进的特征表示。然后,我们评估了我们对神经电机翻译(NMT)对神经电机翻译(NMT)的影响,作为下游任务。我们评估我们的方法,以检测十二个印度语言的具有挑战性的数据集的方法,即梵语,印地文,issamese,奥里亚,kannada,古吉拉蒂,泰米尔,Telugu,Punjabi,Bengali,Marathi和Malayalam。此外,我们为另外两种印度语言,Konkani和Nepali创建评估数据集。我们在F评分方面,观察到高达18%的分数,以获得同源检测。此外,我们观察到使用我们的方法提取的同源有助于提高NMT质量高达2.76 BLEU。我们还公开发布我们的代码,新建的数据集和交叉语言模型。
translated by 谷歌翻译
语言可以用作再现和执行有害刻板印象和偏差的手段,并被分析在许多研究中。在本文中,我们对自然语言处理中的性别偏见进行了304篇论文。我们分析了社会科学中性别及其类别的定义,并将其连接到NLP研究中性别偏见的正式定义。我们调查了在对性别偏见的研究中应用的Lexica和数据集,然后比较和对比方法来检测和减轻性别偏见。我们发现对性别偏见的研究遭受了四个核心限制。 1)大多数研究将性别视为忽视其流动性和连续性的二元变量。 2)大部分工作都在单机设置中进行英语或其他高资源语言进行。 3)尽管在NLP方法中对性别偏见进行了无数的论文,但我们发现大多数新开发的算法都没有测试他们的偏见模型,并无视他们的工作的伦理考虑。 4)最后,在这一研究线上发展的方法基本缺陷涵盖性别偏差的非常有限的定义,缺乏评估基线和管道。我们建议建议克服这些限制作为未来研究的指导。
translated by 谷歌翻译
识别跨语言抄袭是挑战性的,特别是对于遥远的语言对和感知翻译。我们介绍了这项任务的新型多语言检索模型跨语言本体论(CL \ nobreakdash-osa)。 CL-OSA表示从开放知识图Wikidata获得的实体向量的文档。反对其他方法,Cl \ nobreakdash-osa不需要计算昂贵的机器翻译,也不需要使用可比较或平行语料库进行预培训。它可靠地歧义同音异义和缩放,以允许其应用于Web级文档集合。我们展示了CL-OSA优于从五个大局部多样化的测试语料中检索候选文档的最先进的方法,包括日语英语等遥控语言对。为了识别在角色级别的跨语言抄袭,CL-OSA主要改善了感觉识别翻译的检测。对于这些挑战性案例,CL-OSA在良好的Plagdet得分方面的表现超过了最佳竞争对手的比例超过两种。我们研究的代码和数据公开可用。
translated by 谷歌翻译
两个关键假设塑造了排名检索的通常视图:(1)搜索者可以为他们希望看到的文档中的疑问选择单词,并且(2)排名检索的文档就足以,因为搜索者将足够就足够了能够认识到他们希望找到的那些。当要搜索的文档处于搜索者未知的语言时,既不是真的。在这种情况下,需要跨语言信息检索(CLIR)。本章审查了艺术技术的交流信息检索,并概述了一些开放的研究问题。
translated by 谷歌翻译
对于自然语言处理应用可能是有问题的,因为它们的含义不能从其构成词语推断出来。缺乏成功的方法方法和足够大的数据集防止了用于检测成语的机器学习方法的开发,特别是对于在训练集中不发生的表达式。我们提出了一种叫做小鼠的方法,它使用上下文嵌入来实现此目的。我们展示了一个新的多字表达式数据集,具有文字和惯用含义,并使用它根据两个最先进的上下文单词嵌入式培训分类器:Elmo和Bert。我们表明,使用两个嵌入式的深度神经网络比现有方法更好地执行,并且能够检测惯用词使用,即使对于训练集中不存在的表达式。我们展示了开发模型的交叉传输,并分析了所需数据集的大小。
translated by 谷歌翻译
深语模型在NLP域中取得了显着的成功。培养深层语言模型的标准方法是从大型未标记的语料库中雇用无监督的学习。但是,这种大型公司仅适用于广泛采用和高资源语言和域名。本研究提出了第一款深语型号DPRK-BERT为朝鲜语言。我们通过编制朝鲜语言的第一个未标记的语料库和微调预先存在的ROK语言模型来实现这一目标。我们将所提出的模型与现有方法进行比较,并显示两个DPRK数据集的显着改进。我们还提供了这种模型的交叉语言版本,其在两种韩语语言中产生了更好的泛化。最后,我们提供与朝鲜语言相关的各种NLP工具,这些工具将培养未来的研究。
translated by 谷歌翻译
多语言语言模型(\ mllms),如mbert,xlm,xlm-r,\ textit {etc。}已成为一种可行的选择,使预先估计到大量语言的力量。鉴于他们的成功在零射击转移学习中,在(i)建立更大的\ mllms〜覆盖了大量语言(ii)创建覆盖更广泛的任务和语言来评估的详尽工作基准mllms〜(iii)分析单音零点,零拍摄交叉和双语任务(iv)对Monolingual的性能,了解\ mllms〜(v)增强(通常)学习的通用语言模式(如果有的话)有限的容量\ mllms〜以提高他们在已见甚至看不见语言的表现。在这项调查中,我们审查了现有的文学,涵盖了上述与\ MLLMS有关的广泛研究领域。根据我们的调查,我们建议您有一些未来的研究方向。
translated by 谷歌翻译
随着语言技术变得更加无处不在,越来越努力扩大自然语言处理(NLP)系统的语言分集和覆盖范围。可以说,影响现代NLP系统质量的最重要因素是数据可用性。在这项工作中,我们研究了NLP数据集的地理代表性,旨在量化NLP数据集与语言扬声器的预期需求量化。在这样做时,我们使用实体识别和链接系统,同时对其交叉量度的一致性进行重要观察,并为更强大的评估提供建议。最后,我们探讨了可能解释观察到的数据集发行版的一些地理和经济因素。此处提供代码和数据:https://github.com/ffaisal93/dataset_geography。此处提供其他可视化:https://nlp.cs.gmu.edu/project/datasetmaps/。
translated by 谷歌翻译
Wikidata是一个经常更新,社区驱动和多语言知识图形。因此,Wikidata是实体联系的一个有吸引力的基础,这是最近发表论文的增加显而易见的。该调查侧重于四个主题:(1)存在哪些Wikidata实体链接数据集,它们是多么广泛使用,它们是如何构建的? (2)对实体联系数据集的设计进行Wikidata的特点,如果是的话,怎么样? (3)当前实体链接方法如何利用Wikidata的特定特征? (4)现有实体链接方法未开发哪种Wikidata特征?本次调查显示,当前的Wikidata特定实体链接数据集在其他知识图表中的方案中的注释方案中没有不同。因此,没有提升多语言和时间依赖数据集的可能性,是自然适合维基帽的数据集。此外,我们表明大多数实体链接方法使用Wikidata以与任何其他知识图相同的方式,因为任何其他知识图都缺少了利用Wikidata特定特征来提高质量的机会。几乎所有方法都使用标签等特定属性,有时是描述,而是忽略超关系结构等特征。因此,例如,通过包括超关系图嵌入或类型信息,仍有改进的余地。许多方法还包括来自维基百科的信息,这些信息很容易与Wikidata组合并提供有价值的文本信息,Wikidata缺乏。
translated by 谷歌翻译
隐喻检测的最先进方法比较他们的文字或核心 - 使用基于神经网络的顺序隐喻分类器的含义及其语境含义。表示字面含义的信号通常由(非语境)字嵌入式表示。然而,隐喻表达由于各种原因,例如文化和社会影响,随着时间的推移而发展。已知隐喻表达式通过语言和文字词含义,甚至在某种程度上驾驶这一进化。这升起了对文字含义不同,可能是特定于特定的,可能影响隐喻检测任务的问题。据我们所知,这是第一项研究,该研究在详细的探索性分析中检查了隐喻检测任务,其中使用不同的时间和静态字嵌入来占对字面意义的不同表示。我们的实验分析基于用于隐喻检测的三个流行基准,并从不同的Corpora中提取的单词嵌入式,并在时间上对齐到不同的最先进的方法。结果表明,不同的单词嵌入对隐喻检测任务的影响和一些时间字嵌入略高于一些性能措施的静态方法。然而,结果还表明,时间字嵌入可以提供单词“核心意义的表示,即使太接近其隐喻意义,因此令人困惑的分类器。总的来说,时间语言演化和隐喻检测之间的相互作用在我们的实验中使用的基准数据集中出现了微小。这表明对这种重要语言现象的计算分析的未来工作应该首先创建一个新的数据集,其中这个交互是更好的代表。
translated by 谷歌翻译
MARCO排名数据集已广泛用于培训IR任务的深度学习模型,在不同的零射击方案上实现了相当大的效果。但是,这种类型的资源是英语以外的语言的稀缺。在这项工作中,我们呈现MMARCO,MS Marco段落的多语言版本,该数据集包括使用机器翻译创建的13种语言。我们通过微调单语和多语言重新排名模型以及此数据集的密集多语言模型进行了评估。实验结果表明,在我们翻译的数据集上微调微调的多语言模型可以单独对原始英文版的模型进行微调的卓越效果。我们蒸馏的多语言RE-RANKER与非蒸馏模型具有竞争力,而参数较少的5.4倍。最后,我们展现了翻译质量和检索效果之间的正相关性,提供了证据,即翻译方法的改进可能导致多语言信息检索的改进。翻译的数据集和微调模型可在https://github.com/unicamp-dl/mmarco.git上获得。
translated by 谷歌翻译
潜在的Dirichlet分配(LDA)如潜在的概率主题模型已延伸到双语设置。其中几个扩展中的基本建模假设是输入语料库是文档对的形式,其成分文件共享单个主题分布。然而,对于类似的小型公司而言,这种假设是强大的,这些数据在基本上类似的文件,即又是最常见的或易于获得的。在本文中,我们通过提出配对的文档来具有分开的,但绑定的主题分布来放松此假设。 %与配对文件的分布之间的绑定机制。我们建议界限的强度应该取决于每对对的语义相似性。估计以不同语言编写的文档的相似性,我们使用与浅层神经网络学习的交叉语言嵌入式。我们通过扩展两个主题模型来评估所提出的绑定机制:LDA的双语适应,该LDA假定单词袋输入和模型,该模型包含语义相干段的边界的形式的文本结构的一部分。为了评估新颖的主题模型的表现,我们对五种双语,英语文件的同类实验进行了内在和外在的实验,用法语,德语,意大利语,西班牙语和葡萄牙文档进行了英语文件的五种双语。结果展示了通过归一化的点亮互信息测量的主题一致性的方法的效率,以及通过困惑测量的泛化性能,并且在每个语言的交叉文档检索任务中的平均互惠级别方面对。
translated by 谷歌翻译
数据饥饿的深度神经网络已经将自己作为许多NLP任务的标准建立为包括传统序列标记的标准。尽管他们在高资源语言上表现最先进的表现,但它们仍然落后于低资源场景的统计计数器。一个方法来反击攻击此问题是文本增强,即,从现有数据生成新的合成训练数据点。虽然NLP最近目睹了一种文本增强技术的负载,但该领域仍然缺乏对多种语言和序列标记任务的系统性能分析。为了填补这一差距,我们调查了三类文本增强方法,其在语法(例如,裁剪子句子),令牌(例如,随机字插入)和字符(例如,字符交换)级别上执行更改。我们系统地将它们与语音标记,依赖解析和语义角色标记的分组进行了比较,用于使用各种模型的各种语言系列,包括依赖于诸如MBERT的普赖金的多语言语境化语言模型的架构。增强最显着改善了解析,然后是语音标记和语义角色标记的依赖性解析。我们发现实验技术通常在形态上丰富的语言,而不是越南语等分析语言。我们的研究结果表明,增强技术可以进一步改善基于MBERT的强基线。我们将字符级方法标识为最常见的表演者,而同义词替换和语法增强仪提供不一致的改进。最后,我们讨论了最大依赖于任务,语言对和模型类型的结果。
translated by 谷歌翻译
最近,大型预用语言模型(LMS)越来越受欢迎。培训这些模型需要更多的计算资源,并且大多数现有模型仅在英文文本上培训。以其他语言训练这些模型非常昂贵。为了缓解这个问题,我们介绍了一种叫做威施塞的方法 - 将英语模型传输到新语言。我们将英语模型的销量与目标语言中的销量交换,并初始化令牌嵌入式,以便通过利用覆盖英语和目标语言的多语言静态字嵌入来初始化令牌嵌入式。我们使用Wechsel将GPT-2和Roberta模型转移到4种其他语言(法语,德语,中文和斯瓦希里语)。 Wechsel通过以前提出的跨语言参数转移和优于比较大小的模型来改善从目标语言的划痕训练的相当大小的型号,距离培训速度较小。我们的方法使培训大型语言模型为新语言更容易访问,更少损害环境。我们宣传我们的代码和型号。
translated by 谷歌翻译
自动同源检测(ACD)是一个具有挑战性的任务,用于帮助像机器翻译,信息检索和计算系统发育等这样的NLP应用。身份不明的同源对可能对这些应用构成挑战并导致性能的退化。在本文中,我们检测到Hindi的十个印度语言中的同源词对,并使用深度学习方法来预测单词对是否是同源的。我们将IndowordNet识别为基于基于正交相似性的方法和使用从其所获得的数据的基于正交相似性的方法和列车神经网络模型来检测同源字对的潜在资源。我们将平行的Corpora标识为另一个潜在资源,并对它们进行相同的实验。我们还通过进一步的实验验证Wordnets的贡献,并报告高达26%的提高性能。我们讨论了与密切相关的印度语言中的同源检测的细微差别,并将检测到的同源名单作为数据集发布。我们还观察到的行为,在某种程度上不相关的印度语文对,并在其中释放检测到的同源名单。
translated by 谷歌翻译
本文介绍了Persian的HMBLOGS语料库,作为一种低资源语言。此语料库已根据波斯博客的空间的一段时间内基于大约15岁的近2000万博客帖子编制的,包括超过68亿令牌。可以声称,此语料库目前是最大的波斯语料库,这些语料库是为波斯语而独立制定的。该语料库以原始和预处理的形式呈现,并且基于预处理的语料库,产生了一些单词嵌入模型。通过提供的模型,将HMBlogs与波斯中可用的一些最重要的公司进行比较,结果表明了HMBLOGS语料库的优势。这些评估还提供了语料库,评估数据集,模型生产方法,不同的高参数甚至评估方法的重要性和影响。除了评估语料库及其产生的语言模型之外,该研究还提供了一个语义类比数据集。
translated by 谷歌翻译