Wordnets是丰富的词典语义资源。链接的Wordnets是Wordnets的扩展,哪个在不同语言的Wordnets中链接类似的概念。这种资源在许多自然语言处理(NLP)应用中非常有用,主要是基于知识的方法。在这种方法中,这些资源被视为金标准/甲骨文。因此,这些资源保持正确的信息至关重要。因此,他们是由人类专家创造的。但是,多种语言的人类专家很难通过。因此,社区将受益于分享此类手动创造的资源。在本文中,我们释放了与Princeton Wordnet相关联的18个印度语言Wordnets的映射。我们认为,此类资源的可用性将对这些语言的NLP中的进展直接影响。
translated by 谷歌翻译
Wordnets是丰富的词典语义资源。链接的Wordnets是Wordnets的扩展,哪个在不同语言的Wordnets中链接类似的概念。这种资源在许多自然语言处理(NLP)应用中非常有用,主要是基于知识的方法。在这种方法中,这些资源被视为金标准/甲骨文。因此,这些资源保持正确的信息至关重要。因此,它们是由人类专家创建的。但是,这些资源的手动维护是一种繁琐而昂贵的事情。因此,可以帮助专家的技术是可取的。在本文中,我们提出了一种方法来链接Wordnets。鉴于源语言的SYNSET,该方法返回人类专家可以选择正确的目标语言中的潜在候选拟合序列列表。我们的技术能够在排名前10名列表中检索赢家SYNSET,占所有拟合的60%和70%的名词Synsets。
translated by 谷歌翻译
本文介绍了对土耳其语可用于的语料库和词汇资源的全面调查。我们审查了广泛的资源,重点关注公开可用的资源。除了提供有关可用语言资源的信息外,我们还提供了一组建议,并确定可用于在土耳其语言学和自然语言处理中进行研究和建筑应用的数据中的差距。
translated by 谷歌翻译
编码单词语义属性的密集词向量或“Word Embeddings”现在已成为机器翻译(MT),问题应答(QA),字感消解(WSD)和信息检索(IR)中的NLP任务的积分。在本文中,我们使用各种现有方法为14个印度语言创建多个单词嵌入。我们将这些嵌入的嵌入式为所有这些语言,萨姆萨姆,孟加拉,古吉拉蒂,印地教派,kannada,konkani,malayalam,marathi,尼泊尔,odiya,punjabi,梵语,泰米尔和泰雅古士在一个单一的存储库中。相对较新的方法,强调迎合上下文(BERT,ELMO等),表明了显着的改进,但需要大量资源来产生可用模型。我们释放使用上下文和非上下文方法生成的预训练嵌入。我们还使用Muse和XLM来培训所有上述语言的交叉语言嵌入。为了展示我们嵌入的效果,我们为所有这些语言评估了我们对XPOS,UPOS和NER任务的嵌入模型。我们使用8种不同的方法释放了436个型号。我们希望他们对资源受限的印度语言NLP有用。本文的标题是指最初在1924年出版的福斯特的着名小说“一段是印度”。
translated by 谷歌翻译
如今,对混合代码的兴趣已在自然语言处理(NLP)中变得普遍存在;但是,对于语音翻译(ST)任务解决这一现象并没有太多关注。这完全可以归因于缺乏由代码混合的ST任务标记数据。因此,我们介绍了Prabhupadavani,这是一种用于25种语言的多语言代码混合ST数据集。它是多域的,涵盖了十个语言家庭,其中包含130多名演讲者的94小时语音,并手动与目标语言的相应文本保持一致。 Prabhupadavani是关于吠陀文化和遗产的文献,在文献中引用文学的情况下,在人文教学的背景下,代码转换很重要。据我们所知,Prabhupadvani是ST文献中第一个可用的多语言代码混合ST数据集。该数据也可用于代码混合的机器翻译任务。所有数据集可以在https://github.com/frozentoad9/cmst上访问。
translated by 谷歌翻译
本文研究了为濒危语言生成词汇资源的方法。我们的算法使用公共文字网和机器翻译器(MT)构建双语词典和多语言词库。由于我们的作品仅依赖于濒危语言和“中间帮手”语言之间的一个双语词典,因此它适用于缺乏许多现有资源的语言。
translated by 谷歌翻译
同源存在于不同语言的同一文本的多种变体中(例如,德语“Hund”和“猎犬”中的英语意味着“狗”)。它们对各种自然语言处理(NLP)应用构成了挑战,例如机器翻译,交叉语音歧义,计算系统发育和信息检索。解决这一挑战的可能解决方案是识别跨语言对的同源。在本文中,我们描述了为十二个印度语言的两种同源数据集,即梵语,印地文,issamese,奥里亚,kannada,古吉拉蒂,泰米尔,泰卢固,旁遮普,孟加拉,马拉萨和马拉雅拉姆。我们将同源数据从印度语态语言字典数字化,并利用链接的印度语言Wordnets来生成同源集。此外,我们使用Wordnet数据来创建一个False Friends'DataSet for Eleven Language对。我们还使用以前可用的基线同源检测方法评估我们数据集的功效。我们还借助词汇表进行了手动评估,并通过本文释放策划的金标准数据集。
translated by 谷歌翻译
随着语言技术变得更加无处不在,越来越努力扩大自然语言处理(NLP)系统的语言分集和覆盖范围。可以说,影响现代NLP系统质量的最重要因素是数据可用性。在这项工作中,我们研究了NLP数据集的地理代表性,旨在量化NLP数据集与语言扬声器的预期需求量化。在这样做时,我们使用实体识别和链接系统,同时对其交叉量度的一致性进行重要观察,并为更强大的评估提供建议。最后,我们探讨了可能解释观察到的数据集发行版的一些地理和经济因素。此处提供代码和数据:https://github.com/ffaisal93/dataset_geography。此处提供其他可视化:https://nlp.cs.gmu.edu/project/datasetmaps/。
translated by 谷歌翻译
While the NLP community is generally aware of resource disparities among languages, we lack research that quantifies the extent and types of such disparity. Prior surveys estimating the availability of resources based on the number of datasets can be misleading as dataset quality varies: many datasets are automatically induced or translated from English data. To provide a more comprehensive picture of language resources, we examine the characteristics of 156 publicly available NLP datasets. We manually annotate how they are created, including input text and label sources and tools used to build them, and what they study, tasks they address and motivations for their creation. After quantifying the qualitative NLP resource gap across languages, we discuss how to improve data collection in low-resource languages. We survey language-proficient NLP researchers and crowd workers per language, finding that their estimated availability correlates with dataset availability. Through crowdsourcing experiments, we identify strategies for collecting high-quality multilingual data on the Mechanical Turk platform. We conclude by making macro and micro-level suggestions to the NLP community and individual researchers for future multilingual data development.
translated by 谷歌翻译
We present, Naamapadam, the largest publicly available Named Entity Recognition (NER) dataset for the 11 major Indian languages from two language families. In each language, it contains more than 400k sentences annotated with a total of at least 100k entities from three standard entity categories (Person, Location and Organization) for 9 out of the 11 languages. The training dataset has been automatically created from the Samanantar parallel corpus by projecting automatically tagged entities from an English sentence to the corresponding Indian language sentence. We also create manually annotated testsets for 8 languages containing approximately 1000 sentences per language. We demonstrate the utility of the obtained dataset on existing testsets and the Naamapadam-test data for 8 Indic languages. We also release IndicNER, a multilingual mBERT model fine-tuned on the Naamapadam training set. IndicNER achieves the best F1 on the Naamapadam-test set compared to an mBERT model fine-tuned on existing datasets. IndicNER achieves an F1 score of more than 80 for 7 out of 11 Indic languages. The dataset and models are available under open-source licenses at https://ai4bharat.iitm.ac.in/naamapadam.
translated by 谷歌翻译
公众人物的行情可以标记历史上的转折点。一句话可以解释其发起人的行为,预示政治或个人决定并揭示性格特征。有影响力的行情跨语言障碍并影响了总体对特定立场的反应,总是面临被误入或脱离上下文的风险。提供的引号的跨语性知识图可以建立引号及其背景的真实性,这对于允许探索重要人物的生活以及主题的探索非常重要。在本文中,我们介绍了引号的第一个多语言知识图。我们提出了Quotekg创建管道,该管道从Wikiquote中提取引号,这是一种免费且合作创建的语言集合,并与同一报价的不同提及相符。 Quotekg包括$ 55 $语言的近一百万报价,在广泛的主题中,有超过69,000美元的公共利益人士说。 quotekg已公开可用,可以通过SPARQL端点访问。
translated by 谷歌翻译
跨语言嵌入技术(CLWE)的技术在应对低资源语言的自然语言处理挑战方面起着基本作用。它的主要方法假设嵌入之间的关系可以由线性映射表示,但是没有探索该假设所存在的条件。这种研究差距最近变得非常危急,因为已经证明,放松映射是非线性的,在某些情况下可以提高性能。我们首次提出了一个理论分析,该分析将单词嵌入中编码的类比保存是一种必要且充分的条件,用于在这些嵌入之间的地面clwe映射是线性的。在一个涵盖十二种不同语言的五个代表性类比类别的新型跨语性类比数据集中,我们进行了实验,为我们的理论主张提供直接的经验支持。这些结果提供了对其他研究人员的观察结果的更多见解,并为制定更有效的跨语性代表性学习策略做出了贡献。
translated by 谷歌翻译
非洲语言仍然滞留在自然语言处理技术的进步中,是缺乏代表性数据的一个原因,具有可以在语言之间传输信息的技术可以帮助减少缺乏数据问题。本文列车Setswana和Sepedi单语法向量,并使用Vecmap为Setsssssssssssssssssssssssssssssssssssssssssssssssssssssssssssssssssssssssssssssssssssssssssssssssssssssssssssssssssssssssswana-sepedi创建交叉语言嵌入式。 Word Embeddings是字向量,其代表单词作为连续浮动数字,其中语义类似的单词映射到N维空间中的附近点。 Word Embeddings的想法是基于分布假设,即在类似上下文中分发了语义类似的单词(Harris,1954)。通过学习两个单独训练的单丝矢量的共享矢量空间来利用单晶嵌入来利用单晶的嵌入,使得具有类似含义的单词由类似的载体表示。在本文中,我们调查Setswana-Sepedi单声道单词矢量的十字旋转嵌入。我们使用Vecmap中的无监督十字形嵌入式培训Setswana-Sepedi跨语言嵌入式。我们使用语义评估任务评估Setswana-Sepedi交叉词表示的质量。对于语义相似性任务,我们将单词和Simlex任务翻译成SetSwana和Sepedi。我们将此数据集发布为其他研究人员的这项工作的一部分。我们评估嵌入式的内在质量,以确定是否有改进单词嵌入的语义表示。
translated by 谷歌翻译
为低资源语言开发自然语言处理资源是一个具有挑战性的,但必不可少的任务。在本文中,我们为古吉拉特提提出了一种形态学分析仪。我们使用了基于双向LSTM的方法来执行语素边界检测和语法特征标记。我们创建了一个带有引理和语法特征的古吉拉特语的数据集。本文讨论的基于Bi-LSTM的Morph分析仪模型,有效地处理了语言形态,而不知道任何手工制作的后缀规则。据我们所知,这是Gujarati语言的第一个DataSet和Morph分析仪模型,它执行语法特征标记和语素边界检测任务。
translated by 谷歌翻译
This paper presents the OPUS ecosystem with a focus on the development of open machine translation models and tools, and their integration into end-user applications, development platforms and professional workflows. We discuss our on-going mission of increasing language coverage and translation quality, and also describe on-going work on the development of modular translation models and speed-optimized compact solutions for real-time translation on regular desktops and small devices.
translated by 谷歌翻译
在本文中,我们介绍了第一个链接冰岛语料库的实体。我们描述了使用多语言实体链接模型(MGENRE)与Wikipedia API搜索(WAPIS)结合使用的方法来标记我们的数据并将其与仅使用WAPIS进行比较。我们发现,我们的组合方法在我们的语料库上达到53.9%的覆盖范围,而仅使用WAPIS的覆盖率为30.9%。我们分析我们的结果并解释使用冰岛时使用多语言系统的价值。此外,我们分析了仍然没有标记的数据,识别模式并讨论为什么它们可能很难注释。
translated by 谷歌翻译
世界各地的隐私法律和法规的景观是复杂而不断变化的。国家和超国家法律,协议,法令和其他政府发行的规则构成了公司必须遵循的拼凑而成才能在国际上进行运作。为了检查该拼凑而成的状态和演变,我们介绍了1,043条隐私法,法规和准则的政府隐私指示语料库或GPI语料库,涵盖了182个司法管辖区。该语料库可以对法律焦点进行大规模定量和定性检查。我们检查了创建GPI的时间分布,并说明了过去50年中隐私立法的急剧增加,尽管较细粒度的检查表明,增加的速度取决于GPIS所说的个人数据类型。我们的探索还表明,大多数隐私法分别解决了相对较少的个人数据类型,这表明全面的隐私立法仍然很少见。此外,主题建模结果显示了GPI中常见主题的普遍性,例如财务,医疗保健和电信。最后,我们将语料库释放到研究界,以促进进一步的研究。
translated by 谷歌翻译
In this work, we introduce IndicXTREME, a benchmark consisting of nine diverse tasks covering 18 languages from the Indic sub-continent belonging to four different families. Across languages and tasks, IndicXTREME contains a total of 103 evaluation sets, of which 51 are new contributions to the literature. To maintain high quality, we only use human annotators to curate or translate\footnote{for IndicXParaphrase, where an automatic translation system is used, a second human verification and correction step is done.} our datasets. To the best of our knowledge, this is the first effort toward creating a standard benchmark for Indic languages that aims to test the zero-shot capabilities of pretrained language models. We also release IndicCorp v2, an updated and much larger version of IndicCorp that contains 20.9 billion tokens in 24 languages. We pretrain IndicBERT v2 on IndicCorp v2 and evaluate it on IndicXTREME to show that it outperforms existing multilingual language models such as XLM-R and MuRIL.
translated by 谷歌翻译
知识库,例如Wikidata Amass大量命名实体信息,例如多语言标签,这些信息对于各种多语言和跨语义应用程序非常有用。但是,从信息一致性的角度来看,不能保证这样的标签可以跨语言匹配,从而极大地损害了它们对机器翻译等字段的有用性。在这项工作中,我们研究了单词和句子对准技术的应用,再加上匹配算法,以将从Wikidata提取的10种语言中提取的跨语性实体标签对齐。我们的结果表明,Wikidata的主标签之间的映射将通过任何使用的方法都大大提高(F1分数最高20美元)。我们展示了依赖句子嵌入的方法如何超过所有其他脚本,甚至在不同的脚本上。我们认为,这种技术在测量标签对的相似性上的应用,再加上富含高质量实体标签的知识库,是机器翻译的绝佳资产。
translated by 谷歌翻译
同源是不同语言的同一词汇形式的变体;例如,英语中的“Fonema”和英语中的“音素”是同源的,这两者都意味着'声音单位'。在任何两种语言中自动检测同源的任务可以帮助下游的NLP任务,例如交叉信息检索,计算系统发育和机器翻译。在本文中,我们展示了使用跨语言词嵌入来检测十四印度语言中的同源。我们的方法介绍了从知识图中使用上下文,以生成用于同源检测的改进的特征表示。然后,我们评估了我们对神经电机翻译(NMT)对神经电机翻译(NMT)的影响,作为下游任务。我们评估我们的方法,以检测十二个印度语言的具有挑战性的数据集的方法,即梵语,印地文,issamese,奥里亚,kannada,古吉拉蒂,泰米尔,Telugu,Punjabi,Bengali,Marathi和Malayalam。此外,我们为另外两种印度语言,Konkani和Nepali创建评估数据集。我们在F评分方面,观察到高达18%的分数,以获得同源检测。此外,我们观察到使用我们的方法提取的同源有助于提高NMT质量高达2.76 BLEU。我们还公开发布我们的代码,新建的数据集和交叉语言模型。
translated by 谷歌翻译