Wordnets是丰富的词典语义资源。链接的Wordnets是Wordnets的扩展,哪个在不同语言的Wordnets中链接类似的概念。这种资源在许多自然语言处理(NLP)应用中非常有用,主要是基于知识的方法。在这种方法中,这些资源被视为金标准/甲骨文。因此,这些资源保持正确的信息至关重要。因此,它们是由人类专家创建的。但是,这些资源的手动维护是一种繁琐而昂贵的事情。因此,可以帮助专家的技术是可取的。在本文中,我们提出了一种方法来链接Wordnets。鉴于源语言的SYNSET,该方法返回人类专家可以选择正确的目标语言中的潜在候选拟合序列列表。我们的技术能够在排名前10名列表中检索赢家SYNSET,占所有拟合的60%和70%的名词Synsets。
translated by 谷歌翻译
Wordnets是丰富的词典语义资源。链接的Wordnets是Wordnets的扩展,哪个在不同语言的Wordnets中链接类似的概念。这种资源在许多自然语言处理(NLP)应用中非常有用,主要是基于知识的方法。在这种方法中,这些资源被视为金标准/甲骨文。因此,这些资源保持正确的信息至关重要。因此,他们是由人类专家创造的。但是,多种语言的人类专家很难通过。因此,社区将受益于分享此类手动创造的资源。在本文中,我们释放了与Princeton Wordnet相关联的18个印度语言Wordnets的映射。我们认为,此类资源的可用性将对这些语言的NLP中的进展直接影响。
translated by 谷歌翻译
非洲语言仍然滞留在自然语言处理技术的进步中,是缺乏代表性数据的一个原因,具有可以在语言之间传输信息的技术可以帮助减少缺乏数据问题。本文列车Setswana和Sepedi单语法向量,并使用Vecmap为Setsssssssssssssssssssssssssssssssssssssssssssssssssssssssssssssssssssssssssssssssssssssssssssssssssssssssssssssssssssssssswana-sepedi创建交叉语言嵌入式。 Word Embeddings是字向量,其代表单词作为连续浮动数字,其中语义类似的单词映射到N维空间中的附近点。 Word Embeddings的想法是基于分布假设,即在类似上下文中分发了语义类似的单词(Harris,1954)。通过学习两个单独训练的单丝矢量的共享矢量空间来利用单晶嵌入来利用单晶的嵌入,使得具有类似含义的单词由类似的载体表示。在本文中,我们调查Setswana-Sepedi单声道单词矢量的十字旋转嵌入。我们使用Vecmap中的无监督十字形嵌入式培训Setswana-Sepedi跨语言嵌入式。我们使用语义评估任务评估Setswana-Sepedi交叉词表示的质量。对于语义相似性任务,我们将单词和Simlex任务翻译成SetSwana和Sepedi。我们将此数据集发布为其他研究人员的这项工作的一部分。我们评估嵌入式的内在质量,以确定是否有改进单词嵌入的语义表示。
translated by 谷歌翻译
编码单词语义属性的密集词向量或“Word Embeddings”现在已成为机器翻译(MT),问题应答(QA),字感消解(WSD)和信息检索(IR)中的NLP任务的积分。在本文中,我们使用各种现有方法为14个印度语言创建多个单词嵌入。我们将这些嵌入的嵌入式为所有这些语言,萨姆萨姆,孟加拉,古吉拉蒂,印地教派,kannada,konkani,malayalam,marathi,尼泊尔,odiya,punjabi,梵语,泰米尔和泰雅古士在一个单一的存储库中。相对较新的方法,强调迎合上下文(BERT,ELMO等),表明了显着的改进,但需要大量资源来产生可用模型。我们释放使用上下文和非上下文方法生成的预训练嵌入。我们还使用Muse和XLM来培训所有上述语言的交叉语言嵌入。为了展示我们嵌入的效果,我们为所有这些语言评估了我们对XPOS,UPOS和NER任务的嵌入模型。我们使用8种不同的方法释放了436个型号。我们希望他们对资源受限的印度语言NLP有用。本文的标题是指最初在1924年出版的福斯特的着名小说“一段是印度”。
translated by 谷歌翻译
Word translation without parallel corpora has become feasible, rivaling the performance of supervised methods. Recent findings have shown that the accuracy and robustness of unsupervised word translation (UWT) can be improved by making use of visual observations, which are universal representations across languages. In this work, we investigate the potential of using not only visual observations but also pretrained language-image models for enabling a more efficient and robust UWT. Specifically, we develop a novel UWT method dubbed Word Alignment using Language-Image Pretraining (WALIP), which leverages visual observations via the shared embedding space of images and texts provided by CLIP models (Radford et al., 2021). WALIP has a two-step procedure. First, we retrieve word pairs with high confidences of similarity, computed using our proposed image-based fingerprints, which define the initial pivot for the word alignment. Second, we apply our robust Procrustes algorithm to estimate the linear mapping between two embedding spaces, which iteratively corrects and refines the estimated alignment. Our extensive experiments show that WALIP improves upon the state-of-the-art performance of bilingual word alignment for a few language pairs across different word embeddings and displays great robustness to the dissimilarity of language pairs or training corpora for two word embeddings.
translated by 谷歌翻译
State-of-the-art natural language processing systems rely on supervision in the form of annotated data to learn competent models. These models are generally trained on data in a single language (usually English), and cannot be directly used beyond that language. Since collecting data in every language is not realistic, there has been a growing interest in crosslingual language understanding (XLU) and low-resource cross-language transfer. In this work, we construct an evaluation set for XLU by extending the development and test sets of the Multi-Genre Natural Language Inference Corpus (MultiNLI) to 15 languages, including low-resource languages such as Swahili and Urdu. We hope that our dataset, dubbed XNLI, will catalyze research in cross-lingual sentence understanding by providing an informative standard evaluation task. In addition, we provide several baselines for multilingual sentence understanding, including two based on machine translation systems, and two that use parallel data to train aligned multilingual bag-of-words and LSTM encoders. We find that XNLI represents a practical and challenging evaluation suite, and that directly translating the test data yields the best performance among available baselines.
translated by 谷歌翻译
跨语言嵌入可以应用于多种语言的几种自然语言处理应用程序。与先前使用基于欧几里得空间嵌入单词嵌入的作品不同,这篇简短的论文提出了一种简单有效的跨语言2VEC模型,该模型适应了PoinCar \'E Ball of双曲空间的球模型,从 - 英语平行语料库。已经表明,双曲线嵌入可以捕获和保留分层关系。我们在高呼气和类比任务上评估了模型。所提出的模型在跨语言类比任务上与香草word2Vec模型实现了可比的性能,超呼气任务表明,跨语义的poincar \'e Word2vec模型可以从跨语言中捕获潜在的层次结构,而这些文本跨越跨语言,这些结构是从跨语言中捕获的基于欧几里得的Word2Vec表示。我们的结果表明,通过保留潜在的分层信息,双曲线空间可以为跨语性嵌入提供更好的表示。
translated by 谷歌翻译
同源存在于不同语言的同一文本的多种变体中(例如,德语“Hund”和“猎犬”中的英语意味着“狗”)。它们对各种自然语言处理(NLP)应用构成了挑战,例如机器翻译,交叉语音歧义,计算系统发育和信息检索。解决这一挑战的可能解决方案是识别跨语言对的同源。在本文中,我们描述了为十二个印度语言的两种同源数据集,即梵语,印地文,issamese,奥里亚,kannada,古吉拉蒂,泰米尔,泰卢固,旁遮普,孟加拉,马拉萨和马拉雅拉姆。我们将同源数据从印度语态语言字典数字化,并利用链接的印度语言Wordnets来生成同源集。此外,我们使用Wordnet数据来创建一个False Friends'DataSet for Eleven Language对。我们还使用以前可用的基线同源检测方法评估我们数据集的功效。我们还借助词汇表进行了手动评估,并通过本文释放策划的金标准数据集。
translated by 谷歌翻译
同源是不同语言的同一词汇形式的变体;例如,英语中的“Fonema”和英语中的“音素”是同源的,这两者都意味着'声音单位'。在任何两种语言中自动检测同源的任务可以帮助下游的NLP任务,例如交叉信息检索,计算系统发育和机器翻译。在本文中,我们展示了使用跨语言词嵌入来检测十四印度语言中的同源。我们的方法介绍了从知识图中使用上下文,以生成用于同源检测的改进的特征表示。然后,我们评估了我们对神经电机翻译(NMT)对神经电机翻译(NMT)的影响,作为下游任务。我们评估我们的方法,以检测十二个印度语言的具有挑战性的数据集的方法,即梵语,印地文,issamese,奥里亚,kannada,古吉拉蒂,泰米尔,Telugu,Punjabi,Bengali,Marathi和Malayalam。此外,我们为另外两种印度语言,Konkani和Nepali创建评估数据集。我们在F评分方面,观察到高达18%的分数,以获得同源检测。此外,我们观察到使用我们的方法提取的同源有助于提高NMT质量高达2.76 BLEU。我们还公开发布我们的代码,新建的数据集和交叉语言模型。
translated by 谷歌翻译
Machine learning about language can be improved by supplying it with specific knowledge and sources of external information. We present here a new version of the linked open data resource ConceptNet that is particularly well suited to be used with modern NLP techniques such as word embeddings.ConceptNet is a knowledge graph that connects words and phrases of natural language with labeled edges. Its knowledge is collected from many sources that include expertcreated resources, crowd-sourcing, and games with a purpose. It is designed to represent the general knowledge involved in understanding language, improving natural language applications by allowing the application to better understand the meanings behind the words people use.When ConceptNet is combined with word embeddings acquired from distributional semantics (such as word2vec), it provides applications with understanding that they would not acquire from distributional semantics alone, nor from narrower resources such as WordNet or DBPedia. We demonstrate this with state-of-the-art results on intrinsic evaluations of word relatedness that translate into improvements on applications of word vectors, including solving SAT-style analogies.• A net is used for catching fish.• "Leaves" is a form of the word "leaf ".• The word cold in English is studený in Czech.• O alimento é usado para comer [Food is used for eating].
translated by 谷歌翻译
跨语言嵌入技术(CLWE)的技术在应对低资源语言的自然语言处理挑战方面起着基本作用。它的主要方法假设嵌入之间的关系可以由线性映射表示,但是没有探索该假设所存在的条件。这种研究差距最近变得非常危急,因为已经证明,放松映射是非线性的,在某些情况下可以提高性能。我们首次提出了一个理论分析,该分析将单词嵌入中编码的类比保存是一种必要且充分的条件,用于在这些嵌入之间的地面clwe映射是线性的。在一个涵盖十二种不同语言的五个代表性类比类别的新型跨语性类比数据集中,我们进行了实验,为我们的理论主张提供直接的经验支持。这些结果提供了对其他研究人员的观察结果的更多见解,并为制定更有效的跨语性代表性学习策略做出了贡献。
translated by 谷歌翻译
语言的视觉基础旨在用多种视觉知识来源(例如图像和视频)丰富语言表示。尽管视觉接地是一个深入研究的领域,但视觉接地的语言方面并没有得到太多关注。本研究调查了单词嵌入的语法视觉基础。我们在两个视觉和语言空间之间提出了一种隐式对齐技术,其中语言之间的文本信息相互作用以丰富预训练的文本单词嵌入。我们专注于实验中的三种语言,即英语,阿拉伯语和德语。我们获得了这些语言的视觉接地矢量表示形式,并研究了一种或多种语言的视觉接地是否改善了嵌入在单词相似性和分类基准上的嵌入性能。我们的实验表明,语法知识可以改善类似语言(例如德语和英语)的扎根嵌入性能。但是,德语或英语用阿拉伯语的语言基础导致单词相似性基准的性能略有降解。另一方面,我们观察到了分类基准的相反趋势,而阿拉伯语对英语的进步最大。在讨论部分中,提出了这些发现的几个原因。我们希望我们的实验为进一步研究的基线提供了有关语法间视觉接地的基准。
translated by 谷歌翻译
知识库,例如Wikidata Amass大量命名实体信息,例如多语言标签,这些信息对于各种多语言和跨语义应用程序非常有用。但是,从信息一致性的角度来看,不能保证这样的标签可以跨语言匹配,从而极大地损害了它们对机器翻译等字段的有用性。在这项工作中,我们研究了单词和句子对准技术的应用,再加上匹配算法,以将从Wikidata提取的10种语言中提取的跨语性实体标签对齐。我们的结果表明,Wikidata的主标签之间的映射将通过任何使用的方法都大大提高(F1分数最高20美元)。我们展示了依赖句子嵌入的方法如何超过所有其他脚本,甚至在不同的脚本上。我们认为,这种技术在测量标签对的相似性上的应用,再加上富含高质量实体标签的知识库,是机器翻译的绝佳资产。
translated by 谷歌翻译
语言可以用作再现和执行有害刻板印象和偏差的手段,并被分析在许多研究中。在本文中,我们对自然语言处理中的性别偏见进行了304篇论文。我们分析了社会科学中性别及其类别的定义,并将其连接到NLP研究中性别偏见的正式定义。我们调查了在对性别偏见的研究中应用的Lexica和数据集,然后比较和对比方法来检测和减轻性别偏见。我们发现对性别偏见的研究遭受了四个核心限制。 1)大多数研究将性别视为忽视其流动性和连续性的二元变量。 2)大部分工作都在单机设置中进行英语或其他高资源语言进行。 3)尽管在NLP方法中对性别偏见进行了无数的论文,但我们发现大多数新开发的算法都没有测试他们的偏见模型,并无视他们的工作的伦理考虑。 4)最后,在这一研究线上发展的方法基本缺陷涵盖性别偏差的非常有限的定义,缺乏评估基线和管道。我们建议建议克服这些限制作为未来研究的指导。
translated by 谷歌翻译
本文提出的方法是通过单个输入双语词典自动为低资源语言(尤其是资源贫乏的语言)创建大量新的双语词典。我们的算法使用可用的WordNets和Machine Translator(MT)生成了源语言的单词翻译为丰富的目标语言。由于我们的方法仅依赖于一个输入字典,可用的WordNet和MT,因此它们适用于任何双语词典,只要两种语言之一是英语,或者具有链接到Princeton WordNet的WordNet。从5个可用的双语词典开始,我们创建了48个新的双语词典。其中,流行的MTS不支持30双语言:Google和Bing。
translated by 谷歌翻译
跨域对齐在从机器翻译到转移学习的任务中起关键作用。最近,在单语嵌入中运行的纯监督方法已成功地用于推断双语词典而不依赖监督。但是,当前的最新方法仅关注点向量,尽管在表示单词时已证明分布嵌入可以嵌入更丰富的语义信息。在本文中,我们提出了与概率嵌入对齐的随机优化方法。最后,我们通过对齐单语言数据训练的单词嵌入方式来评估无监督单词翻译问题的方法。我们表明,所提出的方法在几种语言对的双语词典归纳任务上取得了良好的性能,并且比基于点矢量的方法更好。
translated by 谷歌翻译
我们介绍ASNER,这是一种使用基线阿萨姆语NER模型的低资源阿萨姆语言的命名实体注释数据集。该数据集包含大约99k代币,其中包括印度总理和阿萨姆人戏剧演讲中的文字。它还包含个人名称,位置名称和地址。拟议的NER数据集可能是基于深神经的阿萨姆语言处理的重要资源。我们通过训练NER模型进行基准测试数据集并使用最先进的体系结构评估被监督的命名实体识别(NER),例如FastText,Bert,XLM-R,Flair,Muril等。我们实施了几种基线方法,标记BI-LSTM-CRF体系结构的序列。当使用Muril用作单词嵌入方法时,所有基线中最高的F1得分的准确性为80.69%。带注释的数据集和最高性能模型公开可用。
translated by 谷歌翻译
Natural Language Understanding has seen an increasing number of publications in the last few years, especially after robust word embeddings models became prominent, when they proved themselves able to capture and represent semantic relationships from massive amounts of data. Nevertheless, traditional models often fall short in intrinsic issues of linguistics, such as polysemy and homonymy. Any expert system that makes use of natural language in its core, can be affected by a weak semantic representation of text, resulting in inaccurate outcomes based on poor decisions. To mitigate such issues, we propose a novel approach called Most Suitable Sense Annotation (MSSA), that disambiguates and annotates each word by its specific sense, considering the semantic effects of its context. Our approach brings three main contributions to the semantic representation scenario: (i) an unsupervised technique that disambiguates and annotates words by their senses, (ii) a multi-sense embeddings model that can be extended to any traditional word embeddings algorithm, and (iii) a recurrent methodology that allows our models to be re-used and their representations refined. We test our approach on six different benchmarks for the word similarity task, showing that our approach can produce state-of-the-art results and outperforms several more complex state-of-the-art systems.
translated by 谷歌翻译
对于自然语言处理应用可能是有问题的,因为它们的含义不能从其构成词语推断出来。缺乏成功的方法方法和足够大的数据集防止了用于检测成语的机器学习方法的开发,特别是对于在训练集中不发生的表达式。我们提出了一种叫做小鼠的方法,它使用上下文嵌入来实现此目的。我们展示了一个新的多字表达式数据集,具有文字和惯用含义,并使用它根据两个最先进的上下文单词嵌入式培训分类器:Elmo和Bert。我们表明,使用两个嵌入式的深度神经网络比现有方法更好地执行,并且能够检测惯用词使用,即使对于训练集中不存在的表达式。我们展示了开发模型的交叉传输,并分析了所需数据集的大小。
translated by 谷歌翻译
识别跨语言抄袭是挑战性的,特别是对于遥远的语言对和感知翻译。我们介绍了这项任务的新型多语言检索模型跨语言本体论(CL \ nobreakdash-osa)。 CL-OSA表示从开放知识图Wikidata获得的实体向量的文档。反对其他方法,Cl \ nobreakdash-osa不需要计算昂贵的机器翻译,也不需要使用可比较或平行语料库进行预培训。它可靠地歧义同音异义和缩放,以允许其应用于Web级文档集合。我们展示了CL-OSA优于从五个大局部多样化的测试语料中检索候选文档的最先进的方法,包括日语英语等遥控语言对。为了识别在角色级别的跨语言抄袭,CL-OSA主要改善了感觉识别翻译的检测。对于这些挑战性案例,CL-OSA在良好的Plagdet得分方面的表现超过了最佳竞争对手的比例超过两种。我们研究的代码和数据公开可用。
translated by 谷歌翻译