Wordnets是丰富的词典语义资源。链接的Wordnets是Wordnets的扩展,哪个在不同语言的Wordnets中链接类似的概念。这种资源在许多自然语言处理(NLP)应用中非常有用,主要是基于知识的方法。在这种方法中,这些资源被视为金标准/甲骨文。因此,这些资源保持正确的信息至关重要。因此,他们是由人类专家创造的。但是,多种语言的人类专家很难通过。因此,社区将受益于分享此类手动创造的资源。在本文中,我们释放了与Princeton Wordnet相关联的18个印度语言Wordnets的映射。我们认为,此类资源的可用性将对这些语言的NLP中的进展直接影响。
translated by 谷歌翻译
Wordnets是丰富的词典语义资源。链接的Wordnets是Wordnets的扩展,哪个在不同语言的Wordnets中链接类似的概念。这种资源在许多自然语言处理(NLP)应用中非常有用,主要是基于知识的方法。在这种方法中,这些资源被视为金标准/甲骨文。因此,这些资源保持正确的信息至关重要。因此,它们是由人类专家创建的。但是,这些资源的手动维护是一种繁琐而昂贵的事情。因此,可以帮助专家的技术是可取的。在本文中,我们提出了一种方法来链接Wordnets。鉴于源语言的SYNSET,该方法返回人类专家可以选择正确的目标语言中的潜在候选拟合序列列表。我们的技术能够在排名前10名列表中检索赢家SYNSET,占所有拟合的60%和70%的名词Synsets。
translated by 谷歌翻译
本文介绍了称为“文本历史工具”的数字工具的其他方面。我们描述了其各种突出特征,特别参考其特征,可能有助于理智学家在文本上数字化评论和子评论。该工具通过各种时间级捕获文本的历史演进,以及从各种类型的相关文本中剔除的相互关联数据。我们使用k \ = a \'sik \ = avrtti(kv)的文本作为示例文本,并且在照相专家的帮助下,我们将评论数字化为我们提供的评论。我们将NY \ = ASA(NY)数字化,Padama \〜njar \ = i(PM)和子注释称为Tantraprad \ = IPA(TP)和Makaranda(MK)。我们将每次评论和子评论划分为功能单位,并描述了功能单元划分背后的方法和动机。基于使用在工具中输入的数据的距离方法,我们的功能单元部门有助于为文本生成更准确的系统发育树。
translated by 谷歌翻译
自动同源检测(ACD)是一个具有挑战性的任务,用于帮助像机器翻译,信息检索和计算系统发育等这样的NLP应用。身份不明的同源对可能对这些应用构成挑战并导致性能的退化。在本文中,我们检测到Hindi的十个印度语言中的同源词对,并使用深度学习方法来预测单词对是否是同源的。我们将IndowordNet识别为基于基于正交相似性的方法和使用从其所获得的数据的基于正交相似性的方法和列车神经网络模型来检测同源字对的潜在资源。我们将平行的Corpora标识为另一个潜在资源,并对它们进行相同的实验。我们还通过进一步的实验验证Wordnets的贡献,并报告高达26%的提高性能。我们讨论了与密切相关的印度语言中的同源检测的细微差别,并将检测到的同源名单作为数据集发布。我们还观察到的行为,在某种程度上不相关的印度语文对,并在其中释放检测到的同源名单。
translated by 谷歌翻译
编码单词语义属性的密集词向量或“Word Embeddings”现在已成为机器翻译(MT),问题应答(QA),字感消解(WSD)和信息检索(IR)中的NLP任务的积分。在本文中,我们使用各种现有方法为14个印度语言创建多个单词嵌入。我们将这些嵌入的嵌入式为所有这些语言,萨姆萨姆,孟加拉,古吉拉蒂,印地教派,kannada,konkani,malayalam,marathi,尼泊尔,odiya,punjabi,梵语,泰米尔和泰雅古士在一个单一的存储库中。相对较新的方法,强调迎合上下文(BERT,ELMO等),表明了显着的改进,但需要大量资源来产生可用模型。我们释放使用上下文和非上下文方法生成的预训练嵌入。我们还使用Muse和XLM来培训所有上述语言的交叉语言嵌入。为了展示我们嵌入的效果,我们为所有这些语言评估了我们对XPOS,UPOS和NER任务的嵌入模型。我们使用8种不同的方法释放了436个型号。我们希望他们对资源受限的印度语言NLP有用。本文的标题是指最初在1924年出版的福斯特的着名小说“一段是印度”。
translated by 谷歌翻译
凝视行为已被用作收集认知信息多年的一种方式。在本文中,我们讨论了凝视行为在解决自然语言处理(NLP)中解决不同任务的情况,而无需在测试时间录制它。这是因为凝视行为的收集是一种昂贵的任务,无论是时间和金钱。因此,在本文中,我们专注于对减轻在运行时录制凝视行为的需要的研究。我们还提到了多种语言的不同眼踪语言,目前可用,可用于自然语言处理。我们通过在领域教育中讨论应用程序来结束我们的论文 - 以及学习凝视行为如何有助于解决复杂词识别和自动论文分级的任务。
translated by 谷歌翻译
同源存在于不同语言的同一文本的多种变体中(例如,德语“Hund”和“猎犬”中的英语意味着“狗”)。它们对各种自然语言处理(NLP)应用构成了挑战,例如机器翻译,交叉语音歧义,计算系统发育和信息检索。解决这一挑战的可能解决方案是识别跨语言对的同源。在本文中,我们描述了为十二个印度语言的两种同源数据集,即梵语,印地文,issamese,奥里亚,kannada,古吉拉蒂,泰米尔,泰卢固,旁遮普,孟加拉,马拉萨和马拉雅拉姆。我们将同源数据从印度语态语言字典数字化,并利用链接的印度语言Wordnets来生成同源集。此外,我们使用Wordnet数据来创建一个False Friends'DataSet for Eleven Language对。我们还使用以前可用的基线同源检测方法评估我们数据集的功效。我们还借助词汇表进行了手动评估,并通过本文释放策划的金标准数据集。
translated by 谷歌翻译
同源是不同语言的同一词汇形式的变体;例如,英语中的“Fonema”和英语中的“音素”是同源的,这两者都意味着'声音单位'。在任何两种语言中自动检测同源的任务可以帮助下游的NLP任务,例如交叉信息检索,计算系统发育和机器翻译。在本文中,我们展示了使用跨语言词嵌入来检测十四印度语言中的同源。我们的方法介绍了从知识图中使用上下文,以生成用于同源检测的改进的特征表示。然后,我们评估了我们对神经电机翻译(NMT)对神经电机翻译(NMT)的影响,作为下游任务。我们评估我们的方法,以检测十二个印度语言的具有挑战性的数据集的方法,即梵语,印地文,issamese,奥里亚,kannada,古吉拉蒂,泰米尔,Telugu,Punjabi,Bengali,Marathi和Malayalam。此外,我们为另外两种印度语言,Konkani和Nepali创建评估数据集。我们在F评分方面,观察到高达18%的分数,以获得同源检测。此外,我们观察到使用我们的方法提取的同源有助于提高NMT质量高达2.76 BLEU。我们还公开发布我们的代码,新建的数据集和交叉语言模型。
translated by 谷歌翻译
自动检测同源有助于机器翻译的下游NLP任务,交叉语言信息检索,计算系统发育和交叉命名实体识别。先前的同源检测任务方法使用正射,语音和语义相似度的特征集。在本文中,我们提出了一种富集特征集的新方法,从人类读者的凝视行为中提取了认知功能。我们收集凝视行为数据,了解一个同源的小样本,并表明提取的认知功能有助于证实检测的任务。但是,凝视数据收集和注释是一个昂贵的任务。我们使用收集的凝视行为数据来预测更大样本的认知功能,并显示预测的认知功能,也显着提高了任务性能。通过先前提出的方法,我们报告了收集的凝视特征的10%,12%使用预测的凝视特征。此外,我们与我们的代码和交叉语言模型一起释放收集的凝视行为数据。
translated by 谷歌翻译
问题应答系统这些天通常使用基于模板的语言生成。虽然足够适用于特定于域的任务,但这些系统对于域无关的系统来说太限性和预定义。本文提出了一个输出全长答案的系统给出一个问题和提取的事实答案(如命名实体等短跨度)作为输入。我们的系统使用选区和依赖性解析问题的树木。基于变压器的语法纠错模型Gector(2020)用作后处理步骤,以便更好流畅。我们将系统与(i)修改的指针生成器(SOTA)和(ii)微调对话框进行了比较。我们还通过更好的结果测试我们的方法(是 - 否)问题的方法。我们的模型比最先进的(SOTA)方法产生准确和流畅的答案。评估是在NewsQA和Squad数据集上完成的,分别增加0.4和0.9个百分点的速度分数。与SOTA相比,推理时间也减少了85 \%。用于我们评估的改进数据集将作为研究贡献的一部分发布。
translated by 谷歌翻译