智能论文笔记

UniMorph 4.0: Universal Morphology

Khuyagbaatar Batsuren , Omer Goldman , Salam Khalifa , Nizar Habash , Witold Kieraś , Gábor Bella , Brian Leonard , Garrett Nicolai , Kyle Gorman , Yustinus Ghanggo Ate

分类：自然语言处理

2022-05-07

通用形态（UNIMORPH）项目是一项合作的努力，可为数百种世界语言实例化覆盖范围的标准化形态拐角。该项目包括两个主要的推力：一种无独立的特征架构，用于丰富的形态注释，并以各种语言意识到该模式的各种语言的带注释数据的类型级别资源。本文介绍了过去几年对几个方面的扩张和改进（自McCarthy等人（2020年）以来）。众多语言学家的合作努力增加了67种新语言，其中包括30种濒危语言。我们已经对提取管道进行了一些改进，以解决一些问题，例如缺少性别和马克龙信息。我们还修改了模式，使用了形态学现象所需的层次结构，例如多肢体协议和案例堆叠，同时添加了一些缺失的形态特征，以使模式更具包容性。鉴于上一个UniMorph版本，我们还通过16种语言的词素分割增强了数据库。最后，这个新版本通过通过代表来自metphynet的派生过程的实例丰富数据和注释模式来推动将衍生物形态纳入UniMorph中。

translated by 谷歌翻译

Maknuune: A Large Open Palestinian Arabic Lexicon

Shahd Dibas , Christian Khairallah , Nizar Habash , Omar Fayez Sadi , Tariq Sairafy , Karmel Sarabta , Abrar Ardah

分类：自然语言处理

2022-10-24

We present Maknuune, a large open lexicon for the Palestinian Arabic dialect. Maknuune has over 36K entries from 17K lemmas, and 3.7K roots. All entries include diacritized Arabic orthography, phonological transcription and English glosses. Some entries are enriched with additional information such as broken plurals and templatic feminine forms, associated phrases and collocations, Standard Arabic glosses, and examples or notes on grammar, usage, or location of collected entry.

translated by 谷歌翻译

For the Purpose of Curry: A UD Treebank for Ashokan Prakrit

Adam Farris , Aryaman Arora

分类：自然语言处理

2021-11-24

我们展示了第一个秋天的Ashokan Prakrit的一个语言学附带的TreeBank，这是一个中间的Indo-Aryan方言连续体，通过Ashoka Maurya的3世纪的3世纪的BCE岩石和柱状指示而证明。对于诠释，我们使用了多语种普遍依赖性（UD）形式主义，近期UD在梵语和其他印度 - 雅典语言上工作。我们触及一些有趣的语言特征，提出了注释：雷玛名称和其他名义化合物，“原始”参与者建设，以及Sandhi（语素边界的语音同化）所证明的可能的语法化。最终，我们计划完全诠释所有证明的ASHOKAN案文，以利用计算方法改善Indo-Aryan的不同历史阶段的UD覆盖范围的较大目标。

translated by 谷歌翻译

Resources for Turkish Natural Language Processing: A critical survey

Çağrı Çöltekin , A. Seza Doğruöz , Özlem Çetinoğlu

分类：自然语言处理

2022-04-11

本文介绍了对土耳其语可用于的语料库和词汇资源的全面调查。我们审查了广泛的资源，重点关注公开可用的资源。除了提供有关可用语言资源的信息外，我们还提供了一组建议，并确定可用于在土耳其语言学和自然语言处理中进行研究和建筑应用的数据中的差距。

translated by 谷歌翻译

Computational valency lexica and Homeric formularity

Barbara McGillivray , Martina Astrid Rodda

分类：自然语言处理

2022-08-23

分布语义是对含义变化和通过语料库变化的定量研究，目前是计算语言学中生产力最高的研究领域之一。近年来，大数据和可再现算法的更广泛可用性促进了其对生活语言的应用。但是，我们可以使用分布语义来研究像古希腊这样有限语料库的语言吗？这种方法能否告诉我们一些关于诸如荷马诗的语言和组成的古典研究中这种烦恼问题的信息？我们的论文将比较涉及古希腊语史诗中透射动词的公式的语义灵活性与非格式液体语料库中的类似动词短语，以检测公式中的独特变化模式。为了解决这个问题，我们提出了Agvalex，这是一种从古希腊依赖树库中自动提取的古希腊的计算价词典。词典包含有关动词及其论点的定量语料库驱动的形态，句法和词汇信息，例如对象，主体和介词短语，并且在古希腊作者的语言研究中有广泛的应用。

translated by 谷歌翻译

Informal Persian Universal Dependency Treebank

Roya Kabiri , Simin Karimi , Mihai Surdeanu

分类：自然语言处理

2022-01-10

本文介绍了正式和非正式波斯之间的语音，形态和句法区别，表明这两个变体具有根本差异，不能仅归因于发音差异。鉴于非正式波斯展出特殊的特征，任何在正式波斯语上培训的计算模型都不太可能转移到非正式的波斯，所以需要为这种品种创建专用的树木银行。因此，我们详细介绍了开源非正式波斯普通依赖性TreeBank的开发，这是一个在通用依赖性方案中注释的新的TreeBank。然后，我们通过在现有的正式树木银行上培训两个依赖性解析器并在域名数据上进行评估，调查非正式波斯的解析，即我们非正式树木银行的开发集。我们的结果表明，当我们穿过两个域时，解析器在跨越两个域时遇到了实质性的性能下降，因为它们面临更为不知名的令牌和结构，并且无法概括。此外，性能恶化的依赖关系最多代表了非正式变体的独特属性。这项研究的最终目标表明更广泛的影响是提供踩踏石头，以揭示语言的非正式变种的重要性，这被广泛地忽略了跨语言的自然语言处理工具。

translated by 谷歌翻译

Enhancements to the BOUN Treebank Reflecting the Agglutinative Nature of Turkish

Büşra Marşan , Salih Furkan Akkurt , Muhammet Şen , Merve Gürbüz , Onur Güngör , Şaziye Betül Özateş , Suzan Üsküdarlı , Arzucan Özgür , Tunga Güngör , Balkız Öztürk

分类：自然语言处理

2022-07-24

在这项研究中，我们旨在提供出于语言动机的解决方案，以解决缺乏无效词素的代表性，高生产力的衍生过程和土耳其语中的融合词素的问题，而在Boun Treebank中没有与普遍的依赖关系框架不同。为了解决这些问题，通过将某些引理并在UD框架中使用MISC（其他）选项卡来表示新的注释约定来表示派生。在基于LSTM的依赖性解析器上测试了重新注释的树库的代表性功能，并引入了船工具的更新版本。

translated by 谷歌翻译

The SIGMORPHON 2022 Shared Task on Morpheme Segmentation

Khuyagbaatar Batsuren , Gábor Bella , Aryaman Arora , Viktor Martinović , Kyle Gorman , Zdeněk Žabokrtský , Amarsanaa Ganbold , Šárka Dohnalová , Magda Ševčíková , Kateřina Pelegrinová

分类：自然语言处理

2022-06-15

Sigmorphon 2022关于词素分割的共享任务挑战了将单词分解为一系列词素的系统，并涵盖了大多数类型的形态：化合物，衍生和弯曲。子任务1，单词级词素细分，涵盖了9种语言的500万个单词（捷克，英语，西班牙语，匈牙利语，法语，意大利语，俄语，拉丁语，蒙古语），并收到了7个团队的13个系统提交，最佳系统平均为97.29％F1在所有语言中得分，英语（93.84％）到拉丁语（99.38％）。子任务2，句子级的词素细分，涵盖了3种语言的18,735个句子（捷克，英语，蒙古人），从3个团队中收到10个系统提交，最好的系统优于所有三种最先进的子字体化方法（BPE（BPE），Ulm，Morfessor2）绝对30.71％。为了促进错误分析并支持任何类型的未来研究，我们发布了所有系统预测，评估脚本和所有黄金标准数据集。

translated by 谷歌翻译

FST Morphological Analyser and Generator for Mapudüngun

Andrés Chandía

分类：自然语言处理

2021-09-19

在Mapuche语法由Smeets进行了介绍，介绍了Mapud \“Un诺的主要变形学方面，解释了它们的触发和所产生的上下文。我们提出了一种计算方法，其产生能够进行分类和分类的有限状态形态分析仪（和发电机）的计算方法适当地标记以Mapuche Word形式交互的所有组件（根和后缀）。本文的大部分侧重于呈现有关Mapud \“Un诺动词的形态及其使用FOMA的形式化的详细信息。本文还存在系统评估过程及其结果。

translated by 谷歌翻译

CLSE: Corpus of Linguistically Significant Entities

Aleksandr Chuklin , Justin Zhao , Mihir Kale

分类：自然语言处理

2022-11-04

One of the biggest challenges of natural language generation (NLG) is the proper handling of named entities. Named entities are a common source of grammar mistakes such as wrong prepositions, wrong article handling, or incorrect entity inflection. Without factoring linguistic representation, such errors are often underrepresented when evaluating on a small set of arbitrarily picked argument values, or when translating a dataset from a linguistically simpler language, like English, to a linguistically complex language, like Russian. However, for some applications, broadly precise grammatical correctness is critical -- native speakers may find entity-related grammar errors silly, jarring, or even offensive. To enable the creation of more linguistically diverse NLG datasets, we release a Corpus of Linguistically Significant Entities (CLSE) annotated by linguist experts. The corpus includes 34 languages and covers 74 different semantic types to support various applications from airline ticketing to video games. To demonstrate one possible use of CLSE, we produce an augmented version of the Schema-Guided Dialog Dataset, SGD-CLSE. Using the CLSE's entities and a small number of human translations, we create a linguistically representative NLG evaluation benchmark in three languages: French (high-resource), Marathi (low-resource), and Russian (highly inflected language). We establish quality baselines for neural, template-based, and hybrid NLG systems and discuss the strengths and weaknesses of each approach.

translated by 谷歌翻译

Morpheme Boundary Detection & Grammatical Feature Prediction for Gujarati : Dataset & Model

Jatayu Baxi , Dr. Brijesh Bhatt

分类：自然语言处理 | 人工智能 | 机器学习

2021-12-18

为低资源语言开发自然语言处理资源是一个具有挑战性的，但必不可少的任务。在本文中，我们为古吉拉特提提出了一种形态学分析仪。我们使用了基于双向LSTM的方法来执行语素边界检测和语法特征标记。我们创建了一个带有引理和语法特征的古吉拉特语的数据集。本文讨论的基于Bi-LSTM的Morph分析仪模型，有效地处理了语言形态，而不知道任何手工制作的后缀规则。据我们所知，这是Gujarati语言的第一个DataSet和Morph分析仪模型，它执行语法特征标记和语素边界检测任务。

translated by 谷歌翻译

NL-Augmenter: A Framework for Task-Sensitive Natural Language Augmentation

Kaustubh D. Dhole , Varun Gangal , Sebastian Gehrmann , Aadesh Gupta , Zhenhao Li , Saad Mahamood , Abinaya Mahendiran , Simon Mille , Ashish Srivastava , Samson Tan

分类：自然语言处理 | 人工智能 | 机器学习

2021-12-06

数据增强是自然语言处理（NLP）模型的鲁棒性评估的重要组成部分，以及增强他们培训的数据的多样性。在本文中，我们呈现NL-Cogmenter，这是一种新的参与式Python的自然语言增强框架，它支持创建两个转换（对数据的修改）和过滤器（根据特定功能的数据拆分）。我们描述了框架和初始的117个变换和23个过滤器，用于各种自然语言任务。我们通过使用其几个转换来分析流行自然语言模型的鲁棒性来证明NL-Upmenter的功效。基础架构，Datacards和稳健性分析结果在NL-Augmenter存储库上公开可用（\ url {https://github.com/gem-benchmark/nl-augmenter}）。

translated by 谷歌翻译

Teacher Perception of Automatically Extracted Grammar Concepts for L2 Language Learning

Aditi Chaudhary , Arun Sampath , Ashwin Sheshadri , Antonios Anastasopoulos , Graham Neubig

分类：自然语言处理

2022-06-10

语言教学的挑战之一是如何以有意义的方式组织有关语言语法的规则。这不仅需要教学技能，而且还需要对该语言有深刻的了解。虽然开发此类课程的综合材料以英语和一些广泛的语言提供，但对于许多其他语言，教师需要手动创建它们来满足学生的需求。这个过程具有挑战性，因为i）要求这样的专家可以访问并拥有必要的资源，ii）即使有这样的专家，描述了一种语言的所有复杂性，这是耗时的，容易出现遗漏。在本文中，我们提出了一个自动框架，旨在通过自动发现和可视化语法各个方面的描述来促进这一过程。具体而言，我们从自然文本语料库中提取描述，该语料库回答有关形态句法（学习单词顺序，协议，案例标记或单词形成）和语义（学习词汇的学习）的问题，并显示了说明性示例。我们将这种方法用于教授印度语言，卡纳达语和马拉地语，这些方法与英语不同，它们没有发达的教学资源，因此很可能会从这项练习中受益。为了评估提取材料的感知效用，我们获得了北美学校的语言教育者的帮助，这些教育者教这些语言进行手动评估。总体而言，教师认为这些材料是他们自己的课程准备甚至学习者评估的参考材料有趣的。

translated by 谷歌翻译

Mischievous Nominal Constructions in Universal Dependencies

Nathan Schneider , Amir Zeldes

分类：自然语言处理

2021-08-29

虽然高度多语言普遍依赖性（UD）项目为Clausal结构提供了广泛的指导方针以及规范名义短语内的结构，但缺乏缺乏打破模具的“恶作剧”标称现象的标准治疗。因此，即使用广泛的UD TreeBanking工作，如英语，也可以找到众多不一致的语言内部和跨越语言。本文调查英语UD Corpora证明的淘气名义表达式，并提出了主要用英语的解决方案，但这可能会为各种UD语言提供解决方案的路径。

translated by 谷歌翻译

Lexical Simplification Benchmarks for English, Portuguese, and Spanish

Sanja Stajner , Daniel Ferres , Matthew Shardlow , Kai North , Marcos Zampieri , Horacio Saggion

分类：自然语言处理

2022-09-12

即使在高度发达的国家，多达15-30％的人口只能理解使用基本词汇编写的文本。他们对日常文本的理解是有限的，这阻止了他们在社会中发挥积极作用，并就医疗保健，法律代表或民主选择做出明智的决定。词汇简化是一项自然语言处理任务，旨在通过更简单地替换复杂的词汇和表达方式来使每个人都可以理解文本，同时保留原始含义。在过去的20年中，它引起了极大的关注，并且已经针对各种语言提出了全自动词汇简化系统。该领域进步的主要障碍是缺乏用于构建和评估词汇简化系统的高质量数据集。我们提出了一个新的基准数据集，用于英语，西班牙语和（巴西）葡萄牙语中的词汇简化，并提供有关数据选择和注释程序的详细信息。这是第一个可直接比较三种语言的词汇简化系统的数据集。为了展示数据集的可用性，我们将两种具有不同体系结构（神经与非神经）的最先进的词汇简化系统适应所有三种语言（英语，西班牙语和巴西葡萄牙语），并评估他们的表演在我们的新数据集中。为了进行更公平的比较，我们使用多种评估措施来捕获系统功效的各个方面，并讨论其优势和缺点。我们发现，最先进的神经词汇简化系统优于所有三种语言中最先进的非神经词汇简化系统。更重要的是，我们发现最先进的神经词汇简化系统对英语的表现要比西班牙和葡萄牙语要好得多。

translated by 谷歌翻译

Integrating Linguistic Theory and Neural Language Models

Bai Li

分类：自然语言处理

2022-07-20

基于变压器的语言模型最近在许多自然语言任务中取得了显着的结果。但是，通常通过利用大量培训数据来实现排行榜的性能，并且很少通过将明确的语言知识编码为神经模型。这使许多人质疑语言学对现代自然语言处理的相关性。在本文中，我介绍了几个案例研究，以说明理论语言学和神经语言模型仍然相互关联。首先，语言模型通过提供一个客观的工具来测量语义距离，这对语言学家很有用，语义距离很难使用传统方法。另一方面，语言理论通过提供框架和数据源来探究我们的语言模型，以了解语言理解的特定方面，从而有助于语言建模研究。本论文贡献了三项研究，探讨了语言模型中语法 - 听觉界面的不同方面。在论文的第一部分中，我将语言模型应用于单词类灵活性的问题。我将Mbert作为语义距离测量的来源，我提供了有利于将单词类灵活性分析为方向过程的证据。在论文的第二部分中，我提出了一种方法来测量语言模型中间层的惊奇方法。我的实验表明，包含形态句法异常的句子触发了语言模型早期的惊喜，而不是语义和常识异常。最后，在论文的第三部分中，我适应了一些心理语言学研究，以表明语言模型包含了论证结构结构的知识。总而言之，我的论文在自然语言处理，语言理论和心理语言学之间建立了新的联系，以为语言模型的解释提供新的观点。

translated by 谷歌翻译

Challenges in Developing LRs for Non-Scheduled Languages: A Case of Magahi

Ritesh Kumar

分类：自然语言处理

2021-11-30

Magahi是一种印度东部地区的印度雅典语言。尽管具有大量扬声器，但对于语言而言，几乎没有语言资源（LR）或语言技术（LT），主要是因为其状态为非预定语言。本文介绍了开发Magahi的注释语料库的尝试。这些数据主要从Magahi中的几个博客中获取，Magahi中的一些故事集合以及Magahi的录音，它使用BIS Tagset在POS级别注释。

translated by 谷歌翻译

The Open corpus of the Veps and Karelian languages: overview and applications

Tatyana Boyko , Nina Zaitseva , Natalia Krizhanovskaya , Andrew Krizhanovsky , Irina Novak , Nataliya Pellinen , Aleksandra Rodionova

分类：自然语言处理

2022-06-08

卡雷利亚共和国的波罗的海语言的研究越来越重视是语料库语言学的方法和工具。自2016年以来，Karelian研究中心的语言学家，数学家和程序员一直在与VEPS和Karelian语言的开放语料库（VEPKAR）合作，这是2009年创建的VEPS Corpus的扩展。和VEP，与它们相关的多功能字典以及具有高级搜索系统的软件，使用各种文本（语言，流派等）和许多语言类别（在文本中实现了文本中的词汇和语法搜索，这要归功于Word的生成器我们之前创建的表单）。编译了3000个文本的语料库，上传和标记了文本，将文本分类为语言，方言，类型和流派的系统，并创建了单词形式的生成器。未来的计划包括开发用于使用音频记录的语音模块和使用形态分析输出的句法标记模块。由于语料库管理器和正在进行的VEPKAR的持续功能进步，并具有新的材料和文本标记，用户可以处理广泛的科学和应用任务。在创建全国性国家VEPKAR语料库时，其开发商和经理在19-21世纪努力保护和展示VEP和Karelian语言状态。

translated by 谷歌翻译

AfroLID: A Neural Language Identification Tool for African Languages

Ife Adebara , AbdelRahim Elmadany , Muhammad Abdul-Mageed , Alcides Alcoba Inciarte

分类：自然语言处理 | 机器学习

2022-10-21

Language identification (LID) is a crucial precursor for NLP, especially for mining web data. Problematically, most of the world's 7000+ languages today are not covered by LID technologies. We address this pressing issue for Africa by introducing AfroLID, a neural LID toolkit for $517$ African languages and varieties. AfroLID exploits a multi-domain web dataset manually curated from across 14 language families utilizing five orthographic systems. When evaluated on our blind Test set, AfroLID achieves 95.89 F_1-score. We also compare AfroLID to five existing LID tools that each cover a small number of African languages, finding it to outperform them on most languages. We further show the utility of AfroLID in the wild by testing it on the acutely under-served Twitter domain. Finally, we offer a number of controlled case studies and perform a linguistically-motivated error analysis that allow us to both showcase AfroLID's powerful capabilities and limitations.

translated by 谷歌翻译

Building an Endangered Language Resource in the Classroom: Universal Dependencies for Kakataibo

Roberto Zariquiey , Claudia Alvarado , Ximena Echevarria , Luisa Gomez , Rosa Gonzales , Mariana Illescas , Sabina Oporto , Frederic Blum , Arturo Oncevay , Javier Vera

分类：自然语言处理

2022-06-21

在本文中，我们推出了一种新的通用依赖树木库，用于亚马逊尼亚的一种濒危语言：秘鲁在秘鲁说的Panoan语言Kakataibo。我们首先讨论实施的协作方法，事实证明，在本科生的计算语言课程的背景下创建树库有效。然后，我们描述了树库的一般细节以及针对拟议的注释实施的特定于语言的注意事项。我们最终对词性标记和句法依赖性解析进行了一些实验。我们专注于单语和转移学习设置，在这里我们研究了另一种Panoan语言资源的Shipibo-Konibo Treebos的影响。

translated by 谷歌翻译