在这项研究中,我们旨在提供出于语言动机的解决方案,以解决缺乏无效词素的代表性,高生产力的衍生过程和土耳其语中的融合词素的问题,而在Boun Treebank中没有与普遍的依赖关系框架不同。为了解决这些问题,通过将某些引理并在UD框架中使用MISC(其他)选项卡来表示新的注释约定来表示派生。在基于LSTM的依赖性解析器上测试了重新注释的树库的代表性功能,并引入了船工具的更新版本。
translated by 谷歌翻译
由于它们在自然语言处理工具的开发中所扮演的关键作用,因此优质树仓的价值正在稳步增长。这种树仓的创造是劳动密集型且耗时的。尤其是当考虑树库的大小时,支持注释过程的工具至关重要。但是,已经提出了各种注释工具,但是它们通常不适合土耳其语等凝集性语言。 V1是用于注释依赖关系的船,随后被用于创建手动注释的Boun Treebank(UD_TURKISH-BOUN)。在这项工作中,我们根据使用船V1获得的经验报告了依赖性注释工具船V2的设计和实施,这揭示了一些改进的机会。 V2是一种多用户和基于Web的依赖性注释工具,设计为注释用户体验以产生有效的注释。该工具的主要目标是:(1)支持以提高速度创建有效且一致的注释,(2)显着改善注释者的用户体验,(3)支持注释者之间的协作,(4)提供开放 - 通过灵活的应用程序编程接口(API)来源和易于部署的基于Web的注释工具,以使科学界受益。本文讨论了船V2的启发,设计和实施以及示例。
translated by 谷歌翻译
本文介绍了正式和非正式波斯之间的语音,形态和句法区别,表明这两个变体具有根本差异,不能仅归因于发音差异。鉴于非正式波斯展出特殊的特征,任何在正式波斯语上培训的计算模型都不太可能转移到非正式的波斯,所以需要为这种品种创建专用的树木银行。因此,我们详细介绍了开源非正式波斯普通依赖性TreeBank的开发,这是一个在通用依赖性方案中注释的新的TreeBank。然后,我们通过在现有的正式树木银行上培训两个依赖性解析器并在域名数据上进行评估,调查非正式波斯的解析,即我们非正式树木银行的开发集。我们的结果表明,当我们穿过两个域时,解析器在跨越两个域时遇到了实质性的性能下降,因为它们面临更为不知名的令牌和结构,并且无法概括。此外,性能恶化的依赖关系最多代表了非正式变体的独特属性。这项研究的最终目标表明更广泛的影响是提供踩踏石头,以揭示语言的非正式变种的重要性,这被广泛地忽略了跨语言的自然语言处理工具。
translated by 谷歌翻译
在这项研究中,我们提出了一种基于词素的方案,用于韩国依赖解析,并采用拟议方案来普遍依赖。我们介绍了语言原理,该基本原理说明了采用基于词素的格式的动机和必要性,并开发了脚本,这些脚本会在通用依赖项使用的原始格式和所提出的基于词素的格式自动之间转换。然后,统计和神经模型(包括udpipe和stanza)证明了提出的格式对韩国依赖解析的有效性,并以我们精心构造的基于词素的单词嵌入韩语。Morphud的表现优于所有韩国UD Treebanks的解析结果,我们还提供了详细的错误分析。
translated by 谷歌翻译
本文介绍了对土耳其语可用于的语料库和词汇资源的全面调查。我们审查了广泛的资源,重点关注公开可用的资源。除了提供有关可用语言资源的信息外,我们还提供了一组建议,并确定可用于在土耳其语言学和自然语言处理中进行研究和建筑应用的数据中的差距。
translated by 谷歌翻译
在本文中,我们推出了一种新的通用依赖树木库,用于亚马逊尼亚的一种濒危语言:秘鲁在秘鲁说的Panoan语言Kakataibo。我们首先讨论实施的协作方法,事实证明,在本科生的计算语言课程的背景下创建树库有效。然后,我们描述了树库的一般细节以及针对拟议的注释实施的特定于语言的注意事项。我们最终对词性标记和句法依赖性解析进行了一些实验。我们专注于单语和转移学习设置,在这里我们研究了另一种Panoan语言资源的Shipibo-Konibo Treebos的影响。
translated by 谷歌翻译
通用形态(UNIMORPH)项目是一项合作的努力,可为数百种世界语言实例化覆盖范围的标准化形态拐角。该项目包括两个主要的推力:一种无独立的特征架构,用于丰富的形态注释,并以各种语言意识到该模式的各种语言的带注释数据的类型级别资源。本文介绍了过去几年对几个方面的扩张和改进(自McCarthy等人(2020年)以来)。众多语言学家的合作努力增加了67种新语言,其中包括30种濒危语言。我们已经对提取管道进行了一些改进,以解决一些问题,例如缺少性别和马克龙信息。我们还修改了模式,使用了形态学现象所需的层次结构,例如多肢体协议和案例堆叠,同时添加了一些缺失的形态特征,以使模式更具包容性。鉴于上一个UniMorph版本,我们还通过16种语言的词素分割增强了数据库。最后,这个新版本通过通过代表来自metphynet的派生过程的实例丰富数据和注释模式来推动将衍生物形态纳入UniMorph中。
translated by 谷歌翻译
我们描述了NordiaChange:挪威的第一个历史语义改变数据集。NordiaChange包括两个新的子集,覆盖了大约80个挪威名词,随着时间的推移,用分级语义变化手动注释。两个数据集都遵循相同的注释程序,可以互换地作为火车和彼此的测试分割。Nordiachange涵盖与战后事件,挪威石油和天然气发现以及技术发展有关的时间段。注释是使用DUREL框架和两个大型历史挪威语料库完成的。NordiaChange在允许许可证下全额发布,完成了原始注释数据和推断仪式单词使用图(DWUG)。
translated by 谷歌翻译
In this paper we investigated two different methods to parse relative and noun complement clauses in English and resorted to distinct tags for their corresponding that as a relative pronoun and as a complementizer. We used an algorithm to relabel a corpus parsed with the GUM Treebank using Universal Dependency. Our second experiment consisted in using TreeTagger, a Probabilistic Decision Tree, to learn the distinction between the two complement and relative uses of postnominal "that". We investigated the effect of the training set size on TreeTagger accuracy and how representative the GUM Treebank files are for the two structures under scrutiny. We discussed some of the linguistic and structural tenets of the learnability of this distinction.
translated by 谷歌翻译
Grammatical Error Correction (GEC) is the task of automatically detecting and correcting errors in text. The task not only includes the correction of grammatical errors, such as missing prepositions and mismatched subject-verb agreement, but also orthographic and semantic errors, such as misspellings and word choice errors respectively. The field has seen significant progress in the last decade, motivated in part by a series of five shared tasks, which drove the development of rule-based methods, statistical classifiers, statistical machine translation, and finally neural machine translation systems which represent the current dominant state of the art. In this survey paper, we condense the field into a single article and first outline some of the linguistic challenges of the task, introduce the most popular datasets that are available to researchers (for both English and other languages), and summarise the various methods and techniques that have been developed with a particular focus on artificial error generation. We next describe the many different approaches to evaluation as well as concerns surrounding metric reliability, especially in relation to subjective human judgements, before concluding with an overview of recent progress and suggestions for future work and remaining challenges. We hope that this survey will serve as comprehensive resource for researchers who are new to the field or who want to be kept apprised of recent developments.
translated by 谷歌翻译
对任何人类语言的文本的语法分析通常涉及许多基本的处理任务,例如令牌化,形态标记和依赖性解析。最先进的系统可以在具有大数据集的语言上实现这些任务的高精度,但是对于几乎没有带注释的数据的他的他加禄语等语言的结果很差。为了解决他加禄语语言的此问题,我们研究了在没有带注释的他加禄语数据的情况下使用辅助数据源来创建特定于任务模型的使用。我们还探索了单词嵌入和数据扩展的使用,以提高性能,而只有少量带注释的他加禄语数据可用。我们表明,与最先进的监督基线相比,这些零射击和几乎没有射击的方法在对域内和域外的塔加尔teact文本进行了语法分析方面进行了实质性改进。
translated by 谷歌翻译
We present Maknuune, a large open lexicon for the Palestinian Arabic dialect. Maknuune has over 36K entries from 17K lemmas, and 3.7K roots. All entries include diacritized Arabic orthography, phonological transcription and English glosses. Some entries are enriched with additional information such as broken plurals and templatic feminine forms, associated phrases and collocations, Standard Arabic glosses, and examples or notes on grammar, usage, or location of collected entry.
translated by 谷歌翻译
我们展示了第一个秋天的Ashokan Prakrit的一个语言学附带的TreeBank,这是一个中间的Indo-Aryan方言连续体,通过Ashoka Maurya的3世纪的3世纪的BCE岩石和柱状指示而证明。对于诠释,我们使用了多语种普遍依赖性(UD)形式主义,近期UD在梵语和其他印度 - 雅典语言上工作。我们触及一些有趣的语言特征,提出了注释:雷玛名称和其他名义化合物,“原始”参与者建设,以及Sandhi(语素边界的语音同化)所证明的可能的语法化。最终,我们计划完全诠释所有证明的ASHOKAN案文,以利用计算方法改善Indo-Aryan的不同历史阶段的UD覆盖范围的较大目标。
translated by 谷歌翻译
分布语义是对含义变化和通过语料库变化的定量研究,目前是计算语言学中生产力最高的研究领域之一。近年来,大数据和可再现算法的更广泛可用性促进了其对生活语言的应用。但是,我们可以使用分布语义来研究像古希腊这样有限语料库的语言吗?这种方法能否告诉我们一些关于诸如荷马诗的语言和组成的古典研究中这种烦恼问题的信息?我们的论文将比较涉及古希腊语史诗中透射动词的公式的语义灵活性与非格式液体语料库中的类似动词短语,以检测公式中的独特变化模式。为了解决这个问题,我们提出了Agvalex,这是一种从古希腊依赖树库中自动提取的古希腊的计算价词典。词典包含有关动词及其论点的定量语料库驱动的形态,句法和词汇信息,例如对象,主体和介词短语,并且在古希腊作者的语言研究中有广泛的应用。
translated by 谷歌翻译
在本文中,我们介绍了在阿拉伯语编码的突尼斯阿拉伯语项目的最终结果,该项目是基于拉丁语的数字对话写作系统。该项目导致创建了两个集成和独立的资源:一个语料库和一个NLP工具,以通过各种语言信息来注释前者:单词分类,音译,标记,标记,pos tagging,lemmatization。我们从计算和语言方法论以及为改善结果而采用的策略中讨论我们的选择。我们报告了执行的实验,以概述我们的研究路径。最后,我们解释了为什么我们相信这些资源对计算和语言研究的潜力。关键词:突尼斯阿拉伯语,注释语料库,神经网络体系结构
translated by 谷歌翻译
This article presents morphologically-annotated Yemeni, Sudanese, Iraqi, and Libyan Arabic dialects Lisan corpora. Lisan features around 1.2 million tokens. We collected the content of the corpora from several social media platforms. The Yemeni corpus (~ 1.05M tokens) was collected automatically from Twitter. The corpora of the other three dialects (~ 50K tokens each) came manually from Facebook and YouTube posts and comments. Thirty five (35) annotators who are native speakers of the target dialects carried out the annotations. The annotators segemented all words in the four corpora into prefixes, stems and suffixes and labeled each with different morphological features such as part of speech, lemma, and a gloss in English. An Arabic Dialect Annotation Toolkit ADAT was developped for the purpose of the annation. The annotators were trained on a set of guidelines and on how to use ADAT. We developed ADAT to assist the annotators and to ensure compatibility with SAMA and Curras tagsets. The tool is open source, and the four corpora are also available online.
translated by 谷歌翻译
我们为自然主义儿童和以英文为指导的语音介绍了句法依赖性树库(Macwhinney,2000年)。我们的注释在很大程度上遵循了通用依赖项目的准则(UD(Zeman等,2022)),并详细扩展了对会话语音独有的词汇/句法结构(反对书面文本)。与现有的UD风格的口语库以及其他儿童互动的依赖性语料库相比,我们的数据集具有(大量)的大小(n tusterances = 44,744; n of单词= 233,907),并包含来自一个的语音总共有10名儿童覆盖了年龄范围(18-66个月)。使用此数据集,我们问:(1)针对书面域名量身定制的最先进的依赖解析器将如何为自发对话中的不同对话者的语音执行吗? (2)解析器表现与孩子的发展阶段之间有什么关系?为了解决这些问题,在正在进行的工作中,我们使用基于图的基于图和过渡的解析器进行了彻底的依赖解析器评估,这些解析器具有不同的高参数化,并从三种不同类型的室外书面文本进行培训:新闻,推文和学习者:数据。
translated by 谷歌翻译
目前的自动COSTERED解析的工作集中在Ontonotes基准数据集上,由于其大小和一致性。然而,NLP从业者的Onototes注释方案的许多方面并不能够很好地理解,包括治疗通用NPS,Noun修饰剂,无限期的视性,预测等。这些通常会导致违反直觉的索赔,结果和系统行为。这个意见案件旨在突出努力的努力的一些问题,并提出依赖三个原则的前进方式:1。专注于语义,不是Morphosyntax;2.交叉语言概括性;3.分离身份和范围,可以解决涉及时间和模态域一致性的旧问题。
translated by 谷歌翻译
Dialect differences caused by regional, social, and economic barriers cause performance discrepancies for many groups of users of language technology. Fair, inclusive, and equitable language technology must critically be dialect invariant, meaning that performance remains constant over dialectal shifts. Current English systems often fall significantly short of this ideal since they are designed and tested on a single dialect: Standard American English. We introduce Multi-VALUE -- a suite of resources for evaluating and achieving English dialect invariance. We build a controllable rule-based translation system spanning 50 English dialects and a total of 189 unique linguistic features. Our translation maps Standard American English text to synthetic form of each dialect, which uses an upper-bound on the natural density of features in that dialect. First, we use this system to build stress tests for question answering, machine translation, and semantic parsing tasks. Stress tests reveal significant performance disparities for leading models on non-standard dialects. Second, we use this system as a data augmentation technique to improve the dialect robustness of existing systems. Finally, we partner with native speakers of Chicano and Indian English to release new gold-standard variants of the popular CoQA task.
translated by 谷歌翻译
This paper presents a corpus annotated for the task of direct-speech extraction in Croatian. The paper focuses on the annotation of the quotation, co-reference resolution, and sentiment annotation in SETimes news corpus in Croatian and on the analysis of its language-specific differences compared to English. From this, a list of the phenomena that require special attention when performing these annotations is derived. The generated corpus with quotation features annotations can be used for multiple tasks in the field of Natural Language Processing.
translated by 谷歌翻译