本文介绍了正式和非正式波斯之间的语音,形态和句法区别,表明这两个变体具有根本差异,不能仅归因于发音差异。鉴于非正式波斯展出特殊的特征,任何在正式波斯语上培训的计算模型都不太可能转移到非正式的波斯,所以需要为这种品种创建专用的树木银行。因此,我们详细介绍了开源非正式波斯普通依赖性TreeBank的开发,这是一个在通用依赖性方案中注释的新的TreeBank。然后,我们通过在现有的正式树木银行上培训两个依赖性解析器并在域名数据上进行评估,调查非正式波斯的解析,即我们非正式树木银行的开发集。我们的结果表明,当我们穿过两个域时,解析器在跨越两个域时遇到了实质性的性能下降,因为它们面临更为不知名的令牌和结构,并且无法概括。此外,性能恶化的依赖关系最多代表了非正式变体的独特属性。这项研究的最终目标表明更广泛的影响是提供踩踏石头,以揭示语言的非正式变种的重要性,这被广泛地忽略了跨语言的自然语言处理工具。
translated by 谷歌翻译
我们为自然主义儿童和以英文为指导的语音介绍了句法依赖性树库(Macwhinney,2000年)。我们的注释在很大程度上遵循了通用依赖项目的准则(UD(Zeman等,2022)),并详细扩展了对会话语音独有的词汇/句法结构(反对书面文本)。与现有的UD风格的口语库以及其他儿童互动的依赖性语料库相比,我们的数据集具有(大量)的大小(n tusterances = 44,744; n of单词= 233,907),并包含来自一个的语音总共有10名儿童覆盖了年龄范围(18-66个月)。使用此数据集,我们问:(1)针对书面域名量身定制的最先进的依赖解析器将如何为自发对话中的不同对话者的语音执行吗? (2)解析器表现与孩子的发展阶段之间有什么关系?为了解决这些问题,在正在进行的工作中,我们使用基于图的基于图和过渡的解析器进行了彻底的依赖解析器评估,这些解析器具有不同的高参数化,并从三种不同类型的室外书面文本进行培训:新闻,推文和学习者:数据。
translated by 谷歌翻译
我们展示了第一个秋天的Ashokan Prakrit的一个语言学附带的TreeBank,这是一个中间的Indo-Aryan方言连续体,通过Ashoka Maurya的3世纪的3世纪的BCE岩石和柱状指示而证明。对于诠释,我们使用了多语种普遍依赖性(UD)形式主义,近期UD在梵语和其他印度 - 雅典语言上工作。我们触及一些有趣的语言特征,提出了注释:雷玛名称和其他名义化合物,“原始”参与者建设,以及Sandhi(语素边界的语音同化)所证明的可能的语法化。最终,我们计划完全诠释所有证明的ASHOKAN案文,以利用计算方法改善Indo-Aryan的不同历史阶段的UD覆盖范围的较大目标。
translated by 谷歌翻译
分布语义是对含义变化和通过语料库变化的定量研究,目前是计算语言学中生产力最高的研究领域之一。近年来,大数据和可再现算法的更广泛可用性促进了其对生活语言的应用。但是,我们可以使用分布语义来研究像古希腊这样有限语料库的语言吗?这种方法能否告诉我们一些关于诸如荷马诗的语言和组成的古典研究中这种烦恼问题的信息?我们的论文将比较涉及古希腊语史诗中透射动词的公式的语义灵活性与非格式液体语料库中的类似动词短语,以检测公式中的独特变化模式。为了解决这个问题,我们提出了Agvalex,这是一种从古希腊依赖树库中自动提取的古希腊的计算价词典。词典包含有关动词及其论点的定量语料库驱动的形态,句法和词汇信息,例如对象,主体和介词短语,并且在古希腊作者的语言研究中有广泛的应用。
translated by 谷歌翻译
本文介绍了对土耳其语可用于的语料库和词汇资源的全面调查。我们审查了广泛的资源,重点关注公开可用的资源。除了提供有关可用语言资源的信息外,我们还提供了一组建议,并确定可用于在土耳其语言学和自然语言处理中进行研究和建筑应用的数据中的差距。
translated by 谷歌翻译
Dialect differences caused by regional, social, and economic barriers cause performance discrepancies for many groups of users of language technology. Fair, inclusive, and equitable language technology must critically be dialect invariant, meaning that performance remains constant over dialectal shifts. Current English systems often fall significantly short of this ideal since they are designed and tested on a single dialect: Standard American English. We introduce Multi-VALUE -- a suite of resources for evaluating and achieving English dialect invariance. We build a controllable rule-based translation system spanning 50 English dialects and a total of 189 unique linguistic features. Our translation maps Standard American English text to synthetic form of each dialect, which uses an upper-bound on the natural density of features in that dialect. First, we use this system to build stress tests for question answering, machine translation, and semantic parsing tasks. Stress tests reveal significant performance disparities for leading models on non-standard dialects. Second, we use this system as a data augmentation technique to improve the dialect robustness of existing systems. Finally, we partner with native speakers of Chicano and Indian English to release new gold-standard variants of the popular CoQA task.
translated by 谷歌翻译
数据饥饿的深度神经网络已经将自己作为许多NLP任务的标准建立为包括传统序列标记的标准。尽管他们在高资源语言上表现最先进的表现,但它们仍然落后于低资源场景的统计计数器。一个方法来反击攻击此问题是文本增强,即,从现有数据生成新的合成训练数据点。虽然NLP最近目睹了一种文本增强技术的负载,但该领域仍然缺乏对多种语言和序列标记任务的系统性能分析。为了填补这一差距,我们调查了三类文本增强方法,其在语法(例如,裁剪子句子),令牌(例如,随机字插入)和字符(例如,字符交换)级别上执行更改。我们系统地将它们与语音标记,依赖解析和语义角色标记的分组进行了比较,用于使用各种模型的各种语言系列,包括依赖于诸如MBERT的普赖金的多语言语境化语言模型的架构。增强最显着改善了解析,然后是语音标记和语义角色标记的依赖性解析。我们发现实验技术通常在形态上丰富的语言,而不是越南语等分析语言。我们的研究结果表明,增强技术可以进一步改善基于MBERT的强基线。我们将字符级方法标识为最常见的表演者,而同义词替换和语法增强仪提供不一致的改进。最后,我们讨论了最大依赖于任务,语言对和模型类型的结果。
translated by 谷歌翻译
英语自然语言理解(NLU)系统已经取得了出色的表现,甚至在胶水和超级胶水等基准上表现出色。但是,这些基准仅包含教科书标准美国英语(SAE)。在NLP社区中,其他方言在很大程度上被忽略了。这导致偏见且不平等的NLU系统,仅服务于说话者的子人群。为了了解当前模型的差异并促进了更多的语言功能性的NLU系统,我们介绍了白话语言理解评估(Value)基准,这是我们使用一套词汇和形态句法转换规则创建的具有挑战性的胶水变体。在此最初版本(v.1)中,我们为非裔美国人白话英语(AAVE)的11个特征构建规则,并招募流利的AAVE扬声器,以通过参与性设计方式通过语言可接受性判断来验证每个功能转换。实验表明,这些新的方言功能可以导致模型性能下降。要运行转换代码并下载合成和金标准的方言胶水标准,请参见https://github.com/salt-nlp/value
translated by 谷歌翻译
虽然高度多语言普遍依赖性(UD)项目为Clausal结构提供了广泛的指导方针以及规范名义短语内的结构,但缺乏缺乏打破模具的“恶作剧”标称现象的标准治疗。因此,即使用广泛的UD TreeBanking工作,如英语,也可以找到众多不一致的语言内部和跨越语言。本文调查英语UD Corpora证明的淘气名义表达式,并提出了主要用英语的解决方案,但这可能会为各种UD语言提供解决方案的路径。
translated by 谷歌翻译
尽管最近在机器学习用于自然语言处理的机器学习方面,但自然语言推论(NLI)问题仍然是挑战。为此目的,我们贡献了一个新的数据集,专注于事实现象;但是,我们的任务与其他NLI任务保持相同,即引起的征集,矛盾或中性(ECN)。 DataSet在波兰语中包含完全自然语言话语,收集2,432个动词补充对和309个独特的动词。 DataSet基于国家波兰语(NKJP)的国家语料库,是主要动词频率和其他语言特征的代表性样本(例如,内部否定的发生)。我们发现,基于变压器的基于判决的模型获得了相对良好的结果($ \ \左右89 \%$ F1得分)。尽管使用语言特征实现了更好的结果($ \大约91 \%$ F1得分),但这种模型需要更多人工劳动力(循环中的人类),因为专家语言学家手动制备特征。基于BERT的模型仅消耗输入句子表明,它们捕获了NLI / Factivity的大部分复杂性。现象中的复杂病例 - 例如具有权利(e)和非致命动词的案件 - 仍然是进一步研究的开放问题。
translated by 谷歌翻译
在这项研究中,我们旨在提供出于语言动机的解决方案,以解决缺乏无效词素的代表性,高生产力的衍生过程和土耳其语中的融合词素的问题,而在Boun Treebank中没有与普遍的依赖关系框架不同。为了解决这些问题,通过将某些引理并在UD框架中使用MISC(其他)选项卡来表示新的注释约定来表示派生。在基于LSTM的依赖性解析器上测试了重新注释的树库的代表性功能,并引入了船工具的更新版本。
translated by 谷歌翻译
语法提示有时具有自然语言的单词含义。例如,英语单词顺序规则限制了句子的单词顺序,例如“狗咀嚼骨头”,即使可以从世界知识和合理性中推断出“狗”作为代理人和“骨头”的状态。量化这种冗余的发生频率,以及冗余水平如何在类型上多样化的语言中变化,可以阐明语法的功能和演变。为此,我们在英语和俄语中进行了一个行为实验,并进行了跨语言计算分析,以测量从自然主义文本中提取的及物子句中语法线索的冗余性。从自然发生的句子中提取的主题,动词和物体(按随机顺序和形态标记)提出了英语和俄罗斯说话者(n = 484),并被要求确定哪个名词是该动作的推动者。两种语言的准确性都很高(英语约为89%,俄语为87%)。接下来,我们在类似的任务上训练了神经网络机分类器:预测主题对象三合会中的哪个名义是主题。在来自八个语言家庭的30种语言中,性能始终很高:中位准确性为87%,与人类实验中观察到的准确性相当。结论是,语法提示(例如单词顺序)对于仅在10-15%的自然句子中传达了代理和耐心是必要的。然而,他们可以(a)提供重要的冗余来源,(b)对于传达无法从单词中推断出的预期含义至关重要,包括对人类互动的描述,在这些含义中,角色通常是可逆的(例如,雷(Ray)帮助lu/ Lu帮助雷),表达了非典型的含义(例如,“骨头咀嚼狗”。)。
translated by 谷歌翻译
在本文中,我们推出了一种新的通用依赖树木库,用于亚马逊尼亚的一种濒危语言:秘鲁在秘鲁说的Panoan语言Kakataibo。我们首先讨论实施的协作方法,事实证明,在本科生的计算语言课程的背景下创建树库有效。然后,我们描述了树库的一般细节以及针对拟议的注释实施的特定于语言的注意事项。我们最终对词性标记和句法依赖性解析进行了一些实验。我们专注于单语和转移学习设置,在这里我们研究了另一种Panoan语言资源的Shipibo-Konibo Treebos的影响。
translated by 谷歌翻译
Grammatical Error Correction (GEC) is the task of automatically detecting and correcting errors in text. The task not only includes the correction of grammatical errors, such as missing prepositions and mismatched subject-verb agreement, but also orthographic and semantic errors, such as misspellings and word choice errors respectively. The field has seen significant progress in the last decade, motivated in part by a series of five shared tasks, which drove the development of rule-based methods, statistical classifiers, statistical machine translation, and finally neural machine translation systems which represent the current dominant state of the art. In this survey paper, we condense the field into a single article and first outline some of the linguistic challenges of the task, introduce the most popular datasets that are available to researchers (for both English and other languages), and summarise the various methods and techniques that have been developed with a particular focus on artificial error generation. We next describe the many different approaches to evaluation as well as concerns surrounding metric reliability, especially in relation to subjective human judgements, before concluding with an overview of recent progress and suggestions for future work and remaining challenges. We hope that this survey will serve as comprehensive resource for researchers who are new to the field or who want to be kept apprised of recent developments.
translated by 谷歌翻译
The long-distance agreement, evidence for syntactic structure, is increasingly used to assess the syntactic generalization of Neural Language Models. Much work has shown that transformers are capable of high accuracy in varied agreement tasks, but the mechanisms by which the models accomplish this behavior are still not well understood. To better understand transformers' internal working, this work contrasts how they handle two superficially similar but theoretically distinct agreement phenomena: subject-verb and object-past participle agreement in French. Using probing and counterfactual analysis methods, our experiments show that i) the agreement task suffers from several confounders which partially question the conclusions drawn so far and ii) transformers handle subject-verb and object-past participle agreements in a way that is consistent with their modeling in theoretical linguistics.
translated by 谷歌翻译
基于变压器的语言模型最近在许多自然语言任务中取得了显着的结果。但是,通常通过利用大量培训数据来实现排行榜的性能,并且很少通过将明确的语言知识编码为神经模型。这使许多人质疑语言学对现代自然语言处理的相关性。在本文中,我介绍了几个案例研究,以说明理论语言学和神经语言模型仍然相互关联。首先,语言模型通过提供一个客观的工具来测量语义距离,这对语言学家很有用,语义距离很难使用传统方法。另一方面,语言理论通过提供框架和数据源来探究我们的语言模型,以了解语言理解的特定方面,从而有助于语言建模研究。本论文贡献了三项研究,探讨了语言模型中语法 - 听觉界面的不同方面。在论文的第一部分中,我将语言模型应用于单词类灵活性的问题。我将Mbert作为语义距离测量的来源,我提供了有利于将单词类灵活性分析为方向过程的证据。在论文的第二部分中,我提出了一种方法来测量语言模型中间层的惊奇方法。我的实验表明,包含形态句法异常的句子触发了语言模型早期的惊喜,而不是语义和常识异常。最后,在论文的第三部分中,我适应了一些心理语言学研究,以表明语言模型包含了论证结构结构的知识。总而言之,我的论文在自然语言处理,语言理论和心理语言学之间建立了新的联系,以为语言模型的解释提供新的观点。
translated by 谷歌翻译
在Mapuche语法由Smeets进行了介绍,介绍了Mapud \“Un诺的主要变形学方面,解释了它们的触发和所产生的上下文。我们提出了一种计算方法,其产生能够进行分类和分类的有限状态形态分析仪(和发电机)的计算方法适当地标记以Mapuche Word形式交互的所有组件(根和后缀)。本文的大部分侧重于呈现有关Mapud \“Un诺动词的形态及其使用FOMA的形式化的详细信息。本文还存在系统评估过程及其结果。
translated by 谷歌翻译
本地语言识别(NLI)是培训(通过监督机器学习)的任务,该分类器猜测文本作者的母语。在过去的十年中,这项任务已经进行了广泛的研究,多年来,NLI系统的性能稳步改善。我们专注于NLI任务的另一个方面,即分析由\ emph {Aupplable}机器学习算法培训的NLI分类器的内部组件,以获取其分类决策的解释,并具有获得的最终目标,即获得最终的目标。深入了解语言现象````赋予说话者''的母语''。我们使用这种观点来解决NLI和(研究得多的)伴侣任务,即猜测是由本地人还是非本地人说的文本。使用三个不同出处的数据集(英语学习者论文的两个数据集和社交媒体帖子的数据集),我们研究哪种语言特征(词汇,形态学,句法和统计)最有效地解决了我们的两项任务,即,最大的表明说话者的L1。我们还提出了两个案例研究,一个关于西班牙语,另一个关于意大利英语学习者,其中我们分析了分类器对发现这些L1最重要的单个语言特征。总体而言,我们的研究表明,使用可解释的机器学习可能是TH的宝贵工具
translated by 谷歌翻译
知识表示和推理(KRR)系统表示知识作为事实和规则的集合。像数据库一样,KRR系统包含有关工业企业,科学和业务等人类活动领域的信息。 KRR可以代表复杂的概念和关系,它们可以以复杂的方式查询和操纵信息。不幸的是,指定必要的知识需要大多数领域专家没有的技能,而专业知识工程师很难找到,因此KRR技术受到了阻碍。一种解决方案可能是从英语文本中提取知识,并且许多作品都尝试这样做(Openseame,Google的吊索等)。不幸的是,目前,从不受限制的自然语言中提取逻辑事实仍然是不准确的,无法用于推理,而限制语言语法(所谓的受控自然语言或CNL)对于用户来说很难学习和使用。然而,与其他方法相比,一些最近基于CNL的方法,例如知识创作逻辑机(KALM)的精度非常高,并且一个自然的问题是可以在多大程度上取消CNL限制。在本文中,我们通过将KALM框架移植到神经自然语言解析器Mstanza来解决这个问题。在这里,我们将注意力限制在创作事实和查询上,因此我们的重点是我们所说的事实英语陈述。在我们的后续工作中将考虑创作其他类型的知识,例如规则。事实证明,基于神经网络的解析器有自己的问题,并且他们犯的错误范围从言论的一部分标记到lemmatization到依赖性错误。我们介绍了许多解决这些问题并测试新系统KALMFL(即,事实语言的KALM)的技术,这些技术表明KALMFL的正确性超过95%。
translated by 谷歌翻译
在这项研究中,我们提出了一种基于词素的方案,用于韩国依赖解析,并采用拟议方案来普遍依赖。我们介绍了语言原理,该基本原理说明了采用基于词素的格式的动机和必要性,并开发了脚本,这些脚本会在通用依赖项使用的原始格式和所提出的基于词素的格式自动之间转换。然后,统计和神经模型(包括udpipe和stanza)证明了提出的格式对韩国依赖解析的有效性,并以我们精心构造的基于词素的单词嵌入韩语。Morphud的表现优于所有韩国UD Treebanks的解析结果,我们还提供了详细的错误分析。
translated by 谷歌翻译