我们展示了第一个秋天的Ashokan Prakrit的一个语言学附带的TreeBank,这是一个中间的Indo-Aryan方言连续体,通过Ashoka Maurya的3世纪的3世纪的BCE岩石和柱状指示而证明。对于诠释,我们使用了多语种普遍依赖性(UD)形式主义,近期UD在梵语和其他印度 - 雅典语言上工作。我们触及一些有趣的语言特征,提出了注释:雷玛名称和其他名义化合物,“原始”参与者建设,以及Sandhi(语素边界的语音同化)所证明的可能的语法化。最终,我们计划完全诠释所有证明的ASHOKAN案文,以利用计算方法改善Indo-Aryan的不同历史阶段的UD覆盖范围的较大目标。
translated by 谷歌翻译
虽然高度多语言普遍依赖性(UD)项目为Clausal结构提供了广泛的指导方针以及规范名义短语内的结构,但缺乏缺乏打破模具的“恶作剧”标称现象的标准治疗。因此,即使用广泛的UD TreeBanking工作,如英语,也可以找到众多不一致的语言内部和跨越语言。本文调查英语UD Corpora证明的淘气名义表达式,并提出了主要用英语的解决方案,但这可能会为各种UD语言提供解决方案的路径。
translated by 谷歌翻译
本文介绍了正式和非正式波斯之间的语音,形态和句法区别,表明这两个变体具有根本差异,不能仅归因于发音差异。鉴于非正式波斯展出特殊的特征,任何在正式波斯语上培训的计算模型都不太可能转移到非正式的波斯,所以需要为这种品种创建专用的树木银行。因此,我们详细介绍了开源非正式波斯普通依赖性TreeBank的开发,这是一个在通用依赖性方案中注释的新的TreeBank。然后,我们通过在现有的正式树木银行上培训两个依赖性解析器并在域名数据上进行评估,调查非正式波斯的解析,即我们非正式树木银行的开发集。我们的结果表明,当我们穿过两个域时,解析器在跨越两个域时遇到了实质性的性能下降,因为它们面临更为不知名的令牌和结构,并且无法概括。此外,性能恶化的依赖关系最多代表了非正式变体的独特属性。这项研究的最终目标表明更广泛的影响是提供踩踏石头,以揭示语言的非正式变种的重要性,这被广泛地忽略了跨语言的自然语言处理工具。
translated by 谷歌翻译
通用形态(UNIMORPH)项目是一项合作的努力,可为数百种世界语言实例化覆盖范围的标准化形态拐角。该项目包括两个主要的推力:一种无独立的特征架构,用于丰富的形态注释,并以各种语言意识到该模式的各种语言的带注释数据的类型级别资源。本文介绍了过去几年对几个方面的扩张和改进(自McCarthy等人(2020年)以来)。众多语言学家的合作努力增加了67种新语言,其中包括30种濒危语言。我们已经对提取管道进行了一些改进,以解决一些问题,例如缺少性别和马克龙信息。我们还修改了模式,使用了形态学现象所需的层次结构,例如多肢体协议和案例堆叠,同时添加了一些缺失的形态特征,以使模式更具包容性。鉴于上一个UniMorph版本,我们还通过16种语言的词素分割增强了数据库。最后,这个新版本通过通过代表来自metphynet的派生过程的实例丰富数据和注释模式来推动将衍生物形态纳入UniMorph中。
translated by 谷歌翻译
目前的自动COSTERED解析的工作集中在Ontonotes基准数据集上,由于其大小和一致性。然而,NLP从业者的Onototes注释方案的许多方面并不能够很好地理解,包括治疗通用NPS,Noun修饰剂,无限期的视性,预测等。这些通常会导致违反直觉的索赔,结果和系统行为。这个意见案件旨在突出努力的努力的一些问题,并提出依赖三个原则的前进方式:1。专注于语义,不是Morphosyntax;2.交叉语言概括性;3.分离身份和范围,可以解决涉及时间和模态域一致性的旧问题。
translated by 谷歌翻译
我们为自然主义儿童和以英文为指导的语音介绍了句法依赖性树库(Macwhinney,2000年)。我们的注释在很大程度上遵循了通用依赖项目的准则(UD(Zeman等,2022)),并详细扩展了对会话语音独有的词汇/句法结构(反对书面文本)。与现有的UD风格的口语库以及其他儿童互动的依赖性语料库相比,我们的数据集具有(大量)的大小(n tusterances = 44,744; n of单词= 233,907),并包含来自一个的语音总共有10名儿童覆盖了年龄范围(18-66个月)。使用此数据集,我们问:(1)针对书面域名量身定制的最先进的依赖解析器将如何为自发对话中的不同对话者的语音执行吗? (2)解析器表现与孩子的发展阶段之间有什么关系?为了解决这些问题,在正在进行的工作中,我们使用基于图的基于图和过渡的解析器进行了彻底的依赖解析器评估,这些解析器具有不同的高参数化,并从三种不同类型的室外书面文本进行培训:新闻,推文和学习者:数据。
translated by 谷歌翻译
在本文中,我们推出了一种新的通用依赖树木库,用于亚马逊尼亚的一种濒危语言:秘鲁在秘鲁说的Panoan语言Kakataibo。我们首先讨论实施的协作方法,事实证明,在本科生的计算语言课程的背景下创建树库有效。然后,我们描述了树库的一般细节以及针对拟议的注释实施的特定于语言的注意事项。我们最终对词性标记和句法依赖性解析进行了一些实验。我们专注于单语和转移学习设置,在这里我们研究了另一种Panoan语言资源的Shipibo-Konibo Treebos的影响。
translated by 谷歌翻译
本文介绍了对土耳其语可用于的语料库和词汇资源的全面调查。我们审查了广泛的资源,重点关注公开可用的资源。除了提供有关可用语言资源的信息外,我们还提供了一组建议,并确定可用于在土耳其语言学和自然语言处理中进行研究和建筑应用的数据中的差距。
translated by 谷歌翻译
分布语义是对含义变化和通过语料库变化的定量研究,目前是计算语言学中生产力最高的研究领域之一。近年来,大数据和可再现算法的更广泛可用性促进了其对生活语言的应用。但是,我们可以使用分布语义来研究像古希腊这样有限语料库的语言吗?这种方法能否告诉我们一些关于诸如荷马诗的语言和组成的古典研究中这种烦恼问题的信息?我们的论文将比较涉及古希腊语史诗中透射动词的公式的语义灵活性与非格式液体语料库中的类似动词短语,以检测公式中的独特变化模式。为了解决这个问题,我们提出了Agvalex,这是一种从古希腊依赖树库中自动提取的古希腊的计算价词典。词典包含有关动词及其论点的定量语料库驱动的形态,句法和词汇信息,例如对象,主体和介词短语,并且在古希腊作者的语言研究中有广泛的应用。
translated by 谷歌翻译
In this paper we investigated two different methods to parse relative and noun complement clauses in English and resorted to distinct tags for their corresponding that as a relative pronoun and as a complementizer. We used an algorithm to relabel a corpus parsed with the GUM Treebank using Universal Dependency. Our second experiment consisted in using TreeTagger, a Probabilistic Decision Tree, to learn the distinction between the two complement and relative uses of postnominal "that". We investigated the effect of the training set size on TreeTagger accuracy and how representative the GUM Treebank files are for the two structures under scrutiny. We discussed some of the linguistic and structural tenets of the learnability of this distinction.
translated by 谷歌翻译
在Mapuche语法由Smeets进行了介绍,介绍了Mapud \“Un诺的主要变形学方面,解释了它们的触发和所产生的上下文。我们提出了一种计算方法,其产生能够进行分类和分类的有限状态形态分析仪(和发电机)的计算方法适当地标记以Mapuche Word形式交互的所有组件(根和后缀)。本文的大部分侧重于呈现有关Mapud \“Un诺动词的形态及其使用FOMA的形式化的详细信息。本文还存在系统评估过程及其结果。
translated by 谷歌翻译
在这项研究中,我们提出了一种基于词素的方案,用于韩国依赖解析,并采用拟议方案来普遍依赖。我们介绍了语言原理,该基本原理说明了采用基于词素的格式的动机和必要性,并开发了脚本,这些脚本会在通用依赖项使用的原始格式和所提出的基于词素的格式自动之间转换。然后,统计和神经模型(包括udpipe和stanza)证明了提出的格式对韩国依赖解析的有效性,并以我们精心构造的基于词素的单词嵌入韩语。Morphud的表现优于所有韩国UD Treebanks的解析结果,我们还提供了详细的错误分析。
translated by 谷歌翻译
We present Maknuune, a large open lexicon for the Palestinian Arabic dialect. Maknuune has over 36K entries from 17K lemmas, and 3.7K roots. All entries include diacritized Arabic orthography, phonological transcription and English glosses. Some entries are enriched with additional information such as broken plurals and templatic feminine forms, associated phrases and collocations, Standard Arabic glosses, and examples or notes on grammar, usage, or location of collected entry.
translated by 谷歌翻译
Magahi是一种印度东部地区的印度雅典语言。尽管具有大量扬声器,但对于语言而言,几乎没有语言资源(LR)或语言技术(LT),主要是因为其状态为非预定语言。本文介绍了开发Magahi的注释语料库的尝试。这些数据主要从Magahi中的几个博客中获取,Magahi中的一些故事集合以及Magahi的录音,它使用BIS Tagset在POS级别注释。
translated by 谷歌翻译
尽管最近在机器学习用于自然语言处理的机器学习方面,但自然语言推论(NLI)问题仍然是挑战。为此目的,我们贡献了一个新的数据集,专注于事实现象;但是,我们的任务与其他NLI任务保持相同,即引起的征集,矛盾或中性(ECN)。 DataSet在波兰语中包含完全自然语言话语,收集2,432个动词补充对和309个独特的动词。 DataSet基于国家波兰语(NKJP)的国家语料库,是主要动词频率和其他语言特征的代表性样本(例如,内部否定的发生)。我们发现,基于变压器的基于判决的模型获得了相对良好的结果($ \ \左右89 \%$ F1得分)。尽管使用语言特征实现了更好的结果($ \大约91 \%$ F1得分),但这种模型需要更多人工劳动力(循环中的人类),因为专家语言学家手动制备特征。基于BERT的模型仅消耗输入句子表明,它们捕获了NLI / Factivity的大部分复杂性。现象中的复杂病例 - 例如具有权利(e)和非致命动词的案件 - 仍然是进一步研究的开放问题。
translated by 谷歌翻译
英语自然语言理解(NLU)系统已经取得了出色的表现,甚至在胶水和超级胶水等基准上表现出色。但是,这些基准仅包含教科书标准美国英语(SAE)。在NLP社区中,其他方言在很大程度上被忽略了。这导致偏见且不平等的NLU系统,仅服务于说话者的子人群。为了了解当前模型的差异并促进了更多的语言功能性的NLU系统,我们介绍了白话语言理解评估(Value)基准,这是我们使用一套词汇和形态句法转换规则创建的具有挑战性的胶水变体。在此最初版本(v.1)中,我们为非裔美国人白话英语(AAVE)的11个特征构建规则,并招募流利的AAVE扬声器,以通过参与性设计方式通过语言可接受性判断来验证每个功能转换。实验表明,这些新的方言功能可以导致模型性能下降。要运行转换代码并下载合成和金标准的方言胶水标准,请参见https://github.com/salt-nlp/value
translated by 谷歌翻译
当前的语言模型可以产生高质量的文本。他们只是复制他们之前看到的文本,或者他们学习了普遍的语言抽象吗?要取笑这些可能性,我们介绍了乌鸦,这是一套评估生成文本的新颖性,专注于顺序结构(n-gram)和句法结构。我们将这些分析应用于四种神经语言模型(LSTM,变压器,变换器-XL和GPT-2)。对于本地结构 - 例如,单个依赖性 - 模型生成的文本比来自每个模型的测试集的人类生成文本的基线显着不那么新颖。对于大规模结构 - 例如,总句结构 - 模型生成的文本与人生成的基线一样新颖甚至更新颖,但模型仍然有时复制,在某些情况下,在训练集中重复超过1000字超过1,000字的通道。我们还表现了广泛的手动分析,表明GPT-2的新文本通常在形态学和语法中形成良好,但具有合理的语义问题(例如,是自相矛盾)。
translated by 谷歌翻译
语言在句法结构上有很大差异。世界上约40%的语言具有主语对象顺序,约40%的语言具有对象 - 对象 - 动词顺序。广泛的工作试图解释跨语言的单词顺序变化。但是,现有的方法无法用单个语言的单词顺序解释频率分布和演变。我们建议,单词顺序的变化反映了平衡依赖性区域和信息局部性的竞争压力的不同方式,当元素在语法上相关或彼此之间有上下文信息时,语言偏爱将它们放在一起。使用来自17个语言家族的80种语言的数据和系统发育建模,我们证明了语言的发展以平衡这些压力,因此单词顺序变化伴随着句法结构的频率分布的变化,这些句法结构的频率分布会说话,以维持整体效率。因此,单词顺序的可变性反映了语言解决这些进化压力的不同方式。我们确定了该关节优化产生的相关特征,尤其是对同一动词共同表达对象和对象的频率。我们的发现表明,跨语言的句法结构和用法共同适应有限的认知资源,以支持有效的沟通。
translated by 谷歌翻译
基于变压器的语言模型最近在许多自然语言任务中取得了显着的结果。但是,通常通过利用大量培训数据来实现排行榜的性能,并且很少通过将明确的语言知识编码为神经模型。这使许多人质疑语言学对现代自然语言处理的相关性。在本文中,我介绍了几个案例研究,以说明理论语言学和神经语言模型仍然相互关联。首先,语言模型通过提供一个客观的工具来测量语义距离,这对语言学家很有用,语义距离很难使用传统方法。另一方面,语言理论通过提供框架和数据源来探究我们的语言模型,以了解语言理解的特定方面,从而有助于语言建模研究。本论文贡献了三项研究,探讨了语言模型中语法 - 听觉界面的不同方面。在论文的第一部分中,我将语言模型应用于单词类灵活性的问题。我将Mbert作为语义距离测量的来源,我提供了有利于将单词类灵活性分析为方向过程的证据。在论文的第二部分中,我提出了一种方法来测量语言模型中间层的惊奇方法。我的实验表明,包含形态句法异常的句子触发了语言模型早期的惊喜,而不是语义和常识异常。最后,在论文的第三部分中,我适应了一些心理语言学研究,以表明语言模型包含了论证结构结构的知识。总而言之,我的论文在自然语言处理,语言理论和心理语言学之间建立了新的联系,以为语言模型的解释提供新的观点。
translated by 谷歌翻译
在这项研究中,我们旨在提供出于语言动机的解决方案,以解决缺乏无效词素的代表性,高生产力的衍生过程和土耳其语中的融合词素的问题,而在Boun Treebank中没有与普遍的依赖关系框架不同。为了解决这些问题,通过将某些引理并在UD框架中使用MISC(其他)选项卡来表示新的注释约定来表示派生。在基于LSTM的依赖性解析器上测试了重新注释的树库的代表性功能,并引入了船工具的更新版本。
translated by 谷歌翻译