Magahi是一种印度东部地区的印度雅典语言。尽管具有大量扬声器,但对于语言而言,几乎没有语言资源(LR)或语言技术(LT),主要是因为其状态为非预定语言。本文介绍了开发Magahi的注释语料库的尝试。这些数据主要从Magahi中的几个博客中获取,Magahi中的一些故事集合以及Magahi的录音,它使用BIS Tagset在POS级别注释。
translated by 谷歌翻译
本文提出了创造和管理12个主要印度语言的大型并行语言(即将扩展到23种语言)的挑战,作为由信息技术部(DIT),政府部门资助的主要财团项目的一部分。印度,并在印度的10所不同大学中平行运行。为了有效地管理这些巨大的Corpora的创建和传播过程,基于Web的(具有减少的独立版本)的注释工具ILCiann(印度语言语料集团倡议注释工具)已经开发出来。它主要是为POS注释制定的,以及由具有不同竞争力和物理位于相距远的地点的人员的管理器的管理。为了维持在创建Corpora中的一致性和标准,有必要每个人都在这个工具提供的共同平台上。
translated by 谷歌翻译
本文介绍了对土耳其语可用于的语料库和词汇资源的全面调查。我们审查了广泛的资源,重点关注公开可用的资源。除了提供有关可用语言资源的信息外,我们还提供了一组建议,并确定可用于在土耳其语言学和自然语言处理中进行研究和建筑应用的数据中的差距。
translated by 谷歌翻译
Huqariq语料库是秘鲁本地语言的多语言集合。转录后的语料库旨在研究和开发语音技术,以保护秘鲁的濒危语言。Huqariq主要设计用于开发自动语音识别,语言识别和文本到语音工具。为了可持续获得语料库收集,我们采用众包方法。Huqariq包括秘鲁的四种母语,预计到2022年底,秘鲁的48种母语中最多可以达到20种母语。该语料库有500多名志愿者记录的220个小时的转录音频,使其成为秘鲁母语最大的语料库。为了验证语料库的质量,我们使用220小时的完全转录音频提出语音识别实验。
translated by 谷歌翻译
土著非洲语言在人工智能中被归类为服务不足,并且数字包容性和信息获取差。挑战是如何在没有必要数据的情况下使用机器学习和深度学习模型。 Kencorpus是一种肯尼亚语言语料库,打算弥合有关如何收集和存储文本和语音数据的差距,足以启用数据驱动的解决方案,例如机器翻译,多语言社区中的问题回答和转录。 Kencorpus是一种主要在肯尼亚说的三种语言的语料库(文本和语音):斯瓦希里语,Dholuo和Luhya(方言Lumarachi,Lulogooli和Lubukusu)。该语料库打算填补开发数据集的空白,该数据集可用于低资源语言的自然语言处理和机器学习任务。这些语言中的每一种都为语言语料库贡献了文本和语音数据。数据收集是由社区,学校和合作伙伴(媒体,出版商)的研究人员完成的。 Kencorpus有5,594个项目的集合,为4,442个文本(560万字)和1,152个语音文件(177小时)。基于这些数据,还开发了其他数据集,例如Dholuo和Luhya的POS标记集(分别为50,000和93,000个单词),来自Swahili文本(7,537 QA对)的问答对,以及将文本转换为Swahili(12,400句子)。数据集可用于机器学习任务,例如文本处理,注释和翻译。该项目还在QA任务的文本和机器学习语音和机器学习中为概念系统提供了证明,最初的结果证实了Kencorpus对机器学习社区的可用性。 Kencorpus是这些低资源语言的第一个此类语料库,并且是学习和共享类似作品的经验的基础。
translated by 谷歌翻译
自动语音识别(ASR)是一个复杂和具有挑战性的任务。近年来,该地区出现了重大进展。特别是对于巴西葡萄牙语(BP)语言,在2020年的下半年,有大约376小时的公众可供ASR任务。在2021年初发布新数据集,这个数字增加到574小时。但是,现有资源由仅包含读取和准备的演讲的Audios组成。缺少数据集包括自发性语音,这在不同的ASR应用中是必不可少的。本文介绍了Coraa(注释Audios语料库)V1。使用290.77小时,在包含验证对(音频转录)的BP中ASR的公共可用数据集。科拉还含有欧洲葡萄牙音像(4.69小时)。我们还提供了一个基于Wav2VEC 2.0 XLSR-53的公共ASR模型,并通过CoraA进行微调。我们的模型在CoraA测试集中实现了24.18%的单词误差率,并且在常见的语音测试集上为20.08%。测量字符错误率时,我们分别获得11.02%和6.34%,分别为CoraA和常见声音。 Coraa Corpora在自发言论中与BP中的改进ASR模型进行了组装,并激励年轻研究人员开始研究葡萄牙语的ASR。所有Corpora都在CC By-NC-ND 4.0许可证下公开提供Https://github.com/nilc-nlp/coraa。
translated by 谷歌翻译
我们展示了第一个秋天的Ashokan Prakrit的一个语言学附带的TreeBank,这是一个中间的Indo-Aryan方言连续体,通过Ashoka Maurya的3世纪的3世纪的BCE岩石和柱状指示而证明。对于诠释,我们使用了多语种普遍依赖性(UD)形式主义,近期UD在梵语和其他印度 - 雅典语言上工作。我们触及一些有趣的语言特征,提出了注释:雷玛名称和其他名义化合物,“原始”参与者建设,以及Sandhi(语素边界的语音同化)所证明的可能的语法化。最终,我们计划完全诠释所有证明的ASHOKAN案文,以利用计算方法改善Indo-Aryan的不同历史阶段的UD覆盖范围的较大目标。
translated by 谷歌翻译
分布语义是对含义变化和通过语料库变化的定量研究,目前是计算语言学中生产力最高的研究领域之一。近年来,大数据和可再现算法的更广泛可用性促进了其对生活语言的应用。但是,我们可以使用分布语义来研究像古希腊这样有限语料库的语言吗?这种方法能否告诉我们一些关于诸如荷马诗的语言和组成的古典研究中这种烦恼问题的信息?我们的论文将比较涉及古希腊语史诗中透射动词的公式的语义灵活性与非格式液体语料库中的类似动词短语,以检测公式中的独特变化模式。为了解决这个问题,我们提出了Agvalex,这是一种从古希腊依赖树库中自动提取的古希腊的计算价词典。词典包含有关动词及其论点的定量语料库驱动的形态,句法和词汇信息,例如对象,主体和介词短语,并且在古希腊作者的语言研究中有广泛的应用。
translated by 谷歌翻译
te reo m \ = aori(称为m \ = aori),新西兰的土著语言在语言技术中的资源不足。 m \ = aori扬声器是双语的,其中m \ = aori用英语进行了代码开关。不幸的是,M \ = AORI语言技术,语言检测和M \ = Aori-English对之间的代码转换检测的资源最少。英语和M \ = AORI都使用罗马衍生的拼字法制作基于规则的系统来检测语言和代码转换限制性。大多数M \ = AORI语言检测是由语言专家手动完成的。这项研究构建了66,016,807个单词的Aori英语双语数据库,并带有单词级语言注释。新西兰议会汉萨德辩论报告用于构建数据库。语言标签是使用特定语言规则和专家手册注释分配的。 M \ = AORI和英语的单词具有相同的拼写,但含义不同。这些词不能根据单词级的语言规则将其归类为M \ = AORI或英语。因此,需要手动注释。还报道了报告数据库的各个方面的分析,例如元数据,逐年分析,经常出现的单词,句子长度和n-grams。这里开发的数据库是新西兰Aotearoa的未来语言和语音技术开发的宝贵工具。遵循标签数据库的方法也可以遵循其他低资源的语言对。
translated by 谷歌翻译
We present Maknuune, a large open lexicon for the Palestinian Arabic dialect. Maknuune has over 36K entries from 17K lemmas, and 3.7K roots. All entries include diacritized Arabic orthography, phonological transcription and English glosses. Some entries are enriched with additional information such as broken plurals and templatic feminine forms, associated phrases and collocations, Standard Arabic glosses, and examples or notes on grammar, usage, or location of collected entry.
translated by 谷歌翻译
意大利的特征是欧洲一种一种独一无二的语言多样性格局,该景观暗中编码了当地知识,文化传统,艺术表达及其演讲者的历史。但是,意大利的30多种语言品种有几代人内消失的风险。语言技术在保存濒危语言方面具有主要作用,但是目前,它在资源不足,主要缺乏标准拼写术的品种中挣扎,主要用于口语环境。在本文中,我们介绍了意大利的语言背景,并讨论了意大利语言品种开发NLP技术面临的挑战。我们提供潜在的方向,并倡导从以机器为中心转向以说话者为中心的NLP的范式转变。最后,我们建议建立一个当地社区,旨在为意大利语言和方言的言语和语言技术负责,参与式发展。
translated by 谷歌翻译
通用形态(UNIMORPH)项目是一项合作的努力,可为数百种世界语言实例化覆盖范围的标准化形态拐角。该项目包括两个主要的推力:一种无独立的特征架构,用于丰富的形态注释,并以各种语言意识到该模式的各种语言的带注释数据的类型级别资源。本文介绍了过去几年对几个方面的扩张和改进(自McCarthy等人(2020年)以来)。众多语言学家的合作努力增加了67种新语言,其中包括30种濒危语言。我们已经对提取管道进行了一些改进,以解决一些问题,例如缺少性别和马克龙信息。我们还修改了模式,使用了形态学现象所需的层次结构,例如多肢体协议和案例堆叠,同时添加了一些缺失的形态特征,以使模式更具包容性。鉴于上一个UniMorph版本,我们还通过16种语言的词素分割增强了数据库。最后,这个新版本通过通过代表来自metphynet的派生过程的实例丰富数据和注释模式来推动将衍生物形态纳入UniMorph中。
translated by 谷歌翻译
在本文中,我们使用语言数据收集的现场方法讨论了四种低资源印度语语言的演讲语料库的过程中的工作 - Awadhi,Bhojpuri,Braj和Magahi。目前,语料库的总大小约为18小时(每种语言约4-5小时),并用语法信息进行转录和注释,例如词性标签,形态学特征和普遍的依赖关系。我们讨论了以这些语言收集数据的方法,其中大多数是在Covid-19大流行中心进行的,其中之一是为低收入群体带来一些额外的收入,说这些语言。在本文中,我们还讨论了这些语言中自动语音识别系统的基线实验的结果。
translated by 谷歌翻译
在本文中,我们介绍了在阿拉伯语编码的突尼斯阿拉伯语项目的最终结果,该项目是基于拉丁语的数字对话写作系统。该项目导致创建了两个集成和独立的资源:一个语料库和一个NLP工具,以通过各种语言信息来注释前者:单词分类,音译,标记,标记,pos tagging,lemmatization。我们从计算和语言方法论以及为改善结果而采用的策略中讨论我们的选择。我们报告了执行的实验,以概述我们的研究路径。最后,我们解释了为什么我们相信这些资源对计算和语言研究的潜力。关键词:突尼斯阿拉伯语,注释语料库,神经网络体系结构
translated by 谷歌翻译
卡雷利亚共和国的波罗的海语言的研究越来越重视是语料库语言学的方法和工具。自2016年以来,Karelian研究中心的语言学家,数学家和程序员一直在与VEPS和Karelian语言的开放语料库(VEPKAR)合作,这是2009年创建的VEPS Corpus的扩展。和VEP,与它们相关的多功能字典以及具有高级搜索系统的软件,使用各种文本(语言,流派等)和许多语言类别(在文本中实现了文本中的词汇和语法搜索,这要归功于Word的生成器我们之前创建的表单)。编译了3000个文本的语料库,上传和标记了文本,将文本分类为语言,方言,类型和流派的系统,并创建了单词形式的生成器。未来的计划包括开发用于使用音频记录的语音模块和使用形态分析输出的句法标记模块。由于语料库管理器和正在进行的VEPKAR的持续功能进步,并具有新的材料和文本标记,用户可以处理广泛的科学和应用任务。在创建全国性国家VEPKAR语料库时,其开发商和经理在19-21世纪努力保护和展示VEP和Karelian语言状态。
translated by 谷歌翻译
为低资源语言开发自然语言处理资源是一个具有挑战性的,但必不可少的任务。在本文中,我们为古吉拉特提提出了一种形态学分析仪。我们使用了基于双向LSTM的方法来执行语素边界检测和语法特征标记。我们创建了一个带有引理和语法特征的古吉拉特语的数据集。本文讨论的基于Bi-LSTM的Morph分析仪模型,有效地处理了语言形态,而不知道任何手工制作的后缀规则。据我们所知,这是Gujarati语言的第一个DataSet和Morph分析仪模型,它执行语法特征标记和语素边界检测任务。
translated by 谷歌翻译
在本文中,我们推出了一种新的通用依赖树木库,用于亚马逊尼亚的一种濒危语言:秘鲁在秘鲁说的Panoan语言Kakataibo。我们首先讨论实施的协作方法,事实证明,在本科生的计算语言课程的背景下创建树库有效。然后,我们描述了树库的一般细节以及针对拟议的注释实施的特定于语言的注意事项。我们最终对词性标记和句法依赖性解析进行了一些实验。我们专注于单语和转移学习设置,在这里我们研究了另一种Panoan语言资源的Shipibo-Konibo Treebos的影响。
translated by 谷歌翻译
世界各地的隐私法律和法规的景观是复杂而不断变化的。国家和超国家法律,协议,法令和其他政府发行的规则构成了公司必须遵循的拼凑而成才能在国际上进行运作。为了检查该拼凑而成的状态和演变,我们介绍了1,043条隐私法,法规和准则的政府隐私指示语料库或GPI语料库,涵盖了182个司法管辖区。该语料库可以对法律焦点进行大规模定量和定性检查。我们检查了创建GPI的时间分布,并说明了过去50年中隐私立法的急剧增加,尽管较细粒度的检查表明,增加的速度取决于GPIS所说的个人数据类型。我们的探索还表明,大多数隐私法分别解决了相对较少的个人数据类型,这表明全面的隐私立法仍然很少见。此外,主题建模结果显示了GPI中常见主题的普遍性,例如财务,医疗保健和电信。最后,我们将语料库释放到研究界,以促进进一步的研究。
translated by 谷歌翻译
The need for Question Answering datasets in low resource languages is the motivation of this research, leading to the development of Kencorpus Swahili Question Answering Dataset, KenSwQuAD. This dataset is annotated from raw story texts of Swahili low resource language, which is a predominantly spoken in Eastern African and in other parts of the world. Question Answering (QA) datasets are important for machine comprehension of natural language for tasks such as internet search and dialog systems. Machine learning systems need training data such as the gold standard Question Answering set developed in this research. The research engaged annotators to formulate QA pairs from Swahili texts collected by the Kencorpus project, a Kenyan languages corpus. The project annotated 1,445 texts from the total 2,585 texts with at least 5 QA pairs each, resulting into a final dataset of 7,526 QA pairs. A quality assurance set of 12.5% of the annotated texts confirmed that the QA pairs were all correctly annotated. A proof of concept on applying the set to the QA task confirmed that the dataset can be usable for such tasks. KenSwQuAD has also contributed to resourcing of the Swahili language.
translated by 谷歌翻译
We present a corpus professionally annotated for grammatical error correction (GEC) and fluency edits in the Ukrainian language. To the best of our knowledge, this is the first GEC corpus for the Ukrainian language. We collected texts with errors (20,715 sentences) from a diverse pool of contributors, including both native and non-native speakers. The data cover a wide variety of writing domains, from text chats and essays to formal writing. Professional proofreaders corrected and annotated the corpus for errors relating to fluency, grammar, punctuation, and spelling. This corpus can be used for developing and evaluating GEC systems in Ukrainian. More generally, it can be used for researching multilingual and low-resource NLP, morphologically rich languages, document-level GEC, and fluency correction. The corpus is publicly available at https://github.com/grammarly/ua-gec
translated by 谷歌翻译