卡雷利亚共和国的波罗的海语言的研究越来越重视是语料库语言学的方法和工具。自2016年以来,Karelian研究中心的语言学家,数学家和程序员一直在与VEPS和Karelian语言的开放语料库(VEPKAR)合作,这是2009年创建的VEPS Corpus的扩展。和VEP,与它们相关的多功能字典以及具有高级搜索系统的软件,使用各种文本(语言,流派等)和许多语言类别(在文本中实现了文本中的词汇和语法搜索,这要归功于Word的生成器我们之前创建的表单)。编译了3000个文本的语料库,上传和标记了文本,将文本分类为语言,方言,类型和流派的系统,并创建了单词形式的生成器。未来的计划包括开发用于使用音频记录的语音模块和使用形态分析输出的句法标记模块。由于语料库管理器和正在进行的VEPKAR的持续功能进步,并具有新的材料和文本标记,用户可以处理广泛的科学和应用任务。在创建全国性国家VEPKAR语料库时,其开发商和经理在19-21世纪努力保护和展示VEP和Karelian语言状态。
translated by 谷歌翻译
本文介绍了对土耳其语可用于的语料库和词汇资源的全面调查。我们审查了广泛的资源,重点关注公开可用的资源。除了提供有关可用语言资源的信息外,我们还提供了一组建议,并确定可用于在土耳其语言学和自然语言处理中进行研究和建筑应用的数据中的差距。
translated by 谷歌翻译
分布语义是对含义变化和通过语料库变化的定量研究,目前是计算语言学中生产力最高的研究领域之一。近年来,大数据和可再现算法的更广泛可用性促进了其对生活语言的应用。但是,我们可以使用分布语义来研究像古希腊这样有限语料库的语言吗?这种方法能否告诉我们一些关于诸如荷马诗的语言和组成的古典研究中这种烦恼问题的信息?我们的论文将比较涉及古希腊语史诗中透射动词的公式的语义灵活性与非格式液体语料库中的类似动词短语,以检测公式中的独特变化模式。为了解决这个问题,我们提出了Agvalex,这是一种从古希腊依赖树库中自动提取的古希腊的计算价词典。词典包含有关动词及其论点的定量语料库驱动的形态,句法和词汇信息,例如对象,主体和介词短语,并且在古希腊作者的语言研究中有广泛的应用。
translated by 谷歌翻译
te reo m \ = aori(称为m \ = aori),新西兰的土著语言在语言技术中的资源不足。 m \ = aori扬声器是双语的,其中m \ = aori用英语进行了代码开关。不幸的是,M \ = AORI语言技术,语言检测和M \ = Aori-English对之间的代码转换检测的资源最少。英语和M \ = AORI都使用罗马衍生的拼字法制作基于规则的系统来检测语言和代码转换限制性。大多数M \ = AORI语言检测是由语言专家手动完成的。这项研究构建了66,016,807个单词的Aori英语双语数据库,并带有单词级语言注释。新西兰议会汉萨德辩论报告用于构建数据库。语言标签是使用特定语言规则和专家手册注释分配的。 M \ = AORI和英语的单词具有相同的拼写,但含义不同。这些词不能根据单词级的语言规则将其归类为M \ = AORI或英语。因此,需要手动注释。还报道了报告数据库的各个方面的分析,例如元数据,逐年分析,经常出现的单词,句子长度和n-grams。这里开发的数据库是新西兰Aotearoa的未来语言和语音技术开发的宝贵工具。遵循标签数据库的方法也可以遵循其他低资源的语言对。
translated by 谷歌翻译
世界各地的隐私法律和法规的景观是复杂而不断变化的。国家和超国家法律,协议,法令和其他政府发行的规则构成了公司必须遵循的拼凑而成才能在国际上进行运作。为了检查该拼凑而成的状态和演变,我们介绍了1,043条隐私法,法规和准则的政府隐私指示语料库或GPI语料库,涵盖了182个司法管辖区。该语料库可以对法律焦点进行大规模定量和定性检查。我们检查了创建GPI的时间分布,并说明了过去50年中隐私立法的急剧增加,尽管较细粒度的检查表明,增加的速度取决于GPIS所说的个人数据类型。我们的探索还表明,大多数隐私法分别解决了相对较少的个人数据类型,这表明全面的隐私立法仍然很少见。此外,主题建模结果显示了GPI中常见主题的普遍性,例如财务,医疗保健和电信。最后,我们将语料库释放到研究界,以促进进一步的研究。
translated by 谷歌翻译
土著非洲语言在人工智能中被归类为服务不足,并且数字包容性和信息获取差。挑战是如何在没有必要数据的情况下使用机器学习和深度学习模型。 Kencorpus是一种肯尼亚语言语料库,打算弥合有关如何收集和存储文本和语音数据的差距,足以启用数据驱动的解决方案,例如机器翻译,多语言社区中的问题回答和转录。 Kencorpus是一种主要在肯尼亚说的三种语言的语料库(文本和语音):斯瓦希里语,Dholuo和Luhya(方言Lumarachi,Lulogooli和Lubukusu)。该语料库打算填补开发数据集的空白,该数据集可用于低资源语言的自然语言处理和机器学习任务。这些语言中的每一种都为语言语料库贡献了文本和语音数据。数据收集是由社区,学校和合作伙伴(媒体,出版商)的研究人员完成的。 Kencorpus有5,594个项目的集合,为4,442个文本(560万字)和1,152个语音文件(177小时)。基于这些数据,还开发了其他数据集,例如Dholuo和Luhya的POS标记集(分别为50,000和93,000个单词),来自Swahili文本(7,537 QA对)的问答对,以及将文本转换为Swahili(12,400句子)。数据集可用于机器学习任务,例如文本处理,注释和翻译。该项目还在QA任务的文本和机器学习语音和机器学习中为概念系统提供了证明,最初的结果证实了Kencorpus对机器学习社区的可用性。 Kencorpus是这些低资源语言的第一个此类语料库,并且是学习和共享类似作品的经验的基础。
translated by 谷歌翻译
本文研究了为濒危语言生成词汇资源的方法。我们的算法使用公共文字网和机器翻译器(MT)构建双语词典和多语言词库。由于我们的作品仅依赖于濒危语言和“中间帮手”语言之间的一个双语词典,因此它适用于缺乏许多现有资源的语言。
translated by 谷歌翻译
This paper presents the OPUS ecosystem with a focus on the development of open machine translation models and tools, and their integration into end-user applications, development platforms and professional workflows. We discuss our on-going mission of increasing language coverage and translation quality, and also describe on-going work on the development of modular translation models and speed-optimized compact solutions for real-time translation on regular desktops and small devices.
translated by 谷歌翻译
Huqariq语料库是秘鲁本地语言的多语言集合。转录后的语料库旨在研究和开发语音技术,以保护秘鲁的濒危语言。Huqariq主要设计用于开发自动语音识别,语言识别和文本到语音工具。为了可持续获得语料库收集,我们采用众包方法。Huqariq包括秘鲁的四种母语,预计到2022年底,秘鲁的48种母语中最多可以达到20种母语。该语料库有500多名志愿者记录的220个小时的转录音频,使其成为秘鲁母语最大的语料库。为了验证语料库的质量,我们使用220小时的完全转录音频提出语音识别实验。
translated by 谷歌翻译
通用形态(UNIMORPH)项目是一项合作的努力,可为数百种世界语言实例化覆盖范围的标准化形态拐角。该项目包括两个主要的推力:一种无独立的特征架构,用于丰富的形态注释,并以各种语言意识到该模式的各种语言的带注释数据的类型级别资源。本文介绍了过去几年对几个方面的扩张和改进(自McCarthy等人(2020年)以来)。众多语言学家的合作努力增加了67种新语言,其中包括30种濒危语言。我们已经对提取管道进行了一些改进,以解决一些问题,例如缺少性别和马克龙信息。我们还修改了模式,使用了形态学现象所需的层次结构,例如多肢体协议和案例堆叠,同时添加了一些缺失的形态特征,以使模式更具包容性。鉴于上一个UniMorph版本,我们还通过16种语言的词素分割增强了数据库。最后,这个新版本通过通过代表来自metphynet的派生过程的实例丰富数据和注释模式来推动将衍生物形态纳入UniMorph中。
translated by 谷歌翻译
自动语音识别(ASR)是一个复杂和具有挑战性的任务。近年来,该地区出现了重大进展。特别是对于巴西葡萄牙语(BP)语言,在2020年的下半年,有大约376小时的公众可供ASR任务。在2021年初发布新数据集,这个数字增加到574小时。但是,现有资源由仅包含读取和准备的演讲的Audios组成。缺少数据集包括自发性语音,这在不同的ASR应用中是必不可少的。本文介绍了Coraa(注释Audios语料库)V1。使用290.77小时,在包含验证对(音频转录)的BP中ASR的公共可用数据集。科拉还含有欧洲葡萄牙音像(4.69小时)。我们还提供了一个基于Wav2VEC 2.0 XLSR-53的公共ASR模型,并通过CoraA进行微调。我们的模型在CoraA测试集中实现了24.18%的单词误差率,并且在常见的语音测试集上为20.08%。测量字符错误率时,我们分别获得11.02%和6.34%,分别为CoraA和常见声音。 Coraa Corpora在自发言论中与BP中的改进ASR模型进行了组装,并激励年轻研究人员开始研究葡萄牙语的ASR。所有Corpora都在CC By-NC-ND 4.0许可证下公开提供Https://github.com/nilc-nlp/coraa。
translated by 谷歌翻译
Magahi是一种印度东部地区的印度雅典语言。尽管具有大量扬声器,但对于语言而言,几乎没有语言资源(LR)或语言技术(LT),主要是因为其状态为非预定语言。本文介绍了开发Magahi的注释语料库的尝试。这些数据主要从Magahi中的几个博客中获取,Magahi中的一些故事集合以及Magahi的录音,它使用BIS Tagset在POS级别注释。
translated by 谷歌翻译
意大利的特征是欧洲一种一种独一无二的语言多样性格局,该景观暗中编码了当地知识,文化传统,艺术表达及其演讲者的历史。但是,意大利的30多种语言品种有几代人内消失的风险。语言技术在保存濒危语言方面具有主要作用,但是目前,它在资源不足,主要缺乏标准拼写术的品种中挣扎,主要用于口语环境。在本文中,我们介绍了意大利的语言背景,并讨论了意大利语言品种开发NLP技术面临的挑战。我们提供潜在的方向,并倡导从以机器为中心转向以说话者为中心的NLP的范式转变。最后,我们建议建立一个当地社区,旨在为意大利语言和方言的言语和语言技术负责,参与式发展。
translated by 谷歌翻译
该研究形成了由芬兰民族学家和语言学家,Matthias Alexander Castr \'en(1813-1852)收集和出版的材料进行的各种任务的技术报告。 Finno-Ugrian社会正在将Castr \'en的稿件作为新的关键和数字版本出版,同时不同的研究团体也关注这些材料。我们讨论了所用的工作流程和技术基础设施,并考虑如何创建有利于不同计算任务的数据集以进一步提高这些材料的可用性,并帮助进一步处理类似的归档集合。我们专注于以一种方式处理的集合的部分,这些集合可以在更提高其在更多技术应用中的可用性,补充较早的这些材料的文化和语言方面的工作。大多数这些数据集在Zenodo公开使用。该研究指出需要进一步研究的特定区域,并为文本识别任务提供基准。
translated by 谷歌翻译
本章提供了计算语言学方法的介绍,重点是它们在翻译实践和研究中的应用。它涵盖了在翻译背景下对语言数据收集,存储,索引和分析的计算模型,方法和工具,并讨论了该领域的主要方法论问题和挑战。虽然对现有计算语言学方法和工具的详尽审查超出了本章的范围,但我们描述了最具代表性的方法,并用典型应用的描述来说明它们。
translated by 谷歌翻译
数据增强是自然语言处理(NLP)模型的鲁棒性评估的重要组成部分,以及增强他们培训的数据的多样性。在本文中,我们呈现NL-Cogmenter,这是一种新的参与式Python的自然语言增强框架,它支持创建两个转换(对数据的修改)和过滤器(根据特定功能的数据拆分)。我们描述了框架和初始的117个变换和23个过滤器,用于各种自然语言任务。我们通过使用其几个转换来分析流行自然语言模型的鲁棒性来证明NL-Upmenter的功效。基础架构,Datacards和稳健性分析结果在NL-Augmenter存储库上公开可用(\ url {https://github.com/gem-benchmark/nl-augmenter})。
translated by 谷歌翻译
发现别人认为是我们信息收集策略的关键方面。现在,人们可以积极利用信息技术来寻找和理解他人的想法,这要归功于越来越多的意见资源(例如在线评论网站和个人博客)的越来越多。由于其在理解人们的意见方面的关键功能,因此情感分析(SA)是一项至关重要的任务。另一方面,现有的研究主要集中在英语上,只有少量研究专门研究低资源语言。对于情感分析,这项工作根据用户评估提供了一个新的多级乌尔都语数据集。高音扬声器网站用于获取乌尔都语数据集。我们提出的数据集包括10,000项评论,这些评论已被人类专家精心归类为两类:正面,负面。这项研究的主要目的是构建一个手动注释的数据集进行乌尔都语情绪分析,并确定基线结果。采用了五种不同的词典和规则的算法,包括NaiveBayes,Stanza,TextBlob,Vader和Flair,实验结果表明,其精度为70%的天赋优于其他经过测试的算法。
translated by 谷歌翻译
本文介绍了Persian的HMBLOGS语料库,作为一种低资源语言。此语料库已根据波斯博客的空间的一段时间内基于大约15岁的近2000万博客帖子编制的,包括超过68亿令牌。可以声称,此语料库目前是最大的波斯语料库,这些语料库是为波斯语而独立制定的。该语料库以原始和预处理的形式呈现,并且基于预处理的语料库,产生了一些单词嵌入模型。通过提供的模型,将HMBlogs与波斯中可用的一些最重要的公司进行比较,结果表明了HMBLOGS语料库的优势。这些评估还提供了语料库,评估数据集,模型生产方法,不同的高参数甚至评估方法的重要性和影响。除了评估语料库及其产生的语言模型之外,该研究还提供了一个语义类比数据集。
translated by 谷歌翻译
自然语言处理(NLP)是一个人工智能领域,它应用信息技术来处理人类语言,在一定程度上理解并在各种应用中使用它。在过去的几年中,该领域已经迅速发展,现在采用了深层神经网络的现代变体来从大型文本语料库中提取相关模式。这项工作的主要目的是调查NLP在药理学领域的最新使用。正如我们的工作所表明的那样,NLP是药理学高度相关的信息提取和处理方法。它已被广泛使用,从智能搜索到成千上万的医疗文件到在社交媒体中找到对抗性药物相互作用的痕迹。我们将覆盖范围分为五个类别,以调查现代NLP方法论,常见的任务,相关的文本数据,知识库和有用的编程库。我们将这五个类别分为适当的子类别,描述其主要属性和想法,并以表格形式进行总结。最终的调查介绍了该领域的全面概述,对从业者和感兴趣的观察者有用。
translated by 谷歌翻译
本文提出了创造和管理12个主要印度语言的大型并行语言(即将扩展到23种语言)的挑战,作为由信息技术部(DIT),政府部门资助的主要财团项目的一部分。印度,并在印度的10所不同大学中平行运行。为了有效地管理这些巨大的Corpora的创建和传播过程,基于Web的(具有减少的独立版本)的注释工具ILCiann(印度语言语料集团倡议注释工具)已经开发出来。它主要是为POS注释制定的,以及由具有不同竞争力和物理位于相距远的地点的人员的管理器的管理。为了维持在创建Corpora中的一致性和标准,有必要每个人都在这个工具提供的共同平台上。
translated by 谷歌翻译