土著非洲语言在人工智能中被归类为服务不足,并且数字包容性和信息获取差。挑战是如何在没有必要数据的情况下使用机器学习和深度学习模型。 Kencorpus是一种肯尼亚语言语料库,打算弥合有关如何收集和存储文本和语音数据的差距,足以启用数据驱动的解决方案,例如机器翻译,多语言社区中的问题回答和转录。 Kencorpus是一种主要在肯尼亚说的三种语言的语料库(文本和语音):斯瓦希里语,Dholuo和Luhya(方言Lumarachi,Lulogooli和Lubukusu)。该语料库打算填补开发数据集的空白,该数据集可用于低资源语言的自然语言处理和机器学习任务。这些语言中的每一种都为语言语料库贡献了文本和语音数据。数据收集是由社区,学校和合作伙伴(媒体,出版商)的研究人员完成的。 Kencorpus有5,594个项目的集合,为4,442个文本(560万字)和1,152个语音文件(177小时)。基于这些数据,还开发了其他数据集,例如Dholuo和Luhya的POS标记集(分别为50,000和93,000个单词),来自Swahili文本(7,537 QA对)的问答对,以及将文本转换为Swahili(12,400句子)。数据集可用于机器学习任务,例如文本处理,注释和翻译。该项目还在QA任务的文本和机器学习语音和机器学习中为概念系统提供了证明,最初的结果证实了Kencorpus对机器学习社区的可用性。 Kencorpus是这些低资源语言的第一个此类语料库,并且是学习和共享类似作品的经验的基础。
translated by 谷歌翻译