智能论文笔记

Bengali Common Voice Speech Dataset for Automatic Speech Recognition

Samiul Alam , Asif Sushmit , Zaowad Abdullah , Shahrin Nakkhatra , MD. Nazmuddoha Ansary , Syed Mobassir Hossen , Sazia Morshed Mehnaz , Tahsin Reasat , Ahmed Imtiaz Humayun

分类：自然语言处理

2022-06-28

孟加拉语是世界上说话最多的语言之一，全球有超过3亿的演讲者。尽管它很受欢迎，但由于缺乏多样化的开源数据集，对孟加拉语音识别系统的发展的研究受到阻碍。作为前进的道路，我们已经众包孟加拉语音语音数据集，这是句子级自动语音识别语料库。该数据集于Mozilla Common Voice平台上收集，是正在进行的广告系列的一部分，该活动已在2个月内收集了超过400个小时的数据，并且正在迅速增长。我们的分析表明，与OpenSLR孟加拉ASR数据集相比，该数据集具有更多的发言人，音素和环境多样性，这是最大的现有开源孟加拉语语音数据集。我们提供从数据集获得的见解，并讨论未来版本中需要解决的关键语言挑战。此外，我们报告了一些自动语音识别（ASR）算法的当前性能，并为将来的研究设定了基准。

translated by 谷歌翻译

语言是个人表达思想的方法。每种语言都有自己的字母和数字字符集。人们可以通过口头或书面交流相互交流。但是，每种语言都有同类语言。聋哑和/或静音的个人通过手语交流。孟加拉语还具有手语，称为BDSL。数据集是关于孟加拉手册图像的。该系列包含49个单独的孟加拉字母图像。 BDSL49是一个数据集，由29,490张具有49个标签的图像组成。在数据收集期间，已经记录了14个不同成年人的图像，每个人都有不同的背景和外观。在准备过程中，已经使用了几种策略来消除数据集中的噪声。该数据集可免费提供给研究人员。他们可以使用机器学习，计算机视觉和深度学习技术开发自动化系统。此外，该数据集使用了两个模型。第一个是用于检测，而第二个是用于识别。

translated by 谷歌翻译