孟加拉语是世界上说话最多的语言之一,全球有超过3亿的演讲者。尽管它很受欢迎,但由于缺乏多样化的开源数据集,对孟加拉语音识别系统的发展的研究受到阻碍。作为前进的道路,我们已经众包孟加拉语音语音数据集,这是句子级自动语音识别语料库。该数据集于Mozilla Common Voice平台上收集,是正在进行的广告系列的一部分,该活动已在2个月内收集了超过400个小时的数据,并且正在迅速增长。我们的分析表明,与OpenSLR孟加拉ASR数据集相比,该数据集具有更多的发言人,音素和环境多样性,这是最大的现有开源孟加拉语语音数据集。我们提供从数据集获得的见解,并讨论未来版本中需要解决的关键语言挑战。此外,我们报告了一些自动语音识别(ASR)算法的当前性能,并为将来的研究设定了基准。
translated by 谷歌翻译
语言是个人表达思想的方法。每种语言都有自己的字母和数字字符集。人们可以通过口头或书面交流相互交流。但是,每种语言都有同类语言。聋哑和/或静音的个人通过手语交流。孟加拉语还具有手语,称为BDSL。数据集是关于孟加拉手册图像的。该系列包含49个单独的孟加拉字母图像。 BDSL49是一个数据集,由29,490张具有49个标签的图像组成。在数据收集期间,已经记录了14个不同成年人的图像,每个人都有不同的背景和外观。在准备过程中,已经使用了几种策略来消除数据集中的噪声。该数据集可免费提供给研究人员。他们可以使用机器学习,计算机视觉和深度学习技术开发自动化系统。此外,该数据集使用了两个模型。第一个是用于检测,而第二个是用于识别。
translated by 谷歌翻译