语音识别是一种技术,它将人类语音信号转换为文本或单词或以任何形式,可以通过计算机或其他机器容易地理解。有一些关于Bangla Digit识别系统的研究,其中大多数使用的小型数据集几乎没有变体,年龄,方言和其他变量。孟加拉国人民的录音,各种性别,年龄和方言,用于在本研究中创造一个大语音数据集。这里,已记录400个噪声和无噪音样本,用于创建数据集。 MEL频率谱系数(MFCC)已被用于从原始语音数据中提取有意义的功能。然后,为了检测Bangla数字,利用卷积神经网络(CNNS)。建议的技术在整个数据集中识别出“0-9”Bangla口语数字,精度为97.1%。还使用10倍的交叉透过来评估模型的效率,其精度为96.7%。
translated by 谷歌翻译