智能论文笔记

A Convolutional Neural Network Based Approach to Recognize Bangla Spoken Digits from Speech Signal

Ovishake Sen , Al-Mahmud , Pias Roy

分类：人工智能 | 自然语言处理 | 机器学习

2021-11-12

语音识别是一种技术，它将人类语音信号转换为文本或单词或以任何形式，可以通过计算机或其他机器容易地理解。有一些关于Bangla Digit识别系统的研究，其中大多数使用的小型数据集几乎没有变体，年龄，方言和其他变量。孟加拉国人民的录音，各种性别，年龄和方言，用于在本研究中创造一个大语音数据集。这里，已记录400个噪声和无噪音样本，用于创建数据集。 MEL频率谱系数（MFCC）已被用于从原始语音数据中提取有意义的功能。然后，为了检测Bangla数字，利用卷积神经网络（CNNS）。建议的技术在整个数据集中识别出“0-9”Bangla口语数字，精度为97.1％。还使用10倍的交叉透过来评估模型的效率，其精度为96.7％。

translated by 谷歌翻译