随着深度学习和智能车辆的兴起,智能助手已成为促进驾驶和提供额外功能的基本内部组件。汽车智能助理应该能够处理一般的和与汽车有关的命令,并执行相应的操作,减轻驾驶和提高安全性。但是,对于低资源语言存在数据稀缺问题,妨碍了研究和应用的发展。在本文中,我们介绍了一个新的DataSet,粤式视听语音识别(CI-AVSR),用于粤语中的车载命令识别,具有视频和音频数据。它由令人宣传的30个粤语发言者记录的200个车载命令的4,984个样本(8.3小时)组成。此外,我们使用常见的内部内部背景噪声增强我们的数据集来模拟真实环境,产生比收集的数据集大10倍。我们提供我们数据集的清洁和增强版本的详细统计信息。此外,我们实施了两个多模式基线以证明CI-AVSR的有效性。实验结果表明,利用视觉信号提高了模型的整体性能。虽然我们的最佳模型可以在清洁测试集上实现相当大的质量,但嘈杂数据的语音识别质量仍然是较差的,并且仍然是真正的车载语音识别系统的极其具有挑战性的任务。数据集和代码将在https://github.com/hltchkust/ci-avsr发布。
translated by 谷歌翻译