本文介绍了Thuee团队的语音识别系统,用于IARPA Open自动语音识别挑战(OpenASR21),并进行了进一步的实验探索。我们在受限和受约束的训练条件下取得了出色的成果。对于受限的训练条件,我们基于标准混合体系结构构建基本ASR系统。为了减轻摄影库(OOV)的问题,我们使用针对OOV和潜在的新单词的素式至phoneme(G2P)技术扩展了发音词典。采用了标准的声学模型结构,例如CNN-TDNN-F和CNN-TDNN-F-A。此外,还应用了多种数据增强技术。对于约束训练条件,我们使用自我监督的学习框架WAV2VEC2.0。我们在公开可用的预训练XLSR-53的基础上使用连接式时间分类(CTC)标准进行各种微调技术。我们发现,在将WAV2VEC2.0预训练的模型应用于基于编码器的CTC/CTC/COATION ASR体系结构时,前端特征提取器在将WAV2VEC2.0预训练的模型应用时起着重要作用。通过将目标语言用作为前端功能提取器使用的CTC模型填充可以实现额外的改进。
translated by 谷歌翻译