自动语音识别(ASR)需要对说话者的差异很强。语音转换(VC)修改了输入语音的扬声器特征。这是ASR数据增强的吸引人功能。在本文中,我们证明了语音转换可以用作数据增强技术,即使在包含2,456位扬声器的LibrisPeech上,也可以用作提高ASR性能。对于ASR增强,有必要对广泛的输入语音稳健。这激发了使用非自动回旋,非并行VC模型的使用,并在VC模型中使用了预验证的ASR编码器。这项工作表明,尽管包括许多演讲者,但演讲者的多样性可能仍然是ASR质量的限制。最后,对我们的风险投资性能的审讯为客观评估VC质量提供了有用的指标。
translated by 谷歌翻译