流动自动语音识别(ASR)模型更为流行,适合基于语音的应用程序。但是,非流入模型在查看整个音频上下文时提供了更好的性能。为了利用语音搜索等流媒体应用程序中非流游模型的好处,它通常在第二通过重新评分模式下使用。使用蒸汽模型生成的候选假设是使用非流程模型重新评分的。在这项工作中,我们在独立和重新评分模式的Flipkart语音搜索任务上评估了基于注意力的端到端ASR模型。这些模型基于收听拼写(LAS)编码器编码器架构。我们基于LSTM,变压器和构象异构体进行不同的编码器变化。我们将这些模型的延迟要求与它们的性能进行比较。总体而言,我们表明,变压器模型提供了可接受的延迟要求。我们报告的相对改善约为16%,第二次通过LAS重新评分,延迟开销低于5ms。我们还强调了CNN前端使用变压器体系结构的重要性,以达到可比的单词错误率(WER)。此外,我们观察到,在第二次通过重新评分模式下,所有编码器都提供了相似的好处,而在独立文本生成模式下,性能差异很明显。
translated by 谷歌翻译