基于变压器的模型已经证明了它们在自动语音识别(ASR)任务中的有效性,甚至比常规混合框架表现出卓越的性能。变形金刚的主要思想是通过自我发挥层来捕捉话语中的远程全球背景。但是,对于诸如对话演讲之类的场景,这种话语级建模将忽略跨越话语的上下文依赖性。在本文中,我们建议在基于变压器的端到端体系结构中明确模拟索语中的索引信息,以进行对话性语音识别。具体而言,对于编码器网络,我们捕获了先前语音的上下文,并将此类历史信息纳入了通过上下文感知的残余注意机制中的当前输入。对于解码器而言,当前话语的预测还可以通过有条件的解码器框架在历史性的语言信息上进行条件。我们展示了我们提出的方法在几个开源对话中心的有效性,而拟议的方法始终提高了基于话语级变压器的ASR模型的性能。
translated by 谷歌翻译