当在现实世界中以任务为导向的对话系统中实现自然语言(NLG)组件时,不仅需要在训练数据上学习的自然话语,而且还需要适应对话环境(例如,环境中的噪音)听起来)和用户(例如,理解能力水平较低的用户)。受到语言生成任务的强化学习(RL)的最新进展的启发,我们提出了Antor,这是一种通过强化学习来适应以任务为导向对话的自然语言生成的方法。在Antor中,与用户对系统话语的理解相对应的自然语言理解(NLU)模块已纳入RL的目标函数中。如果将NLG的意图正确传达给了NLU,该意图理解了系统的话语,则NLG将获得积极的回报。我们在Multiwoz数据集上进行了实验,并确认Antor可以对语音识别错误和用户的不同词汇水平产生适应性话语。
translated by 谷歌翻译
许多研究提出了通过使用强化学习在系统中的共同训练模块来优化整个管道任务对话系统对话性能的方法。但是,这些方法受到限制,因为它们只能应用于使用可训练的神经方法实施的模块。为了解决此问题,我们提出了一种方法,以优化由使用任意方法进行对话性能的模块组成的管道系统。使用我们的方法,在此系统中安装了称为后处理网络(PPN)的基于神经的组件(PPN),以后处理每个模块的输出。所有PPN均已更新,以通过使用强化学习来提高系统的整体对话性能,而不必每个模块可区分。通过对MultiWoz数据集的对话模拟和人类评估,我们表明我们的方法可以改善由各种模块组成的管道系统的对话性能。
translated by 谷歌翻译