当在现实世界中以任务为导向的对话系统中实现自然语言(NLG)组件时,不仅需要在训练数据上学习的自然话语,而且还需要适应对话环境(例如,环境中的噪音)听起来)和用户(例如,理解能力水平较低的用户)。受到语言生成任务的强化学习(RL)的最新进展的启发,我们提出了Antor,这是一种通过强化学习来适应以任务为导向对话的自然语言生成的方法。在Antor中,与用户对系统话语的理解相对应的自然语言理解(NLU)模块已纳入RL的目标函数中。如果将NLG的意图正确传达给了NLU,该意图理解了系统的话语,则NLG将获得积极的回报。我们在Multiwoz数据集上进行了实验,并确认Antor可以对语音识别错误和用户的不同词汇水平产生适应性话语。
translated by 谷歌翻译