强化学习(RL)代理商可以通过与环境进行交互来学习解决复杂的顺序决策任务。但是,样品效率仍然是一个重大挑战。在多目标RL领域中,需要代理以达到多个目标来解决复杂任务,提高采样效率可能尤其具有挑战性。另一方面,人类或其他生物代理商以更具战略方式学习此类任务,遵循随着难度水平的增加,以便逐步高效的学习进步。在这项工作中,我们提出了一种以自我监督方式使用动态距离功能(DDF)的自动目标生成方法。 DDF是一种函数,它预测马尔可夫决策过程(MDP)内的任何两个状态之间的动态距离。有了这个,我们在适当的难度水平下生成一个目标课程,以便在整个培训过程中有效地学习。我们在几个目标条件的机器人操纵和导航任务中评估这种方法,并在基线方法上显示出样本效率的改进,该方法仅使用随机目标采样。
translated by 谷歌翻译