智能论文笔记

Automatic Goal Generation using Dynamical Distance Learning

Bharat Prakash , Nicholas Waytowich , Tinoosh Mohsenin , Tim Oates

分类：人工智能 | 机器人

2021-11-07

强化学习（RL）代理商可以通过与环境进行交互来学习解决复杂的顺序决策任务。但是，样品效率仍然是一个重大挑战。在多目标RL领域中，需要代理以达到多个目标来解决复杂任务，提高采样效率可能尤其具有挑战性。另一方面，人类或其他生物代理商以更具战略方式学习此类任务，遵循随着难度水平的增加，以便逐步高效的学习进步。在这项工作中，我们提出了一种以自我监督方式使用动态距离功能（DDF）的自动目标生成方法。 DDF是一种函数，它预测马尔可夫决策过程（MDP）内的任何两个状态之间的动态距离。有了这个，我们在适当的难度水平下生成一个目标课程，以便在整个培训过程中有效地学习。我们在几个目标条件的机器人操纵和导航任务中评估这种方法，并在基线方法上显示出样本效率的改进，该方法仅使用随机目标采样。

translated by 谷歌翻译