为了有效地学习新环境中任务的动态模型,可以调整在类似的源环境中学习的模型。但是,当目标数据集包含动态与源环境大不相同的过渡时,现有的适应方法可能会失败。例如,源环境动力学可能是在自由空间中操纵的绳索,而目标动态可能涉及碰撞和障碍物的变形。我们的关键见解是通过将模型适应仅关注源和目标动力学相似的区域来提高数据效率。在绳索示例中,调整自由空间动力学比调整自由空间动力学的同时学习碰撞动力学所需的数据要少得多。我们提出了一种适应的新方法,该方法可有效适应类似动态的区域。此外,我们将这种适应方法与先前在计划的工作结合使用,并使用不可靠的动态来制定一种称为焦点的数据有效的在线适应方法。我们首先证明,所提出的适应方法在模拟绳索操纵和植物浇水任务上相似动力学区域的预测误差在统计学上显着降低了预测误差。然后,我们展示了一项双层绳索操纵任务,该任务重点是在模拟和现实世界中实现数据效率的在线学习。
translated by 谷歌翻译