对于在现实世界中运营的机器人来说,期望学习可以有效地转移和适应许多任务和场景的可重复使用的行为。我们提出了一种使用分层混合潜变量模型来从数据中学习抽象运动技能的方法。与现有工作相比,我们的方法利用了离散和连续潜在变量的三级层次结构,以捕获一组高级行为,同时允许如何执行它们的差异。我们在操纵域中展示该方法可以有效地将离线数据脱落到不同的可执行行为,同时保留连续潜变量模型的灵活性。由此产生的技能可以在新的任务,看不见的对象和州内转移和微调到基于视觉的策略,与现有的技能和仿制的方法相比,产生更好的样本效率和渐近性能。我们进一步分析了技能最有益的方式以及何时:他们鼓励定向探索来涵盖与任务相关的国家空间的大区域,使其在挑战稀疏奖励环境中最有效。
translated by 谷歌翻译