机器人经常面临抓住目标对象的情况,但由于其他当前物体阻止了掌握动作。我们提出了一种深入的强化学习方法,以学习掌握和推动政策,以在高度混乱的环境中操纵目标对象以解决这个问题。特别是,提出了双重强化学习模型方法,该方法在处理复杂场景时具有很高的弹性,在模拟环境中使用原始对象平均达到98%的任务完成。为了评估所提出方法的性能,我们在包装对象和一堆对象方案中进行了两组实验集,在模拟中总共进行了1000个测试。实验结果表明,该提出的方法在各种情况下都效果很好,并且表现出了最新的最新方法。演示视频,训练有素的模型和源代码可重复可重复性目的。 https://github.com/kamalnl92/self-superist-learning-for-pushing-and-grasping。
translated by 谷歌翻译