虽然深度加强学习(RL)代理商在获得机器人学的灵平行为方面表现出令人难以置信的潜力,但由于培训和执行环境之间的不匹配,它们倾向于在现实世界中部署时出现错误。相比之下,经典的机器人社区开发了一系列控制器,可以在真实的推导下,在现实世界中的大多数州都可以安全地操作。然而,这些控制器缺乏对分析建模和近似的局限性的复杂任务所需的灵活性。在本文中,我们提出了贝叶斯控制器融合(BCF),这是一种新颖的不确定性感知部署策略,这些策略结合了深度RL政策和传统手工控制器的优势。在本框架中,我们可以执行零拍摄的SIM-Teal Transfer,其中我们的不确定性的配方允许机器人通过利用手工制作的控制器来可靠地在分配状态下行动,同时获得所学习系统的灵敏度。我们在两个现实世界的连续控制任务上显示了有希望的结果,其中BCF优于独立的政策和控制器,超越了可以独立实现的。在HTTPS://bit.ly/bcf_deploy上提供演示我们系统的补充视频。
translated by 谷歌翻译