移动机器人的成功操作要求它们迅速适应环境变化。为了为移动机器人开发自适应决策工具,我们提出了一种新颖的算法,该算法将元强化学习(META-RL)与模型预测控制(MPC)相结合。我们的方法采用额外的元元素算法作为基线,以使用MPC生成的过渡样本来训练策略,当机器人检测到某些事件可以通过MPC有效处理的某些事件,并明确使用机器人动力学。我们方法的关键思想是以随机和事件触发的方式在元学习策略和MPC控制器之间进行切换,以弥补由有限的预测范围引起的次优MPC动作。在元测试期间,将停用MPC模块,以显着减少运动控制中的计算时间。我们进一步提出了一种在线适应方案,该方案使机器人能够在单个轨迹中推断并适应新任务。通过使用(i)障碍物的合成运动和(ii)现实世界的行人运动数据,使用非线性汽车样的车辆模型来证明我们方法的性能。模拟结果表明,我们的方法在学习效率和导航质量方面优于其他算法。
translated by 谷歌翻译