模仿学习是一种广泛使用的政策学习方法,它使智能代理能够从专家演示中获取复杂的技能。模仿学习算法的输入通常由当前的观察和历史观察组成,因为最近的观察结果可能不含足够的信息。图像观察尤其是这种情况,其中单个图像仅包含场景的一个视图,并且缺乏运动信息和对象阻塞。从理论上讲,为模仿学习代理提供多个观察将带来更好的性能。然而,令人惊讶的是,人们发现有时从观察史中模仿的表现比最近的观察结果差。在本文中,我们从神经网络角度的信息流中解释了这种现象。我们还提出了一种新颖的模仿学习神经网络体系结构,该架构不会因设计而遭受这个问题的困扰。此外,我们的方法缩放到高维图像观测值。最后,我们对两个广泛使用的模拟器Carla和Mujoco进行了基准测试,它成功地减轻了模仿问题并超过了现有的解决方案。
translated by 谷歌翻译