近年来,已经引入了越来越多的基于模型的强化学习(RL)方法。鉴于其许多潜在的好处,例如更高的样本效率和快速适应环境变化的潜力,对基于深层模型的RL的兴趣并不奇怪。但是,我们证明,使用最近引入的本地变化适应(LOCA)设置的改进版本,众所周知的基于模型的方法(例如Planet和Dreamerv2)在适应本地环境变化的能力方面表现不佳。结合先前的工作,对其他基于模型的方法Muzero进行了类似的观察,似乎出现了一种趋势,这表明当前基于深层模型的方法具有严重的局限性。我们通过识别损害适应性行为并将其与经常在基于DEEP模型的RL中经常使用的基础技术联系起来的元素,深入研究这种绩效不佳的原因。在线性函数近似的情况下,我们通过证明了线性DyNA的修改版本实现有效适应局部变化,从而验证了这些见解。此外,我们通过实验非线性版本的DYNA来提供详细的见解,以了解构建基于自适应非线性模型方法的挑战。
translated by 谷歌翻译