使用规划算法和神经网络模型的基于模型的强化学习范例最近在不同的应用中实现了前所未有的结果,导致现在被称为深度增强学习的内容。这些代理非常复杂,涉及多个组件,可能会为研究产生挑战的因素。在这项工作中,我们提出了一个适用于这些类型代理的新模块化软件架构,以及一组建筑块,可以轻松重复使用和组装,以构建基于模型的增强学习代理。这些构建块包括规划算法,策略和丢失功能。我们通过将多个这些构建块组合实现和测试经过针对三种不同的测试环境的代理来说明这种架构的使用:Cartpole,Minigrid和Tictactoe。在我们的实施中提供的一个特定的规划算法,并且以前没有用于加强学习,我们称之为Imperage Minimax,在三个测试环境中取得了良好的效果。用这种架构进行的实验表明,规划算法,政策和损失函数的最佳组合依赖性严重问题。该结果提供了证据表明,拟议的架构是模块化和可重复使用的,对想要研究新环境和技术的强化学习研究人员有用。
translated by 谷歌翻译