大多数深度加强学习(DRL)的方法试图一次解决单一任务。因此,大多数现有的研究基准组成包括具有普通接口,但在其感知特征,目标或奖励结构中重叠的单独游戏或套房。促进培训代理人的知识转移(例如,通过多任务和元学习),需要更多的环境套件,提供具有足够共同的可配置任务,以共同研究待研究。在本文中,我们提供了Meta Arcade,该工具可以轻松定义和配置共享公共视觉效果,状态空间,动作空间,游戏组件和评分机制的自定义2D街机游戏。元拱门与现有环境不同,因为任职性共性和可配置性都优先考虑:可以从公共元素构建整组游戏,并且这些元素可通过暴露参数调节。我们包括一套24个预定义的游戏,共同说明了该框架的可能性,并讨论如何为研究应用程序配置这些游戏。我们提供了几个实验,说明了可以使用Meta Arcade如何使用,包括预定义游戏的单项任务基准,以设定的时间表更改游戏参数的示例课程的方法,以及游戏之间的转移学习探索。
translated by 谷歌翻译