智能论文笔记

Goal-Space Planning with Subgoal Models

Chunlok Lo , Gabor Mihucz , Adam White , Farzane Aminmansour , Martha White

分类：机器学习 | 人工智能

2022-06-06

本文研究了一种使用背景计划的新方法，用于基于模型的增强学习：混合（近似）动态编程更新和无模型更新，类似于DYNA体系结构。通过学习模型的背景计划通常比无模型替代方案（例如Double DQN）差，尽管前者使用了更多的内存和计算。基本问题是，学到的模型可能是不准确的，并且经常会产生无效的状态，尤其是在迭代许多步骤时。在本文中，我们通过将背景规划限制为一组（抽象）子目标并仅学习本地，子观念模型来避免这种限制。这种目标空间计划（GSP）方法更有效地是在计算上，自然地纳入了时间抽象，以进行更快的长胜压计划，并避免完全学习过渡动态。我们表明，在各种情况下，我们的GSP算法比双DQN基线要快得多。

translated by 谷歌翻译