策略分解(PODEC)是一个框架,在将政策推导到最佳控制问题时,可以减少维度的诅咒。对于给定的系统表示形式,即描述系统的状态变量和控制输入,PODEC生成了分解所有控制输入的策略的策略。因此,不同输入的策略以脱钩或级联的方式得出,作为状态变量某些子集的函数,导致计算减少。但是,系统表示的选择至关重要,因为它决定了由此产生的策略的次优性。我们提出了一种启发式方法,可以找到更适合分解的表示形式。我们的方法是基于这样的观察结果,即每个分解都以最佳成本为代价,并且已经导致稀疏最佳策略的表示形式在产生的政策中实现了稀疏模式,这可能会产生较低的次级优势的分解。由于尚不清楚最佳策略,我们构建了一个剥夺其LQR近似值的系统表示。对于简化的双头,4个自由度的操纵器和四轮驱动器,我们发现分解物比Vanilla Podec确定的轨迹成本降低了10%。此外,与最先进的强化学习算法获得的政策相比,分解政策产生的轨迹的成本大大降低。
translated by 谷歌翻译