本文研究了Markov决策过程(MDP)建模的自主动态系统的运动规划,在连续状态和动作空间上具有未知的过渡概率。线性时间逻辑(LTL)用于指定无限地平线上的高级任务,可以转换为具有几种接受集的极限确定性广义B \“UCHI Automaton(LDGBA)。新颖性是设计嵌入式产品MDP(通过结合同步跟踪 - 前沿函数来记录自动化的同步跟踪 - 前沿函数,并促进接受条件的满足感。基于LDGBA的奖励塑造和折扣方案的模型的满足 - 免费加强学习(RL)仅取决于EP-MDP状态,并可以克服稀疏奖励的问题。严格的分析表明,任何优化预期折扣返回的RL方法都保证找到最佳策略,其迹线最大化满意度概率。然后开发模块化深度确定性政策梯度(DDPG)以在连续状态和行动空间上生成此类策略。我们的f Ramework通过一系列Openai健身房环境进行评估。
translated by 谷歌翻译
LCRL是一种软件工具,可在未知的马尔可夫决策过程(MDPS)上实现无模型增强学习(RL)算法,合成满足给定线性时间规范具有最大概率的策略。 LCRL利用被称为极限确定性Buchi Automata(LDBA)的部分确定性有限状态机器表达给定的线性时间规范。 RL算法的奖励函数是根据LDBA的结构即时塑造的。理论保证在适当的假设下确保RL算法与最大化满意度概率的最佳策略的收敛性。我们提出了案例研究,以证明LCRL的适用性,易用性,可伸缩性和性能。由于LDBA引导的探索和无LCRL模型架构,我们观察到了稳健的性能,与标准RL方法相比(每当适用于LTL规格)时,它也可以很好地缩放。有关如何执行本文所有案例研究的完整说明,请在lcrl分发www.github.com/grockious/lcrl的GitHub页面上提供。
translated by 谷歌翻译