智能论文笔记

Modular Deep Reinforcement Learning for Continuous Motion Planning with Temporal Logic

Mingyu Cai , Mohammadhosein Hasanbeig , Shaoping Xiao , Alessandro Abate , Zhen Kan

分类：机器学习 | 人工智能

2021-02-24

本文研究了Markov决策过程（MDP）建模的自主动态系统的运动规划，在连续状态和动作空间上具有未知的过渡概率。线性时间逻辑（LTL）用于指定无限地平线上的高级任务，可以转换为具有几种接受集的极限确定性广义B \“UCHI Automaton（LDGBA）。新颖性是设计嵌入式产品MDP（通过结合同步跟踪 - 前沿函数来记录自动化的同步跟踪 - 前沿函数，并促进接受条件的满足感。基于LDGBA的奖励塑造和折扣方案的模型的满足 - 免费加强学习（RL）仅取决于EP-MDP状态，并可以克服稀疏奖励的问题。严格的分析表明，任何优化预期折扣返回的RL方法都保证找到最佳策略，其迹线最大化满意度概率。然后开发模块化深度确定性政策梯度（DDPG）以在连续状态和行动空间上生成此类策略。我们的f Ramework通过一系列Openai健身房环境进行评估。

translated by 谷歌翻译

LCRL是一种软件工具，可在未知的马尔可夫决策过程（MDPS）上实现无模型增强学习（RL）算法，合成满足给定线性时间规范具有最大概率的策略。 LCRL利用被称为极限确定性Buchi Automata（LDBA）的部分确定性有限状态机器表达给定的线性时间规范。 RL算法的奖励函数是根据LDBA的结构即时塑造的。理论保证在适当的假设下确保RL算法与最大化满意度概率的最佳策略的收敛性。我们提出了案例研究，以证明LCRL的适用性，易用性，可伸缩性和性能。由于LDBA引导的探索和无LCRL模型架构，我们观察到了稳健的性能，与标准RL方法相比（每当适用于LTL规格）时，它也可以很好地缩放。有关如何执行本文所有案例研究的完整说明，请在lcrl分发www.github.com/grockious/lcrl的GitHub页面上提供。

translated by 谷歌翻译