具有高级别规格的自治系统的运动规划具有广泛的应用。然而,涉及定时时间逻辑的正式语言的研究仍在调查中。此外,许多现有结果依赖于用户指定的任务在给定环境中可行的关键假设。当操作环境是动态和未知的挑战时,由于环境可以找到禁止,导致预先定时定时任务无法完全满足潜在冲突的任务。在考虑时间束缚要求时,这些问题变得更具挑战性。为了解决这些挑战,这项工作提出了一种控制框架,其考虑了强制限制来强制执行安全要求和软限制,以启用任务放松。使用度量间隔时间逻辑(MITL)规范来处理时间限制约束。通过构建轻松的定时产品自动机,在线运动规划策略与后退地平线控制器合成以产生政策,以减少优先顺序的降低方式实现多重目标1)正式保证了对硬安全限制的满足感; 2)主要满足软定时任务; 3)尽可能收集时变奖励。放松结构的另一个新颖性是考虑违反时间和任务的不可行情况。提供仿真结果以验证所提出的方法。
translated by 谷歌翻译
本文研究了运动和环境不确定性的最佳运动规划。通过将系统建模作为概率标记的马尔可夫决策过程(PL-MDP),控制目标是合成有限内存策略,在该策略下,该代理满足具有所需满足的线性时间逻辑(LTL)的高级复杂任务可能性。特别地,考虑了满足无限地平线任务的轨迹的成本优化,分析了降低预期平均成本和最大化任务满意度概率之间的权衡。而不是使用传统的Rabin Automata,LTL公式被转换为限制确定性的B \“UCHI自动机(LDBA),其具有更直接的接受条件和更紧凑的图形结构。这项工作的新颖性在于考虑案件LTL规范可能是不可行的,并且在PL-MDP和LDBA之间的轻松产品MDP的开发可能是不可行的和开发。放松的产品MDP允许代理在任务不完全可行的情况下进行修改其运动计划,并量化修订计划的违规测量。然后配制多目标优化问题,共同考虑任务满意度的概率,违反原始任务限制的违规以及策略执行的实施成本,通过耦合的线性计划解决。据最好我们的知识,它是第一个弥合规划修订版和计划前缀和计划的最佳控制合成之间的差距的工作在无限地平线上修复代理轨迹。提供实验结果以证明所提出的框架的有效性。
translated by 谷歌翻译
本文在具有部分未知语义的环境中解决了多机器人规划问题。假设环境具有已知的几何结构(例如,墙壁),并且由具有不确定位置和类的静态标记的地标占用。这种建模方法引发了语义SLAM算法生成的不确定语义地图。我们的目标是为配备有嘈杂感知系统的机器人设计控制策略,以便他们可以完成全局时间逻辑规范捕获的协同任务。为了指定考虑环境和感知不确定性的任务,我们采用了线性时间逻辑(LTL)的片段,称为CO-Safe LTL,定义了基于感知的原子谓性建模概率满意度要求。基于感知的LTL规划问题产生了通过新型采样的算法解决的最佳控制问题,它产生了在线更新的开环控制策略,以适应连续学习的语义地图。我们提供广泛的实验,以证明拟议的规划架构的效率。
translated by 谷歌翻译
强化学习(RL)是一种有希望的方法,对现实世界的应用程序取得有限,因为确保安全探索或促进充分利用是控制具有未知模型和测量不确定性的机器人系统的挑战。这种学习问题对于连续空间(状态空间和动作空间)的复杂任务变得更加棘手。在本文中,我们提出了一种由几个方面组成的基于学习的控制框架:(1)线性时间逻辑(LTL)被利用,以便于可以通过无限视野的复杂任务转换为新颖的自动化结构; (2)我们为RL-Agent提出了一种创新的奖励计划,正式保证,使全球最佳政策最大化满足LTL规范的概率; (3)基于奖励塑造技术,我们开发了利用自动机构结构的好处进行了模块化的政策梯度架构来分解整体任务,并促进学习控制器的性能; (4)通过纳入高斯过程(GPS)来估计不确定的动态系统,我们使用指数控制屏障功能(ECBF)综合基于模型的保障措施来解决高阶相对度的问题。此外,我们利用LTL自动化和ECBF的性质来构建引导过程,以进一步提高勘探效率。最后,我们通过多个机器人环境展示了框架的有效性。我们展示了这种基于ECBF的模块化深RL算法在训练期间实现了近乎完美的成功率和保护安全性,并且在训练期间具有很高的概率信心。
translated by 谷歌翻译
勘探是基于深入强化学习(DRL)的无模型导航控制的基本挑战,因为针对目标驱动的导航任务的典型勘探技术依赖于噪声或贪婪的政策,这些策略对奖励的密度敏感。实际上,机器人总是在复杂的混乱环境中部署,其中包含密集的障碍和狭窄的通道,从而提高了很难探索训练的自然备用奖励。当预定义的任务复杂并且具有丰富的表现力时,这种问题变得更加严重。在本文中,我们专注于这两个方面,并为任务指导的机器人提供了一种深层的政策梯度算法,该机器人在复杂的混乱环境中部署了未知的动态系统。线性时间逻辑(LTL)用于表达丰富的机器人规范。为了克服训练期间探索的环境挑战,我们提出了一种新颖的路径计划引导奖励方案,该方案在状态空间上密集,并且至关重要的是,由于黑盒动力学而导致计算的几何路径的不可行性。为了促进LTL满意度,我们的方法将LTL任务分解为使用分布式DRL解决的子任务,在该子任务中,可以使用深层政策梯度算法并行培训子任务。我们的框架被证明可显着提高性能(有效性,效率)和对大规模复杂环境中复杂任务的机器人的探索。可以在YouTube频道上找到视频演示:https://youtu.be/yqrq2-ymtik。
translated by 谷歌翻译
本文解决了不确定和动态环境中的新语义多机器人计划问题。特别是,环境被不合作,移动,不确定的标记目标占据。这些目标受随机动力学的控制,而它们的当前和未来位置及其语义标签尚不确定。我们的目标是控制移动传感机器人,以便他们可以完成根据这些目标的当前/未来位置和标签定义的协作语义任务。我们使用线性时间逻辑(LTL)表达这些任务。我们提出了一种基于抽样的方法,该方法探讨了机器人运动空间,任务规范空间以及标记目标的未来配置,以设计最佳路径。这些路径在线修订以适应不确定的感知反馈。据我们所知,这是解决不确定和动态语义环境中语义任务计划问题的第一项工作。我们提供了广泛的实验,以证明该方法的效率
translated by 谷歌翻译
本研究提出了一种具有动态障碍物和不均匀地形的部分可观察环境中的BipeDal运动的安全任务和运动计划(夯实)的分层综合框架。高级任务规划师采用线性时间逻辑(LTL),用于机器人及其环境之间的反应游戏合成,并为导航安全和任务完成提供正式保证。为了解决环境部分可观察性,在高级导航计划者采用信仰抽象,以估计动态障碍的位置。因此,合成的动作规划器向中级运动规划器发送一组运动动作,同时基于运动过程的阶数模型(ROM)结合从安全定理提取的安全机置规范。运动计划程序采用ROM设计安全标准和采样算法,以生成准确跟踪高级动作的非周期性运动计划。为了解决外部扰动,本研究还调查了关键帧运动状态的安全顺序组成,通过可达性分析实现了对外部扰动的强大转变。最终插值一组基于ROM的超参数,以设计由轨迹优化生成的全身运动机器,并验证基于ROM的可行部署,以敏捷机器人设计的20多个自由的Cassie机器人。
translated by 谷歌翻译
This work considers the path planning problem for a team of identical robots evolving in a known environment. The robots should satisfy a global specification given as a Linear Temporal Logic (LTL) formula over a set of regions of interest. The proposed method exploits the advantages of Petri net models for the team of robots and B\"uchi automata modeling the specification. The approach in this paper consists in combining the two models into one, denoted Composed Petri net and use it to find a sequence of action movements for the mobile robots, providing collision free trajectories to fulfill the specification. The solution results from a set of Mixed Integer Linear Programming (MILP) problems. The main advantage of the proposed solution is the completeness of the algorithm, meaning that a solution is found when exists, this representing the key difference with our previous work in [1]. The simulations illustrate comparison results between current and previous approaches, focusing on the computational complexity.
translated by 谷歌翻译
在以并发方式解决团队范围的任务时,多机构系统可能非常有效。但是,如果没有正确的同步,则很难保证合并行为的正确性,例如遵循子任务的特定顺序或同时进行协作。这项工作解决了在复杂的全球任务下,将最低时间的任务计划问题称为线性时间逻辑(LTL)公式。这些任务包括独立本地动作和直接子团队合作的时间和空间要求。提出的解决方案是一种随时随地的算法,结合了对任务分解的基础任务自动机的部分顺序分析,以及用于任务分配的分支和绑定(BNB)搜索方法。提供最小的完成时间的合理性,完整性和最佳性分析。还表明,在搜索范围内持续在时间预算之内,可以迅速达成可行且近乎最佳的解决方案。此外,为了处理在线执行期间任务持续时间和代理失败的波动,提出了适应算法来同步执行状态并动态地重新分配未完成的子任务以保持正确性和最佳性。两种算法通过数值模拟和硬件实验在大规模系统上进行了严格的验证,该算法对几个强基地进行了验证。
translated by 谷歌翻译
本文解决了以未知的马尔可夫决策过程(MDP)建模的移动机器人的学习控制策略的问题,该问题负责为时间逻辑任务,例如测序,覆盖或监视。 MDP捕获工作空间结构的不确定性和控制决策的结果。控制目标是合成一个控制策略,该策略最大化完成高级任务的可能性,该任务指定为线性时间逻辑(LTL)公式。为了解决这个问题,我们提出了一种针对LTL控制目标的新型基于模型的增强算法(RL)算法,该算法能够比相关方法更快地学习控制策略。它的样本效率依赖于偏见探索可能导致任务满意度的方向。这是通过利用LTL任务的自动机表示以及连续学习的MDP模型来完成的。最后,我们提供了比较实验,这些实验证明了针对LTL目标的最新RL方法的样本效率。
translated by 谷歌翻译
本文提出了一种新的方法,用于设计对自主系统的神经网络(NN)控制器的验证组合,并具有线性时间逻辑(LTL)公式捕获的任务。特别是,LTL公式要求系统以时间/逻辑顺序到达并避免某些区域。我们假设该系统配备了有限的训练有素的NN控制器。每个控制器都经过培训,以便它可以将系统推向特定的感兴趣区域,同时避免其他人。我们的目标是检查是否存在训练有素的NN控制器的时间组成(如果是这样,则将其计算)产生复合系统行为,以满足属于给定集合的任何初始系统状态的用户指定的LTL任务。为了解决这个问题,我们提出了一种依赖于自动机理论的新颖集成以及最近提出的NN控制系统的可及性分析工具的新方法。 We note that the proposed method can be applied to other controllers, not necessarily modeled by NNs, by appropriate selection of the reachability analysis tool.由于缺乏健壮性,我们专注于NN控制器。提出的方法在航空车的导航任务上得到了证明。
translated by 谷歌翻译
本文研究了Markov决策过程(MDP)建模的自主动态系统的运动规划,在连续状态和动作空间上具有未知的过渡概率。线性时间逻辑(LTL)用于指定无限地平线上的高级任务,可以转换为具有几种接受集的极限确定性广义B \“UCHI Automaton(LDGBA)。新颖性是设计嵌入式产品MDP(通过结合同步跟踪 - 前沿函数来记录自动化的同步跟踪 - 前沿函数,并促进接受条件的满足感。基于LDGBA的奖励塑造和折扣方案的模型的满足 - 免费加强学习(RL)仅取决于EP-MDP状态,并可以克服稀疏奖励的问题。严格的分析表明,任何优化预期折扣返回的RL方法都保证找到最佳策略,其迹线最大化满意度概率。然后开发模块化深度确定性政策梯度(DDPG)以在连续状态和行动空间上生成此类策略。我们的f Ramework通过一系列Openai健身房环境进行评估。
translated by 谷歌翻译
基于联系的决策和规划方法越来越重要,无法为腿机器人提供更高的自主性。源自符号系统的正式合成方法具有巨大的推理潜力,了解高级机器决策,并以正确的担保实现复杂的机动行动。本研究迈出了一种正式设计由受约束和动态变化环境中的任务规划和控制全身动态运动行为的架构组成的架构。在高级别,我们在多肢运动策划器和其动态环境之间制定了两个玩家时间逻辑游戏,以综合提供符号机置操作的获胜策略。这些运动动作满足时间逻辑片段中的所需高级任务规范。这些操作被发送到强大的有限转换系统,该过渡系统合成了满足状态可达性限制的运动控制器。该控制器进一步通过低级运动规划器执行,所述低级运动计划产生可行的机器人轨迹。我们构建一组动态运动模型,可用于腿机器人,作为用于处理各种环境事件的模板库。我们设计了一种重新调整策略,考虑到突然的环境变化或大状态干扰,以增加所产生的机器行为的鲁棒性。我们正式证明分层运动框架的正确性,保证了运动规划层的强大实现。在各种环境中的反应运动行为模拟表明我们的框架具有潜在的智能机置行为的理论基础。
translated by 谷歌翻译
在本文中,我们介绍了一个高级控制器合成框架,该框架使异构代理团队能够相互协助解决运行时出现的环境冲突。这种冲突解决方法是基于基于时间逻辑的反应性综合,以确保在特定环境假设下的安全性和任务完成。在异质的多机构系统中,每个代理都有望完成自己的任务,以服务全球团队的目标。但是,在运行时,代理商可能会遇到未建模的障碍物(例如门或墙壁),以阻止其完成自己的任务。为了解决这个问题,我们利用其他异质代理解决障碍的能力。提出了一个控制器框架,以在检测到这种情况时将适当的障碍物解决到所需目标的能力重定向。一组涉及双足机器人数字和四轮驱动器的案例研究用于评估行动中的控制器性能。此外,我们在物理多代理机器人系统上实施了拟议的框架,以证明其对现实世界应用的生存能力。
translated by 谷歌翻译
In this paper, we investigate the optimal robot path planning problem for high-level specifications described by co-safe linear temporal logic (LTL) formulae. We consider the scenario where the map geometry of the workspace is partially-known. Specifically, we assume that there are some unknown regions, for which the robot does not know their successor regions a priori unless it reaches these regions physically. In contrast to the standard game-based approach that optimizes the worst-case cost, in the paper, we propose to use regret as a new metric for planning in such a partially-known environment. The regret of a plan under a fixed but unknown environment is the difference between the actual cost incurred and the best-response cost the robot could have achieved if it realizes the actual environment with hindsight. We provide an effective algorithm for finding an optimal plan that satisfies the LTL specification while minimizing its regret. A case study on firefighting robots is provided to illustrate the proposed framework. We argue that the new metric is more suitable for the scenario of partially-known environment since it captures the trade-off between the actual cost spent and the potential benefit one may obtain for exploring an unknown region.
translated by 谷歌翻译
将机器人部署在现实世界中的机器人(例如家庭和灵活的制造线路)中,要求机器人按需任务。线性时间逻辑(LTL)是一种广泛使用的规范语言,具有组成语法,自然会在任务中引起共同点。但是,大多数先前关于使用LTL规范的强化学习的研究都独立治疗了每个新公式。我们提出了LTL-Transfer,这是一种新颖的算法,通过将培训任务的政策分割为便携式过渡性的技能,能够满足各种各样的LTL LTL规范,同时尊重安全性批判性约束,从而使跨任务的子policy重复使用。我们在Minecraft启发的领域中进行的实验表明,LTL转移能够满足500个看不见的任务中90%以上的能力,同时仅培训50个任务规格,并且从不违反安全限制。我们还在家庭环境中将LTL转移部署在四倍的移动操纵器上,以显示其以零拍的方式转移到许多获取和交付任务的能力。
translated by 谷歌翻译
在安全关键方案中利用自主系统需要在存在影响系统动态的不确定性和黑匣子组件存在下验证其行为。在本文中,我们开发了一个框架,用于验证部分可观察到的离散时间动态系统,从给定的输入输出数据集中具有针对时间逻辑规范的未暗模式可分散的动态系统。验证框架采用高斯进程(GP)回归,以了解数据集中的未知动态,并将连续空间系统抽象为有限状态,不确定的马尔可夫决策过程(MDP)。这种抽象依赖于通过使用可重复的内核Hilbert空间分析以及通过离散化引起的不确定性来捕获由于GP回归中的错误而捕获不确定性的过渡概率间隔。该框架利用现有的模型检查工具来验证对给定时间逻辑规范的不确定MDP抽象。我们建立将验证结果扩展到潜在部分可观察系统的抽象结果的正确性。我们表明框架的计算复杂性在数据集和离散抽象的大小中是多项式。复杂性分析说明了验证结果质量与处理较大数据集和更精细抽象的计算负担之间的权衡。最后,我们展示了我们的学习和验证框架在具有线性,非线性和切换动力系统的几种案例研究中的功效。
translated by 谷歌翻译
近年来,研究人员在设计了用于优化线性时间逻辑(LTL)目标和LTL的目标中的增强学习算法方面取得了重大进展。尽管有这些进步,但解决了这个问题的基本限制,以至于以前的研究暗示,但对我们的知识而言,尚未深入检查。在本文中,我们通过一般的LTL目标理解了学习的硬度。我们在马尔可夫决策过程(PAC-MDP)框架(PAC-MDP)框架中可能大致正确学习的问题正式化,这是一种测量加固学习中的样本复杂性的标准框架。在这一形式化中,我们证明,只有在LTL层次结构中最有限的类别中,才有于仅当公式中的最有限的类别,因此才能获得PAC-MDP的最佳政策。实际上,我们的结果意味着加强学习算法无法在与非有限范围可解除的LTL目标的无限环境的相互作用之后获得其学习政策的性能的PAC-MDP保证。
translated by 谷歌翻译
我们研究了逻辑规范给出的复杂任务的学习策略问题。最近的方法从给定的规范自动生成奖励功能,并使用合适的加强学习算法来学习最大化预期奖励的策略。然而,这些方法对需要高级别计划的复杂任务奠定了差。在这项工作中,我们开发了一种称为Dirl的组成学习方法,可交织高级别的规划和强化学习。首先,Dirl将规范编码为抽象图;直观地,图的顶点和边缘分别对应于状态空间的区域和更简单的子任务。我们的方法然后结合了增强学习,以便在Dijkstra风格的规划算法内为每个边缘(子任务)学习神经网络策略,以计算图表中的高级计划。对具有连续状态和行动空间的一套具有挑战性的控制基准测试的提出方法的评估表明它优于最先进的基线。
translated by 谷歌翻译
In inverse reinforcement learning (IRL), a learning agent infers a reward function encoding the underlying task using demonstrations from experts. However, many existing IRL techniques make the often unrealistic assumption that the agent has access to full information about the environment. We remove this assumption by developing an algorithm for IRL in partially observable Markov decision processes (POMDPs). We address two limitations of existing IRL techniques. First, they require an excessive amount of data due to the information asymmetry between the expert and the learner. Second, most of these IRL techniques require solving the computationally intractable forward problem -- computing an optimal policy given a reward function -- in POMDPs. The developed algorithm reduces the information asymmetry while increasing the data efficiency by incorporating task specifications expressed in temporal logic into IRL. Such specifications may be interpreted as side information available to the learner a priori in addition to the demonstrations. Further, the algorithm avoids a common source of algorithmic complexity by building on causal entropy as the measure of the likelihood of the demonstrations as opposed to entropy. Nevertheless, the resulting problem is nonconvex due to the so-called forward problem. We solve the intrinsic nonconvexity of the forward problem in a scalable manner through a sequential linear programming scheme that guarantees to converge to a locally optimal policy. In a series of examples, including experiments in a high-fidelity Unity simulator, we demonstrate that even with a limited amount of data and POMDPs with tens of thousands of states, our algorithm learns reward functions and policies that satisfy the task while inducing similar behavior to the expert by leveraging the provided side information.
translated by 谷歌翻译