In this paper, we investigate the optimal robot path planning problem for high-level specifications described by co-safe linear temporal logic (LTL) formulae. We consider the scenario where the map geometry of the workspace is partially-known. Specifically, we assume that there are some unknown regions, for which the robot does not know their successor regions a priori unless it reaches these regions physically. In contrast to the standard game-based approach that optimizes the worst-case cost, in the paper, we propose to use regret as a new metric for planning in such a partially-known environment. The regret of a plan under a fixed but unknown environment is the difference between the actual cost incurred and the best-response cost the robot could have achieved if it realizes the actual environment with hindsight. We provide an effective algorithm for finding an optimal plan that satisfies the LTL specification while minimizing its regret. A case study on firefighting robots is provided to illustrate the proposed framework. We argue that the new metric is more suitable for the scenario of partially-known environment since it captures the trade-off between the actual cost spent and the potential benefit one may obtain for exploring an unknown region.
translated by 谷歌翻译
本文研究了运动和环境不确定性的最佳运动规划。通过将系统建模作为概率标记的马尔可夫决策过程(PL-MDP),控制目标是合成有限内存策略,在该策略下,该代理满足具有所需满足的线性时间逻辑(LTL)的高级复杂任务可能性。特别地,考虑了满足无限地平线任务的轨迹的成本优化,分析了降低预期平均成本和最大化任务满意度概率之间的权衡。而不是使用传统的Rabin Automata,LTL公式被转换为限制确定性的B \“UCHI自动机(LDBA),其具有更直接的接受条件和更紧凑的图形结构。这项工作的新颖性在于考虑案件LTL规范可能是不可行的,并且在PL-MDP和LDBA之间的轻松产品MDP的开发可能是不可行的和开发。放松的产品MDP允许代理在任务不完全可行的情况下进行修改其运动计划,并量化修订计划的违规测量。然后配制多目标优化问题,共同考虑任务满意度的概率,违反原始任务限制的违规以及策略执行的实施成本,通过耦合的线性计划解决。据最好我们的知识,它是第一个弥合规划修订版和计划前缀和计划的最佳控制合成之间的差距的工作在无限地平线上修复代理轨迹。提供实验结果以证明所提出的框架的有效性。
translated by 谷歌翻译
本文在具有部分未知语义的环境中解决了多机器人规划问题。假设环境具有已知的几何结构(例如,墙壁),并且由具有不确定位置和类的静态标记的地标占用。这种建模方法引发了语义SLAM算法生成的不确定语义地图。我们的目标是为配备有嘈杂感知系统的机器人设计控制策略,以便他们可以完成全局时间逻辑规范捕获的协同任务。为了指定考虑环境和感知不确定性的任务,我们采用了线性时间逻辑(LTL)的片段,称为CO-Safe LTL,定义了基于感知的原子谓性建模概率满意度要求。基于感知的LTL规划问题产生了通过新型采样的算法解决的最佳控制问题,它产生了在线更新的开环控制策略,以适应连续学习的语义地图。我们提供广泛的实验,以证明拟议的规划架构的效率。
translated by 谷歌翻译
具有高级别规格的自治系统的运动规划具有广泛的应用。然而,涉及定时时间逻辑的正式语言的研究仍在调查中。此外,许多现有结果依赖于用户指定的任务在给定环境中可行的关键假设。当操作环境是动态和未知的挑战时,由于环境可以找到禁止,导致预先定时定时任务无法完全满足潜在冲突的任务。在考虑时间束缚要求时,这些问题变得更具挑战性。为了解决这些挑战,这项工作提出了一种控制框架,其考虑了强制限制来强制执行安全要求和软限制,以启用任务放松。使用度量间隔时间逻辑(MITL)规范来处理时间限制约束。通过构建轻松的定时产品自动机,在线运动规划策略与后退地平线控制器合成以产生政策,以减少优先顺序的降低方式实现多重目标1)正式保证了对硬安全限制的满足感; 2)主要满足软定时任务; 3)尽可能收集时变奖励。放松结构的另一个新颖性是考虑违反时间和任务的不可行情况。提供仿真结果以验证所提出的方法。
translated by 谷歌翻译
勘探是基于深入强化学习(DRL)的无模型导航控制的基本挑战,因为针对目标驱动的导航任务的典型勘探技术依赖于噪声或贪婪的政策,这些策略对奖励的密度敏感。实际上,机器人总是在复杂的混乱环境中部署,其中包含密集的障碍和狭窄的通道,从而提高了很难探索训练的自然备用奖励。当预定义的任务复杂并且具有丰富的表现力时,这种问题变得更加严重。在本文中,我们专注于这两个方面,并为任务指导的机器人提供了一种深层的政策梯度算法,该机器人在复杂的混乱环境中部署了未知的动态系统。线性时间逻辑(LTL)用于表达丰富的机器人规范。为了克服训练期间探索的环境挑战,我们提出了一种新颖的路径计划引导奖励方案,该方案在状态空间上密集,并且至关重要的是,由于黑盒动力学而导致计算的几何路径的不可行性。为了促进LTL满意度,我们的方法将LTL任务分解为使用分布式DRL解决的子任务,在该子任务中,可以使用深层政策梯度算法并行培训子任务。我们的框架被证明可显着提高性能(有效性,效率)和对大规模复杂环境中复杂任务的机器人的探索。可以在YouTube频道上找到视频演示:https://youtu.be/yqrq2-ymtik。
translated by 谷歌翻译
我们研究了逻辑规范给出的复杂任务的学习策略问题。最近的方法从给定的规范自动生成奖励功能,并使用合适的加强学习算法来学习最大化预期奖励的策略。然而,这些方法对需要高级别计划的复杂任务奠定了差。在这项工作中,我们开发了一种称为Dirl的组成学习方法,可交织高级别的规划和强化学习。首先,Dirl将规范编码为抽象图;直观地,图的顶点和边缘分别对应于状态空间的区域和更简单的子任务。我们的方法然后结合了增强学习,以便在Dijkstra风格的规划算法内为每个边缘(子任务)学习神经网络策略,以计算图表中的高级计划。对具有连续状态和行动空间的一套具有挑战性的控制基准测试的提出方法的评估表明它优于最先进的基线。
translated by 谷歌翻译
This work considers the path planning problem for a team of identical robots evolving in a known environment. The robots should satisfy a global specification given as a Linear Temporal Logic (LTL) formula over a set of regions of interest. The proposed method exploits the advantages of Petri net models for the team of robots and B\"uchi automata modeling the specification. The approach in this paper consists in combining the two models into one, denoted Composed Petri net and use it to find a sequence of action movements for the mobile robots, providing collision free trajectories to fulfill the specification. The solution results from a set of Mixed Integer Linear Programming (MILP) problems. The main advantage of the proposed solution is the completeness of the algorithm, meaning that a solution is found when exists, this representing the key difference with our previous work in [1]. The simulations illustrate comparison results between current and previous approaches, focusing on the computational complexity.
translated by 谷歌翻译
本文解决了不确定和动态环境中的新语义多机器人计划问题。特别是,环境被不合作,移动,不确定的标记目标占据。这些目标受随机动力学的控制,而它们的当前和未来位置及其语义标签尚不确定。我们的目标是控制移动传感机器人,以便他们可以完成根据这些目标的当前/未来位置和标签定义的协作语义任务。我们使用线性时间逻辑(LTL)表达这些任务。我们提出了一种基于抽样的方法,该方法探讨了机器人运动空间,任务规范空间以及标记目标的未来配置,以设计最佳路径。这些路径在线修订以适应不确定的感知反馈。据我们所知,这是解决不确定和动态语义环境中语义任务计划问题的第一项工作。我们提供了广泛的实验,以证明该方法的效率
translated by 谷歌翻译
在最初出生在太空行业的基于时间轴的计划方法中,一组状态变量(时间表)的演变受一组时间约束的控制。基于传统时间表的计划系统在整合计划与处理时间不确定性的执行方面表现出色。为了处理一般的非确定主义,最近引入了基于时间轴的游戏的概念。已经证明,发现此类游戏是否存在获胜策略是2Exptime-Complete。但是,缺少合成实施此类策略的控制器的具体方法。本文填补了这一空白,概述了基于时间轴游戏的控制器合成方法。
translated by 谷歌翻译
本文解决了以未知的马尔可夫决策过程(MDP)建模的移动机器人的学习控制策略的问题,该问题负责为时间逻辑任务,例如测序,覆盖或监视。 MDP捕获工作空间结构的不确定性和控制决策的结果。控制目标是合成一个控制策略,该策略最大化完成高级任务的可能性,该任务指定为线性时间逻辑(LTL)公式。为了解决这个问题,我们提出了一种针对LTL控制目标的新型基于模型的增强算法(RL)算法,该算法能够比相关方法更快地学习控制策略。它的样本效率依赖于偏见探索可能导致任务满意度的方向。这是通过利用LTL任务的自动机表示以及连续学习的MDP模型来完成的。最后,我们提供了比较实验,这些实验证明了针对LTL目标的最新RL方法的样本效率。
translated by 谷歌翻译
一个高度自主的系统(HAS)必须评估其所处的情况并得出信念,它决定下一步该怎么做。这些信念并不仅仅基于到目前为止所做的观察,而是基于对世界的一般见解。这些见解是在设计过程中建立的,或者在其任务过程中由可信赖的来源提供。尽管它的信念可能不精确并且可能存在缺陷,但它必须推断可能的未来才能评估其行动的后果,然后自主做出决定。在本文中,我们将一个自主决定性系统形式化为一种系统,总是选择目前认为是最好的行动。我们证明,可以检查是否可以在应用程序领域,动态变化的知识库和LTL任务目标列表中检查自主决定性系统。此外,我们可以为自主决定性系统综合信仰形成。对于形式的表征,我们使用Doxastic框架来安全至关重要的HASS,其中信仰形成支持HAS的外推。
translated by 谷歌翻译
在以并发方式解决团队范围的任务时,多机构系统可能非常有效。但是,如果没有正确的同步,则很难保证合并行为的正确性,例如遵循子任务的特定顺序或同时进行协作。这项工作解决了在复杂的全球任务下,将最低时间的任务计划问题称为线性时间逻辑(LTL)公式。这些任务包括独立本地动作和直接子团队合作的时间和空间要求。提出的解决方案是一种随时随地的算法,结合了对任务分解的基础任务自动机的部分顺序分析,以及用于任务分配的分支和绑定(BNB)搜索方法。提供最小的完成时间的合理性,完整性和最佳性分析。还表明,在搜索范围内持续在时间预算之内,可以迅速达成可行且近乎最佳的解决方案。此外,为了处理在线执行期间任务持续时间和代理失败的波动,提出了适应算法来同步执行状态并动态地重新分配未完成的子任务以保持正确性和最佳性。两种算法通过数值模拟和硬件实验在大规模系统上进行了严格的验证,该算法对几个强基地进行了验证。
translated by 谷歌翻译
基于联系的决策和规划方法越来越重要,无法为腿机器人提供更高的自主性。源自符号系统的正式合成方法具有巨大的推理潜力,了解高级机器决策,并以正确的担保实现复杂的机动行动。本研究迈出了一种正式设计由受约束和动态变化环境中的任务规划和控制全身动态运动行为的架构组成的架构。在高级别,我们在多肢运动策划器和其动态环境之间制定了两个玩家时间逻辑游戏,以综合提供符号机置操作的获胜策略。这些运动动作满足时间逻辑片段中的所需高级任务规范。这些操作被发送到强大的有限转换系统,该过渡系统合成了满足状态可达性限制的运动控制器。该控制器进一步通过低级运动规划器执行,所述低级运动计划产生可行的机器人轨迹。我们构建一组动态运动模型,可用于腿机器人,作为用于处理各种环境事件的模板库。我们设计了一种重新调整策略,考虑到突然的环境变化或大状态干扰,以增加所产生的机器行为的鲁棒性。我们正式证明分层运动框架的正确性,保证了运动规划层的强大实现。在各种环境中的反应运动行为模拟表明我们的框架具有潜在的智能机置行为的理论基础。
translated by 谷歌翻译
多路径定向问题询问机器人团队的路径最大化收集的总奖励,同时满足路径长度上的预算约束。这个问题模拟了许多多机器人路由任务,例如探索未知的环境和环境监控信息。在本文中,我们专注于如何使机器人团队在对抗环境中运行时对故障的强大。我们介绍了强大的多路径定向事问题(RMOP),在那里我们寻求最糟糕的案例保证,反对能够在大多数$ \ Alpha $机器人处攻击的对手。我们考虑两个问题的两个版本:RMOP离线和RMOP在线。在离线版本中,当机器人执行其计划时,没有通信或重新扫描,我们的主要贡献是一种具有界限近似保证的一般近似方案,其取决于$ \ alpha $和单个机器人导向的近似因子。特别是,我们表明该算法在成本函数是模块化时产生(i)恒因子近似; (ii)在成本函数是子模具时,$ \ log $因子近似; (iii)当成本函数是子模块时的恒因子近似,但是允许机器人通过有界金额超过其路径预算。在在线版本中,RMOP被建模为双人顺序游戏,并基于蒙特卡罗树搜索(MCT),以后退地平线方式自适应解决。除了理论分析之外,我们还对海洋监测和隧道信息收集应用进行仿真研究,以证明我们的方法的功效。
translated by 谷歌翻译
当环境稀疏和非马克维亚奖励时,使用标量奖励信号的训练加强学习(RL)代理通常是不可行的。此外,在训练之前对这些奖励功能进行手工制作很容易指定,尤其是当环境的动态仅部分知道时。本文提出了一条新型的管道,用于学习非马克维亚任务规格,作为简洁的有限状态“任务自动机”,从未知环境中的代理体验情节中。我们利用两种关键算法的见解。首先,我们通过将其视为部分可观察到的MDP并为隐藏的Markov模型使用现成的算法,从而学习了由规范的自动机和环境MDP组成的产品MDP,该模型是由规范的自动机和环境MDP组成的。其次,我们提出了一种从学习的产品MDP中提取任务自动机(假定为确定性有限自动机)的新方法。我们学到的任务自动机可以使任务分解为其组成子任务,从而提高了RL代理以后可以合成最佳策略的速率。它还提供了高级环境和任务功能的可解释编码,因此人可以轻松地验证代理商是否在没有错误的情况下学习了连贯的任务。此外,我们采取步骤确保学识渊博的自动机是环境不可静止的,使其非常适合用于转移学习。最后,我们提供实验结果,以说明我们在不同环境和任务中的算法的性能及其合并先前的领域知识以促进更有效学习的能力。
translated by 谷歌翻译
强化学习(RL)是一种有希望的方法,对现实世界的应用程序取得有限,因为确保安全探索或促进充分利用是控制具有未知模型和测量不确定性的机器人系统的挑战。这种学习问题对于连续空间(状态空间和动作空间)的复杂任务变得更加棘手。在本文中,我们提出了一种由几个方面组成的基于学习的控制框架:(1)线性时间逻辑(LTL)被利用,以便于可以通过无限视野的复杂任务转换为新颖的自动化结构; (2)我们为RL-Agent提出了一种创新的奖励计划,正式保证,使全球最佳政策最大化满足LTL规范的概率; (3)基于奖励塑造技术,我们开发了利用自动机构结构的好处进行了模块化的政策梯度架构来分解整体任务,并促进学习控制器的性能; (4)通过纳入高斯过程(GPS)来估计不确定的动态系统,我们使用指数控制屏障功能(ECBF)综合基于模型的保障措施来解决高阶相对度的问题。此外,我们利用LTL自动化和ECBF的性质来构建引导过程,以进一步提高勘探效率。最后,我们通过多个机器人环境展示了框架的有效性。我们展示了这种基于ECBF的模块化深RL算法在训练期间实现了近乎完美的成功率和保护安全性,并且在训练期间具有很高的概率信心。
translated by 谷歌翻译
In this paper, we view a policy or plan as a transition system over a space of information states that reflect a robot's or other observer's perspective based on limited sensing, memory, computation, and actuation. Regardless of whether policies are obtained by learning algorithms, planning algorithms, or human insight, we want to know the limits of feasibility for given robot hardware and tasks. Toward the quest to find the best policies, we establish in a general setting that minimal information transition systems (ITSs) exist up to reasonable equivalence assumptions, and are unique under some general conditions. We then apply the theory to generate new insights into several problems, including optimal sensor fusion/filtering, solving basic planning tasks, and finding minimal representations for feasible policies.
translated by 谷歌翻译
在本文中,我们研究了以马尔可夫决策过程(MDP)为模型的随机系统中的计划,其偏好比时间扩展的目标。偏好的时间计划上的先前工作假定用户偏好形成总订单,这意味着每对结果彼此相当。在这项工作中,我们考虑了对可能结果的偏好是部分顺序而不是总订单的情况。我们首先引入了确定性有限自动机的变体,称为偏好DFA,用于指定用户对时间扩展目标的偏好。基于顺序理论,我们将偏好DFA转化为与标记为MDP中概率计划的策略相比的偏好关系。在这种处理中,最优选的策略会在MDP中的有限路径上引起弱化的非主导概率分布。拟议的计划算法取决于建造多目标MDP。我们证明,考虑到偏好规范的弱化的非主导政策在构建的多目标MDP中是帕特托最佳的,反之亦然。在整篇论文中,我们采用一个运行的示例来演示提出的偏好规范和解决方案方法。我们使用该示例和详细分析显示了算法的功效,然后讨论可能的未来方向。
translated by 谷歌翻译
我们提出了五个基本的认知科学基本宗旨,我们在相关文献中认真地将其确定为该哲学的主要基本原则。然后,我们开发一个数学框架来讨论符合这些颁布宗旨的认知系统(人造和自然)。特别是我们注意,我们的数学建模并不将内容符号表示形式归因于代理商,并且代理商的大脑,身体和环境的建模方式使它们成为更大整体的不可分割的一部分。目的是为认知创造数学基础,该基础符合颁布主义。我们看到这样做的两个主要好处:(1)它使计算机科学家,AI研究人员,机器人主义者,认知科学家和心理学家更容易获得颁发的思想,并且(2)它为哲学家提供了一种可以使用的数学工具,可以使用它澄清他们的观念并帮助他们的辩论。我们的主要概念是一种感觉运动系统,这是过渡系统研究概念的特殊情况。我们还考虑了相关的概念,例如标记的过渡系统和确定性自动机。我们分析了一个名为“足够的概念”,并表明它是“从颁布主义的角度来看”中“认知数学数学”中基础概念的一个很好的候选者。我们通过证明对最小的完善(在某种意义上与生物体对环境的最佳调整相对应)的独特定理来证明其重要性,并证明充分性与已知的概念相对应,例如足够的历史信息空间。然后,我们开发其他相关概念,例如不足程度,普遍覆盖,等级制度,战略充足。最后,我们将其全部绑架到颁布的宗旨。
translated by 谷歌翻译
合理验证是指检查系统中的代理在系统中选择形成游戏理论平衡的策略的假设,该问题是检查哪种时间逻辑属性。可以将合理验证理解为模型检查多种系统系统的对应物,但是对于某些时间逻辑规范语言(例如CTL)和具有LTL规格的多项式空间,可以在多项式时间内完成经典模型检查,但合理验证却更加困难:虽然很难:合理验证的关键决策问题是2与LTL规格的Exptime-Complete,即使使用显式状态系统表示。在这种背景下,我们在本文中的贡献是三倍。首先,我们表明,可以通过将规格限制为GR(1),这可以大大降低合理验证的复杂性,GR(1)是LTL的片段,可以代表反应性系统的宽泛且实际上有用的响应属性类别。特别是,我们表明,对于许多相关设置,可以在多项式空间甚至多项式时间内完成合理验证。其次,在考虑均值付费公用事业功能给出的玩家的目标时,我们为合理验证提供了改进的复杂性结果;可以说是并发系统中最广泛使用的定量目标方法。最后,我们考虑了满足社会福利约束的计算结果的问题。为此,我们考虑了实用和平等主义的社会福利,并表明计算此类结果是Pspace-Complete或NP完整的。
translated by 谷歌翻译