本文提出了一个算法框架,用于控制符合信号时间逻辑(STL)规范的连续动力系统的合成。我们提出了一种新型算法,以从STL规范中获得时间分配的有限自动机,并引入一个多层框架,该框架利用此自动机以空间和时间上指导基于采样的搜索树。我们的方法能够合成非线性动力学和多项式谓词功能的控制器。我们证明了算法的正确性和概率完整性,并说明了我们在几个案例研究中框架的效率和功效。我们的结果表明,在艺术状态下,速度的速度是一定的。
translated by 谷歌翻译
本文在具有部分未知语义的环境中解决了多机器人规划问题。假设环境具有已知的几何结构(例如,墙壁),并且由具有不确定位置和类的静态标记的地标占用。这种建模方法引发了语义SLAM算法生成的不确定语义地图。我们的目标是为配备有嘈杂感知系统的机器人设计控制策略,以便他们可以完成全局时间逻辑规范捕获的协同任务。为了指定考虑环境和感知不确定性的任务,我们采用了线性时间逻辑(LTL)的片段,称为CO-Safe LTL,定义了基于感知的原子谓性建模概率满意度要求。基于感知的LTL规划问题产生了通过新型采样的算法解决的最佳控制问题,它产生了在线更新的开环控制策略,以适应连续学习的语义地图。我们提供广泛的实验,以证明拟议的规划架构的效率。
translated by 谷歌翻译
本文提出了一种新的方法,用于设计对自主系统的神经网络(NN)控制器的验证组合,并具有线性时间逻辑(LTL)公式捕获的任务。特别是,LTL公式要求系统以时间/逻辑顺序到达并避免某些区域。我们假设该系统配备了有限的训练有素的NN控制器。每个控制器都经过培训,以便它可以将系统推向特定的感兴趣区域,同时避免其他人。我们的目标是检查是否存在训练有素的NN控制器的时间组成(如果是这样,则将其计算)产生复合系统行为,以满足属于给定集合的任何初始系统状态的用户指定的LTL任务。为了解决这个问题,我们提出了一种依赖于自动机理论的新颖集成以及最近提出的NN控制系统的可及性分析工具的新方法。 We note that the proposed method can be applied to other controllers, not necessarily modeled by NNs, by appropriate selection of the reachability analysis tool.由于缺乏健壮性,我们专注于NN控制器。提出的方法在航空车的导航任务上得到了证明。
translated by 谷歌翻译
基于联系的决策和规划方法越来越重要,无法为腿机器人提供更高的自主性。源自符号系统的正式合成方法具有巨大的推理潜力,了解高级机器决策,并以正确的担保实现复杂的机动行动。本研究迈出了一种正式设计由受约束和动态变化环境中的任务规划和控制全身动态运动行为的架构组成的架构。在高级别,我们在多肢运动策划器和其动态环境之间制定了两个玩家时间逻辑游戏,以综合提供符号机置操作的获胜策略。这些运动动作满足时间逻辑片段中的所需高级任务规范。这些操作被发送到强大的有限转换系统,该过渡系统合成了满足状态可达性限制的运动控制器。该控制器进一步通过低级运动规划器执行,所述低级运动计划产生可行的机器人轨迹。我们构建一组动态运动模型,可用于腿机器人,作为用于处理各种环境事件的模板库。我们设计了一种重新调整策略,考虑到突然的环境变化或大状态干扰,以增加所产生的机器行为的鲁棒性。我们正式证明分层运动框架的正确性,保证了运动规划层的强大实现。在各种环境中的反应运动行为模拟表明我们的框架具有潜在的智能机置行为的理论基础。
translated by 谷歌翻译
我们研究了逻辑规范给出的复杂任务的学习策略问题。最近的方法从给定的规范自动生成奖励功能,并使用合适的加强学习算法来学习最大化预期奖励的策略。然而,这些方法对需要高级别计划的复杂任务奠定了差。在这项工作中,我们开发了一种称为Dirl的组成学习方法,可交织高级别的规划和强化学习。首先,Dirl将规范编码为抽象图;直观地,图的顶点和边缘分别对应于状态空间的区域和更简单的子任务。我们的方法然后结合了增强学习,以便在Dijkstra风格的规划算法内为每个边缘(子任务)学习神经网络策略,以计算图表中的高级计划。对具有连续状态和行动空间的一套具有挑战性的控制基准测试的提出方法的评估表明它优于最先进的基线。
translated by 谷歌翻译
在安全关键方案中利用自主系统需要在存在影响系统动态的不确定性和黑匣子组件存在下验证其行为。在本文中,我们开发了一个框架,用于验证部分可观察到的离散时间动态系统,从给定的输入输出数据集中具有针对时间逻辑规范的未暗模式可分散的动态系统。验证框架采用高斯进程(GP)回归,以了解数据集中的未知动态,并将连续空间系统抽象为有限状态,不确定的马尔可夫决策过程(MDP)。这种抽象依赖于通过使用可重复的内核Hilbert空间分析以及通过离散化引起的不确定性来捕获由于GP回归中的错误而捕获不确定性的过渡概率间隔。该框架利用现有的模型检查工具来验证对给定时间逻辑规范的不确定MDP抽象。我们建立将验证结果扩展到潜在部分可观察系统的抽象结果的正确性。我们表明框架的计算复杂性在数据集和离散抽象的大小中是多项式。复杂性分析说明了验证结果质量与处理较大数据集和更精细抽象的计算负担之间的权衡。最后,我们展示了我们的学习和验证框架在具有线性,非线性和切换动力系统的几种案例研究中的功效。
translated by 谷歌翻译
我们概述了在其知识表示和声明问题解决的应用中的视角下的时间逻辑编程。这些程序是将通常规则与时间模态运算符组合的结果,如线性时间时间逻辑(LTL)。我们专注于最近的非单调形式主义的结果​​称为时间平衡逻辑(电话),该逻辑(电话)为LTL的全语法定义,但是基于平衡逻辑执行模型选择标准,答案集编程的众所周知的逻辑表征(ASP )。我们获得了稳定模型语义的适当延伸,以进行任意时间公式的一般情况。我们记得电话和单调基础的基本定义,这里的时间逻辑 - 和那里(THT),并研究无限和有限迹线之间的差异。我们还提供其他有用的结果,例如将转换成其他形式主义,如量化的平衡逻辑或二阶LTL,以及用于基于自动机计算的时间稳定模型的一些技术。在第二部分中,我们专注于实际方面,定义称为较近ASP的时间逻辑程序的句法片段,并解释如何在求解器Telingo的构建中被利用。
translated by 谷歌翻译
本文介绍了一个名为STLCG的技术,使用计算图计算信号时间逻辑(STL)公式的定量语义。 STLCG提供了一个平台,它可以将逻辑规范纳入从基于梯度的解决方案中受益的机器人问题。具体而言,STL是一种强大且表现力的正式语言,可以指定连续和混合系统产生的信号的空间和时间特性。 STL的定量语义提供了鲁棒性度量,即,信号满足或违反STL规范的量。在这项工作中,我们设计了一种系统方法,用于将STL鲁棒性公式转化为计算图形。通过这种表示,通过利用现成的自动差异化工具,我们能够通过STL稳健性公式有效地反向,因此可以实现具有许多基于梯度的方法的STL规范的自然且易于使用的STL规范集成。通过各种机器人应用的许多示例,我们证明STLCG是多功能的,计算效率,并且能够将人域知识纳入问题制定中。
translated by 谷歌翻译
In this paper, we propose a control synthesis method for signal temporal logic (STL) specifications with neural networks (NNs). Most of the previous works consider training a controller for only a given STL specification. These approaches, however, require retraining the NN controller if a new specification arises and needs to be satisfied, which results in large consumption of memory and inefficient training. To tackle this problem, we propose to construct NN controllers by introducing encoder-decoder structured NNs with an attention mechanism. The encoder takes an STL formula as input and encodes it into an appropriate vector, and the decoder outputs control signals that will meet the given specification. As the encoder, we consider three NN structures: sequential, tree-structured, and graph-structured NNs. All the model parameters are trained in an end-to-end manner to maximize the expected robustness that is known to be a quantitative semantics of STL formulae. We compare the control performances attained by the above NN structures through a numerical experiment of the path planning problem, showing the efficacy of the proposed approach.
translated by 谷歌翻译
具有高级别规格的自治系统的运动规划具有广泛的应用。然而,涉及定时时间逻辑的正式语言的研究仍在调查中。此外,许多现有结果依赖于用户指定的任务在给定环境中可行的关键假设。当操作环境是动态和未知的挑战时,由于环境可以找到禁止,导致预先定时定时任务无法完全满足潜在冲突的任务。在考虑时间束缚要求时,这些问题变得更具挑战性。为了解决这些挑战,这项工作提出了一种控制框架,其考虑了强制限制来强制执行安全要求和软限制,以启用任务放松。使用度量间隔时间逻辑(MITL)规范来处理时间限制约束。通过构建轻松的定时产品自动机,在线运动规划策略与后退地平线控制器合成以产生政策,以减少优先顺序的降低方式实现多重目标1)正式保证了对硬安全限制的满足感; 2)主要满足软定时任务; 3)尽可能收集时变奖励。放松结构的另一个新颖性是考虑违反时间和任务的不可行情况。提供仿真结果以验证所提出的方法。
translated by 谷歌翻译
强化学习(RL)是一种有希望的方法,对现实世界的应用程序取得有限,因为确保安全探索或促进充分利用是控制具有未知模型和测量不确定性的机器人系统的挑战。这种学习问题对于连续空间(状态空间和动作空间)的复杂任务变得更加棘手。在本文中,我们提出了一种由几个方面组成的基于学习的控制框架:(1)线性时间逻辑(LTL)被利用,以便于可以通过无限视野的复杂任务转换为新颖的自动化结构; (2)我们为RL-Agent提出了一种创新的奖励计划,正式保证,使全球最佳政策最大化满足LTL规范的概率; (3)基于奖励塑造技术,我们开发了利用自动机构结构的好处进行了模块化的政策梯度架构来分解整体任务,并促进学习控制器的性能; (4)通过纳入高斯过程(GPS)来估计不确定的动态系统,我们使用指数控制屏障功能(ECBF)综合基于模型的保障措施来解决高阶相对度的问题。此外,我们利用LTL自动化和ECBF的性质来构建引导过程,以进一步提高勘探效率。最后,我们通过多个机器人环境展示了框架的有效性。我们展示了这种基于ECBF的模块化深RL算法在训练期间实现了近乎完美的成功率和保护安全性,并且在训练期间具有很高的概率信心。
translated by 谷歌翻译
Automated synthesis of provably correct controllers for cyber-physical systems is crucial for deploying these systems in safety-critical scenarios. However, their hybrid features and stochastic or unknown behaviours make this synthesis problem challenging. In this paper, we propose a method for synthesizing controllers for Markov jump linear systems (MJLSs), a particular class of cyber-physical systems, that certifiably satisfy a requirement expressed as a specification in probabilistic computation tree logic (PCTL). An MJLS consists of a finite set of linear dynamics with unknown additive disturbances, where jumps between these modes are governed by a Markov decision process (MDP). We consider both the case where the transition function of this MDP is given by probability intervals or where it is completely unknown. Our approach is based on generating a finite-state abstraction which captures both the discrete and the continuous behaviour of the original system. We formalise such abstraction as an interval Markov decision process (iMDP): intervals of transition probabilities are computed using sampling techniques from the so-called "scenario approach", resulting in a probabilistically sound approximation of the MJLS. This iMDP abstracts both the jump dynamics between modes, as well as the continuous dynamics within the modes. To demonstrate the efficacy of our technique, we apply our method to multiple realistic benchmark problems, in particular, temperature control, and aerial vehicle delivery problems.
translated by 谷歌翻译
勘探是基于深入强化学习(DRL)的无模型导航控制的基本挑战,因为针对目标驱动的导航任务的典型勘探技术依赖于噪声或贪婪的政策,这些策略对奖励的密度敏感。实际上,机器人总是在复杂的混乱环境中部署,其中包含密集的障碍和狭窄的通道,从而提高了很难探索训练的自然备用奖励。当预定义的任务复杂并且具有丰富的表现力时,这种问题变得更加严重。在本文中,我们专注于这两个方面,并为任务指导的机器人提供了一种深层的政策梯度算法,该机器人在复杂的混乱环境中部署了未知的动态系统。线性时间逻辑(LTL)用于表达丰富的机器人规范。为了克服训练期间探索的环境挑战,我们提出了一种新颖的路径计划引导奖励方案,该方案在状态空间上密集,并且至关重要的是,由于黑盒动力学而导致计算的几何路径的不可行性。为了促进LTL满意度,我们的方法将LTL任务分解为使用分布式DRL解决的子任务,在该子任务中,可以使用深层政策梯度算法并行培训子任务。我们的框架被证明可显着提高性能(有效性,效率)和对大规模复杂环境中复杂任务的机器人的探索。可以在YouTube频道上找到视频演示:https://youtu.be/yqrq2-ymtik。
translated by 谷歌翻译
本研究提出了一种具有动态障碍物和不均匀地形的部分可观察环境中的BipeDal运动的安全任务和运动计划(夯实)的分层综合框架。高级任务规划师采用线性时间逻辑(LTL),用于机器人及其环境之间的反应游戏合成,并为导航安全和任务完成提供正式保证。为了解决环境部分可观察性,在高级导航计划者采用信仰抽象,以估计动态障碍的位置。因此,合成的动作规划器向中级运动规划器发送一组运动动作,同时基于运动过程的阶数模型(ROM)结合从安全定理提取的安全机置规范。运动计划程序采用ROM设计安全标准和采样算法,以生成准确跟踪高级动作的非周期性运动计划。为了解决外部扰动,本研究还调查了关键帧运动状态的安全顺序组成,通过可达性分析实现了对外部扰动的强大转变。最终插值一组基于ROM的超参数,以设计由轨迹优化生成的全身运动机器,并验证基于ROM的可行部署,以敏捷机器人设计的20多个自由的Cassie机器人。
translated by 谷歌翻译
This work considers the path planning problem for a team of identical robots evolving in a known environment. The robots should satisfy a global specification given as a Linear Temporal Logic (LTL) formula over a set of regions of interest. The proposed method exploits the advantages of Petri net models for the team of robots and B\"uchi automata modeling the specification. The approach in this paper consists in combining the two models into one, denoted Composed Petri net and use it to find a sequence of action movements for the mobile robots, providing collision free trajectories to fulfill the specification. The solution results from a set of Mixed Integer Linear Programming (MILP) problems. The main advantage of the proposed solution is the completeness of the algorithm, meaning that a solution is found when exists, this representing the key difference with our previous work in [1]. The simulations illustrate comparison results between current and previous approaches, focusing on the computational complexity.
translated by 谷歌翻译
多机器人运动计划(MRMP)是在运动动力学约束下针对在环境中作用的多个机器人的非缩进轨迹的基本问题。由于其复杂性,现有算法要么利用简化的假设或不完整。这项工作引入了基于动力学冲突的搜索(K-CB),这是一种分散的(分离)MRMP算法,是一般,可扩展性和概率完成的。该算法从成功的解决方案到MRMP的离散类似物(被称为多试路径查找(MAPF))具有灵感。具体来说,我们将基于冲突的搜索(CBS)(一种流行的分散MAPF算法)调整为MRMP设置。这种适应的新颖性是我们直接在连续领域工作,而无需离散化。特别是,动力动力学的约束在本地进行治疗。 K-CBS计划使用低级规划师分别为每个机器人计划,并通过定义单个机器人的约束来解决机器人之间的冲突树以解决机器人之间的碰撞。低水平的计划者可以是用于运动动力学机器人的任何基于采样的树搜索算法,从而将单个机器人的现有计划者提升为多机器人设置。我们表明,K-CBS继承了低级计划者的(概率)完整性。我们说明了在几个案例研究和基准测试中K-CB的一般性和性能。
translated by 谷歌翻译
实际上,所有验证和综合技术都假定正式规格很容易获得,在功能上正确并完全匹配工程师对给定系统的理解。但是,在实践中,这种假设通常是不现实的:正式化系统要求非常困难,容易出错,并且需要大量的培训。为了减轻这一严重的障碍,我们提出了一种从根本上新颖的编写形式规范的方法,称为线性时间逻辑(LTL)的规范草图。关键的想法是,工程师可以提供部分LTL公式,称为LTL草图,在该公式中很难形式化。给定一组描述规范应该或不应允许的系统行为的示例,然后将所谓的草图算法的任务完成给定的草图,以使所得的LTL公式与示例一致。我们表明,决定是否可以完成草图属于复杂性NP,并呈现两个基于SAT的草图算法。我们还证明,素描是使用原型实现编写形式规格的实用方法。
translated by 谷歌翻译
复杂的事件识别(CER)系统在过去二十年中变得流行,因为它们能够“立即”检测在实时事件流上的模式。然而,缺乏预测模式可能发生在例如由Cer发动机实际检测到这种发生之前的模式。我们提出了一项正式的框架,试图解决复杂事件预测(CEF)的问题。我们的框架结合了两个形式主义:a)用于编码复杂事件模式的符号自动机; b)预测后缀树,可以提供自动机构的行为的简洁概率描述。我们比较我们提出的方法,以防止最先进的方法,并在准确性和效率方面展示其优势。特别地,预测后缀树是可变的马尔可夫模型,可以通过仅记住足够的信息的过去序列来捕获流中的长期依赖性。我们的实验结果表明了能够捕获这种长期依赖性的准确性的益处。这是通过增加我们模型的顺序来实现的,以满足需要执行给定顺序的所有可能的过去序列的所有可能的过去序列的详尽枚举的全阶马尔可夫模型。我们还广泛讨论CEF解决方案如何最佳地评估其预测的质量。
translated by 谷歌翻译
本文研究了运动和环境不确定性的最佳运动规划。通过将系统建模作为概率标记的马尔可夫决策过程(PL-MDP),控制目标是合成有限内存策略,在该策略下,该代理满足具有所需满足的线性时间逻辑(LTL)的高级复杂任务可能性。特别地,考虑了满足无限地平线任务的轨迹的成本优化,分析了降低预期平均成本和最大化任务满意度概率之间的权衡。而不是使用传统的Rabin Automata,LTL公式被转换为限制确定性的B \“UCHI自动机(LDBA),其具有更直接的接受条件和更紧凑的图形结构。这项工作的新颖性在于考虑案件LTL规范可能是不可行的,并且在PL-MDP和LDBA之间的轻松产品MDP的开发可能是不可行的和开发。放松的产品MDP允许代理在任务不完全可行的情况下进行修改其运动计划,并量化修订计划的违规测量。然后配制多目标优化问题,共同考虑任务满意度的概率,违反原始任务限制的违规以及策略执行的实施成本,通过耦合的线性计划解决。据最好我们的知识,它是第一个弥合规划修订版和计划前缀和计划的最佳控制合成之间的差距的工作在无限地平线上修复代理轨迹。提供实验结果以证明所提出的框架的有效性。
translated by 谷歌翻译
在以并发方式解决团队范围的任务时,多机构系统可能非常有效。但是,如果没有正确的同步,则很难保证合并行为的正确性,例如遵循子任务的特定顺序或同时进行协作。这项工作解决了在复杂的全球任务下,将最低时间的任务计划问题称为线性时间逻辑(LTL)公式。这些任务包括独立本地动作和直接子团队合作的时间和空间要求。提出的解决方案是一种随时随地的算法,结合了对任务分解的基础任务自动机的部分顺序分析,以及用于任务分配的分支和绑定(BNB)搜索方法。提供最小的完成时间的合理性,完整性和最佳性分析。还表明,在搜索范围内持续在时间预算之内,可以迅速达成可行且近乎最佳的解决方案。此外,为了处理在线执行期间任务持续时间和代理失败的波动,提出了适应算法来同步执行状态并动态地重新分配未完成的子任务以保持正确性和最佳性。两种算法通过数值模拟和硬件实验在大规模系统上进行了严格的验证,该算法对几个强基地进行了验证。
translated by 谷歌翻译