基于能量功能的安全证书可以为复杂机器人系统的安全控制任务提供可证明的安全保证。但是,所有有关基于学习的能量功能合成的最新研究仅考虑可行性,这可能会导致过度保存并导致效率较低的控制器。在这项工作中,我们提出了幅度的正规化技术,以通过降低能量功能内部的保守性,同时保持有希望的可证明的安全保证,以提高安全控制器的效率。具体而言,我们通过能量函数的幅度来量化保守性,并通过在合成损失中增加幅度的正则化项来降低保守性。我们提出了使用加固学习(RL)进行合成的SAFEMR算法来统一安全控制器和能量功能的学习过程。实验结果表明,所提出的方法确实会降低能量功能的保守性,并在控制器效率方面优于基准,同时确保安全性。
translated by 谷歌翻译
安全是使用强化学习(RL)控制复杂动态系统的主要考虑,其中安全证书可以提供可提供的安全保证。有效的安全证书是指示安全状态具有低能量的能量功能,存在相应的安全控制策略,允许能量函数始终消散。安全证书和安全控制政策彼此密切相关,并挑战合成。因此,现有的基于学习的研究将它们中的任何一种视为先验知识,以便学习另一个知识,这限制了它们与一般未知动态的适用性。本文提出了一种新的方法,同时综合基于能量函数的安全证书,并使用CRL学习安全控制策略。我们不依赖于有关基于型号的控制器或完美的安全证书的先验知识。特别是,我们通过最小化能量增加,制定损耗功能来优化安全证书参数。通过将此优化过程作为外循环添加到基于拉格朗日的受限增强学习(CRL),我们共同更新策略和安全证书参数,并证明他们将收敛于各自的本地Optima,最佳安全政策和有效的安全性证书。我们在多个安全关键基准环境中评估我们的算法。结果表明,该算法学习无限制违规的可信安全的政策。合成安全证书的有效性或可行性也在数值上进行了验证。
translated by 谷歌翻译
在强化学习(RL)的试验和错误机制中,我们期望学习安全的政策时出现臭名昭着的矛盾:如何学习没有足够数据和关于危险区域的先前模型的安全政策?现有方法主要使用危险行动的后期惩罚,这意味着代理人不会受到惩罚,直到体验危险。这一事实导致代理商也无法在收敛之后学习零违规政策。否则,它不会收到任何惩罚并失去有关危险的知识。在本文中,我们提出了安全设置的演员 - 评论家(SSAC)算法,它使用面向安全的能量函数或安全索引限制了策略更新。安全索引旨在迅速增加,以便潜在的危险行动,这使我们能够在动作空间上找到安全设置,或控制安全集。因此,我们可以在服用它们之前识别危险行为,并在收敛后进一步获得零限制违规政策。我们声称我们可以以类似于学习价值函数的无模型方式学习能量函数。通过使用作为约束目标的能量函数转变,我们制定了受约束的RL问题。我们证明我们基于拉格朗日的解决方案确保学习的政策将收敛到某些假设下的约束优化。在复杂的模拟环境和硬件循环(HIL)实验中评估了所提出的算法,具有来自自动车辆的真实控制器。实验结果表明,所有环境中的融合政策达到了零限制违规和基于模型的基线的相当性能。
translated by 谷歌翻译
Safety comes first in many real-world applications involving autonomous agents. Despite a large number of reinforcement learning (RL) methods focusing on safety-critical tasks, there is still a lack of high-quality evaluation of those algorithms that adheres to safety constraints at each decision step under complex and unknown dynamics. In this paper, we revisit prior work in this scope from the perspective of state-wise safe RL and categorize them as projection-based, recovery-based, and optimization-based approaches, respectively. Furthermore, we propose Unrolling Safety Layer (USL), a joint method that combines safety optimization and safety projection. This novel technique explicitly enforces hard constraints via the deep unrolling architecture and enjoys structural advantages in navigating the trade-off between reward improvement and constraint satisfaction. To facilitate further research in this area, we reproduce related algorithms in a unified pipeline and incorporate them into SafeRL-Kit, a toolkit that provides off-the-shelf interfaces and evaluation utilities for safety-critical tasks. We then perform a comparative study of the involved algorithms on six benchmarks ranging from robotic control to autonomous driving. The empirical results provide an insight into their applicability and robustness in learning zero-cost-return policies without task-dependent handcrafting. The project page is available at https://sites.google.com/view/saferlkit.
translated by 谷歌翻译
Learning a risk-aware policy is essential but rather challenging in unstructured robotic tasks. Safe reinforcement learning methods open up new possibilities to tackle this problem. However, the conservative policy updates make it intractable to achieve sufficient exploration and desirable performance in complex, sample-expensive environments. In this paper, we propose a dual-agent safe reinforcement learning strategy consisting of a baseline and a safe agent. Such a decoupled framework enables high flexibility, data efficiency and risk-awareness for RL-based control. Concretely, the baseline agent is responsible for maximizing rewards under standard RL settings. Thus, it is compatible with off-the-shelf training techniques of unconstrained optimization, exploration and exploitation. On the other hand, the safe agent mimics the baseline agent for policy improvement and learns to fulfill safety constraints via off-policy RL tuning. In contrast to training from scratch, safe policy correction requires significantly fewer interactions to obtain a near-optimal policy. The dual policies can be optimized synchronously via a shared replay buffer, or leveraging the pre-trained model or the non-learning-based controller as a fixed baseline agent. Experimental results show that our approach can learn feasible skills without prior knowledge as well as deriving risk-averse counterparts from pre-trained unsafe policies. The proposed method outperforms the state-of-the-art safe RL algorithms on difficult robot locomotion and manipulation tasks with respect to both safety constraint satisfaction and sample efficiency.
translated by 谷歌翻译
In contrast to the control-theoretic methods, the lack of stability guarantee remains a significant problem for model-free reinforcement learning (RL) methods. Jointly learning a policy and a Lyapunov function has recently become a promising approach to ensuring the whole system with a stability guarantee. However, the classical Lyapunov constraints researchers introduced cannot stabilize the system during the sampling-based optimization. Therefore, we propose the Adaptive Stability Certification (ASC), making the system reach sampling-based stability. Because the ASC condition can search for the optimal policy heuristically, we design the Adaptive Lyapunov-based Actor-Critic (ALAC) algorithm based on the ASC condition. Meanwhile, our algorithm avoids the optimization problem that a variety of constraints are coupled into the objective in current approaches. When evaluated on ten robotic tasks, our method achieves lower accumulated cost and fewer stability constraint violations than previous studies.
translated by 谷歌翻译
在许多情况下,增强学习(RL)已被证明是有效的。但是,通常需要探索足够多的国家行动对,其中一些对不安全。因此,其应用于安全至关重要的系统仍然是一个挑战。解决安全性的越来越普遍的方法涉及将RL动作投射到安全的一组动作上的安全层。反过来,此类框架的困难是如何有效地将RL与安全层搭配以提高学习绩效。在本文中,我们将安全性作为基于型号的RL框架中的可区分强大控制式 - 助推器功能层。此外,我们还提出了一种模块化学习基本奖励驱动的任务的方法,独立于安全限制。我们证明,这种方法既可以确保安全性,又可以有效地指导一系列实验中的训练期间的探索,包括以模块化的方式学习奖励时,包括零拍传递。
translated by 谷歌翻译
强化学习(RL)是一种有希望的方法,对现实世界的应用程序取得有限,因为确保安全探索或促进充分利用是控制具有未知模型和测量不确定性的机器人系统的挑战。这种学习问题对于连续空间(状态空间和动作空间)的复杂任务变得更加棘手。在本文中,我们提出了一种由几个方面组成的基于学习的控制框架:(1)线性时间逻辑(LTL)被利用,以便于可以通过无限视野的复杂任务转换为新颖的自动化结构; (2)我们为RL-Agent提出了一种创新的奖励计划,正式保证,使全球最佳政策最大化满足LTL规范的概率; (3)基于奖励塑造技术,我们开发了利用自动机构结构的好处进行了模块化的政策梯度架构来分解整体任务,并促进学习控制器的性能; (4)通过纳入高斯过程(GPS)来估计不确定的动态系统,我们使用指数控制屏障功能(ECBF)综合基于模型的保障措施来解决高阶相对度的问题。此外,我们利用LTL自动化和ECBF的性质来构建引导过程,以进一步提高勘探效率。最后,我们通过多个机器人环境展示了框架的有效性。我们展示了这种基于ECBF的模块化深RL算法在训练期间实现了近乎完美的成功率和保护安全性,并且在训练期间具有很高的概率信心。
translated by 谷歌翻译
In this work, we focus on the problem of safe policy transfer in reinforcement learning: we seek to leverage existing policies when learning a new task with specified constraints. This problem is important for safety-critical applications where interactions are costly and unconstrained policies can lead to undesirable or dangerous outcomes, e.g., with physical robots that interact with humans. We propose a Constrained Markov Decision Process (CMDP) formulation that simultaneously enables the transfer of policies and adherence to safety constraints. Our formulation cleanly separates task goals from safety considerations and permits the specification of a wide variety of constraints. Our approach relies on a novel extension of generalized policy improvement to constrained settings via a Lagrangian formulation. We devise a dual optimization algorithm that estimates the optimal dual variable of a target task, thus enabling safe transfer of policies derived from successor features learned on source tasks. Our experiments in simulated domains show that our approach is effective; it visits unsafe states less frequently and outperforms alternative state-of-the-art methods when taking safety constraints into account.
translated by 谷歌翻译
过去半年来,从控制和强化学习社区的真实机器人部署的安全学习方法的贡献数量急剧上升。本文提供了一种简洁的但整体审查,对利用机器学习实现的最新进展,以实现在不确定因素下的安全决策,重点是统一控制理论和加固学习研究中使用的语言和框架。我们的评论包括:基于学习的控制方法,通过学习不确定的动态,加强学习方法,鼓励安全或坚固性的加固学习方法,以及可以正式证明学习控制政策安全的方法。随着基于数据和学习的机器人控制方法继续获得牵引力,研究人员必须了解何时以及如何最好地利用它们在安全势在必行的现实情景中,例如在靠近人类的情况下操作时。我们突出了一些开放的挑战,即将在未来几年推动机器人学习领域,并强调需要逼真的物理基准的基准,以便于控制和加固学习方法之间的公平比较。
translated by 谷歌翻译
在本文中,我们研究了加强学习问题的安全政策的学习。这是,我们的目标是控制我们不知道过渡概率的马尔可夫决策过程(MDP),但我们通过经验访问样品轨迹。我们将安全性定义为在操作时间内具有高概率的期望安全集中的代理。因此,我们考虑受限制的MDP,其中限制是概率。由于没有直接的方式来优化关于加强学习框架中的概率约束的政策,因此我们提出了对问题的遍历松弛。拟议的放松的优点是三倍。 (i)安全保障在集界任务的情况下保持,并且它们保持在一个给定的时间范围内,以继续进行任务。 (ii)如果政策的参数化足够丰富,则约束优化问题尽管其非凸起具有任意小的二元间隙。 (iii)可以使用标准策略梯度结果和随机近似工具容易地计算与安全学习问题相关的拉格朗日的梯度。利用这些优势,我们建立了原始双算法能够找到安全和最佳的政策。我们在连续域中的导航任务中测试所提出的方法。数值结果表明,我们的算法能够将策略动态调整到环境和所需的安全水平。
translated by 谷歌翻译
基于屏障函数的控制证书一直是一个强大的工具,可能为动态系统生成可能的安全控制策略。但是,基于屏障证书的现有方法通常用于具有可微差动态的白盒系统,这使得它们可以不适用于系统是黑盒的许多实用应用,并且不能准确地建模。另一方面,黑盒系统的无模型加强学习(RL)方法缺乏安全保证和低采样效率。在本文中,我们提出了一种新的方法,可以为黑盒动态系​​统学习安全控制政策和屏障证书,而无需准确的系统模型。我们的方法即使在黑盒式动态系统是不可差分的情况下,我们也可以重新设计损耗函数以反向传播梯度对控制策略,并且我们表明安全证书在黑盒系统上保持。仿真的经验结果表明,与最先进的黑匣子安全控制方法相比,我们的方法可以通过实现近100%的安全性和目标来实现近100%的安全性和目标达到速度。我们的学习代理商也可以在保持原始性能的同时概括取消观察方案。源代码可以在https://github.com/zengyi-qin/bcbf找到。
translated by 谷歌翻译
当任何安全违规可能导致灾难性失败时,赛车要求每个车辆都能在其物质范围内驾驶。在这项工作中,我们研究了自主赛车的安全强化学习(RL)的问题,使用车辆的自我摄像机视图和速度作为输入。鉴于任务的性质,自主代理需要能够1)识别并避免复杂的车辆动态下的不安全场景,而2)在快速变化的环境中使子第二决定。为了满足这些标准,我们建议纳入汉密尔顿 - 雅各(HJ)可达性理论,是一般非线性系统的安全验证方法,进入受约束的马尔可夫决策过程(CMDP)框架。 HJ可达性不仅提供了一种了解安全的控制理论方法,还可以实现低延迟安全验证。尽管HJ可达性传统上不可扩展到高维系统,但我们证明了具有神经逼近的,可以直接在视觉上下文中学习HJ安全值 - 迄今为止通过该方法研究的最高尺寸问题。我们在最近发布的高保真自主赛车环境中评估了我们在几个基准任务中的方法,包括安全健身房和学习(L2R)。与安全健身房的其他受约束的RL基线相比,我们的方法非常少的限制性违规,并在L2R基准任务上实现了新的最先进结果。我们在以下匿名纸质网站提供额外可视化代理行为:https://sites.google.com/view/safeautomouracing/home
translated by 谷歌翻译
安全加强学习(RL)在对风险敏感的任务上取得了重大成功,并在自主驾驶方面也表现出了希望(AD)。考虑到这个社区的独特性,对于安全广告而言,仍然缺乏高效且可再现的基线。在本文中,我们将SAFERL-KIT释放到基准的安全RL方法,以实现倾向的任务。具体而言,SAFERL-KIT包含了针对零构成的侵略任务的几种最新算法,包括安全层,恢复RL,非政策Lagrangian方法和可行的Actor-Critic。除了现有方法外,我们还提出了一种名为精确惩罚优化(EPO)的新型一阶方法,并充分证明了其在安全AD中的能力。 SAFERL-KIT中的所有算法均在政策设置下实现(i),从而提高了样本效率并可以更好地利用过去的日志; (ii)具有统一的学习框架,为研究人员提供了现成的接口,以将其特定领域的知识纳入基本的安全RL方法中。最后,我们对上述算法进行了比较评估,并阐明了它们的安全自动驾驶功效。源代码可在\ href {https://github.com/zlr20/saferl_kit} {this https url}中获得。
translated by 谷歌翻译
安全的加强学习(RL)旨在学习在将其部署到关键安全应用程序中之前满足某些约束的政策。以前的原始双重风格方法遭受了不稳定性问题的困扰,并且缺乏最佳保证。本文从概率推断的角度克服了问题。我们在政策学习过程中介绍了一种新颖的期望最大化方法来自然纳入约束:1)在凸优化(E-step)后,可以以封闭形式计算可证明的最佳非参数变异分布; 2)基于最佳变异分布(M-step),在信任区域内改进了策略参数。提出的算法将安全的RL问题分解为凸优化阶段和监督学习阶段,从而产生了更稳定的培训性能。对连续机器人任务进行的广泛实验表明,所提出的方法比基线获得了更好的约束满意度和更好的样品效率。该代码可在https://github.com/liuzuxin/cvpo-safe-rl上找到。
translated by 谷歌翻译
除了最大化奖励目标之外,现实世界中的强化学习(RL)代理商必须满足安全限制。基于模型的RL算法占据了减少不安全的现实世界行动的承诺:它们可以合成使用来自学习模型的模拟样本遵守所有约束的策略。但是,即使对于预测满足所有约束的操作,甚至可能导致真实的结构违规。我们提出了保守和自适应惩罚(CAP),一种基于模型的安全RL框架,其通过捕获模型不确定性并自适应利用它来平衡奖励和成本目标来占潜在的建模错误。首先,CAP利用基于不确定性的惩罚来膨胀预测成本。从理论上讲,我们展示了满足这种保守成本约束的政策,也可以保证在真正的环境中是可行的。我们进一步表明,这保证了在RL培训期间所有中间解决方案的安全性。此外,在使用环境中使用真正的成本反馈,帽子在培训期间自适应地调整这种惩罚。我们在基于状态和基于图像的环境中,评估了基于模型的安全RL的保守和自适应惩罚方法。我们的结果表明了样品效率的大量收益,同时产生比现有安全RL算法更少的违规行为。代码可用:https://github.com/redrew/cap
translated by 谷歌翻译
几乎可以肯定(或使用概率)满足安全限制对于在现实生活中的增强学习(RL)的部署至关重要。例如,理想情况下,平面降落和起飞应以概率为单位发生。我们通过引入安全增强(SAUTE)马尔可夫决策过程(MDP)来解决该问题,在该过程中,通过将其扩大到州空间并重塑目标来消除安全限制。我们表明,Saute MDP满足了Bellman方程,并使我们更加接近解决安全的RL,几乎可以肯定地满足。我们认为,Saute MDP允许从不同的角度查看安全的RL问题,从而实现新功能。例如,我们的方法具有插件的性质,即任何RL算法都可以“炒”。此外,国家扩展允许跨安全限制进行政策概括。我们最终表明,当约束满意度非常重要时,SAUTE RL算法的表现可以胜过其最先进的对应物。
translated by 谷歌翻译
演员 - 评论家RL广泛用于各种机器人控制任务。通过从变分推理(VI)的角度来看演员 - 评论仪RL,训练策略网络以获得给定最优标准的动作的近似。然而,在实践中,演员 - 评论家RL可能会因摊销缺口而产生次优政策估计,并勘探不足。在这项工作中,受到先前使用Hamiltonian Monte Carlo(HMC)在VI中的启发,我们建议将演员 - 评论家RL的政策网络与HMC纳入其中,被称为{\ IT Hamiltonian政策}。因此,我们建议根据HMC从基础政策中发展行动,我们提出的方法具有许多好处。首先,HMC可以改善策略分布,以更好地近似后,因此降低摊销间隙。其次,HMC还可以将勘探更多到具有更高Q值的动作空间区域,提高勘探效率。此外,我们提出了一种新的LEAPFROG运算符来模拟HAMILTONIAN Dynamics。最后,在安全的RL问题中,我们发现所提出的方法不仅可以改善实现的回报,还可以通过丢弃可能的不安全行动来减少安全约束违规行为。在连续控制基线的综合实验实验中,包括Mujoco和Pybullet Roboschool,我们表明该方法是对以前的演员批评方法的数据有效且易于实施的改进。
translated by 谷歌翻译
最近,基于障碍函数的安全强化学习(RL)与actor-批评结构用于连续控制任务的批评结构已经受到越来越受到关注。使用安全性和收敛保证,学习近最优控制政策仍然挑战。此外,很少有效地解决了在时变的安全约束下的安全RL算法设计。本文提出了一种基于模型的安全RL算法,用于具有时变状态和控制约束的非线性系统的最佳控制。在拟议的方法中,我们构建了一种新的基于障碍的控制策略结构,可以保证控制安全性。提出了一种多步骤策略评估机制,以预测策略在时变的安全限制下的安全风险,并指导政策安全更新。证明了稳定性和稳健性的理论结果。此外,分析了演员 - 评论家学习算法的收敛。所提出的算法的性能优于模拟安全健身房环境中的几种最先进的RL算法。此外,该方法适用于两个现实世界智能车辆的综合路径和碰撞避免问题。差动驱动车辆和Ackermann-Drive分别用于验证离线部署性能和在线学习性能。我们的方法在实验中显示了令人印象深刻的SIM-to-Real的转移能力和令人满意的在线控制性能。
translated by 谷歌翻译
安全已成为对现实世界系统应用深度加固学习的主要挑战之一。目前,诸如人类监督等外部知识的纳入唯一可以防止代理人访问灾难性状态的手段。在本文中,我们提出了一种基于安全模型的强化学习的新框架MBHI,可确保状态级安全,可以有效地避免“本地”和“非本地”灾难。监督学习者的合并在MBHI培训,以模仿人类阻止决策。类似于人类决策过程,MBHI将在执行对环境的动作之前在动态模型中推出一个想象的轨迹,并估算其安全性。当想象力遇到灾难时,MBHI将阻止当前的动作并使用高效的MPC方法来输出安全策略。我们在几个安全任务中评估了我们的方法,结果表明,与基线相比,MBHI在样品效率和灾难数方面取得了更好的性能。
translated by 谷歌翻译