Ensuring safety is of paramount importance in physical human-robot interaction applications. This requires both an adherence to safety constraints defined on the system state, as well as guaranteeing compliant behaviour of the robot. If the underlying dynamical system is known exactly, the former can be addressed with the help of control barrier functions. Incorporation of elastic actuators in the robot's mechanical design can address the latter requirement. However, this elasticity can increase the complexity of the resulting system, leading to unmodeled dynamics, such that control barrier functions cannot directly ensure safety. In this paper, we mitigate this issue by learning the unknown dynamics using Gaussian process regression. By employing the model in a feedback linearizing control law, the safety conditions resulting from control barrier functions can be robustified to take into account model errors, while remaining feasible. In order enforce them on-line, we formulate the derived safety conditions in the form of a second-order cone program. We demonstrate our proposed approach with simulations on a two-degree of freedom planar robot with elastic joints.
translated by 谷歌翻译
This paper proposes embedded Gaussian Process Barrier States (GP-BaS), a methodology to safely control unmodeled dynamics of nonlinear system using Bayesian learning. Gaussian Processes (GPs) are used to model the dynamics of the safety-critical system, which is subsequently used in the GP-BaS model. We derive the barrier state dynamics utilizing the GP posterior, which is used to construct a safety embedded Gaussian process dynamical model (GPDM). We show that the safety-critical system can be controlled to remain inside the safe region as long as we can design a controller that renders the BaS-GPDM's trajectories bounded (or asymptotically stable). The proposed approach overcomes various limitations in early attempts at combining GPs with barrier functions due to the abstention of restrictive assumptions such as linearity of the system with respect to control, relative degree of the constraints and number or nature of constraints. This work is implemented on various examples for trajectory optimization and control including optimal stabilization of unstable linear system and safe trajectory optimization of a Dubins vehicle navigating through an obstacle course and on a quadrotor in an obstacle avoidance task using GP differentiable dynamic programming (GP-DDP). The proposed framework is capable of maintaining safe optimization and control of unmodeled dynamics and is purely data driven.
translated by 谷歌翻译
基于学习的控制方案最近表现出了出色的效力执行复杂的任务。但是,为了将它们部署在实际系统中,保证该系统在在线培训和执行过程中将保持安全至关重要。因此,我们需要安全的在线学习框架,能够自主地理论当前的信息是否足以确保安全或需要新的测量。在本文中,我们提出了一个由两个部分组成的框架:首先,在需要时积极收集测量的隔离外检测机制,以确保至少一个安全备份方向始终可供使用;其次,基于高斯的基于过程的概率安全 - 关键控制器可确保系统始终保持安全的可能性。我们的方法通过使用控制屏障功能来利用模型知识,并以事件触发的方式从在线数据流中收集测量,以确保学习的安全至关重要控制器的递归可行性。反过来,这又使我们能够提供具有很高概率的安全集的正式结果,即使在先验未开发的区域中也是如此。最后,我们在自适应巡航控制系统的数值模拟中验证了所提出的框架。
translated by 谷歌翻译
高斯流程已成为各种安全至关重要环境的有前途的工具,因为后方差可用于直接估计模型误差并量化风险。但是,针对安全 - 关键环境的最新技术取决于核超参数是已知的,这通常不适用。为了减轻这种情况,我们在具有未知的超参数的设置中引入了强大的高斯过程统一误差界。我们的方法计算超参数空间中的一个置信区域,这使我们能够获得具有任意超参数的高斯过程模型误差的概率上限。我们不需要对超参数的任何界限,这是相关工作中常见的假设。相反,我们能够以直观的方式从数据中得出界限。我们还采用了建议的技术来为一类基于学习的控制问题提供绩效保证。实验表明,界限的性能明显优于香草和完全贝叶斯高斯工艺。
translated by 谷歌翻译
我们呈现$ \ mathcal {cl} _1 $ - $ \ mathcal {gp} $,控制框架,使能安全同时学习和控制能够进行不确定因素的系统。这两个主要成分是基于收缩理论的$ \ mathcal {l} _1 $($ \ mathcal {cl} _1 $)控制和贝叶斯学习以高斯过程(GP)回归。$ \ mathcal {cl} _1 $控制器可确保在提供安全证书时满足控制目标。此外,$ \ mathcal {cl} _1 $ - $ \ mathcal {gp} $将任何可用数据纳入了GP的不确定因素模型,这提高了性能并使运动计划能够安全地实现最佳状态。这样,即使在学习瞬变期间,也可以保证系统的安全操作。我们提供了一些用于在各种环境中安全学习和控制平面的平面电路系统的说明性示例。
translated by 谷歌翻译
受到控制障碍功能(CBF)在解决安全性方面的成功以及数据驱动技术建模功能的兴起的启发,我们提出了一种使用高斯流程(GPS)在线合成CBF的非参数方法。 CBF等数学结构通过先验设计候选功能来实现安全性。但是,设计这样的候选功能可能具有挑战性。这种设置的一个实际示例是在需要确定安全且可导航区域的灾难恢复方案中设计CBF。在这样的示例中,安全性边界未知,不能先验设计。在我们的方法中,我们使用安全样本或观察结果来在线构建CBF,通过在这些样品上具有灵活的GP,并称我们为高斯CBF的配方。除非参数外,例如分析性障碍性和稳健的不确定性估计,GP具有有利的特性。这允许通过合并方差估计来实现具有高安全性保证的后部组件,同时还计算封闭形式中相关的部分导数以实现安全控制。此外,我们方法的合成安全函数允许根据数据任意更改相应的安全集,从而允许非Convex安全集。我们通过证明对固定但任意的安全集和避免碰撞的安全性在线构建安全集的安全控制,从而在四极管上验证了我们的方法。最后,我们将高斯CBF与常规的CBF并列,在嘈杂状态下,以突出其灵活性和对噪声的鲁棒性。实验视频可以在:https://youtu.be/hx6uokvcigk上看到。
translated by 谷歌翻译
安全关键型应用程序要求控制器/政策能够保证安全高度信心。如果我们可以访问地面真实的系统动态,控制屏障功能是一种有用的工具,可以保证安全。在实践中,我们对系统动态的知识不准确,这可能导致不安全的行为导致的残余动力学。使用确定性机器学习模型学习剩余动态可以防止不安全的行为,但是当预测不完美时可能会失败。在这种情况下,概率学习方法,其预测的不确定性的原因可以有助于提供强大的安全利润。在这项工作中,我们使用高斯过程来模拟残余动力学的投影到控制屏障功能上。我们提出了一种新颖的优化程序,以产生安全控制,可以保证具有高概率的安全性。安全滤波器具有推理来自GP预测的不确定性的能力。我们通过SEGWAY和四轮车模拟的实验展示了这种方法的功效。与具有神经网络的确定性方法相比,我们所提出的概率方法能够显着降低安全违规的数量。
translated by 谷歌翻译
Safety is one of the biggest concerns to applying reinforcement learning (RL) to the physical world. In its core part, it is challenging to ensure RL agents persistently satisfy a hard state constraint without white-box or black-box dynamics models. This paper presents an integrated model learning and safe control framework to safeguard any agent, where its dynamics are learned as Gaussian processes. The proposed theory provides (i) a novel method to construct an offline dataset for model learning that best achieves safety requirements; (ii) a parameterization rule for safety index to ensure the existence of safe control; (iii) a safety guarantee in terms of probabilistic forward invariance when the model is learned using the aforementioned dataset. Simulation results show that our framework guarantees almost zero safety violation on various continuous control tasks.
translated by 谷歌翻译
本文涉及专业示范的学习安全控制法。我们假设系统动态和输出测量图的适当模型以及相应的错误界限。我们首先提出强大的输出控制屏障功能(ROCBF)作为保证安全的手段,通过控制安全集的前向不变性定义。然后,我们提出了一个优化问题,以从展示安全系统行为的专家演示中学习RocBF,例如,从人类运营商收集的数据。随着优化问题,我们提供可验证条件,可确保获得的Rocbf的有效性。这些条件在数据的密度和学习函数的LipsChitz和Lipshitz和界限常数上说明,以及系统动态和输出测量图的模型。当ROCBF的参数化是线性的,然后,在温和的假设下,优化问题是凸的。我们在自动驾驶模拟器卡拉验证了我们的调查结果,并展示了如何从RGB相机图像中学习安全控制法。
translated by 谷歌翻译
由于治疗益处和减轻劳动密集型工作的能力,在临床应用中使用康复机器人技术的重要性提高了。但是,他们的实际效用取决于适当的控制算法的部署,这些算法根据每个患者的需求来适应任务辅助的水平。通常,通过临床医生的手动调整来实现所需的个性化,这很麻烦且容易出错。在这项工作中,我们提出了一种新颖的在线学习控制体系结构,能够在运行时个性化控制力量。为此,我们通过以前看不见的预测和更新率来部署基于高斯流程的在线学习。最后,我们在一项实验用户研究中评估了我们的方法,在该研究中,学习控制器被证明可以提供个性化的控制,同时还获得了安全的相互作用力。
translated by 谷歌翻译
高斯过程回归通常用于学习未知系统并指定学习模型的不确定性。当使用高斯过程回归学习未知系统时,通常考虑的方法包括在应用一些标准离散化之后学习残差动态,但这可能不适合手头的系统。变形积分器是一种不太常见的离散化方法,因为它们保持底层系统的物理性质,例如节能或明确限制的满足。在这项工作中,我们提出了用于机械系统的标称动态的变形积分器和高斯过程回归学习残留动态的组合。我们将我们的方法扩展到具有已知运动限制的系统,并在预测不确定性上提供正式的界限。该方法的模拟评估显示了根据理论结果的理想节能特性,并证明了治疗受限动力系统的能力。
translated by 谷歌翻译
我们开发了一种新型的可区分预测控制(DPC),并根据控制屏障功能确保安全性和鲁棒性保证。DPC是一种基于学习的方法,用于获得近似解决方案,以解决明确的模型预测控制(MPC)问题。在DPC中,通过自动分化MPC问题获得的直接策略梯度,通过直接策略梯度进行了脱机优化的预测控制策略。所提出的方法利用了一种新形式的采样数据屏障功能,以在DPC设置中执行离线和在线安全要求,同时仅中断安全集合边界附近的基于神经网络的控制器。在模拟中证明了拟议方法的有效性。
translated by 谷歌翻译
This paper provides an introduction and overview of recent work on control barrier functions and their use to verify and enforce safety properties in the context of (optimization based) safety-critical controllers. We survey the main technical results and discuss applications to several domains including robotic systems.
translated by 谷歌翻译
当信号通过物理传感器测量,它们被噪声干扰。为了减少噪音,低通滤波器,以便衰减高频分量的输入信号,如果无论它们来自噪声或实际信号被通常使用的。因此,低通滤波器必须仔细调整以避免信号的显著恶化。这种调整需要有关的信号,这往往不是在应用,如强化学习或基于学习控制提供先验知识。为了克服这种限制,我们提出了一种基于高斯过程回归自适应低通滤波器。通过考虑以前的意见,更新和预测足够快的现实世界的滤波应用的恒定窗口即可实现。此外,超参数导致的低通行为适配的在线优化,使得没有事先调整是必要的。我们表明,该方法的估计误差一致有界,并证明了该方法的灵活性和效率的几个模拟。
translated by 谷歌翻译
稳定性和安全性是成功部署自动控制系统的关键特性。作为一个激励示例,请考虑在复杂的环境中自动移动机器人导航。概括到不同操作条件的控制设计需要系统动力学模型,鲁棒性建模错误以及对安全\ newzl {约束}的满意度,例如避免碰撞。本文开发了一个神经普通微分方程网络,以从轨迹数据中学习哈密顿系统的动态。学识渊博的哈密顿模型用于合成基于能量的被动性控制器,并分析其\ emph {鲁棒性},以在学习模型及其\ emph {Safety}中对环境施加的约束。考虑到系统的所需参考路径,我们使用虚拟参考调查员扩展了设计,以实现跟踪控制。州长国家是一个调节点,沿参考路径移动,平衡系统能级,模型不确定性界限以及违反安全性的距离,以确保稳健性和安全性。我们的哈密顿动力学学习和跟踪控制技术在\修订后的{模拟的己谐和四型机器人}在混乱的3D环境中导航。
translated by 谷歌翻译
身体机器人的合作需要严格的安全保证,因为机器人和人类在共享工作区中工作。这封信提出了一个新颖的控制框架,以处理针对人类机器人互动的基于安全至关重要的位置的约束。所提出的方法基于入学控制,指数控制屏障功能(ECBF)和二次计划(QP),以在人与机器人之间的力相互作用期间达到合规性,同时保证安全约束。特别是,入学控制的配方被重写为二阶非线性控制系统,并且人与机器人之间的相互作用力被视为控制输入。通过使用欧洲央行-QP框架作为外部人类力量的补偿器,实时提供了用于入学控制的虚拟力反馈。因此,安全轨迹是从建议的低级控制器进行跟踪的建议的自适应入学控制方案中得出的。拟议方法的创新是,拟议的控制器将使机器人能够自然流动性遵守人类力量,而无需违反任何安全限制,即使在人类外部力量偶然迫使机器人违反约束的情况下。在对两链平面机器人操纵器的仿真研究中,我们的方法的有效性得到了证明。
translated by 谷歌翻译
本文提出了一个身体一致的高斯过程(GP),以识别不确定的拉格朗日系统。该功能空间是根据拉格朗日和微分方程结构的能量成分量身定制的,可以在分析上保证物理和数学特性,例如能量保护和二次形式。Cholesky分解矩阵内核的新型配方可允许概率保留正定性。在扭矩,速度和加速度中允许高斯噪声时,仅需要进行函数图的差分输入测量值。我们证明了该方法在数值模拟中的有效性。
translated by 谷歌翻译
过去半年来,从控制和强化学习社区的真实机器人部署的安全学习方法的贡献数量急剧上升。本文提供了一种简洁的但整体审查,对利用机器学习实现的最新进展,以实现在不确定因素下的安全决策,重点是统一控制理论和加固学习研究中使用的语言和框架。我们的评论包括:基于学习的控制方法,通过学习不确定的动态,加强学习方法,鼓励安全或坚固性的加固学习方法,以及可以正式证明学习控制政策安全的方法。随着基于数据和学习的机器人控制方法继续获得牵引力,研究人员必须了解何时以及如何最好地利用它们在安全势在必行的现实情景中,例如在靠近人类的情况下操作时。我们突出了一些开放的挑战,即将在未来几年推动机器人学习领域,并强调需要逼真的物理基准的基准,以便于控制和加固学习方法之间的公平比较。
translated by 谷歌翻译
在将强化学习(RL)部署到现实世界系统中时,确保安全是一个至关重要的挑战。我们开发了基于置信的安全过滤器,这是一种基于概率动力学模型的标准RL技术,通过标准RL技术学到的名义策略来证明国家安全限制的控制理论方法。我们的方法基于对成本功能的国家约束的重新重新制定,从而将安全验证减少到标准RL任务。通过利用幻觉输入的概念,我们扩展了此公式,以确定对具有很高可能性的未知系统安全的“备份”策略。最后,在推出备用政策期间的每一个时间步骤中,标称政策的调整最少,以便以后可以保证安全恢复。我们提供正式的安全保证,并从经验上证明我们方法的有效性。
translated by 谷歌翻译
本文开发了一种基于模型的强化学习(MBR)框架,用于在线在线学习无限范围最佳控制问题的价值函数,同时遵循表示为控制屏障功能(CBFS)的安全约束。我们的方法是通过开发一种新型的CBFS,称为Lyapunov样CBF(LCBF),其保留CBFS的有益特性,以开发最微创的安全控制政策,同时也具有阳性半自动等所需的Lyapunov样品质 - 义法。我们展示这些LCBFS如何用于增强基于学习的控制策略,以保证安全性,然后利用这种方法在MBRL设置中开发安全探索框架。我们表明,我们的开发方法可以通过各种数值示例来处理比较法的更通用的安全限制。
translated by 谷歌翻译