This paper proposes an algorithm for motion planning among dynamic agents using adaptive conformal prediction. We consider a deterministic control system and use trajectory predictors to predict the dynamic agents' future motion, which is assumed to follow an unknown distribution. We then leverage ideas from adaptive conformal prediction to dynamically quantify prediction uncertainty from an online data stream. Particularly, we provide an online algorithm uses delayed agent observations to obtain uncertainty sets for multistep-ahead predictions with probabilistic coverage. These uncertainty sets are used within a model predictive controller to safely navigate among dynamic agents. While most existing data-driven prediction approached quantify prediction uncertainty heuristically, we quantify the true prediction uncertainty in a distribution-free, adaptive manner that even allows to capture changes in prediction quality and the agents' motion. We empirically evaluate of our algorithm on a simulation case studies where a drone avoids a flying frisbee.
translated by 谷歌翻译
由于围绕机器人的未来轨迹的不确定性,安全导航是多机器人系统中的一个基本挑战,这些轨迹彼此相互障碍。在这项工作中,我们提出了一种原则性的数据驱动方法,每个机器人都反复解决一个有限的地平线优化问题,但要避免碰撞限制,后者被表达为代理商和代理之间距离的分布稳健的条件价值风险(CVAR)多面体障碍物几何形状。具体而言,需要CVAR约束来保留所有与从执行过程中收集的预测误差样本构成的经验分布的所有分布。该方法的一般性使我们能够在分布式和去中心化设置中普遍强加的假设下出现的预测错误鲁棒性。我们通过利用凸面和Minmax二元性结果来得出这类约束的有限尺寸近似值。在凉亭平台中实现的多人导航设置中说明了所提出的方法的有效性。
translated by 谷歌翻译
过去半年来,从控制和强化学习社区的真实机器人部署的安全学习方法的贡献数量急剧上升。本文提供了一种简洁的但整体审查,对利用机器学习实现的最新进展,以实现在不确定因素下的安全决策,重点是统一控制理论和加固学习研究中使用的语言和框架。我们的评论包括:基于学习的控制方法,通过学习不确定的动态,加强学习方法,鼓励安全或坚固性的加固学习方法,以及可以正式证明学习控制政策安全的方法。随着基于数据和学习的机器人控制方法继续获得牵引力,研究人员必须了解何时以及如何最好地利用它们在安全势在必行的现实情景中,例如在靠近人类的情况下操作时。我们突出了一些开放的挑战,即将在未来几年推动机器人学习领域,并强调需要逼真的物理基准的基准,以便于控制和加固学习方法之间的公平比较。
translated by 谷歌翻译
机器人等系统的安全操作要求它们计划和执行受安全约束的轨迹。当这些系统受到动态的不确定性的影响时,确保不违反限制是具有挑战性的。本文提出了基于受约束差分动态规划(DDP)的附加不确定性和非线性安全约束的安全轨迹,安全轨迹优化和控制方法。在其运动中的机器人的安全性被制定为机会限制了用户所选择的约束满足的概率。通过约束收紧将机会约束转换为DDP制剂中的确定性。为了避免在约束期间的过保守,从受约束的DDP导出的反馈策略的线性控制增益用于预测中的闭环不确定性传播的近似。所提出的算法在三种不同的机器人动态上进行了经验评估,模拟中具有高达12度的自由度。使用物理硬件实现对方法的计算可行性和适用性进行了说明。
translated by 谷歌翻译
本文提出了一种基于匹配不确定性的非线性系统的收缩指标和干扰估计的轨迹中心学习控制方法。该方法允许使用广泛的模型学习工具,包括深神经网络,以学习不确定的动态,同时仍然在整个学习阶段提供瞬态跟踪性能的保证,包括没有学习的特殊情况。在所提出的方法中,提出了一种扰动估计法,以估计不确定性的点值,具有预计估计误差限制(EEB)。学习的动态,估计的紊乱和EEB在强大的黎曼能量条件下并入,以计算控制法,即使学习模型较差,也能保证在整个学习阶段的所需轨迹对所需轨迹的指数趋同。另一方面,具有改进的精度,学习的模型可以在高级计划器中结合,以规划更好的性能,例如降低能耗和更短的旅行时间。建议的框架在平面Quadrotor导航示例上验证。
translated by 谷歌翻译
游戏理论运动计划者是控制多个高度交互式机器人系统的有效解决方案。大多数现有的游戏理论规划师不切实际地假设所有代理都可以使用先验的目标功能知识。为了解决这个问题,我们提出了一个容忍度的退缩水平游戏理论运动计划者,该计划者利用了与意图假设的可能性相互交流。具体而言,机器人传达其目标函数以结合意图。离散的贝叶斯过滤器旨在根据观察到的轨迹与传达意图的轨迹之间的差异来实时推断目标。在仿真中,我们考虑了三种安全至关重要的自主驾驶场景,即超车,车道交叉和交叉点,以证明我们计划者在存在通信网络中存在错误的传输情况下利用替代意图假设来产生安全轨迹的能力。
translated by 谷歌翻译
We propose a learning-based robust predictive control algorithm that compensates for significant uncertainty in the dynamics for a class of discrete-time systems that are nominally linear with an additive nonlinear component. Such systems commonly model the nonlinear effects of an unknown environment on a nominal system. We optimize over a class of nonlinear feedback policies inspired by certainty equivalent "estimate-and-cancel" control laws pioneered in classical adaptive control to achieve significant performance improvements in the presence of uncertainties of large magnitude, a setting in which existing learning-based predictive control algorithms often struggle to guarantee safety. In contrast to previous work in robust adaptive MPC, our approach allows us to take advantage of structure (i.e., the numerical predictions) in the a priori unknown dynamics learned online through function approximation. Our approach also extends typical nonlinear adaptive control methods to systems with state and input constraints even when we cannot directly cancel the additive uncertain function from the dynamics. We apply contemporary statistical estimation techniques to certify the system's safety through persistent constraint satisfaction with high probability. Moreover, we propose using Bayesian meta-learning algorithms that learn calibrated model priors to help satisfy the assumptions of the control design in challenging settings. Finally, we show in simulation that our method can accommodate more significant unknown dynamics terms than existing methods and that the use of Bayesian meta-learning allows us to adapt to the test environments more rapidly.
translated by 谷歌翻译
我们呈现$ \ mathcal {cl} _1 $ - $ \ mathcal {gp} $,控制框架,使能安全同时学习和控制能够进行不确定因素的系统。这两个主要成分是基于收缩理论的$ \ mathcal {l} _1 $($ \ mathcal {cl} _1 $)控制和贝叶斯学习以高斯过程(GP)回归。$ \ mathcal {cl} _1 $控制器可确保在提供安全证书时满足控制目标。此外,$ \ mathcal {cl} _1 $ - $ \ mathcal {gp} $将任何可用数据纳入了GP的不确定因素模型,这提高了性能并使运动计划能够安全地实现最佳状态。这样,即使在学习瞬变期间,也可以保证系统的安全操作。我们提供了一些用于在各种环境中安全学习和控制平面的平面电路系统的说明性示例。
translated by 谷歌翻译
具有安全行为的赋予非线性系统在现代控制中越来越重要。对于必须在动态变化的环境中安全运行的现实生活控制系统,此任务尤其具有挑战性。本文通过建立环境控制障碍功能(ECBFS)的概念,在动态环境中开发了一种安全关键控制框架。即使在输入延迟存在下,该框架也能够保证安全性,通过占系统延迟响应期间环境的演变。潜在的控制合成依赖于预测系统的未来状态和延迟间隔通过延迟间隔,具有稳健的安全保证预测误差。通过简单的自适应巡航控制问题和更复杂的机器人应用在SEGWAY平台上证明了所提出的方法的功效。
translated by 谷歌翻译
Motion planning is challenging for autonomous systems in multi-obstacle environments due to nonconvex collision avoidance constraints. Directly applying numerical solvers to these nonconvex formulations fails to exploit the constraint structures, resulting in excessive computation time. In this paper, we present an accelerated collision-free motion planner, namely regularized dual alternating direction method of multipliers (RDADMM or RDA for short), for the model predictive control (MPC) based motion planning problem. The proposed RDA addresses nonconvex motion planning via solving a smooth biconvex reformulation via duality and allows the collision avoidance constraints to be computed in parallel for each obstacle to reduce computation time significantly. We validate the performance of the RDA planner through path-tracking experiments with car-like robots in simulation and real world setting. Experimental results show that the proposed methods can generate smooth collision-free trajectories with less computation time compared with other benchmarks and perform robustly in cluttered environments.
translated by 谷歌翻译
室内运动计划的重点是解决通过混乱环境导航代理的问题。迄今为止,在该领域已经完成了很多工作,但是这些方法通常无法找到计算廉价的在线路径计划和路径最佳之间的最佳平衡。除此之外,这些作品通常证明是单一启动单目标世界的最佳性。为了应对这些挑战,我们为在未知室内环境中进行导航的多个路径路径计划者和控制器堆栈,在该环境中,路点将目标与机器人必须在达到目标之前必须穿越的中介点一起。我们的方法利用全球规划师(在任何瞬间找到下一个最佳航路点),本地规划师(计划通往特定航路点的路径)以及自适应模型预测性控制策略(用于强大的系统控制和更快的操作) 。我们在一组随机生成的障碍图,中间航路点和起始目标对上评估了算法,结果表明计算成本显着降低,具有高度准确性和可靠的控制。
translated by 谷歌翻译
延迟在迅速变化的环境中运行的自主系统的危害安全性,例如在自动驾驶和高速赛车方面的交通参与者的非确定性。不幸的是,在传统的控制器设计或在物理世界中部署之前,通常不考虑延迟。在本文中,从非线性优化到运动计划和控制以及执行器引起的其他不可避免的延迟的计算延迟被系统地和统一解决。为了处理所有这些延迟,在我们的框架中:1)我们提出了一种新的过滤方法,而没有事先了解动态和干扰分布的知识,以适应,安全地估算时间变化的计算延迟; 2)我们为转向延迟建模驱动动力学; 3)所有约束优化均在强大的管模型预测控制器中实现。对于应用的优点,我们证明我们的方法适合自动驾驶和自动赛车。我们的方法是独立延迟补偿控制器的新型设计。此外,在假设无延迟作为主要控制器的学习控制器的情况下,我们的方法是主要控制器的安全保护器。
translated by 谷歌翻译
稳定性和安全性是成功部署自动控制系统的关键特性。作为一个激励示例,请考虑在复杂的环境中自动移动机器人导航。概括到不同操作条件的控制设计需要系统动力学模型,鲁棒性建模错误以及对安全\ newzl {约束}的满意度,例如避免碰撞。本文开发了一个神经普通微分方程网络,以从轨迹数据中学习哈密顿系统的动态。学识渊博的哈密顿模型用于合成基于能量的被动性控制器,并分析其\ emph {鲁棒性},以在学习模型及其\ emph {Safety}中对环境施加的约束。考虑到系统的所需参考路径,我们使用虚拟参考调查员扩展了设计,以实现跟踪控制。州长国家是一个调节点,沿参考路径移动,平衡系统能级,模型不确定性界限以及违反安全性的距离,以确保稳健性和安全性。我们的哈密顿动力学学习和跟踪控制技术在\修订后的{模拟的己谐和四型机器人}在混乱的3D环境中导航。
translated by 谷歌翻译
This paper proposes embedded Gaussian Process Barrier States (GP-BaS), a methodology to safely control unmodeled dynamics of nonlinear system using Bayesian learning. Gaussian Processes (GPs) are used to model the dynamics of the safety-critical system, which is subsequently used in the GP-BaS model. We derive the barrier state dynamics utilizing the GP posterior, which is used to construct a safety embedded Gaussian process dynamical model (GPDM). We show that the safety-critical system can be controlled to remain inside the safe region as long as we can design a controller that renders the BaS-GPDM's trajectories bounded (or asymptotically stable). The proposed approach overcomes various limitations in early attempts at combining GPs with barrier functions due to the abstention of restrictive assumptions such as linearity of the system with respect to control, relative degree of the constraints and number or nature of constraints. This work is implemented on various examples for trajectory optimization and control including optimal stabilization of unstable linear system and safe trajectory optimization of a Dubins vehicle navigating through an obstacle course and on a quadrotor in an obstacle avoidance task using GP differentiable dynamic programming (GP-DDP). The proposed framework is capable of maintaining safe optimization and control of unmodeled dynamics and is purely data driven.
translated by 谷歌翻译
在本文中,我们介绍了一种基于在线模型的新型强化学习算法,该学习算法使用无知的转换来传播不确定性以预测未来的奖励。先前的方法要么用高斯在预测范围的每个步骤上近似状态分布,要么执行蒙特卡洛模拟以估计奖励。我们的方法取决于所使用的sigma点的数量,可以传播平均值和协方差,或与最小点或高阶矩具有与蒙特卡洛相似的高阶矩。整个框架是作为用于在线培训的计算图。此外,为了防止通过通用状态依赖性不确定性模型传播时Sigma点的爆炸数,我们将Sigma点的扩展和收缩层添加到我们的图形中,该图形是使用矩匹配的原理设计的。最后,我们提出了受顺序二次编程启发的梯度下降,以在存在状态约束的情况下更新策略参数。我们证明了在模拟中使用两种应用的建议方法。当动力学以状态依赖性的不确定性知道时,第一个为卡车杆问题设计了一个稳定控制器。第二个示例是在我们以前的工作之后,在存在输入约束的情况下,调整了基于控制屏障函数函数的二次编程控制器的参数。
translated by 谷歌翻译
策略搜索和模型预测控制〜(MPC)是机器人控制的两个不同范式:策略搜索具有使用经验丰富的数据自动学习复杂策略的强度,而MPC可以使用模型和轨迹优化提供最佳控制性能。开放的研究问题是如何利用并结合两种方法的优势。在这项工作中,我们通过使用策略搜索自动选择MPC的高级决策变量提供答案,这导致了一种新的策略搜索 - 用于模型预测控制框架。具体地,我们将MPC作为参数化控制器配制,其中难以优化的决策变量表示为高级策略。这种制定允许以自我监督的方式优化政策。我们通过专注于敏捷无人机飞行中的具有挑战性的问题来验证这一框架:通过快速的盖茨飞行四轮车。实验表明,我们的控制器在模拟和现实世界中实现了鲁棒和实时的控制性能。拟议的框架提供了合并学习和控制的新视角。
translated by 谷歌翻译
Robots such as autonomous vehicles and assistive manipulators are increasingly operating in dynamic environments and close physical proximity to people. In such scenarios, the robot can leverage a human motion predictor to predict their future states and plan safe and efficient trajectories. However, no model is ever perfect -- when the observed human behavior deviates from the model predictions, the robot might plan unsafe maneuvers. Recent works have explored maintaining a confidence parameter in the human model to overcome this challenge, wherein the predicted human actions are tempered online based on the likelihood of the observed human action under the prediction model. This has opened up a new research challenge, i.e., \textit{how to compute the future human states online as the confidence parameter changes?} In this work, we propose a Hamilton-Jacobi (HJ) reachability-based approach to overcome this challenge. Treating the confidence parameter as a virtual state in the system, we compute a parameter-conditioned forward reachable tube (FRT) that provides the future human states as a function of the confidence parameter. Online, as the confidence parameter changes, we can simply query the corresponding FRT, and use it to update the robot plan. Computing parameter-conditioned FRT corresponds to an (offline) high-dimensional reachability problem, which we solve by leveraging recent advances in data-driven reachability analysis. Overall, our framework enables online maintenance and updates of safety assurances in human-robot interaction scenarios, even when the human prediction model is incorrect. We demonstrate our approach in several safety-critical autonomous driving scenarios, involving a state-of-the-art deep learning-based prediction model.
translated by 谷歌翻译
机器学习方法越来越广泛地用于医疗保健,运输和金融等高危环境中。在这些环境中,重要的是,模型要产生校准的不确定性以反映其自信并避免失败。在本文中,我们调查了有关深度学习的不确定性定量(UQ)的最新著作,特别是针对其数学属性和广泛适用性的无分配保形方法。我们将涵盖共形方法的理论保证,引入在时空数据的背景下提高UQ的校准和效率的技术,并讨论UQ在安全决策中的作用。
translated by 谷歌翻译
到达状态的密度可以帮助理解安全至关重要的系统的风险,尤其是在最坏情况下的情况过于保守的情况下。最近的工作提供了一种数据驱动的方法来计算自主系统在线前进状态的密度分布。在本文中,我们研究了这种方法与模型预测控制在不确定性下的可验证安全路径计划的结合。我们首先使用学习的密度分布来计算在线碰撞的风险。如果这种风险超过可接受的阈值,我们的方法将计划在先前轨迹周围采取新的途径,并在阈值以下碰撞风险。我们的方法非常适合处理具有不确定性和复杂动力学的系统,因为我们的数据驱动方法不需要系统动力学的分析形式,并且可以通过不确定性的任意初始分布来估算正向状态密度。我们设计了两个具有挑战性的场景(自动驾驶和气垫船控制),以在系统不确定性下的障碍物中进行安全运动计划。我们首先表明我们的密度估计方法可以达到与基于蒙特卡洛的方法相似的准确性,同时仅使用0.01倍训练样本。通过利用估计的风险,我们的算法在执行超过0.99的安全速率时达到目标达到最高成功率。
translated by 谷歌翻译
Learning-enabled control systems have demonstrated impressive empirical performance on challenging control problems in robotics, but this performance comes at the cost of reduced transparency and lack of guarantees on the safety or stability of the learned controllers. In recent years, new techniques have emerged to provide these guarantees by learning certificates alongside control policies -- these certificates provide concise, data-driven proofs that guarantee the safety and stability of the learned control system. These methods not only allow the user to verify the safety of a learned controller but also provide supervision during training, allowing safety and stability requirements to influence the training process itself. In this paper, we provide a comprehensive survey of this rapidly developing field of certificate learning. We hope that this paper will serve as an accessible introduction to the theory and practice of certificate learning, both to those who wish to apply these tools to practical robotics problems and to those who wish to dive more deeply into the theory of learning for control.
translated by 谷歌翻译