我们提出了一种从本地最佳示范中学习被代表为高斯过程(GPS)的学习限制的方法。我们的方法使用Karush-Kuhn-Tucker(KKT)最优状态来确定在该规约紧密的演示中的位置,以及这些状态的约束梯度的缩放。然后,我们训练约束的GP表示,这是一致的,并概括了这些信息。我们进一步表明,GP不确定性可以在Kinodynamic RRT内使用以计划概率 - 安全的轨迹,并且我们可以利用计划者内的GP结构来恰好实现指定的安全概率。我们展示了我们的方法可以学习复杂的非线性约束,在5D非整理车,12D四轮机器和3连杆平面臂上演示,所有这些都是在需要最小的限制信息。我们的结果表明学习的GP约束是准确的,优于先前的约束学习方法,需要更高的先验知识。
translated by 谷歌翻译
受到控制障碍功能(CBF)在解决安全性方面的成功以及数据驱动技术建模功能的兴起的启发,我们提出了一种使用高斯流程(GPS)在线合成CBF的非参数方法。 CBF等数学结构通过先验设计候选功能来实现安全性。但是,设计这样的候选功能可能具有挑战性。这种设置的一个实际示例是在需要确定安全且可导航区域的灾难恢复方案中设计CBF。在这样的示例中,安全性边界未知,不能先验设计。在我们的方法中,我们使用安全样本或观察结果来在线构建CBF,通过在这些样品上具有灵活的GP,并称我们为高斯CBF的配方。除非参数外,例如分析性障碍性和稳健的不确定性估计,GP具有有利的特性。这允许通过合并方差估计来实现具有高安全性保证的后部组件,同时还计算封闭形式中相关的部分导数以实现安全控制。此外,我们方法的合成安全函数允许根据数据任意更改相应的安全集,从而允许非Convex安全集。我们通过证明对固定但任意的安全集和避免碰撞的安全性在线构建安全集的安全控制,从而在四极管上验证了我们的方法。最后,我们将高斯CBF与常规的CBF并列,在嘈杂状态下,以突出其灵活性和对噪声的鲁棒性。实验视频可以在:https://youtu.be/hx6uokvcigk上看到。
translated by 谷歌翻译
在本文中,我们关注将基于能量的模型(EBM)作为运动优化的指导先验的问题。 EBM是一组神经网络,可以用合适的能量函数参数为参数的GIBBS分布来表示表达概率密度分布。由于其隐含性,它们可以轻松地作为优化因素或运动优化问题中的初始采样分布整合在一起,从而使它们成为良好的候选者,以将数据驱动的先验集成在运动优化问题中。在这项工作中,我们提出了一组所需的建模和算法选择,以使EBMS适应运动优化。我们调查了将其他正规化器在学习EBM中的好处,以将它们与基于梯度的优化器一起使用,并提供一组EBM架构,以学习用于操纵任务的可通用分布。我们提出了多种情况,可以将EBM集成以进行运动优化,并评估学到的EBM的性能,以指导模拟和真实机器人实验的指导先验。
translated by 谷歌翻译
我们为一类不确定的控制型非线性系统提供了一种运动计划算法,该系统可以在使用高维传感器测量值(例如RGB-D图像)和反馈控制循环中的学习感知模块时确保运行时安全性和目标达到性能。首先,给定状态和观察数据集,我们训练一个感知系统,该系统试图从观察结果中倒入状态的一部分,并估计感知错误上的上限,该误差有效,在数据附近有可信赖的域中具有很高的概率。接下来,我们使用收缩理论来设计稳定的状态反馈控制器和收敛的动态观察者,该观察者使用学习的感知系统来更新其状态估计。当该控制器在动力学和不正确状态估计中遇到错误时,我们会在轨迹跟踪误差上得出一个绑定。最后,我们将此绑定到基于采样的运动计划器中,引导它返回可以使用传感器数据在运行时安全跟踪的轨迹。我们展示了我们在4D汽车上模拟的方法,6D平面四极管以及使用RGB(-D)传感器测量的17D操纵任务,这表明我们的方法安全可靠地将系统转向了目标,而无法考虑的基线,这些基线无法考虑。受信任的域或状态估计错误可能不安全。
translated by 谷歌翻译
过去半年来,从控制和强化学习社区的真实机器人部署的安全学习方法的贡献数量急剧上升。本文提供了一种简洁的但整体审查,对利用机器学习实现的最新进展,以实现在不确定因素下的安全决策,重点是统一控制理论和加固学习研究中使用的语言和框架。我们的评论包括:基于学习的控制方法,通过学习不确定的动态,加强学习方法,鼓励安全或坚固性的加固学习方法,以及可以正式证明学习控制政策安全的方法。随着基于数据和学习的机器人控制方法继续获得牵引力,研究人员必须了解何时以及如何最好地利用它们在安全势在必行的现实情景中,例如在靠近人类的情况下操作时。我们突出了一些开放的挑战,即将在未来几年推动机器人学习领域,并强调需要逼真的物理基准的基准,以便于控制和加固学习方法之间的公平比较。
translated by 谷歌翻译
We present a method for providing statistical guarantees on runtime safety and goal reachability for integrated planning and control of a class of systems with unknown nonlinear stochastic underactuated dynamics. Specifically, given a dynamics dataset, our method jointly learns a mean dynamics model, a spatially-varying disturbance bound that captures the effect of noise and model mismatch, and a feedback controller based on contraction theory that stabilizes the learned dynamics. We propose a sampling-based planner that uses the mean dynamics model and simultaneously bounds the closed-loop tracking error via a learned disturbance bound. We employ techniques from Extreme Value Theory (EVT) to estimate, to a specified level of confidence, several constants which characterize the learned components and govern the size of the tracking error bound. This ensures plans are guaranteed to be safely tracked at runtime. We validate that our guarantees translate to empirical safety in simulation on a 10D quadrotor, and in the real world on a physical CrazyFlie quadrotor and Clearpath Jackal robot, whereas baselines that ignore the model error and stochasticity are unsafe.
translated by 谷歌翻译
基于学习的控制方案最近表现出了出色的效力执行复杂的任务。但是,为了将它们部署在实际系统中,保证该系统在在线培训和执行过程中将保持安全至关重要。因此,我们需要安全的在线学习框架,能够自主地理论当前的信息是否足以确保安全或需要新的测量。在本文中,我们提出了一个由两个部分组成的框架:首先,在需要时积极收集测量的隔离外检测机制,以确保至少一个安全备份方向始终可供使用;其次,基于高斯的基于过程的概率安全 - 关键控制器可确保系统始终保持安全的可能性。我们的方法通过使用控制屏障功能来利用模型知识,并以事件触发的方式从在线数据流中收集测量,以确保学习的安全至关重要控制器的递归可行性。反过来,这又使我们能够提供具有很高概率的安全集的正式结果,即使在先验未开发的区域中也是如此。最后,我们在自适应巡航控制系统的数值模拟中验证了所提出的框架。
translated by 谷歌翻译
我们为运动计划问题提出了高斯变异推理框架。在此框架中,运动计划是对轨迹分布的优化,以通过可拖动的高斯分布近似所需的轨迹分布。同等地,提议的框架可以视为具有熵正则化的标准运动计划。因此,获得的解决方案是从最佳确定溶液到随机溶液的过渡,并且所提出的框架可以通过控制随机性水平来恢复确定性解决方案。为了解决这种优化,我们采用了自然梯度下降方案。进一步利用了由分解的目标函数引起的提议配方的稀疏性结构,以提高算法的可扩展性。我们在模拟环境中评估了几个机器人系统的方法,并表明它可以通过平滑的轨迹来避免碰撞,同时为确定性基线结果带来了鲁棒性,尤其是在具有挑战性的环境和任务中。
translated by 谷歌翻译
安全关键型应用程序要求控制器/政策能够保证安全高度信心。如果我们可以访问地面真实的系统动态,控制屏障功能是一种有用的工具,可以保证安全。在实践中,我们对系统动态的知识不准确,这可能导致不安全的行为导致的残余动力学。使用确定性机器学习模型学习剩余动态可以防止不安全的行为,但是当预测不完美时可能会失败。在这种情况下,概率学习方法,其预测的不确定性的原因可以有助于提供强大的安全利润。在这项工作中,我们使用高斯过程来模拟残余动力学的投影到控制屏障功能上。我们提出了一种新颖的优化程序,以产生安全控制,可以保证具有高概率的安全性。安全滤波器具有推理来自GP预测的不确定性的能力。我们通过SEGWAY和四轮车模拟的实验展示了这种方法的功效。与具有神经网络的确定性方法相比,我们所提出的概率方法能够显着降低安全违规的数量。
translated by 谷歌翻译
本文开发了连续的蓬松蛋白可区分编程(连续PDP)的方法,该方法使机器人能够从少数稀疏的关键帧中学习目标函数。带有一些时间戳记的密钥帧是所需的任务空间输出,预计机器人将顺序遵循。密钥帧的时间戳可能与机器人的实际执行时间不同。该方法共同找到一个目标函数和一个盘绕函数,以使机器人的产生轨迹顺序遵循关键帧,并以最小的差异损失。连续的PDP通过有效求解机器人轨迹相对于未知参数的梯度,可以最大程度地减少投影梯度下降的差异损失。该方法首先在模拟机器人臂上进行评估,然后应用于6-DOF四极管,以在未建模的环境中学习目标函数。结果表明,该方法的效率,其处理密钥帧和机器人执行之间的时间错位的能力以及将客观学习对看不见的运动条件的概括。
translated by 谷歌翻译
将机器人放置在受控条件外,需要多功能的运动表示,使机器人能够学习新任务并使其适应环境变化。在工作区中引入障碍或额外机器人的位置,由于故障或运动范围限制导致的关节范围的修改是典型的案例,适应能力在安全地执行机器人任务的关键作用。已经提出了代表适应性运动技能的概率动态(PROMP),其被建模为轨迹的高斯分布。这些都是在分析讲道的,可以从少数演示中学习。然而,原始PROMP制定和随后的方法都仅为特定运动适应问题提供解决方案,例如障碍避免,以及普遍的,统一的适应概率方法缺失。在本文中,我们开发了一种用于调整PROMP的通用概率框架。我们统一以前的适应技术,例如,各种类型的避避,通过一个框架,互相避免,在一个框架中,并将它们结合起来解决复杂的机器人问题。另外,我们推导了新颖的适应技术,例如时间上未结合的通量和互相避免。我们制定适应作为约束优化问题,在那里我们最小化适应的分布与原始原始的分布之间的kullback-leibler发散,而我们限制了与不希望的轨迹相关的概率质量为低电平。我们展示了我们在双机器人手臂设置中的模拟平面机器人武器和7-DOF法兰卡 - Emika机器人的若干适应问题的方法。
translated by 谷歌翻译
This paper proposes embedded Gaussian Process Barrier States (GP-BaS), a methodology to safely control unmodeled dynamics of nonlinear system using Bayesian learning. Gaussian Processes (GPs) are used to model the dynamics of the safety-critical system, which is subsequently used in the GP-BaS model. We derive the barrier state dynamics utilizing the GP posterior, which is used to construct a safety embedded Gaussian process dynamical model (GPDM). We show that the safety-critical system can be controlled to remain inside the safe region as long as we can design a controller that renders the BaS-GPDM's trajectories bounded (or asymptotically stable). The proposed approach overcomes various limitations in early attempts at combining GPs with barrier functions due to the abstention of restrictive assumptions such as linearity of the system with respect to control, relative degree of the constraints and number or nature of constraints. This work is implemented on various examples for trajectory optimization and control including optimal stabilization of unstable linear system and safe trajectory optimization of a Dubins vehicle navigating through an obstacle course and on a quadrotor in an obstacle avoidance task using GP differentiable dynamic programming (GP-DDP). The proposed framework is capable of maintaining safe optimization and control of unmodeled dynamics and is purely data driven.
translated by 谷歌翻译
对非线性不确定系统的控制是机器人技术领域的常见挑战。非线性潜在力模型结合了以高斯流程为特征的潜在不确定性,具有有效代表此类系统的希望,我们专注于这项工作的控制设计。为了实现设计,我们采用了高斯过程的状态空间表示来重塑非线性潜在力模型,从而建立了同时预测未来状态和不确定性的能力。使用此功能,制定了随机模型预测控制问题。为了得出问题的计算算法,我们使用基于方案的方法来制定随机优化的确定性近似。我们通过基于自动驾驶汽车的运动计划的仿真研究评估了最终方案的模型预测控制方法,该研究表现出很大的有效性。拟议的方法可以在其他各种机器人应用中找到前瞻性使用。
translated by 谷歌翻译
各种科学和工程领域使用参数化机制模型。工程师和科学家通常可以假设几个竞争模型来解释特定的过程或现象。考虑一个模特歧视设置,我们希望找到最佳机械,动态模型候选者和最佳模型参数估计。通常,若干竞争机械模型可以解释可用数据,因此通过找到最大化模型预测发散的实验设置,可以通过找到最大化模型预测发散的实验设置来实现最佳地收集额外数据的动态实验。我们争论文献中有两种主要方法,用于解决最佳设计问题:(i)分析方法,使用线性和高斯近似来找设计目标的闭合表达式,以及(ii)数据驱动方法,这通常依赖于计算密集的蒙特卡罗技术。 olofsson等人。 (ICML 35,2018)介绍了高斯工艺(GP)替代模型来杂交的分析和数据驱动方法,这允许计算的实验设计,以识别黑盒式模型。在这项研究中,我们证明我们可以扩展现有的动态实验设计方法,以纳入更广泛的问题不确定性。我们还延伸了Olofsson等人。 (2018)使用GP代理模型来辨别动态黑盒式模型的方法。我们在文献中的着名案例研究中评估了我们的方法,并探讨了使用GP代理到近似基于梯度的方法的后果。
translated by 谷歌翻译
我们向连续状态马尔可夫决策过程(MDP)提出了一种扩散近似方法,该方法可用于解决非结构化的越野环境中的自主导航和控制。与呈现完全已知的状态转换模型的大多数决策定理计划框架相比,我们设计了一种方法,该方法消除了这种强烈假设,这些假设通常非常难以在现实中工程师。我们首先采用价值函数的二阶泰勒扩展。然后通过部分微分方程近似贝尔曼的最优性方程,其仅依赖于转换模型的第一和第二矩。通过组合价值函数的内核表示,然后设计一种有效的策略迭代算法,其策略评估步骤可以表示为特征的方程式的线性系统,其特征是由有限组支持状态。我们首先通过大量的仿真以2D美元的$ 2D $避让和2.5d $地形导航问题进行验证。结果表明,拟议的方法在几个基线上导致了卓越的性能。然后,我们开发一个系统,该系统将我们的决策框架整合,与船上感知,并在杂乱的室内和非结构化的户外环境中进行现实世界的实验。物理系统的结果进一步展示了我们在挑战现实世界环境中的方法的适用性。
translated by 谷歌翻译
本文着重于影响弹性的移动机器人的碰撞运动计划和控制的新兴范式转移,并开发了一个统一的层次结构框架,用于在未知和部分观察的杂物空间中导航。在较低级别上,我们开发了一种变形恢复控制和轨迹重新启动策略,该策略处理可能在本地运行时发生的碰撞。低级系统会积极检测碰撞(通过内部内置的移动机器人上的嵌入式霍尔效应传感器),使机器人能够从其内部恢复,并在本地调整后影响后的轨迹。然后,在高层,我们提出了一种基于搜索的计划算法,以确定如何最好地利用潜在的碰撞来改善某些指标,例如控制能量和计算时间。我们的方法建立在A*带有跳跃点的基础上。我们生成了一种新颖的启发式功能,并进行了碰撞检查和调整技术,从而使A*算法通过利用和利用可能的碰撞来更快地收敛到达目标。通过将全局A*算法和局部变形恢复和重新融合策略以及该框架的各个组件相结合而生成的整体分层框架在模拟和实验中都经过了广泛的测试。一项消融研究借鉴了与基于搜索的最先进的避免碰撞计划者(用于整体框架)的链接,以及基于搜索的避免碰撞和基于采样的碰撞 - 碰撞 - 全球规划师(对于更高的较高的碰撞 - 等级)。结果证明了我们的方法在未知环境中具有碰撞的运动计划和控制的功效,在2D中运行的一类撞击弹性机器人具有孤立的障碍物。
translated by 谷歌翻译
我们呈现$ \ mathcal {cl} _1 $ - $ \ mathcal {gp} $,控制框架,使能安全同时学习和控制能够进行不确定因素的系统。这两个主要成分是基于收缩理论的$ \ mathcal {l} _1 $($ \ mathcal {cl} _1 $)控制和贝叶斯学习以高斯过程(GP)回归。$ \ mathcal {cl} _1 $控制器可确保在提供安全证书时满足控制目标。此外,$ \ mathcal {cl} _1 $ - $ \ mathcal {gp} $将任何可用数据纳入了GP的不确定因素模型,这提高了性能并使运动计划能够安全地实现最佳状态。这样,即使在学习瞬变期间,也可以保证系统的安全操作。我们提供了一些用于在各种环境中安全学习和控制平面的平面电路系统的说明性示例。
translated by 谷歌翻译
增强学习(RL)在接触式操纵中的经验成功(RL)从基于模型的角度来理解了很多待理解,其中关键困难通常归因于(i)触点模式的爆炸,(ii)僵硬,非平滑接触动力学和由此产生的爆炸 /不连续梯度,以及(iii)计划问题的非转换性。 RL的随机性质通过有效采样和平均接触模式来解决(i)和(ii)。另一方面,基于模型的方法通过分析平滑接触动力学来解决相同的挑战。我们的第一个贡献是建立两种方法的简单系统方法的理论等效性,并在许多复杂示例上提供定性和经验的等效性。为了进一步减轻(II),我们的第二个贡献是凸面的凸面,可区分和准动力的触点动力学表述,这两个方案都可以平滑方案,并且通过实验证明了对接触富含接触的计划非常有效。我们的最终贡献解决了(III),在其中我们表明,当通过平滑度抽取接触模式时,基于经典的运动计划算法在全球计划中可以有效。将我们的方法应用于具有挑战性的接触式操纵任务的集合中,我们证明了基于模型的有效运动计划可以实现与RL相当的结果,而计算却大大较少。视频:https://youtu.be/12ew4xc-vwa
translated by 谷歌翻译
基于格子的运动规划是一种混合规划方法,在那里同时由离散行动组成的计划是一种物理可行的轨迹。规划考虑了离散和持续的方面,例如在配置空间中的碰撞动作持续时间。安全运动刨削依赖于校准的安全边缘进行碰撞检查。轨迹跟踪控制器必须进一步能够可靠地在此安全裕度内执行动作,以便执行安全。在这项工作中,我们关注的是关于控制器性能随时间的内省学习和推理。使用可靠和不确定性感知的计算机学习技术来学习正常控制器执行不同动作。通过纠正执行偏差,我们可以大大降低运动动作的安全余量。推理到两者都验证学习模型是否安全,并通过使用具有较小安全余量的更准确的执行预测来改善运动计划中的碰撞检查效果。所提出的方法允许在正常情况下明确对控制器性能的认识,并及时检测异常情况下的不正确性能。使用模拟在3D中的Quadcopter的非线性动态进行评估。视频:https://youtu.be/stmzduvsumm.
translated by 谷歌翻译
安全至关重要的应用中神经网络(NNS)的患病率的增加,要求采用证明安全行为的方法。本文提出了一种向后的可及性方法,以安全验证神经反馈循环(NFLS),即具有NN控制策略的闭环系统。尽管最近的作品集中在远程达到NFL的安全认证策略上,但落后性能比远期策略具有优势,尤其是在避免障碍的情况下。先前的工作已经开发了用于无NNS系统的向后可及性分析的技术,但是由于其激活功能的非线性,反馈回路中的NNS存在唯一的问题,并且由于NN模型通常不可逆转。为了克服这些挑战,我们使用现有的NN分析工具有效地找到了对反射(BP)集的过度评估,即NN控制策略将将系统驱动到给定目标集的状态集。我们介绍了用于计算以馈电NN表示的控制策略的线性和非线性系统的BP过度评估的框架,并提出了计算有效的策略。我们使用各种模型的数值结果来展示所提出的算法,包括6D系统的安全认证。
translated by 谷歌翻译