本文使用总变化距离歧义集研究了分布强大的模型预测控制(MPC)的问题。对于具有加性干扰的离散时间线性系统,我们为MPC优化问题提供有条件的价值重新印度,该重新质量在预期的成本和机会限制下在分配上具有稳定性。分布稳健的机会约束被过度评估,以减轻计算负担的更简单,收紧的机会约束。数值实验支持我们的概率保证和计算效率的结果。
translated by 谷歌翻译
在本文中,我们为自主机器人提供了一种新型的模型预测控制方法,受到任意形式的不确定性。拟议的风险感知模型预测路径积分(RA-MPPI)控制利用条件价值(CVAR)度量来为安全关键的机器人应用生成最佳控制动作。与大多数现有的随机MPC和CVAR优化方法不同,这些方法将原始动力学线性化并将控制任务制定为凸面程序,而拟议的方法直接使用原始动力学,而无需限制成本函数或噪声的形式。我们将新颖的RA-MPPI控制器应用于自动驾驶汽车,以在混乱的环境中进行积极的驾驶操作。我们的仿真和实验表明,与基线MPPI控制器相比,提出的RA-MPPI控制器可以达到大约相同的圈时间,而碰撞的碰撞明显少得多。所提出的控制器以高达80Hz的更新频率执行在线计算,利用现代图形处理单元(GPU)来进行多线程轨迹以及CVAR值的生成。
translated by 谷歌翻译
过去半年来,从控制和强化学习社区的真实机器人部署的安全学习方法的贡献数量急剧上升。本文提供了一种简洁的但整体审查,对利用机器学习实现的最新进展,以实现在不确定因素下的安全决策,重点是统一控制理论和加固学习研究中使用的语言和框架。我们的评论包括:基于学习的控制方法,通过学习不确定的动态,加强学习方法,鼓励安全或坚固性的加固学习方法,以及可以正式证明学习控制政策安全的方法。随着基于数据和学习的机器人控制方法继续获得牵引力,研究人员必须了解何时以及如何最好地利用它们在安全势在必行的现实情景中,例如在靠近人类的情况下操作时。我们突出了一些开放的挑战,即将在未来几年推动机器人学习领域,并强调需要逼真的物理基准的基准,以便于控制和加固学习方法之间的公平比较。
translated by 谷歌翻译
我们提出了一个框架,用于稳定验证混合智能线性编程(MILP)代表控制策略。该框架比较了固定的候选策略,该策略承认有效的参数化,可以以低计算成本进行评估,与固定基线策略进行评估,固定基线策略已知稳定但评估昂贵。我们根据基线策略的最坏情况近似错误为候选策略的闭环稳定性提供了足够的条件,我们表明可以通过求解混合构成二次计划(MIQP)来检查这些条件。 。此外,我们证明可以通过求解MILP来计算候选策略的稳定区域的外部近似。所提出的框架足以容纳广泛的候选策略,包括Relu神经网络(NNS),参数二次程序的最佳解决方案图以及模型预测性控制(MPC)策略。我们还根据提议的框架在Python中提供了一个开源工具箱,该工具可以轻松验证自定义NN架构和MPC公式。我们在DC-DC电源转换器案例研究的背景下展示了框架的灵活性和可靠性,并研究了计算复杂性。
translated by 谷歌翻译
我们提出了一个模型预测控制(MPC),以避免自治药物和动态障碍之间的碰撞。避免碰撞的限制是通过在代表代理和障碍物的凸组之间执行正距离的,并使用Lagrange二重性进行了谨慎地对其进行重新校正。这种方法即使对于多面体来说也可以平稳避免碰撞限制,否则需要混合组合或非平滑限制。我们考虑了不确定障碍位置的三种广泛使用的描述:1)具有多重支持的任意分布,2)高斯分布和3)任意分布,并以已知的前两个矩。对于每种情况,我们都会获得避免碰撞限制的确定性重新制定。拟议的MPC公式优化了反馈政策,以减少满足碰撞避免限制的保守主义。使用卡拉中交通交叉点的模拟对所提出的方法进行了验证。
translated by 谷歌翻译
由于围绕机器人的未来轨迹的不确定性,安全导航是多机器人系统中的一个基本挑战,这些轨迹彼此相互障碍。在这项工作中,我们提出了一种原则性的数据驱动方法,每个机器人都反复解决一个有限的地平线优化问题,但要避免碰撞限制,后者被表达为代理商和代理之间距离的分布稳健的条件价值风险(CVAR)多面体障碍物几何形状。具体而言,需要CVAR约束来保留所有与从执行过程中收集的预测误差样本构成的经验分布的所有分布。该方法的一般性使我们能够在分布式和去中心化设置中普遍强加的假设下出现的预测错误鲁棒性。我们通过利用凸面和Minmax二元性结果来得出这类约束的有限尺寸近似值。在凉亭平台中实现的多人导航设置中说明了所提出的方法的有效性。
translated by 谷歌翻译
We propose a distributionally robust return-risk model for Markov decision processes (MDPs) under risk and reward ambiguity. The proposed model optimizes the weighted average of mean and percentile performances, and it covers the distributionally robust MDPs and the distributionally robust chance-constrained MDPs (both under reward ambiguity) as special cases. By considering that the unknown reward distribution lies in a Wasserstein ambiguity set, we derive the tractable reformulation for our model. In particular, we show that that the return-risk model can also account for risk from uncertain transition kernel when one only seeks deterministic policies, and that a distributionally robust MDP under the percentile criterion can be reformulated as its nominal counterpart at an adjusted risk level. A scalable first-order algorithm is designed to solve large-scale problems, and we demonstrate the advantages of our proposed model and algorithm through numerical experiments.
translated by 谷歌翻译
我们提出了一个数据驱动的投资组合选择模型,该模型使用分布稳健优化的框架来整合侧面信息,条件估计和鲁棒性。投资组合经理在观察到的侧面信息上进行条件解决了一个分配问题,该问题可最大程度地减少最坏情况下的风险回收权衡权衡,但要受到最佳运输歧义集中协变量返回概率分布的所有可能扰动。尽管目标函数在概率措施中的非线性性质非线性,但我们表明,具有侧面信息问题的分布稳健的投资组合分配可以作为有限维优化问题进行重新纠正。如果基于均值变化或均值的风险标准做出投资组合的决策,则可以进一步简化所得的重新制定为二阶或半明确锥体程序。美国股票市场的实证研究证明了我们对其他基准的综合框架的优势。
translated by 谷歌翻译
提出了在不确定环境中运行的机器人的分配强大风险分配到基于抽样的运动计划算法中的集成。我们通过将整个计划范围内定义的分配稳健的关节风险约束分解为鉴于总风险预算的个人风险限制,进行了不均匀的风险分配。具体而言,使用单个风险约束定义的确定性收紧,以定义我们提出的确切风险分配程序。我们将风险分配技术嵌入基于抽样的运动计划算法中的想法实现了保守的,但越来越多的风险可行的轨迹,以进行有效的状态探索。
translated by 谷歌翻译
This paper develops methods for proving Lyapunov stability of dynamical systems subject to disturbances with an unknown distribution. We assume only a finite set of disturbance samples is available and that the true online disturbance realization may be drawn from a different distribution than the given samples. We formulate an optimization problem to search for a sum-of-squares (SOS) Lyapunov function and introduce a distributionally robust version of the Lyapunov function derivative constraint. We show that this constraint may be reformulated as several SOS constraints, ensuring that the search for a Lyapunov function remains in the class of SOS polynomial optimization problems. For general systems, we provide a distributionally robust chance-constrained formulation for neural network Lyapunov function search. Simulations demonstrate the validity and efficiency of either formulation on non-linear uncertain dynamical systems.
translated by 谷歌翻译
轨迹优化和模型预测控制是支撑高级机器人应用的基本技巧,从自动驾驶到全身人形控制。最先进的算法专注于数据驱动的方法,该方法在线推断系统动态,并在规划和控制期间结合后部不确定性。尽管取得了成功,但这种方法仍然易于灾难性的错误,这可能由于统计学习偏见,未暗模式甚至指导的对抗性攻击而可能出现。在本文中,我们解决了动态错配的问题,并提出了一种分布稳健的最佳控制配方,其在两个相对熵信任区域优化问题之间交替。我们的方法在动态参数和相应的强大策略中找到了最坏情况的最大熵高斯高斯。我们表明,我们的方法承认某种类系统的闭合后向后通行证,并在线性和非线性数字示例展示产生的鲁棒性。
translated by 谷歌翻译
We study distributionally robust optimization (DRO) with Sinkhorn distance -- a variant of Wasserstein distance based on entropic regularization. We provide convex programming dual reformulation for a general nominal distribution. Compared with Wasserstein DRO, it is computationally tractable for a larger class of loss functions, and its worst-case distribution is more reasonable. We propose an efficient first-order algorithm with bisection search to solve the dual reformulation. We demonstrate that our proposed algorithm finds $\delta$-optimal solution of the new DRO formulation with computation cost $\tilde{O}(\delta^{-3})$ and memory cost $\tilde{O}(\delta^{-2})$, and the computation cost further improves to $\tilde{O}(\delta^{-2})$ when the loss function is smooth. Finally, we provide various numerical examples using both synthetic and real data to demonstrate its competitive performance and light computational speed.
translated by 谷歌翻译
We propose a learning-based robust predictive control algorithm that compensates for significant uncertainty in the dynamics for a class of discrete-time systems that are nominally linear with an additive nonlinear component. Such systems commonly model the nonlinear effects of an unknown environment on a nominal system. We optimize over a class of nonlinear feedback policies inspired by certainty equivalent "estimate-and-cancel" control laws pioneered in classical adaptive control to achieve significant performance improvements in the presence of uncertainties of large magnitude, a setting in which existing learning-based predictive control algorithms often struggle to guarantee safety. In contrast to previous work in robust adaptive MPC, our approach allows us to take advantage of structure (i.e., the numerical predictions) in the a priori unknown dynamics learned online through function approximation. Our approach also extends typical nonlinear adaptive control methods to systems with state and input constraints even when we cannot directly cancel the additive uncertain function from the dynamics. We apply contemporary statistical estimation techniques to certify the system's safety through persistent constraint satisfaction with high probability. Moreover, we propose using Bayesian meta-learning algorithms that learn calibrated model priors to help satisfy the assumptions of the control design in challenging settings. Finally, we show in simulation that our method can accommodate more significant unknown dynamics terms than existing methods and that the use of Bayesian meta-learning allows us to adapt to the test environments more rapidly.
translated by 谷歌翻译
我们提出了一种基于差分动态编程框架的算法,以处理轨迹优化问题,其中地平线在线确定而不是修复先验。该算法表现出直线,二次,时间不变问题的精确一步收敛,并且足够快,以便实时非线性模型预测控制。我们在离散时间案例中显示了非线性算法的派生,并将该算法应用于各种非线性问题。最后,我们展示了与标准MPC控制器相比的最佳地平线模型预测控制方案在平面机器人的障碍避免问题上的功效。
translated by 谷歌翻译
基本上有三种不确定性量化方法(UQ):(a)强大的优化,(b)贝叶斯,(c)决策理论。尽管(a)坚固,但在准确性和数据同化方面是不利的。 (b)需要先验,通常是脆弱的,后验估计可能很慢。尽管(c)导致对最佳先验的识别,但其近似遭受了维度的诅咒,风险的概念是相对于数据分布的平均值。我们引入了第四种,它是(a),(b),(c)和假设检验之间的杂种。可以总结为在观察样本$ x $之后,(1)通过相对可能性定义了可能性区域,(2)在该区域玩Minmax游戏以定义最佳估计器及其风险。最终的方法具有几种理想的属性(a)测量数据后确定了最佳先验,并且风险概念是后部的,(b)确定最佳估计值,其风险可以降低到计算最小封闭的最小封闭式。利益图量下的可能性区域图像的球(这是快速的,不受维数的诅咒)。该方法的特征在于$ [0,1] $中的参数,该参数是在观察到的数据(相对可能性)的稀有度上被假定的下限。当该参数接近$ 1 $时,该方法会产生一个后分布,该分布集中在最大似然估计的情况下,并具有较低的置信度UQ估计值。当该参数接近$ 0 $时,该方法会产生最大风险后验分布,并具有很高的信心UQ估计值。除了导航准确性不确定性权衡外,该建议的方法还通过导航与数据同化相关的稳健性 - 准确性权衡解决了贝叶斯推断的脆弱性。
translated by 谷歌翻译
在最近的文献中,学习方法与模型预测控制(MPC)的结合吸引了大量关注。这种组合的希望是减少MPC方案对准确模型的依赖,并利用快速开发的机器学习和强化学习工具,以利用许多系统可用的数据量。特别是,增强学习和MPC的结合已被认为是一种可行且理论上合理的方法,以引入可解释的,安全和稳定的政策,以实现强化学习。但是,一种正式的理论详细介绍了如何通过学习工具提供的参数更新来维持基于MPC的策略的安全性和稳定性。本文解决了这一差距。该理论是针对通用的强大MPC案例开发的,并在基于强大的管线MPC情况的模拟中应用,在该情况下,该理论在实践中很容易部署。本文着重于增强学习作为学习工具,但它适用于任何在线更新MPC参数的学习方法。
translated by 谷歌翻译
机器学习通常以经典的概率理论为前提,这意味着聚集是基于期望的。现在有多种原因可以激励人们将经典概率理论作为机器学习的数学基础。我们系统地检查了一系列强大而丰富的此类替代品,即各种称为光谱风险度量,Choquet积分或Lorentz规范。我们提出了一系列的表征结果,并演示了使这个光谱家族如此特别的原因。在此过程中,我们证明了所有连贯的风险度量的自然分层,从它们通过利用重新安排不变性Banach空间理论的结果来诱导的上层概率。我们凭经验证明了这种新的不确定性方法如何有助于解决实用的机器学习问题。
translated by 谷歌翻译
由于基本的非线性,混合和本质上不稳定的动力学,需要通过有限的接触力来稳定,因此为腿部机器人生成强大的轨迹仍然是一项具有挑战性的任务。此外,由于与环境和模型不匹配的未建模接触相互作用引起的干扰会阻碍计划轨迹的质量,从而导致不安全的运动。在这项工作中,我们建议使用随机轨迹优化来生成健壮的质心动量轨迹,以说明模型动力学和触点位置上的参数不确定性上的加法不确定性。通过强大的质心和全身轨迹优化之间的交替,我们生成了健壮的动量轨迹,同时与全身动力学保持一致。我们在四倍的机器人上执行了一组大量的模拟,这表明我们的随机轨迹优化问题减少了不同步态的脚部滑倒量,同时在确定性计划上实现了更好的性能。
translated by 谷歌翻译
我们开发了一种新型的可区分预测控制(DPC),并根据控制屏障功能确保安全性和鲁棒性保证。DPC是一种基于学习的方法,用于获得近似解决方案,以解决明确的模型预测控制(MPC)问题。在DPC中,通过自动分化MPC问题获得的直接策略梯度,通过直接策略梯度进行了脱机优化的预测控制策略。所提出的方法利用了一种新形式的采样数据屏障功能,以在DPC设置中执行离线和在线安全要求,同时仅中断安全集合边界附近的基于神经网络的控制器。在模拟中证明了拟议方法的有效性。
translated by 谷歌翻译
机器人等系统的安全操作要求它们计划和执行受安全约束的轨迹。当这些系统受到动态的不确定性的影响时,确保不违反限制是具有挑战性的。本文提出了基于受约束差分动态规划(DDP)的附加不确定性和非线性安全约束的安全轨迹,安全轨迹优化和控制方法。在其运动中的机器人的安全性被制定为机会限制了用户所选择的约束满足的概率。通过约束收紧将机会约束转换为DDP制剂中的确定性。为了避免在约束期间的过保守,从受约束的DDP导出的反馈策略的线性控制增益用于预测中的闭环不确定性传播的近似。所提出的算法在三种不同的机器人动态上进行了经验评估,模拟中具有高达12度的自由度。使用物理硬件实现对方法的计算可行性和适用性进行了说明。
translated by 谷歌翻译