由于存在动态变化,在标称环境中培训的强化学习(RL)策略可能在新的/扰动环境中失败。现有的强大方法通过强大或对冲培训,为所有设想的动态变化方案获得固定策略。由于强调最坏情况,这些方法可能导致保守表现,并且往往涉及对培训环境的繁琐修改。我们提出了一种方法来强制使用$ \ Mathcal {L} _1 $自适应控制的预先训练的非强大RL策略。利用$ \ mathcal {l} _1 $控制法在快速估计和主动补偿的动态变化中的能力中,我们的方法可以显着提高标准(即非鲁棒)方式培训的RL策略的鲁棒性,无论是在模拟器还是在现实世界中。提供了数值实验以验证所提出的方法的功效。
translated by 谷歌翻译
由于存在动态变化,在标称环境中培训的强化学习(RL)控制策略可能在新的/扰动环境中失败。为了控制具有连续状态和动作空间的系统,我们提出了一种加载方法,通过使用$ \ mathcal {l} _ {1} $自适应控制器($ \ mathcal {l} _{1} $ AC)。利用$ \ mathcal {l} _ {1} $ AC的能力进行快速估计和动态变化的主动补偿,所提出的方法可以提高RL策略的稳健性,该策略在模拟器或现实世界中培训不考虑广泛的动态变化。数值和现实世界实验经验证明了所提出的方法在使用无模型和基于模型的方法训练的RL政策中的强制性策略的功效。用于真正的拼图设置实验的视频是可用的://youtu.be/xgob9vpyuge。
translated by 谷歌翻译
将无人机应用扩展到复杂任务的研究需要稳定的控制框架。最近,在许多研究中,对机器人控制以完成复杂的任务进行了深入的强化学习(RL)算法。不幸的是,由于难以解释博学的政策和缺乏稳定保证,尤其是对于诸如攀岩无人机之类的复杂任务,因此深入的RL算法可能不适合直接部署到现实世界的机器人平台中。本文提出了一种新型的混合体系结构,该结构通过使用无模型的Deep RL算法学习的强大策略来增强名义控制器。所提出的架构采用不确定性感受的控制搅拌机来保留名义控制器的保证稳定性,同时使用学习策略的扩展性能。该政策在模拟环境中进行了数千个域随机化的培训,以实现多样化的不确定性的稳健性能。通过现实世界实验验证了所提出的方法的性能,然后与传统的控制器和经过香草深RL算法训练的基于最新的学习控制器进行了比较。
translated by 谷歌翻译
本文提出了针对四方的通用自适应控制器,可以将其部署为零射击到具有截然不同的质量,手臂长度和运动常数的四轮驱动器,并且还显示出对运行时未知干扰的快速适应。核心算法的想法是学习一个单一的策略,该策略不仅可以在测试时间在线适应无人机的干扰,还可以在同一框架中适用于机器人动力学和硬件。我们通过训练神经网络来估计机器人和环境参数的潜在表示,该参数用于调节控制器的行为,也表示为神经网络。我们专门训练两个网络进行模拟,目的是将四轮驱动器飞往目标位置并避免撞击地面。我们直接在模拟中训练了相同的控制器,而没有对两个四肢旋转器进行任何修改,其中质量,惯性差异差异,最大电动机速度最大为4次。此外,我们显示了四肢和惯性的突然和大型干扰(最高35.7%)的快速适应。我们在模拟和物理世界中进行了广泛的评估,在该评估中,我们的表现优于最先进的基于学习的自适应控制器和专门针对每个平台的传统PID控制器。视频结果可以在https://dz298.github.io/universal-drone-controller/上找到。
translated by 谷歌翻译
过去半年来,从控制和强化学习社区的真实机器人部署的安全学习方法的贡献数量急剧上升。本文提供了一种简洁的但整体审查,对利用机器学习实现的最新进展,以实现在不确定因素下的安全决策,重点是统一控制理论和加固学习研究中使用的语言和框架。我们的评论包括:基于学习的控制方法,通过学习不确定的动态,加强学习方法,鼓励安全或坚固性的加固学习方法,以及可以正式证明学习控制政策安全的方法。随着基于数据和学习的机器人控制方法继续获得牵引力,研究人员必须了解何时以及如何最好地利用它们在安全势在必行的现实情景中,例如在靠近人类的情况下操作时。我们突出了一些开放的挑战,即将在未来几年推动机器人学习领域,并强调需要逼真的物理基准的基准,以便于控制和加固学习方法之间的公平比较。
translated by 谷歌翻译
本文提出了一种基于匹配不确定性的非线性系统的收缩指标和干扰估计的轨迹中心学习控制方法。该方法允许使用广泛的模型学习工具,包括深神经网络,以学习不确定的动态,同时仍然在整个学习阶段提供瞬态跟踪性能的保证,包括没有学习的特殊情况。在所提出的方法中,提出了一种扰动估计法,以估计不确定性的点值,具有预计估计误差限制(EEB)。学习的动态,估计的紊乱和EEB在强大的黎曼能量条件下并入,以计算控制法,即使学习模型较差,也能保证在整个学习阶段的所需轨迹对所需轨迹的指数趋同。另一方面,具有改进的精度,学习的模型可以在高级计划器中结合,以规划更好的性能,例如降低能耗和更短的旅行时间。建议的框架在平面Quadrotor导航示例上验证。
translated by 谷歌翻译
机器人控制器的性能取决于其参数的选择,这需要仔细调整。在本文中,我们提出了DiFftune,这是一个新型,基于梯度的自动调整框架。我们的方法将动态系统和控制器作为计算图展开,并通过基于梯度的优化更新控制器参数。与常用的后传播方案不同,Difftune中的梯度是通过灵敏度传播获得的,这是一种与系统演化平行的前向模式自动分化技术。我们验证了杜宾汽车上提出的自动调节方法和在挑战性模拟环境中的四型旋转。仿真实验表明,该方法对于系统动力学和环境中的不确定性是可靠的,并且可以很好地推广到调整中看不见的轨迹。
translated by 谷歌翻译
敏锐环境中的敏捷四号飞行有可能彻底改变运输,运输和搜索和救援应用。非线性模型预测控制(NMPC)最近显示了敏捷四足电池控制的有希望的结果,但依赖于高度准确的模型以获得最大性能。因此,模拟了非模型复杂空气动力学效果,不同有效载荷和参数错配的形式的不确定性将降低整体系统性能。本文提出了L1-NMPC,一种新型混合自适应NMPC,用于在线学习模型不确定性,并立即弥补它们,大大提高了与非自适应基线的性能,最小计算开销。我们所提出的体系结构推广到许多不同的环境,我们评估风,未知的有效载荷和高度敏捷的飞行条件。所提出的方法展示了巨大的灵活性和鲁棒性,在大未知干扰下的非自适应NMPC和没有任何增益调整的情况下,超过90%的跟踪误差减少。此外,相同的控制器具有相同的增益可以准确地飞行高度敏捷的赛车轨迹,该轨迹展示最高速度为70公里/小时,相对于非自适应NMPC基线提供约50%的跟踪性能提高。
translated by 谷歌翻译
深度加强学习(RL)使得可以使用神经网络作为功能近似器来解决复杂的机器人问题。然而,在从一个环境转移到另一个环境时,在普通环境中培训的政策在泛化方面受到影响。在这项工作中,我们使用强大的马尔可夫决策过程(RMDP)来训练无人机控制策略,这将思想与强大的控制和RL相结合。它选择了悲观优化,以处理从一个环境到另一个环境的策略转移之间的潜在间隙。训练有素的控制策略是关于四转位位置控制的任务。 RL代理商在Mujoco模拟器中培训。在测试期间,使用不同的环境参数(培训期间看不见)来验证训练策略的稳健性,以从一个环境转移到另一个环境。强大的政策在这些环境中表现出标准代理,表明增加的鲁棒性增加了一般性,并且可以适应非静止环境。代码:https://github.com/adipandas/gym_multirotor
translated by 谷歌翻译
深度学习的兴起导致机器人研究中的范式转变,有利于需要大量数据的方法。在物理平台上生成这样的数据集是昂贵的。因此,最先进的方法在模拟中学习,其中数据生成快速以及廉价并随后将知识转移到真实机器人(SIM-to-Real)。尽管变得越来越真实,但所有模拟器都是基于模型的施工,因此不可避免地不完善。这提出了如何修改模拟器以促进学习机器人控制政策的问题,并克服模拟与现实之间的不匹配,通常称为“现实差距”。我们对机器人学的SIM-Teal研究提供了全面的审查,专注于名为“域随机化”的技术,这是一种从随机仿真学习的方法。
translated by 谷歌翻译
Safe reinforcement learning (RL) with assured satisfaction of hard state constraints during training has recently received a lot of attention. Safety filters, e.g., based on control barrier functions (CBFs), provide a promising way for safe RL via modifying the unsafe actions of an RL agent on the fly. Existing safety filter-based approaches typically involve learning of uncertain dynamics and quantifying the learned model error, which leads to conservative filters before a large amount of data is collected to learn a good model, thereby preventing efficient exploration. This paper presents a method for safe and efficient model-free RL using disturbance observers (DOBs) and control barrier functions (CBFs). Unlike most existing safe RL methods that deal with hard state constraints, our method does not involve model learning, and leverages DOBs to accurately estimate the pointwise value of the uncertainty, which is then incorporated into a robust CBF condition to generate safe actions. The DOB-based CBF can be used as a safety filter with any model-free RL algorithms by minimally modifying the actions of an RL agent whenever necessary to ensure safety throughout the learning process. Simulation results on a unicycle and a 2D quadrotor demonstrate that the proposed method outperforms a state-of-the-art safe RL algorithm using CBFs and Gaussian processes-based model learning, in terms of safety violation rate, and sample and computational efficiency.
translated by 谷歌翻译
现代机器人系统具有卓越的移动性和机械技能,使其适合在现实世界场景中使用,其中需要与重物和精确的操纵能力进行互动。例如,具有高有效载荷容量的腿机器人可用于灾害场景,以清除危险物质或携带受伤的人。因此,可以开发能够使复杂机器人能够准确地执行运动和操作任务的规划算法。此外,需要在线适应机制,需要新的未知环境。在这项工作中,我们强加了模型预测控制(MPC)产生的最佳状态输入轨迹满足机器人系统自适应控制中的Lyapunov函数标准。因此,我们将控制Lyapunov函数(CLF)提供的稳定性保证以及MPC在统一的自适应框架中提供的最优性,在机器人与未知对象的交互过程中产生改进的性能。我们验证了携带未建模有效载荷和拉重盒子的四足机器人的仿真和硬件测试中提出的方法。
translated by 谷歌翻译
该论文提出了两种控制方法,用于用微型四轮驱动器进行反弹式操纵。首先,对专门为反转设计设计的现有前馈控制策略进行了修订和改进。使用替代高斯工艺模型的贝叶斯优化通过在模拟环境中反复执行翻转操作来找到最佳运动原语序列。第二种方法基于闭环控制,它由两个主要步骤组成:首先,即使在模型不确定性的情况下,自适应控制器也旨在提供可靠的参考跟踪。控制器是通过通过测量数据调整的高斯过程来增强无人机的标称模型来构建的。其次,提出了一种有效的轨迹计划算法,该算法仅使用二次编程来设计可行的轨迹为反弹操作设计。在模拟和使用BitCraze Crazyflie 2.1四肢旋转器中对两种方法进行了分析。
translated by 谷歌翻译
Accurate path following is challenging for autonomous robots operating in uncertain environments. Adaptive and predictive control strategies are crucial for a nonlinear robotic system to achieve high-performance path following control. In this paper, we propose a novel learning-based predictive control scheme that couples a high-level model predictive path following controller (MPFC) with a low-level learning-based feedback linearization controller (LB-FBLC) for nonlinear systems under uncertain disturbances. The low-level LB-FBLC utilizes Gaussian Processes to learn the uncertain environmental disturbances online and tracks the reference state accurately with a probabilistic stability guarantee. Meanwhile, the high-level MPFC exploits the linearized system model augmented with a virtual linear path dynamics model to optimize the evolution of path reference targets, and provides the reference states and controls for the low-level LB-FBLC. Simulation results illustrate the effectiveness of the proposed control strategy on a quadrotor path following task under unknown wind disturbances.
translated by 谷歌翻译
模型预测控制(MPC)是一种最先进的(SOTA)控制技术,需要迭代地解决硬约束优化问题。对于不确定的动态,基于分析模型的强大MPC施加了其他约束,从而增加了问题的硬度。当需要在较少的时间内需要更多计算时,问题会加剧性能至关重要的应用程序。过去已经提出了数据驱动的回归方法,例如神经网络,以近似系统动力学。但是,在没有符号分析先验的情况下,此类模型依赖于大量标记的数据。这会产生非平凡的培训间接开销。物理知识的神经网络(PINN)以合理的精度获得了近似的普通微分方程(ODE)的非线性系统的吸引力。在这项工作中,我们通过PINNS(RAMP-NET)提出了一个强大的自适应MPC框架,该框架使用了一种神经网络,部分从简单的ODE中训练,部分是由数据训练的。物理损失用于学习代表理想动态的简单odes。访问损失函数内部的分析功能是正常化的,为参数不确定性执行了可靠的行为。另一方面,定期数据丢失用于适应剩余的干扰(非参数不确定性),在数学建模过程中未被误解。实验是在模拟环境中进行的,以进行四轨的轨迹跟踪。与两种基于SOTA回归的MPC方法相比,我们报告了7.8%至43.2%和8.04%和8.04%至61.5%的跟踪误差的降低。
translated by 谷歌翻译
随着机器人在现实世界中冒险,他们受到无意义的动态和干扰。在相对静态和已知的操作环境中已成功地证明了基于传统的基于模型的控制方法。但是,当机器人的准确模型不可用时,基于模型的设计可能导致次优甚至不安全的行为。在这项工作中,我们提出了一种桥接模型 - 现实差距的方法,并且即使存在动态不确定性,也能够应用基于模型的方法。特别地,我们介绍基于学习的模型参考适应方法,其使机器人系统具有可能不确定的动态,表现为预定义的参考模型。反过来,参考模型可用于基于模型的控制器设计。与典型的模型参考调整控制方法相比,我们利用神经网络的代表性力量来捕获高度非线性动力学的不确定性,并通过在称为Lipschitz网络的特殊类型神经网络的建筑设计中编码认证嘴唇条件来捕获高度非线性动力学的不确定性和保证稳定性。即使我们的关于真正的机器人系统的先验知识有限,我们的方法也适用于一般的非线性控制仿射系统。我们展示了我们在飞行倒置摆的方法中的方法,其中一个搁板的四轮电机被挑战,以平衡倒挂摆在悬停或跟踪圆形轨迹时。
translated by 谷歌翻译
We propose a learning-based robust predictive control algorithm that compensates for significant uncertainty in the dynamics for a class of discrete-time systems that are nominally linear with an additive nonlinear component. Such systems commonly model the nonlinear effects of an unknown environment on a nominal system. We optimize over a class of nonlinear feedback policies inspired by certainty equivalent "estimate-and-cancel" control laws pioneered in classical adaptive control to achieve significant performance improvements in the presence of uncertainties of large magnitude, a setting in which existing learning-based predictive control algorithms often struggle to guarantee safety. In contrast to previous work in robust adaptive MPC, our approach allows us to take advantage of structure (i.e., the numerical predictions) in the a priori unknown dynamics learned online through function approximation. Our approach also extends typical nonlinear adaptive control methods to systems with state and input constraints even when we cannot directly cancel the additive uncertain function from the dynamics. We apply contemporary statistical estimation techniques to certify the system's safety through persistent constraint satisfaction with high probability. Moreover, we propose using Bayesian meta-learning algorithms that learn calibrated model priors to help satisfy the assumptions of the control design in challenging settings. Finally, we show in simulation that our method can accommodate more significant unknown dynamics terms than existing methods and that the use of Bayesian meta-learning allows us to adapt to the test environments more rapidly.
translated by 谷歌翻译
由于非线性动力学,执行器约束和耦合的纵向和横向运动,部分地,固定翼无人驾驶飞行器(无人机)的姿态控制是一个困难的控制问题。目前的最先进的自动驾驶仪基于线性控制,因此有限于其有效性和性能。深度加强学习(DRL)是一种通过与受控系统的交互自动发现最佳控制法的机器学习方法,可以处理复杂的非线性动态。我们在本文中展示DRL可以成功学习直接在原始非线性动态上运行的固定翼UAV的态度控制,需要短至三分钟的飞行数据。我们最初在仿真环境中培训我们的模型,然后在飞行测试中部署无人机的学习控制器,向最先进的ArduplaneProportional-Integry-artivation(PID)姿态控制器的表现展示了可比的性能,而无需进一步的在线学习。为了更好地理解学习控制器的操作,我们呈现了对其行为的分析,包括与现有良好调整的PID控制器的比较。
translated by 谷歌翻译
行动调速器是标称控制循环的附加方案,该方案监视和调整控制措施以强制执行以端加状态和控制约束表示的安全规范。在本文中,我们介绍了系统的强大动作调速器(RAG),该动力学可以使用具有参数和加法不确定性的离散时间分段仿射(PWA)模型来表示,并受到非convex约束。我们开发了抹布的理论属性和计算方法。之后,我们介绍了抹布来实现安全加强学习(RL),即确保在线RL勘探和探索过程中的历史约束满意度。该开发使控制策略的安全实时演变和适应操作环境和系统参数的变化(由于老化,损坏等)。我们通过考虑将其应用于质量 - 弹簧式抑制系统的软地面问题来说明抹布在约束执法和安全RL中的有效性。
translated by 谷歌翻译
值得信赖的强化学习算法应有能力解决挑战性的现实问题,包括{Robustly}处理不确定性,满足{安全}的限制以避免灾难性的失败,以及在部署过程中{prencepentiming}以避免灾难性的失败}。这项研究旨在概述这些可信赖的强化学习的主要观点,即考虑其在鲁棒性,安全性和概括性上的内在脆弱性。特别是,我们给出严格的表述,对相应的方法进行分类,并讨论每个观点的基准。此外,我们提供了一个前景部分,以刺激有希望的未来方向,并简要讨论考虑人类反馈的外部漏洞。我们希望这项调查可以在统一的框架中将单独的研究汇合在一起,并促进强化学习的可信度。
translated by 谷歌翻译