强化学习(RL)和轨迹优化(TO)具有强大的互补优势。一方面,RL方法能够直接从数据中学习全球控制策略,但通常需要大型样本量以正确地收敛于可行的策略。另一方面,对方法能够利用从模拟器提取的基于梯度的信息,以快速收敛到局部最佳控制轨迹,该轨迹仅在解决方案附近有效。在过去的十年中,几种方法旨在充分结合两类方法,以获得两全其美的最佳选择。从这一研究开始,我们提出了这些方法的一些改进,以更快地学习全球控制政策,尤其是通过通过Sobolev学习来利用敏感性信息,并增强了Lagrangian技术来实施与政策学习之间的共识。我们通过与文献中的现有方法进行比较,评估了这些改进对机器人技术各种经典任务的好处。
translated by 谷歌翻译
过去半年来,从控制和强化学习社区的真实机器人部署的安全学习方法的贡献数量急剧上升。本文提供了一种简洁的但整体审查,对利用机器学习实现的最新进展,以实现在不确定因素下的安全决策,重点是统一控制理论和加固学习研究中使用的语言和框架。我们的评论包括:基于学习的控制方法,通过学习不确定的动态,加强学习方法,鼓励安全或坚固性的加固学习方法,以及可以正式证明学习控制政策安全的方法。随着基于数据和学习的机器人控制方法继续获得牵引力,研究人员必须了解何时以及如何最好地利用它们在安全势在必行的现实情景中,例如在靠近人类的情况下操作时。我们突出了一些开放的挑战,即将在未来几年推动机器人学习领域,并强调需要逼真的物理基准的基准,以便于控制和加固学习方法之间的公平比较。
translated by 谷歌翻译
Force modulation of robotic manipulators has been extensively studied for several decades. However, it is not yet commonly used in safety-critical applications due to a lack of accurate interaction contact modeling and weak performance guarantees - a large proportion of them concerning the modulation of interaction forces. This study presents a high-level framework for simultaneous trajectory optimization and force control of the interaction between a manipulator and soft environments, which is prone to external disturbances. Sliding friction and normal contact force are taken into account. The dynamics of the soft contact model and the manipulator are simultaneously incorporated in a trajectory optimizer to generate desired motion and force profiles. A constrained optimization framework based on Alternative Direction Method of Multipliers (ADMM) has been employed to efficiently generate real-time optimal control inputs and high-dimensional state trajectories in a Model Predictive Control fashion. Experimental validation of the model performance is conducted on a soft substrate with known material properties using a Cartesian space force control mode. Results show a comparison of ground truth and real-time model-based contact force and motion tracking for multiple Cartesian motions in the valid range of the friction model. It is shown that a contact model-based motion planner can compensate for frictional forces and motion disturbances and improve the overall motion and force tracking accuracy. The proposed high-level planner has the potential to facilitate the automation of medical tasks involving the manipulation of compliant, delicate, and deformable tissues.
translated by 谷歌翻译
Policy search methods can allow robots to learn control policies for a wide range of tasks, but practical applications of policy search often require hand-engineered components for perception, state estimation, and low-level control. In this paper, we aim to answer the following question: does training the perception and control systems jointly end-toend provide better performance than training each component separately? To this end, we develop a method that can be used to learn policies that map raw image observations directly to torques at the robot's motors. The policies are represented by deep convolutional neural networks (CNNs) with 92,000 parameters, and are trained using a guided policy search method, which transforms policy search into supervised learning, with supervision provided by a simple trajectory-centric reinforcement learning method. We evaluate our method on a range of real-world manipulation tasks that require close coordination between vision and control, such as screwing a cap onto a bottle, and present simulated comparisons to a range of prior policy search methods.
translated by 谷歌翻译
我们提出了一个用于机器人应用专业的非凸轨迹优化问题的新求解器。Calipso或Conic增强Lagrangian内点求解器,结合了几种约束数值优化的策略,以本机处理二阶锥体和互补性约束。它可靠地解决了具有挑战性的运动规划问题,其中包括影响和库仑摩擦的接触式图形,受锥形约束的推力限制以及受国家触发的约束,而通用非线性编程溶液(如Snopt和iPopt)无法融合。此外,Calipso支持有关问题数据的有效分化,从而实现了双层优化应用程序,例如自动调整反馈策略。求解器的可靠收敛性在操纵,运动和航空航天域的一系列问题上得到了证明。可以使用该求解器的开源实现。
translated by 谷歌翻译
策略搜索和模型预测控制〜(MPC)是机器人控制的两个不同范式:策略搜索具有使用经验丰富的数据自动学习复杂策略的强度,而MPC可以使用模型和轨迹优化提供最佳控制性能。开放的研究问题是如何利用并结合两种方法的优势。在这项工作中,我们通过使用策略搜索自动选择MPC的高级决策变量提供答案,这导致了一种新的策略搜索 - 用于模型预测控制框架。具体地,我们将MPC作为参数化控制器配制,其中难以优化的决策变量表示为高级策略。这种制定允许以自我监督的方式优化政策。我们通过专注于敏捷无人机飞行中的具有挑战性的问题来验证这一框架:通过快速的盖茨飞行四轮车。实验表明,我们的控制器在模拟和现实世界中实现了鲁棒和实时的控制性能。拟议的框架提供了合并学习和控制的新视角。
translated by 谷歌翻译
In contrast to the control-theoretic methods, the lack of stability guarantee remains a significant problem for model-free reinforcement learning (RL) methods. Jointly learning a policy and a Lyapunov function has recently become a promising approach to ensuring the whole system with a stability guarantee. However, the classical Lyapunov constraints researchers introduced cannot stabilize the system during the sampling-based optimization. Therefore, we propose the Adaptive Stability Certification (ASC), making the system reach sampling-based stability. Because the ASC condition can search for the optimal policy heuristically, we design the Adaptive Lyapunov-based Actor-Critic (ALAC) algorithm based on the ASC condition. Meanwhile, our algorithm avoids the optimization problem that a variety of constraints are coupled into the objective in current approaches. When evaluated on ten robotic tasks, our method achieves lower accumulated cost and fewer stability constraint violations than previous studies.
translated by 谷歌翻译
使用逆动力学的最佳控制(OC)提供了数值益处,例如粗略优化,更便宜的衍生物计算和高收敛速率。但是,为了利用腿部机器人的模型预测控制(MPC)中的这些好处,有效处理其大量平等约束至关重要。为此,我们首先(i)提出了一种新的方法来处理基于NullSpace参数化的平等约束。我们的方法可以适当地平衡最优性,以及动态和平等构成可行性,从而增加了吸引到良好本地最小值的盆地。为此,我们(ii)(ii)通过合并功能功能来调整以可行性为导向的搜索。此外,我们介绍了(iii)的(iii)对考虑任意执行器模型的反向动力学的凝结公式。我们还基于感知运动框架中基于反向动力学的新型MPC(iv)。最后,我们提出(v)最佳控制与正向动力学和逆动力学的理论比较,并通过数值评估。我们的方法使逆动力学MPC在硬件上首次应用,从而在Anymal机器人上进行了最新的动态攀登。我们在广泛的机器人问题上进行基准测试,并产生敏捷和复杂的动作。我们显示了我们的无空间分辨率和凝结配方的计算降低(高达47.3%)。我们通过以高收敛速率解决粗略优化问题(最多10 Hz离散化)来提供方法的益处。我们的算法在Crocoddyl内公开可用。
translated by 谷歌翻译
差分动态编程(DDP)是用于轨迹优化的直接单射击方法。它的效率来自对时间结构的开发(最佳控制问题固有的)和系统动力学的明确推出/集成。但是,它具有数值不稳定,与直接多个射击方法相比,它的初始化选项有限(允许对控件的初始化,但不能对状态进行初始化),并且缺乏对控制约束的正确处理。在这项工作中,我们采用可行性驱动的方法来解决这些问题,该方法调节数值优化过程中的动态可行性并确保控制限制。我们的可行性搜索模拟了只有动态约束的直接多重拍摄问题的数值解决。我们证明我们的方法(命名为box-fddp)具有比Box-DDP+(单个射击方法)更好的数值收敛性,并且其收敛速率和运行时性能与使用The Solded Sound的最新直接转录配方竞争内部点和主动集算法在Knitro中提供。我们进一步表明,Box-FDP可以单调地降低动态可行性误差 - 与最先进的非线性编程算法相同。我们通过为四足动物和人形机器人产生复杂而运动的运动来证明我们的方法的好处。最后,我们强调说,Box-FDDP适用于腿部机器人中的模型预测控制。
translated by 谷歌翻译
由于机器人动力学中的固有非线性,腿部机器人全身动作的在线计划具有挑战性。在这项工作中,我们提出了一个非线性MPC框架,该框架可以通过有效利用机器人动力学结构来在线生成全身轨迹。Biconmp用于在真正的四倍机器人上生成各种环状步态,其性能在不同的地形上进行了评估,对抗不同步态之间的不可预见的推动力并在线过渡。此外,提出了双孔在机器人上产生非平凡无环的全身动态运动的能力。同样的方法也被用来在人体机器人(TALOS)上产生MPC的各种动态运动,并在模拟中产生另一个四倍的机器人(Anymal)。最后,报告并讨论了对计划范围和频率对非线性MPC框架的影响的广泛经验分析。
translated by 谷歌翻译
机器人和与世界相互作用或互动的机器人和智能系统越来越多地被用来自动化各种任务。这些系统完成这些任务的能力取决于构成机器人物理及其传感器物体的机械和电气部件,例如,感知算法感知环境,并计划和控制算法以生产和控制算法来生产和控制算法有意义的行动。因此,通常有必要在设计具体系统时考虑这些组件之间的相互作用。本文探讨了以端到端方式对机器人系统进行任务驱动的合作的工作,同时使用推理或控制算法直接优化了系统的物理组件以进行任务性能。我们首先考虑直接优化基于信标的本地化系统以达到本地化准确性的问题。设计这样的系统涉及将信标放置在整个环境中,并通过传感器读数推断位置。在我们的工作中,我们开发了一种深度学习方法,以直接优化信标的放置和位置推断以达到本地化精度。然后,我们将注意力转移到了由任务驱动的机器人及其控制器优化的相关问题上。在我们的工作中,我们首先提出基于多任务增强学习的数据有效算法。我们的方法通过利用能够在物理设计的空间上概括设计条件的控制器,有效地直接优化了物理设计和控制参数,以直接优化任务性能。然后,我们对此进行跟进,以允许对离散形态参数(例如四肢的数字和配置)进行优化。最后,我们通过探索优化的软机器人的制造和部署来得出结论。
translated by 谷歌翻译
与函数近似(特别是神经网络)结合轨迹优化的最新进步在机器人系统中为学习复杂的控制策略提供了许可。尽管具有极大的灵活性,但参数化控制政策的大型神经网络造成了重大挑战。学习的神经控制政策通常超越和非平滑,这很容易引起意外或发散的机器人运动。因此,他们经常在实践中产生较差的概括性表现。为了解决这个问题,我们提出了通过轨迹优化(Veronica)为引导的对抗的正常规则学习,以学习顺利控制政策。具体地,我们所提出的方法通过稳定对输入状态的最坏情况扰动来稳定输出控制来控制神经控制政策的平滑度(本地Lipschitz连续性)。我们对机器人操纵的实验表明,我们的建议方法不仅可以提高神经政策学习的样本效率,而且还提高了对各种类型的骚乱的鲁棒性,包括传感器噪声,环境不确定性和模型不匹配。
translated by 谷歌翻译
我们为双级轨迹优化提供了一个框架,其中系统的动态被编码为对受约束优化问题的解决方案,并且将该较低级别问题的平滑梯度传递给上限轨迹优化器。基于优化的动态表示可实现约束处理,附加变量和非平滑行为,以便远离上层优化器,并允许经典的无约束优化器合成用于更复杂的系统的轨迹。我们提供了一种路径,以便有效地评估受限的动态,并利用隐式功能定理来计算此表示的平滑梯度。我们通过从机器人,航空航天和操纵域建模系统展示了框架,包括:杂志,带有联合限制,卡车杆受到库仑摩擦,Raibert Hopper,火箭落地的推力限制,以及基于优化的动态的平面推送任务然后使用迭代LQR优化轨迹。
translated by 谷歌翻译
机器人系统的控制设计很复杂,通常需要解决优化才能准确遵循轨迹。在线优化方法(例如模型预测性控制(MPC))已被证明可以实现出色的跟踪性能,但需要高计算能力。相反,基于学习的离线优化方法,例如加固学习(RL),可以在机器人上快速有效地执行,但几乎不匹配MPC在轨迹跟踪任务中的准确性。在具有有限计算的系统(例如航空车)中,必须在执行时间有效的精确控制器。我们提出了一种分析策略梯度(APG)方法来解决此问题。 APG通过在跟踪误差上以梯度下降的速度训练控制器来利用可区分的模拟器的可用性。我们解决了通过课程学习和实验经常在广泛使用的控制基准,Cartpole和两个常见的空中机器人,一个四极管和固定翼无人机上进行的训练不稳定性。在跟踪误差方面,我们提出的方法优于基于模型和无模型的RL方法。同时,它达到与MPC相似的性能,同时需要少于数量级的计算时间。我们的工作为APG作为机器人技术的有前途的控制方法提供了见解。为了促进对APG的探索,我们开放代码并在https://github.com/lis-epfl/apg_traightory_tracking上提供。
translated by 谷歌翻译
我们考虑在一个有限时间范围内的离散时间随机动力系统的联合设计和控制。我们将问题作为一个多步优化问题,在寻求识别系统设计和控制政策的不确定性下,共同最大化所考虑的时间范围内收集的预期奖励总和。转换函数,奖励函数和策略都是参数化的,假设与其参数有所不同。然后,我们引入了一种深度加强学习算法,将策略梯度方法与基于模型的优化技术相结合以解决这个问题。从本质上讲,我们的算法迭代地估计通过Monte-Carlo采样和自动分化的预期返回的梯度,并在环境和策略参数空间中投影梯度上升步骤。该算法称为直接环境和策略搜索(DEPS)。我们评估我们算法在三个环境中的性能,分别在三种环境中进行了一个群众弹簧阻尼系统的设计和控制,分别小型离网电力系统和无人机。此外,我们的算法是针对用于解决联合设计和控制问题的最先进的深增强学习算法的基准测试。我们表明,在所有三种环境中,DEPS至少在或更好地执行,始终如一地产生更高的迭代返回的解决方案。最后,通过我们的算法产生的解决方案也与由算法产生的解决方案相比,不共同优化环境和策略参数,突出显示在执行联合优化时可以实现更高返回的事实。
translated by 谷歌翻译
元学习是机器学习的一个分支,它训练神经网络模型以合成各种数据,以快速解决新问题。在过程控制中,许多系统具有相似且充分理解的动力学,这表明可以通过元学习创建可推广的控制器是可行的。在这项工作中,我们制定了一种元加强学习(META-RL)控制策略,该策略可用于调整比例的整体控制器。我们的Meta-RL代理具有复发结构,该结构累积了“上下文”,以通过闭环中的隐藏状态变量学习系统的动力学。该体系结构使代理能够自动适应过程动力学的变化。在此处报告的测试中,对元RL代理完全离线训练了一阶和时间延迟系统,并从相同的训练过程动力学分布中得出的新型系统产生了出色的效果。一个关键的设计元素是能够在模拟环境中训练期间离线利用基于模型的信息,同时保持无模型的策略结构,以与真实过程动态不确定性的新过程进行交互。元学习是一种构建样品有效智能控制器的有前途的方法。
translated by 谷歌翻译
从意外的外部扰动中恢复的能力是双模型运动的基本机动技能。有效的答复包括不仅可以恢复平衡并保持稳定性的能力,而且在平衡恢复物质不可行时,也可以保证安全的方式。对于与双式运动有关的机器人,例如人形机器人和辅助机器人设备,可帮助人类行走,设计能够提供这种稳定性和安全性的控制器可以防止机器人损坏或防止伤害相关的医疗费用。这是一个具有挑战性的任务,因为它涉及用触点产生高维,非线性和致动系统的高动态运动。尽管使用基于模型和优化方法的前进方面,但诸如广泛领域知识的要求,诸如较大的计算时间和有限的动态变化的鲁棒性仍然会使这个打开问题。在本文中,为了解决这些问题,我们开发基于学习的算法,能够为两种不同的机器人合成推送恢复控制政策:人形机器人和有助于双模型运动的辅助机器人设备。我们的工作可以分为两个密切相关的指示:1)学习人形机器人的安全下降和预防策略,2)使用机器人辅助装置学习人类的预防策略。为实现这一目标,我们介绍了一套深度加强学习(DRL)算法,以学习使用这些机器人时提高安全性的控制策略。
translated by 谷歌翻译
在腿部机器人技术中,计划和执行敏捷的机动演习一直是一个长期的挑战。它需要实时得出运动计划和本地反馈政策,以处理动力学动量的非物质。为此,我们提出了一个混合预测控制器,该控制器考虑了机器人的致动界限和全身动力学。它将反馈政策与触觉信息相结合,以在本地预测未来的行动。由于采用可行性驱动的方法,它在几毫秒内收敛。我们的预测控制器使Anymal机器人能够在现实的场景中生成敏捷操作。关键要素是跟踪本地反馈策略,因为与全身控制相反,它们达到了所需的角动量。据我们所知,我们的预测控制器是第一个处理驱动限制,生成敏捷的机动操作以及执行低级扭矩控制的最佳反馈策略,而无需使用单独的全身控制器。
translated by 谷歌翻译
在本文中,我们研究了加强学习问题的安全政策的学习。这是,我们的目标是控制我们不知道过渡概率的马尔可夫决策过程(MDP),但我们通过经验访问样品轨迹。我们将安全性定义为在操作时间内具有高概率的期望安全集中的代理。因此,我们考虑受限制的MDP,其中限制是概率。由于没有直接的方式来优化关于加强学习框架中的概率约束的政策,因此我们提出了对问题的遍历松弛。拟议的放松的优点是三倍。 (i)安全保障在集界任务的情况下保持,并且它们保持在一个给定的时间范围内,以继续进行任务。 (ii)如果政策的参数化足够丰富,则约束优化问题尽管其非凸起具有任意小的二元间隙。 (iii)可以使用标准策略梯度结果和随机近似工具容易地计算与安全学习问题相关的拉格朗日的梯度。利用这些优势,我们建立了原始双算法能够找到安全和最佳的政策。我们在连续域中的导航任务中测试所提出的方法。数值结果表明,我们的算法能够将策略动态调整到环境和所需的安全水平。
translated by 谷歌翻译
机器人等系统的安全操作要求它们计划和执行受安全约束的轨迹。当这些系统受到动态的不确定性的影响时,确保不违反限制是具有挑战性的。本文提出了基于受约束差分动态规划(DDP)的附加不确定性和非线性安全约束的安全轨迹,安全轨迹优化和控制方法。在其运动中的机器人的安全性被制定为机会限制了用户所选择的约束满足的概率。通过约束收紧将机会约束转换为DDP制剂中的确定性。为了避免在约束期间的过保守,从受约束的DDP导出的反馈策略的线性控制增益用于预测中的闭环不确定性传播的近似。所提出的算法在三种不同的机器人动态上进行了经验评估,模拟中具有高达12度的自由度。使用物理硬件实现对方法的计算可行性和适用性进行了说明。
translated by 谷歌翻译