近年来,机器人技术的最佳控制越来越流行,并且已应用于许多涉及复杂动力系统的应用中。闭环最佳控制策略包括模型预测控制(MPC)和通过ILQR优化的时变线性控制器。但是,此类反馈控制器依赖于当前状态的信息,从而限制了机器人需要记住其在采取行动和相应计划的机器人应用程序范围。最近提出的系统级合成(SLS)框架通过带有内存的较富裕控制器结构来规避此限制。在这项工作中,我们建议通过将SLS扩展到跟踪涉及非线性系统和非二次成本功能的问题,以最佳设计具有记忆力的反应性预期机器人技能。我们以两种情况来展示我们的方法,这些方案利用任务精确度和对象在模拟和真实环境中使用7轴的Franka Emika机器人提供的挑选和位置任务。
translated by 谷歌翻译
Policy search methods can allow robots to learn control policies for a wide range of tasks, but practical applications of policy search often require hand-engineered components for perception, state estimation, and low-level control. In this paper, we aim to answer the following question: does training the perception and control systems jointly end-toend provide better performance than training each component separately? To this end, we develop a method that can be used to learn policies that map raw image observations directly to torques at the robot's motors. The policies are represented by deep convolutional neural networks (CNNs) with 92,000 parameters, and are trained using a guided policy search method, which transforms policy search into supervised learning, with supervision provided by a simple trajectory-centric reinforcement learning method. We evaluate our method on a range of real-world manipulation tasks that require close coordination between vision and control, such as screwing a cap onto a bottle, and present simulated comparisons to a range of prior policy search methods.
translated by 谷歌翻译
机器人布操作是自动机器人系统的相关挑战性问题。高度可变形的对象,因为纺织品在操纵过程中可以采用多种配置和形状。因此,机器人不仅应该了解当前的布料配置,还应能够预测布的未来行为。本文通过使用模型预测控制(MPC)策略在对象的其他部分应用动作,从而解决了间接控制纺织对象某些点的配置的问题,该策略还允许间接控制的行为点。设计的控制器找到了最佳控制信号,以实现所需的未来目标配置。本文中的探索场景考虑了通过抓住其上角,以平方布的下角跟踪参考轨迹。为此,我们提出并验证线性布模型,该模型允许实时解决与MPC相关的优化问题。增强学习(RL)技术用于学习所提出的布模型的最佳参数,并调整所得的MPC。在模拟中获得准确的跟踪结果后,在真实的机器人中实现并执行了完整的控制方案,即使在不利条件下也可以获得准确的跟踪。尽管总观察到的误差达到5 cm标记,但对于30x30 cm的布,分析表明,MPC对该值的贡献少于30%。
translated by 谷歌翻译
每日操纵任务的特征是与动作和对象形状相关的几何基原始人。这样的几何描述符仅通过使用笛卡尔坐标系统而差异很差。在本文中,我们提出了一种学习方法,以从坐标系词典中提取最佳表示,以编码观察到的运动/行为。这是通过在Riemannian歧管上使用高斯分布的扩展来实现的,该分布用于通过将多个几何形状作为任务的候选表示来分析一组用户演示。我们根据迭代线性二次调节器(ILQR)提出了复制问题作为一般最佳控制问题,其中使用提取的坐标系中的高斯分布来定义成本函数。我们将方法应用于模拟和7轴Franka Emika机器人中的对象抓握和箱式打开任务。结果表明,机器人可以利用几个几何形状来执行操纵任务并将其推广到新情况下,通过维护感兴趣的坐标系中任务的不变特征。
translated by 谷歌翻译
由于机器人动力学中的固有非线性,腿部机器人全身动作的在线计划具有挑战性。在这项工作中,我们提出了一个非线性MPC框架,该框架可以通过有效利用机器人动力学结构来在线生成全身轨迹。Biconmp用于在真正的四倍机器人上生成各种环状步态,其性能在不同的地形上进行了评估,对抗不同步态之间的不可预见的推动力并在线过渡。此外,提出了双孔在机器人上产生非平凡无环的全身动态运动的能力。同样的方法也被用来在人体机器人(TALOS)上产生MPC的各种动态运动,并在模拟中产生另一个四倍的机器人(Anymal)。最后,报告并讨论了对计划范围和频率对非线性MPC框架的影响的广泛经验分析。
translated by 谷歌翻译
模型预测控制(MPC)方案已经证明了它们在控制高自由度(DOF)复杂机器人系统方面的效率。但是,它们的计算成本很高,更新速度约为数十万。这种相对较慢的更新速率阻碍了这种系统稳定的触觉远程操作的可能性,因为缓慢的反馈回路可能会导致对操作员的不稳定性和透明度的丧失。这项工作为MPC控制的复杂机器人系统的透明远程操作提供了一个新颖的框架。特别是,我们采用反馈MPC方法并利用其结构来以快速速率计算运营商输入,该快速速率与MPC循环本身的更新率无关。我们在移动操纵器平台上演示了我们的框架,并表明它可以显着提高触觉远程操作的透明度和稳定性。我们还强调,所提出的反馈结构是令人满意的,并且不违反最佳控制问题中定义的任何约束。据我们所知,这项工作是使用全身MPC框架的双边操纵器的双边远程操作的首次实现。
translated by 谷歌翻译
模型预测控制是为机器人生成复杂动作的强大工具。但是,它通常需要在线解决非凸问题以产生丰富的行为,这在计算上很昂贵,并且并非总是实时实用的。此外,通过当前状态空间方法,反馈回路中高维传感器数据(例如RGB-D图像)的直接集成具有挑战性。本文旨在解决这两个问题。它引入了模型预测控制方案,其中神经网络不断根据感官输入来更新二次程序的成本函数,旨在最大程度地减少一般的非凸任务丢失而不解决非convex问题在线。通过更新成本,机器人可以直接从传感器测量中适应环境的变化,而无需进行新的成本设计。此外,由于可以通过硬限制有效地解决二次​​程序,因此可以确保机器人安全部署。在工业机器人操纵器上进行了各种涉及任务的实验表明,我们的方法可以有效地解决具有高维视觉感觉输入的复杂的非凸问题,同时仍然对外部干扰保持稳定。
translated by 谷歌翻译
我们为电缆驱动的平行机器人(CDPR)控制器提供了一个基于时变线性二次高斯(TV-LQG)控制器的本地最佳跟踪控制器。与许多使用固定反馈收益的方法相反,我们的时变控制器根据工作区和未来轨迹的位置计算最佳收益。同时,我们严重依赖离线计算来减轻在线实施和可行性检查的负担。遵循概率图形模型的最佳控制模型日益普及,我们使用因子图作为工具来制定控制器的效率,直觉和模块化。因子图的拓扑编码方程的相关结构属性,以促进使用稀疏线性代数求解器的洞察力和有效计算的方式。我们首先使用因子图优化来计算标称轨迹,然后将图形线性化并应用变量消除以计算本地最佳的,时间变化的线性反馈收益。接下来,我们利用因子图公式来计算本地最佳,时变的卡尔曼滤波器的收益,并最终结合了本地最佳的线性控制和估计定律,以形成TV-LQG控制器。我们将TV-LQG控制器的跟踪精度与2.9m x 2.23m的4台式平面机器人上的最先进的双空间前馈控制器进行比较,并演示了0.8 {\ deg}的改进的跟踪精度。和11.6mm的旋转和翻译中均方根误差。
translated by 谷歌翻译
Sampling-based methods have become a cornerstone of contemporary approaches to Model Predictive Control (MPC), as they make no restrictions on the differentiability of the dynamics or cost function and are straightforward to parallelize. However, their efficacy is highly dependent on the quality of the sampling distribution itself, which is often assumed to be simple, like a Gaussian. This restriction can result in samples which are far from optimal, leading to poor performance. Recent work has explored improving the performance of MPC by sampling in a learned latent space of controls. However, these methods ultimately perform all MPC parameter updates and warm-starting between time steps in the control space. This requires us to rely on a number of heuristics for generating samples and updating the distribution and may lead to sub-optimal performance. Instead, we propose to carry out all operations in the latent space, allowing us to take full advantage of the learned distribution. Specifically, we frame the learning problem as bi-level optimization and show how to train the controller with backpropagation-through-time. By using a normalizing flow parameterization of the distribution, we can leverage its tractable density to avoid requiring differentiability of the dynamics and cost function. Finally, we evaluate the proposed approach on simulated robotics tasks and demonstrate its ability to surpass the performance of prior methods and scale better with a reduced number of samples.
translated by 谷歌翻译
在粗糙的地形上的动态运动需要准确的脚部放置,避免碰撞以及系统的动态不足的计划。在存在不完美且常常不完整的感知信息的情况下,可靠地优化此类动作和互动是具有挑战性的。我们提出了一个完整的感知,计划和控制管道,可以实时优化机器人所有自由度的动作。为了减轻地形所带来的数值挑战,凸出不平等约束的顺序被提取为立足性可行性的局部近似值,并嵌入到在线模型预测控制器中。每个高程映射预先计算了步骤性分类,平面分割和签名的距离场,以最大程度地减少优化过程中的计算工作。多次射击,实时迭代和基于滤波器的线路搜索的组合用于可靠地以高速率解决该法式问题。我们在模拟中的间隙,斜率和踏上石头的情况下验证了所提出的方法,并在Anymal四倍的平台上进行实验,从而实现了最新的动态攀登。
translated by 谷歌翻译
神经网络已越来越多地用于模型预测控制器(MPC)来控制非线性动态系统。但是,MPC仍然提出一个问题,即可实现的更新率不足以应对模型不确定性和外部干扰。在本文中,我们提出了一种新颖的控制方案,该方案可以使用MPC的神经网络动力学设计最佳的跟踪控制器,从而使任何现有基于模型的Feedforward Controller的插件扩展程序都可以应用于插件。我们还描述了我们的方法如何处理包含历史信息的神经网络,该信息不遵循一般的动态形式。该方法通过其在外部干扰的经典控制基准中的性能进行评估。我们还扩展了控制框架,以应用于具有未知摩擦的积极自主驾驶任务。在所有实验中,我们的方法的表现都优于比较的方法。我们的控制器还显示出低控制的水平,表明我们的反馈控制器不会干扰MPC的最佳命令。
translated by 谷歌翻译
受约束运动控制的最新进展使其成为在具有挑战性的任务中使用任意几何形状控制机器人的有吸引力的策略。当前大多数作品都假定机器人运动模型足够精确,可以完成手头的任务。但是,随着机器人应用的需求和安全要求的增加,需要在线补偿运动学不准确的控制器。我们提出了基于二次编程的自适应约束运动控制策略,该策略使用部分或完整的任务空间测量来补偿在线校准错误。与最先进的运动学控制策略相比,我们的方法在实验中得到了验证。
translated by 谷歌翻译
本文提出了一种实时模型预测控制(MPC)方案,以使用有限时间范围内的机器人执行多个任务。在工业机器人应用中,我们必须仔细考虑避免关节位置,速度和扭矩极限的多个限制。此外,无奇异性和平稳的动作需要连续,安全地执行任务。我们没有制定非线性MPC问题,而是使用沿层次控制器生成的名义轨迹线性线性的运动和动态模型来设计线性MPC问题。这些线性MPC问题可通过使用二次编程来解决;因此,我们大大减少了提出的MPC框架的计算时间,因此所得更新频率高于1 kHz。与基于操作空间控制(OSC)的基线相比,我们提出的MPC框架在减少任务跟踪错误方面更有效。我们在数值模拟和使用工业操纵器的实际实验中验证方法。更具体地说,我们将方法部署在两个实用方案中用于机器人物流:1)控制携带重载的机器人,同时考虑扭矩限制,以及2)控制最终效果,同时避免奇异性。
translated by 谷歌翻译
在腿的运动中重新规划对于追踪所需的用户速度,在适应地形并拒绝外部干扰的同时至关重要。在这项工作中,我们提出并测试了实验中的实时非线性模型预测控制(NMPC),用于腿部机器人,以实现各种地形上的动态运动。我们引入了一种基于移动性的标准来定义NMPC成本,增强了二次机器人的运动,同时最大化腿部移动性并提高对地形特征的适应。我们的NMPC基于实时迭代方案,使我们能够以25美元的价格重新计划在线,\ Mathrm {Hz} $ 2 $ 2 $ 2美元的预测地平线。我们使用在质量框架中心中定义的单个刚体动态模型,以提高计算效率。在仿真中,测试NMPC以横穿一组不同尺寸的托盘,走进V形烟囱,并在崎岖的地形上招揽。在真实实验中,我们展示了我们的NMPC与移动功能的有效性,使IIT为87美元\,\ Mathrm {kg} $四分之一的机器人HIQ,以实现平坦地形上的全方位步行,横穿静态托盘,并适应在散步期间重新定位托盘。
translated by 谷歌翻译
Reinforcement learning can acquire complex behaviors from high-level specifications. However, defining a cost function that can be optimized effectively and encodes the correct task is challenging in practice. We explore how inverse optimal control (IOC) can be used to learn behaviors from demonstrations, with applications to torque control of high-dimensional robotic systems. Our method addresses two key challenges in inverse optimal control: first, the need for informative features and effective regularization to impose structure on the cost, and second, the difficulty of learning the cost function under unknown dynamics for high-dimensional continuous systems. To address the former challenge, we present an algorithm capable of learning arbitrary nonlinear cost functions, such as neural networks, without meticulous feature engineering. To address the latter challenge, we formulate an efficient sample-based approximation for MaxEnt IOC. We evaluate our method on a series of simulated tasks and real-world robotic manipulation problems, demonstrating substantial improvement over prior methods both in terms of task complexity and sample efficiency.
translated by 谷歌翻译
Many problems in robotics are fundamentally problems of geometry, which lead to an increased research effort in geometric methods for robotics in recent years. The results were algorithms using the various frameworks of screw theory, Lie algebra and dual quaternions. A unification and generalization of these popular formalisms can be found in geometric algebra. The aim of this paper is to showcase the capabilities of geometric algebra when applied to robot manipulation tasks. In particular the modelling of cost functions for optimal control can be done uniformly across different geometric primitives leading to a low symbolic complexity of the resulting expressions and a geometric intuitiveness. We demonstrate the usefulness, simplicity and computational efficiency of geometric algebra in several experiments using a Franka Emika robot. The presented algorithms were implemented in c++20 and resulted in the publicly available library \textit{gafro}. The benchmark shows faster computation of the kinematics than state-of-the-art robotics libraries.
translated by 谷歌翻译
流体驱动的软机器人具有有希望的功能,例如固有的合规性和用户安全。软机器人的控制需要正确处理非线性致动力学,运动限制,工作空间限制和可变形状刚度,因此对于所有这些问题,拥有独特的算法将是非常有益的。在这项工作中,我们将流行的刚性机器人的模型预测控制(MPC)适应为称为Sopra的软机器人臂。我们通过提出一个以模块化方式处理这些框架来解决当前控制方法面临的挑战。尽管以前的工作着重于联合空间公式,但我们通过模拟和实验结果表明,可以成功实施任务空间MPC来进行动态软机器人控制。我们提供了一种方法,可以将零件的恒定曲率和增强的刚体模型假设与内部和外部约束和驱动动力学相结合,并提供了将这些方面团结起来并优化它们的算法。我们认为,基于我们方法的MPC实施可能是解决统一和模块化框架内的大多数基于模型的软机器人控制问题的方法,同时允许包括通常属于其他控制域(例如机器学习技术)的改进。
translated by 谷歌翻译
我们提出了一种基于差分动态编程框架的算法,以处理轨迹优化问题,其中地平线在线确定而不是修复先验。该算法表现出直线,二次,时间不变问题的精确一步收敛,并且足够快,以便实时非线性模型预测控制。我们在离散时间案例中显示了非线性算法的派生,并将该算法应用于各种非线性问题。最后,我们展示了与标准MPC控制器相比的最佳地平线模型预测控制方案在平面机器人的障碍避免问题上的功效。
translated by 谷歌翻译
本文为复杂和物理互动的任务提供了用于移动操纵器的混合学习和优化框架。该框架利用了入学型物理接口,以获得直观而简化的人类演示和高斯混合模型(GMM)/高斯混合物回归(GMR),以根据位置,速度和力剖面来编码和生成学习的任务要求。接下来,使用GMM/GMR生成的所需轨迹和力剖面,通过用二次程序加强能量箱增强笛卡尔阻抗控制器的阻抗参数可以在线优化,以确保受控系统的消极性。进行了两个实验以验证框架,将我们的方法与两种恒定刚度(高和低)的方法进行了比较。结果表明,即使在存在诸如意外的最终效应碰撞等干扰的情况下,该方法在轨迹跟踪和生成的相互作用力方面都优于其他两种情况。
translated by 谷歌翻译
将机器人放置在受控条件外,需要多功能的运动表示,使机器人能够学习新任务并使其适应环境变化。在工作区中引入障碍或额外机器人的位置,由于故障或运动范围限制导致的关节范围的修改是典型的案例,适应能力在安全地执行机器人任务的关键作用。已经提出了代表适应性运动技能的概率动态(PROMP),其被建模为轨迹的高斯分布。这些都是在分析讲道的,可以从少数演示中学习。然而,原始PROMP制定和随后的方法都仅为特定运动适应问题提供解决方案,例如障碍避免,以及普遍的,统一的适应概率方法缺失。在本文中,我们开发了一种用于调整PROMP的通用概率框架。我们统一以前的适应技术,例如,各种类型的避避,通过一个框架,互相避免,在一个框架中,并将它们结合起来解决复杂的机器人问题。另外,我们推导了新颖的适应技术,例如时间上未结合的通量和互相避免。我们制定适应作为约束优化问题,在那里我们最小化适应的分布与原始原始的分布之间的kullback-leibler发散,而我们限制了与不希望的轨迹相关的概率质量为低电平。我们展示了我们在双机器人手臂设置中的模拟平面机器人武器和7-DOF法兰卡 - Emika机器人的若干适应问题的方法。
translated by 谷歌翻译