对于空中机器人来说,以快速而健壮的方式倒置着陆是一项艰巨的壮举,尤其是完全取决于板载感应和计算。尽管如此,这项壮举通常由蝙蝠,苍蝇和蜜蜂等生物传单进行。我们以前的工作已经确定了一系列板载视觉提示与运动学动作之间的直接因果关系,这些关系允许在小型空中机器人中可靠地执行这种具有挑战性的特技操纵。在这项工作中,我们首先利用深入的强化学习和基于物理的模拟来获得从任何任意方法条件开始的一般最佳控制策略,以实现强大的倒置着陆。这项优化的控制策略提供了从系统的观察空间到其电动机命令动作空间的计算效率映射,包括触发和控制旋转操作。这是通过训练系统在大量和方向变化的大量进式飞行速度上进行训练。接下来,我们通过在仿真中改变了机器人的惯性参数,通过域随机化对学习策略进行了模拟策略的传输和实验验证。通过实验试验,我们确定了几个主要因素,这些因素极大地改善了着陆鲁棒性和确定倒置成功的主要机制。我们希望这项研究中开发的学习框架可以推广以解决更具挑战性的任务,例如利用嘈杂的板载感觉数据,降落在各种方向的表面上或降落在动态移动的表面上。
translated by 谷歌翻译
倒置着陆是一种在空中机器人中执行的具有挑战性的壮举,特别是没有外部定位。然而,它经常通过蜜蜂,苍蝇和蝙蝠等生物传递器进行。我们之前对苍蝇着陆行为的观察表明其推定的视觉提示与所执行的空中机动的运动学之间的开环因果关系。例如,旋转机动程度(因此在触摸之前的身体反转)和腿部辅助体挥杆的量取决于苍蝇的初始体状态,同时接近天花板。在这项工作中,通过使用基于物理的模拟进行实验验证,我们系统地研究了如何优化的倒置着陆操纵如何取决于具有不同幅度和方向的初始接近速度。这是通过分析推定的视觉提示(可在最佳的机动轨迹期间衍生出推定的视觉提示来完成的。我们识别了一个三维策略区域,可以在不使用外部定位数据的情况下开发到全局反转着陆策略的映射。此外,我们还调查了一系列着陆齿轮设计对优化着陆性能的影响,并确定了它们的优缺点。以上使用有限的实验测试部分验证了上述结果,并继续通知并指导我们未来的实验,例如通过应用计算的全球政策。
translated by 谷歌翻译
现在,最先进的强化学习能够在模拟中学习双皮亚机器人的多功能运动,平衡和推送能力。然而,现实差距大多被忽略了,模拟结果几乎不会转移到真实硬件上。在实践中,它是不成功的,因为物理学过度简化,硬件限制被忽略,或者不能保证规律性,并且可能会发生意外的危险运动。本文提出了一个强化学习框架,该框架能够学习以平稳的开箱即用向现实的转移,仅需要瞬时的本体感受观察,可以学习强大的站立式恢复。通过结合原始的终止条件和政策平滑度调节,我们使用没有记忆力或观察历史的政策实现了稳定的学习,SIM转移和安全性。然后使用奖励成型来提供有关如何保持平衡的见解。我们展示了其在下LIMB医学外骨骼Atalante中的现实表现。
translated by 谷歌翻译
从意外的外部扰动中恢复的能力是双模型运动的基本机动技能。有效的答复包括不仅可以恢复平衡并保持稳定性的能力,而且在平衡恢复物质不可行时,也可以保证安全的方式。对于与双式运动有关的机器人,例如人形机器人和辅助机器人设备,可帮助人类行走,设计能够提供这种稳定性和安全性的控制器可以防止机器人损坏或防止伤害相关的医疗费用。这是一个具有挑战性的任务,因为它涉及用触点产生高维,非线性和致动系统的高动态运动。尽管使用基于模型和优化方法的前进方面,但诸如广泛领域知识的要求,诸如较大的计算时间和有限的动态变化的鲁棒性仍然会使这个打开问题。在本文中,为了解决这些问题,我们开发基于学习的算法,能够为两种不同的机器人合成推送恢复控制政策:人形机器人和有助于双模型运动的辅助机器人设备。我们的工作可以分为两个密切相关的指示:1)学习人形机器人的安全下降和预防策略,2)使用机器人辅助装置学习人类的预防策略。为实现这一目标,我们介绍了一套深度加强学习(DRL)算法,以学习使用这些机器人时提高安全性的控制策略。
translated by 谷歌翻译
学习玩乒乓球是机器人的一个具有挑战性的任务,作为所需的各种笔画。最近的进展表明,深度加强学习(RL)能够在模拟环境中成功地学习最佳动作。然而,由于高勘探努力,RL在实际情况中的适用性仍然有限。在这项工作中,我们提出了一个现实的模拟环境,其中多种模型是为球的动态和机器人的运动学而建立的。代替训练端到端的RL模型,提出了一种具有TD3骨干的新的政策梯度方法,以基于击球时间基于球的预测状态来学习球拍笔划。在实验中,我们表明,所提出的方法显着优于仿真中现有的RL方法。此外,将域从仿真跨越现实,我们采用了一个有效的再培训方法,并在三种实际情况下测试。由此产生的成功率为98%,距离误差约为24.9厘米。总培训时间约为1.5小时。
translated by 谷歌翻译
Legged robots pose one of the greatest challenges in robotics. Dynamic and agile maneuvers of animals cannot be imitated by existing methods that are crafted by humans. A compelling alternative is reinforcement learning, which requires minimal craftsmanship and promotes the natural evolution of a control policy. However, so far, reinforcement learning research for legged robots is mainly limited to simulation, and only few and comparably simple examples have been deployed on real systems. The primary reason is that training with real robots, particularly with dynamically balancing systems, is complicated and expensive. In the present work, we report a new method for training a neural network policy in simulation and transferring it to a state-of-the-art legged system, thereby we leverage fast, automated, and cost-effective data generation schemes. The approach is applied to the ANYmal robot, a sophisticated medium-dog-sized quadrupedal system. Using policies trained in simulation, the quadrupedal machine achieves locomotion skills that go beyond what had been achieved with prior methods: ANYmal is capable of precisely and energy-efficiently following high-level body velocity commands, running faster than ever before, and recovering from falling even in complex configurations.
translated by 谷歌翻译
在这项工作中,我们表明,可以在模拟中完全使用加强学习进行培训低级控制策略,然后,在Quadrotor机器人上部署它们而不使用真实数据进行微调。为了渲染零拍策略转移可行,我们应用模拟优化以缩小现实差距。我们的神经网络的策略仅使用车载数据,并完全在嵌入式无人机硬件上运行。在广泛的真实实验中,我们比较三种不同的控制结构,范围从低级脉冲宽度调制的电机命令到基于嵌套比例 - 积分衍生物控制器的高级姿态控制。我们的实验表明,利用加固学习培训的低级控制器需要比更高级别的控制策略更准确的模拟。
translated by 谷歌翻译
机器人和与世界相互作用或互动的机器人和智能系统越来越多地被用来自动化各种任务。这些系统完成这些任务的能力取决于构成机器人物理及其传感器物体的机械和电气部件,例如,感知算法感知环境,并计划和控制算法以生产和控制算法来生产和控制算法有意义的行动。因此,通常有必要在设计具体系统时考虑这些组件之间的相互作用。本文探讨了以端到端方式对机器人系统进行任务驱动的合作的工作,同时使用推理或控制算法直接优化了系统的物理组件以进行任务性能。我们首先考虑直接优化基于信标的本地化系统以达到本地化准确性的问题。设计这样的系统涉及将信标放置在整个环境中,并通过传感器读数推断位置。在我们的工作中,我们开发了一种深度学习方法,以直接优化信标的放置和位置推断以达到本地化精度。然后,我们将注意力转移到了由任务驱动的机器人及其控制器优化的相关问题上。在我们的工作中,我们首先提出基于多任务增强学习的数据有效算法。我们的方法通过利用能够在物理设计的空间上概括设计条件的控制器,有效地直接优化了物理设计和控制参数,以直接优化任务性能。然后,我们对此进行跟进,以允许对离散形态参数(例如四肢的数字和配置)进行优化。最后,我们通过探索优化的软机器人的制造和部署来得出结论。
translated by 谷歌翻译
通过腿部机器人在具有挑战性的环境上进行本地导航的通用方法需要路径计划,路径跟随和运动,这通常需要机动控制策略,以准确跟踪指挥速度。但是,通过将导航问题分解为这些子任务,我们限制了机器人的功能,因为各个任务不考虑完整的解决方案空间。在这项工作中,我们建议通过深入强化学习来训练端到端政策来解决完整的问题。机器人不必在提供的时间内到达目标位置,而不是不断跟踪预算的路径。该任务的成功仅在情节结束时进行评估,这意味着该策略不需要尽快到达目标。可以免费选择其路径和运动步态。以这种方式培训政策可以打开更多可能的解决方案,这使机器人能够学习更多复杂的行为。我们比较我们的速度跟踪方法,并表明任务奖励的时间依赖性对于成功学习这些新行为至关重要。最后,我们证明了在真正的四足动物机器人上成功部署政策。机器人能够跨越具有挑战性的地形,这是以前无法实现的,同时使用更节能的步态并达到更高的成功率。
translated by 谷歌翻译
In order to avoid conventional controlling methods which created obstacles due to the complexity of systems and intense demand on data density, developing modern and more efficient control methods are required. In this way, reinforcement learning off-policy and model-free algorithms help to avoid working with complex models. In terms of speed and accuracy, they become prominent methods because the algorithms use their past experience to learn the optimal policies. In this study, three reinforcement learning algorithms; DDPG, TD3 and SAC have been used to train Fetch robotic manipulator for four different tasks in MuJoCo simulation environment. All of these algorithms are off-policy and able to achieve their desired target by optimizing both policy and value functions. In the current study, the efficiency and the speed of these three algorithms are analyzed in a controlled environment.
translated by 谷歌翻译
能够与环境进行物理相互作用的新型航空车的最新发展导致了新的应用,例如基于接触的检查。这些任务要求机器人系统将力与部分知名的环境交换,这可能包含不确定性,包括未知的空间变化摩擦特性和表面几何形状的不连续变化。找到对这些环境不确定性的强大控制策略仍然是一个公开挑战。本文提出了一种基于学习的自适应控制策略,用于航空滑动任务。特别是,基于当前控制信号,本体感受测量和触觉感应的策略,实时调整了标准阻抗控制器的收益。在学生教师学习设置中,该策略通过简化执行器动力进行了模拟培训。使用倾斜臂全向飞行器验证了所提出方法的现实性能。所提出的控制器结构结合了数据驱动和基于模型的控制方法,使我们的方法能够直接转移并不从模拟转移到真实平台。与微调状态的相互作用控制方法相比,我们达到了减少的跟踪误差和改善的干扰排斥反应。
translated by 谷歌翻译
随着腿部机器人和嵌入式计算都变得越来越有能力,研究人员已经开始专注于这些机器人的现场部署。在非结构化环境中的强大自治需要对机器人周围的世界感知,以避免危害。但是,由于处理机车动力学所需的复杂规划人员和控制器,因此在网上合并在线的同时在线保持敏捷运动对腿部机器人更具挑战性。该报告将比较三种最新的感知运动方法,并讨论可以使用视觉来实现腿部自主权的不同方式。
translated by 谷歌翻译
为了使腿部机器人与人类和动物的运动能力相匹配,它们不仅必须产生强大的周期性步行和跑步,而且还必须在名义运动步态和更专业的瞬态操纵之间无缝切换。尽管最近在两足机器人的控制方面取得了进步,但几乎没有集中精力产生高度动态的行为。利用强化学习制定控制腿机器人的政策的最新工作表明,在产生强大的步行行为方面取得了成功。但是,这些学识渊博的政策难以在单个网络上表达多种不同行为。受腿部机器人的常规优化控制技术的启发,这项工作应用了一个经常性的策略来执行四步,90度转弯,使用从优化的单个刚体模型轨迹生成的参考数据进行了训练。我们提出了一个新型的培训框架,该培训框架使用结尾终端奖励从预先计算的轨迹数据中学习特定行为,并证明了双皮亚机器人Cassie上的硬件成功转移。
translated by 谷歌翻译
深度强化学习是在不需要领域知识的不受控制环境中学习政策的有前途的方法。不幸的是,由于样本效率低下,深度RL应用主要集中在模拟环境上。在这项工作中,我们证明了机器学习算法和库的最新进步与精心调整的机器人控制器相结合,导致在现实世界中仅20分钟内学习四倍的运动。我们在几个室内和室外地形上评估了我们的方法,这些室内和室外地形对基于古典模型的控制器来说是具有挑战性的。我们观察机器人能够在所有这些地形上始终如一地学习步态。最后,我们在模拟环境中评估我们的设计决策。
translated by 谷歌翻译
拍打翅膀是一种生物启发的方法,可在空中机器人中产生升力和推动,从而导致安静有效的运动。该技术的优点是安全性和可操作性,以及与环境,人类和动物的物理互动。但是,为了实现大量应用,这些机器人必须栖息和土地。尽管最近在栖息场上取得了进展,但直到今天,拍打翼车辆或鸟类动物仍无法停止在分支上的飞行。在本文中,我们提出了一种新颖的方法,该方法定义了一个可以可靠和自主将鸟鸟类降落在分支上的过程。该方法描述了拍打飞行控制器的联合操作,近距离校正系统和被动爪附件。飞行由三重俯仰高空控制器和集成的车身电子设备处理,允许以3 m/s的速度栖息。近距离校正系统,具有快速的光学分支传感可补偿着陆时的位置错位。这是通过被动双向爪设计可以补充的,可以锁定和固定2 nm的扭矩,在25毫秒内掌握,并且由于集成的肌腱致动而可以重新打开。栖息的方法补充了四步实验开发过程,该过程为成功的设计优化。我们用700 g的鸟杆验证了这种方法,并演示了在分支上拍打翼机器人的第一次自主栖息飞行,结果用第二个机器人复制。这项工作为在远程任务,观察,操纵和室外飞行中应用翼机器人的应用铺平了道路。
translated by 谷歌翻译
Reinforcement Learning (RL) has seen many recent successes for quadruped robot control. The imitation of reference motions provides a simple and powerful prior for guiding solutions towards desired solutions without the need for meticulous reward design. While much work uses motion capture data or hand-crafted trajectories as the reference motion, relatively little work has explored the use of reference motions coming from model-based trajectory optimization. In this work, we investigate several design considerations that arise with such a framework, as demonstrated through four dynamic behaviours: trot, front hop, 180 backflip, and biped stepping. These are trained in simulation and transferred to a physical Solo 8 quadruped robot without further adaptation. In particular, we explore the space of feed-forward designs afforded by the trajectory optimizer to understand its impact on RL learning efficiency and sim-to-real transfer. These findings contribute to the long standing goal of producing robot controllers that combine the interpretability and precision of model-based optimization with the robustness that model-free RL-based controllers offer.
translated by 谷歌翻译
将四型人降落在倾斜的表面上是一个具有挑战性的动作。任何倾斜着陆轨迹的最终状态都不是平衡,这排除了大多数常规控制方法的使用。我们提出了一种深入的强化学习方法,以设计倾斜表面的自动着陆控制器。使用具有稀疏奖励和量身定制的课程学习方法的近端政策优化(PPO)算法,可以在不到90分钟的标准笔记本电脑上培训倾斜的着陆政策。然后,该政策直接采用真正的Crazyflie 2.1四型四面管,并成功地在飞行舞台上执行了真正的倾向着陆。单个策略评估大约需要2.5 \,MS,这使其适用于四型在四面体上的未来嵌入式实现。
translated by 谷歌翻译
由于非线性动力学,执行器约束和耦合的纵向和横向运动,部分地,固定翼无人驾驶飞行器(无人机)的姿态控制是一个困难的控制问题。目前的最先进的自动驾驶仪基于线性控制,因此有限于其有效性和性能。深度加强学习(DRL)是一种通过与受控系统的交互自动发现最佳控制法的机器学习方法,可以处理复杂的非线性动态。我们在本文中展示DRL可以成功学习直接在原始非线性动态上运行的固定翼UAV的态度控制,需要短至三分钟的飞行数据。我们最初在仿真环境中培训我们的模型,然后在飞行测试中部署无人机的学习控制器,向最先进的ArduplaneProportional-Integry-artivation(PID)姿态控制器的表现展示了可比的性能,而无需进一步的在线学习。为了更好地理解学习控制器的操作,我们呈现了对其行为的分析,包括与现有良好调整的PID控制器的比较。
translated by 谷歌翻译
在包装交付,交通监控,搜索和救援操作以及军事战斗订婚等不同应用中,对使用无人驾驶汽车(UAV)(无人机)的需求越来越不断增加。在所有这些应用程序中,无人机用于自动导航环境 - 没有人类互动,执行特定任务并避免障碍。自主无人机导航通常是使用强化学习(RL)来完成的,在该学习中,代理在域中充当专家在避免障碍的同时导航环境。了解导航环境和算法限制在选择适当的RL算法以有效解决导航问题方面起着至关重要的作用。因此,本研究首先确定了无人机导航任务,并讨论导航框架和仿真软件。接下来,根据环境,算法特征,能力和不同无人机导航问题的应用程序对RL算法进行分类和讨论,这将帮助从业人员和研究人员为其无人机导航使用情况选择适当的RL算法。此外,确定的差距和机会将推动无人机导航研究。
translated by 谷歌翻译
We present temporally layered architecture (TLA), a biologically inspired system for temporally adaptive distributed control. TLA layers a fast and a slow controller together to achieve temporal abstraction that allows each layer to focus on a different time-scale. Our design is biologically inspired and draws on the architecture of the human brain which executes actions at different timescales depending on the environment's demands. Such distributed control design is widespread across biological systems because it increases survivability and accuracy in certain and uncertain environments. We demonstrate that TLA can provide many advantages over existing approaches, including persistent exploration, adaptive control, explainable temporal behavior, compute efficiency and distributed control. We present two different algorithms for training TLA: (a) Closed-loop control, where the fast controller is trained over a pre-trained slow controller, allowing better exploration for the fast controller and closed-loop control where the fast controller decides whether to "act-or-not" at each timestep; and (b) Partially open loop control, where the slow controller is trained over a pre-trained fast controller, allowing for open loop-control where the slow controller picks a temporally extended action or defers the next n-actions to the fast controller. We evaluated our method on a suite of continuous control tasks and demonstrate the advantages of TLA over several strong baselines.
translated by 谷歌翻译