强化学习方法作为一种有前途的技术在自由浮动太空机器人的运动计划中取得了卓越的成果。但是,由于计划维度的增加和系统动态耦合的加剧,双臂自由浮动太空机器人的运动计划仍然是一个开放的挑战。特别是,由于缺乏最终效果的姿势约束,当前的研究无法处理捕获非合作对象的任务。为了解决该问题,我们提出了一种新型算法,即有效的算法,以促进基于RL的方法有效提高计划准确性。我们的核心贡献是通过先验知识指导构建一项混合政策,并引入无限规范以构建更合理的奖励功能。此外,我们的方法成功地捕获了具有不同旋转速度的旋转对象。
translated by 谷歌翻译
近年来,太空中出现了不合作的物体,例如失败的卫星和太空垃圾。这些对象通常由自由浮动双臂空间操纵器操作或收集。由于消除了建模和手动参数调整的困难,强化学习(RL)方法在空间操纵器的轨迹计划中表现出了更有希望的标志。尽管以前的研究证明了它们的有效性,但不能应用于跟踪旋转未知(非合作对象)的动态靶标。在本文中,我们提出了一个学习系统,用于将自由浮动双臂空间操纵器(FFDASM)的运动计划朝向非合作对象。具体而言,我们的方法由两个模块组成。模块I意识到了大型目标空间内两个最终效应的多目标轨迹计划。接下来,模块II将非合件对象的点云作为输入来估计运动属性,然后可以预测目标点在非合作对象上的位置。我们利用模块I和模块II的组合来成功地跟踪具有未知规律性的旋转对象上的目标点。此外,实验还证明了我们学习系统的可扩展性和概括。
translated by 谷歌翻译
In contrast to the control-theoretic methods, the lack of stability guarantee remains a significant problem for model-free reinforcement learning (RL) methods. Jointly learning a policy and a Lyapunov function has recently become a promising approach to ensuring the whole system with a stability guarantee. However, the classical Lyapunov constraints researchers introduced cannot stabilize the system during the sampling-based optimization. Therefore, we propose the Adaptive Stability Certification (ASC), making the system reach sampling-based stability. Because the ASC condition can search for the optimal policy heuristically, we design the Adaptive Lyapunov-based Actor-Critic (ALAC) algorithm based on the ASC condition. Meanwhile, our algorithm avoids the optimization problem that a variety of constraints are coupled into the objective in current approaches. When evaluated on ten robotic tasks, our method achieves lower accumulated cost and fewer stability constraint violations than previous studies.
translated by 谷歌翻译
为了解决控制循环的耦合问题和多输入多输出(MIMO)PID控制系统中的自适应参数调谐问题,基于深度加强学习(RL)和Lyapunov-提出了一种自适应LSAC-PID算法本文基于奖励塑造。对于复杂和未知的移动机器人控制环境,首先呈现了基于RL的MIMO PID混合控制策略。根据移动机器人的动态信息和环境反馈,RL代理可以实时输出最佳MIMO PID参数,而不知道数学模型和解耦多个控制回路。然后,提高RL的收敛速度和移动机器人的稳定性,基于Lyapunov理论和基于潜在的奖励整形方法提出了一种基于Lyapunov的奖励塑形软演员 - 评论仪(LSAC)算法。算法的收敛性和最优性在于软政策迭代的策略评估和改进步骤。此外,对于线路跟随机器人,改进了该区域生长方法,以适应叉和环境干扰的影响。通过比较,测试和交叉验证,仿真和实际实验结果均显示出所提出的LSAC-PID调谐算法的良好性能。
translated by 谷歌翻译
平衡机器人(Ballbot)是测试平衡控制器有效性的好平台。考虑到平衡控制,已经广泛使用了基于模型的反馈控制方法。但是,接触和碰撞很难建模,并且通常导致平衡控制失败,尤其是当球机器人倾斜的角度时。为了探索球机器人的最大初始倾斜角,平衡控制被解释为使用增强学习(RL)的恢复任务。 RL是难以建模的系统的强大技术,因为它允许代理通过与环境进行交互来学习策略。在本文中,通过将常规反馈控制器与RL方法相结合,提出了化合物控制器。我们通过训练代理成功执行涉及联系和碰撞的恢复任务来显示化合物控制器的有效性。仿真结果表明,与常规基于模型的控制器相比,使用化合物控制器可以在更大的初始倾斜角度下保持平衡。
translated by 谷歌翻译
本文介绍了一种可以在非通信和局部可观察条件下应用的新型混合多机器人运动计划。策划员是无模型的,可以实现多机器人状态和观察信息的端到端映射到最终平滑和连续的轨迹。规划师是前端和后端分离的架构。前端协作航点搜索模块的设计基于具有分散执行图的集中培训下的多代理软演员批评算法。后端轨迹优化模块的设计基于具有安全区域约束的最小快照方法。该模块可以输出最终动态可行和可执行的轨迹。最后,多组实验结果验证了拟议的运动计划员的有效性。
translated by 谷歌翻译
学习玩乒乓球是机器人的一个具有挑战性的任务,作为所需的各种笔画。最近的进展表明,深度加强学习(RL)能够在模拟环境中成功地学习最佳动作。然而,由于高勘探努力,RL在实际情况中的适用性仍然有限。在这项工作中,我们提出了一个现实的模拟环境,其中多种模型是为球的动态和机器人的运动学而建立的。代替训练端到端的RL模型,提出了一种具有TD3骨干的新的政策梯度方法,以基于击球时间基于球的预测状态来学习球拍笔划。在实验中,我们表明,所提出的方法显着优于仿真中现有的RL方法。此外,将域从仿真跨越现实,我们采用了一个有效的再培训方法,并在三种实际情况下测试。由此产生的成功率为98%,距离误差约为24.9厘米。总培训时间约为1.5小时。
translated by 谷歌翻译
从意外的外部扰动中恢复的能力是双模型运动的基本机动技能。有效的答复包括不仅可以恢复平衡并保持稳定性的能力,而且在平衡恢复物质不可行时,也可以保证安全的方式。对于与双式运动有关的机器人,例如人形机器人和辅助机器人设备,可帮助人类行走,设计能够提供这种稳定性和安全性的控制器可以防止机器人损坏或防止伤害相关的医疗费用。这是一个具有挑战性的任务,因为它涉及用触点产生高维,非线性和致动系统的高动态运动。尽管使用基于模型和优化方法的前进方面,但诸如广泛领域知识的要求,诸如较大的计算时间和有限的动态变化的鲁棒性仍然会使这个打开问题。在本文中,为了解决这些问题,我们开发基于学习的算法,能够为两种不同的机器人合成推送恢复控制政策:人形机器人和有助于双模型运动的辅助机器人设备。我们的工作可以分为两个密切相关的指示:1)学习人形机器人的安全下降和预防策略,2)使用机器人辅助装置学习人类的预防策略。为实现这一目标,我们介绍了一套深度加强学习(DRL)算法,以学习使用这些机器人时提高安全性的控制策略。
translated by 谷歌翻译
We adapt the ideas underlying the success of Deep Q-Learning to the continuous action domain. We present an actor-critic, model-free algorithm based on the deterministic policy gradient that can operate over continuous action spaces. Using the same learning algorithm, network architecture and hyper-parameters, our algorithm robustly solves more than 20 simulated physics tasks, including classic problems such as cartpole swing-up, dexterous manipulation, legged locomotion and car driving. Our algorithm is able to find policies whose performance is competitive with those found by a planning algorithm with full access to the dynamics of the domain and its derivatives. We further demonstrate that for many of the tasks the algorithm can learn policies "end-to-end": directly from raw pixel inputs.
translated by 谷歌翻译
由于涉及的复杂动态和多标准优化,控制非静态双模型机器人具有挑战性。最近的作品已经证明了深度加强学习(DRL)的仿真和物理机器人的有效性。在这些方法中,通常总共总共汇总来自不同标准的奖励以学习单个值函数。但是,这可能导致混合奖励之间的依赖信息丢失并导致次优策略。在这项工作中,我们提出了一种新颖的奖励自适应加强学习,用于Biped运动,允许控制策略通过使用动态机制通过多标准同时优化。该方法应用多重批评,为每个奖励组件学习单独的值函数。这导致混合政策梯度。我们进一步提出了动态权重,允许每个组件以不同的优先级优化策略。这种混合动态和动态策略梯度(HDPG)设计使代理商更有效地学习。我们表明所提出的方法优于总结奖励方法,能够转移到物理机器人。 SIM-to-Real和Mujoco结果进一步证明了HDPG的有效性和泛化。
translated by 谷歌翻译
强化学习是机器人抓握的一种有前途的方法,因为它可以在困难的情况下学习有效的掌握和掌握政策。但是,由于问题的高维度,用精致的机器人手来实现类似人类的操纵能力是具有挑战性的。尽管可以采用奖励成型或专家示范等补救措施来克服这个问题,但它们通常导致过分简化和有偏见的政策。我们介绍了Dext-Gen,这是一种在稀疏奖励环境中灵巧抓握的强化学习框架,适用于各种抓手,并学习无偏见和复杂的政策。通过平滑方向表示实现了抓地力和物体的完全方向控制。我们的方法具有合理的培训时间,并提供了包括所需先验知识的选项。模拟实验证明了框架对不同方案的有效性和适应性。
translated by 谷歌翻译
In order to avoid conventional controlling methods which created obstacles due to the complexity of systems and intense demand on data density, developing modern and more efficient control methods are required. In this way, reinforcement learning off-policy and model-free algorithms help to avoid working with complex models. In terms of speed and accuracy, they become prominent methods because the algorithms use their past experience to learn the optimal policies. In this study, three reinforcement learning algorithms; DDPG, TD3 and SAC have been used to train Fetch robotic manipulator for four different tasks in MuJoCo simulation environment. All of these algorithms are off-policy and able to achieve their desired target by optimizing both policy and value functions. In the current study, the efficiency and the speed of these three algorithms are analyzed in a controlled environment.
translated by 谷歌翻译
Reinforcement learning holds the promise of enabling autonomous robots to learn large repertoires of behavioral skills with minimal human intervention. However, robotic applications of reinforcement learning often compromise the autonomy of the learning process in favor of achieving training times that are practical for real physical systems. This typically involves introducing hand-engineered policy representations and human-supplied demonstrations. Deep reinforcement learning alleviates this limitation by training general-purpose neural network policies, but applications of direct deep reinforcement learning algorithms have so far been restricted to simulated settings and relatively simple tasks, due to their apparent high sample complexity. In this paper, we demonstrate that a recent deep reinforcement learning algorithm based on offpolicy training of deep Q-functions can scale to complex 3D manipulation tasks and can learn deep neural network policies efficiently enough to train on real physical robots. We demonstrate that the training times can be further reduced by parallelizing the algorithm across multiple robots which pool their policy updates asynchronously. Our experimental evaluation shows that our method can learn a variety of 3D manipulation skills in simulation and a complex door opening skill on real robots without any prior demonstrations or manually designed representations.
translated by 谷歌翻译
Hierarchical Reinforcement Learning (HRL) algorithms have been demonstrated to perform well on high-dimensional decision making and robotic control tasks. However, because they solely optimize for rewards, the agent tends to search the same space redundantly. This problem reduces the speed of learning and achieved reward. In this work, we present an Off-Policy HRL algorithm that maximizes entropy for efficient exploration. The algorithm learns a temporally abstracted low-level policy and is able to explore broadly through the addition of entropy to the high-level. The novelty of this work is the theoretical motivation of adding entropy to the RL objective in the HRL setting. We empirically show that the entropy can be added to both levels if the Kullback-Leibler (KL) divergence between consecutive updates of the low-level policy is sufficiently small. We performed an ablative study to analyze the effects of entropy on hierarchy, in which adding entropy to high-level emerged as the most desirable configuration. Furthermore, a higher temperature in the low-level leads to Q-value overestimation and increases the stochasticity of the environment that the high-level operates on, making learning more challenging. Our method, SHIRO, surpasses state-of-the-art performance on a range of simulated robotic control benchmark tasks and requires minimal tuning.
translated by 谷歌翻译
移动操作(MM)系统是在非结构化现实世界环境中扮演个人助理角色的理想候选者。除其他挑战外,MM需要有效协调机器人的实施例,以执行需要移动性和操纵的任务。强化学习(RL)的承诺是将机器人具有自适应行为,但是大多数方法都需要大量的数据来学习有用的控制策略。在这项工作中,我们研究了机器人可及先验在参与者批判性RL方法中的整合,以加速学习和获取任务的MM学习。也就是说,我们考虑了最佳基础位置的问题以及是否激活ARM达到6D目标的后续决定。为此,我们设计了一种新型的混合RL方法,该方法可以共同处理离散和连续的动作,从而诉诸Gumbel-Softmax重新聚集化。接下来,我们使用来自经典方法的操作机器人工作区中的数据训练可及性。随后,我们得出了增强的混合RL(BHYRL),这是一种通过将其建模为残留近似器的总和来学习Q功能的新型算法。每当需要学习新任务时,我们都可以转移我们学到的残差并了解特定于任务的Q功能的组成部分,从而从先前的行为中维护任务结构。此外,我们发现将目标政策与先前的策略正规化产生更多的表达行为。我们评估了我们在达到难度增加和提取任务的模拟方面的方法,并显示了Bhyrl在基线方法上的卓越性能。最后,我们用Bhyrl零转移了我们学到的6D提取政策,以归功于我们的MM机器人Tiago ++。有关更多详细信息和代码发布,请参阅我们的项目网站:irosalab.com/rlmmbp
translated by 谷歌翻译
深度加固学习(DRL)使机器人能够结束结束地执行一些智能任务。然而,长地平线稀疏奖励机器人机械手任务仍存在许多挑战。一方面,稀疏奖励设置会导致探索效率低下。另一方面,使用物理机器人的探索是高成本和不安全的。在本文中,我们提出了一种学习使用本文中名为基础控制器的一个或多个现有传统控制器的长地平线稀疏奖励任务。基于深度确定性的政策梯度(DDPG),我们的算法将现有基础控制器融入勘探,价值学习和策略更新的阶段。此外,我们介绍了合成不同基础控制器以整合它们的优点的直接方式。通过从堆叠块到杯子的实验,证明学习的国家或基于图像的策略稳定优于基础控制器。与以前的示范中的学习作品相比,我们的方法通过数量级提高了样品效率,提高了性能。总体而言,我们的方法具有利用现有的工业机器人操纵系统来构建更灵活和智能控制器的可能性。
translated by 谷歌翻译
实现人类水平的灵活性是机器人技术中的重要开放问题。但是,即使在婴儿级别,灵巧的手动操纵任务也是通过增强学习(RL)的挑战。困难在于高度的自由度和异质因素(例如手指关节)之间所需的合作。在这项研究中,我们提出了双人灵感手基准(BI-DEXHANDS),这是一种模拟器,涉及两只灵巧的手,其中包含数十只双人操纵任务和数千个目标对象。具体而言,根据认知科学文献,BI-DEXHANDS中的任务旨在匹配不同级别的人类运动技能。我们在ISSAC体育馆里建造了Bi-Dexhands;这可以实现高效的RL培训,仅在一个NVIDIA RTX 3090中达到30,000+ fps。我们在不同的设置下为流行的RL算法提供了全面的基准;这包括单代理/多代理RL,离线RL,多任务RL和META RL。我们的结果表明,PPO类型的上车算法可以掌握简单的操纵任务,该任务等效到48个月的人类婴儿(例如,捕获飞行的物体,打开瓶子),而多代理RL可以进一步帮助掌握掌握需要熟练的双人合作的操作(例如,举起锅,堆叠块)。尽管每个任务都取得了成功,但在获得多个操纵技能方面,现有的RL算法无法在大多数多任务和少量学习设置中工作,这需要从RL社区进行更实质性的发展。我们的项目通过https://github.com/pku-marl/dexteroushands开放。
translated by 谷歌翻译
尽管移动操作在工业和服务机器人技术方面都重要,但仍然是一个重大挑战,因为它需要将最终效应轨迹的无缝整合与导航技能以及对长匹马的推理。现有方法难以控制大型配置空间,并导航动态和未知环境。在先前的工作中,我们建议将移动操纵任务分解为任务空间中最终效果的简化运动生成器,并将移动设备分解为训练有素的强化学习代理,以说明移动基础的运动基础,以说明运动的运动可行性。在这项工作中,我们引入了移动操作的神经导航(n $^2 $ m $^2 $),该导航将这种分解扩展到复杂的障碍环境,并使其能够解决现实世界中的广泛任务。最终的方法可以在未探索的环境中执行看不见的长马任务,同时立即对动态障碍和环境变化做出反应。同时,它提供了一种定义新的移动操作任务的简单方法。我们证明了我们提出的方法在多个运动学上多样化的移动操纵器上进行的广泛模拟和现实实验的能力。代码和视频可在http://mobile-rl.cs.uni-freiburg.de上公开获得。
translated by 谷歌翻译
由于在存在障碍物和高维视觉观测的情况下,由于在存在障碍和高维视觉观测的情况下,学习复杂的操纵任务是一个具有挑战性的问题。事先工作通过整合运动规划和强化学习来解决勘探问题。但是,运动计划程序增强策略需要访问状态信息,该信息通常在现实世界中不可用。为此,我们建议通过(1)视觉行为克隆以通过(1)视觉行为克隆来将基于国家的运动计划者增强策略,以删除运动计划员依赖以及其抖动运动,以及(2)基于视觉的增强学习来自行为克隆代理的平滑轨迹的指导。我们在阻塞环境中的三个操作任务中评估我们的方法,并将其与各种加固学习和模仿学习基线进行比较。结果表明,我们的框架是高度采样的和优于最先进的算法。此外,与域随机化相结合,我们的政策能够用零击转移到未经分散的人的未经环境环境。 https://clvrai.com/mopa-pd提供的代码和视频
translated by 谷歌翻译
无人战斗机(UCAV)的智能决定长期以来一直是一个具有挑战性的问题。传统的搜索方法几乎不能满足高动力学空战场景期间的实时需求。增强学习(RL)方法可以通过使用神经网络显着缩短决策时间。然而,稀疏奖励问题限制了其收敛速度,人工先前的经验奖励可以很容易地偏离其原始任务的最佳会聚方向,这对RL Air Confic应用程序产生了巨大的困难。在本文中,我们提出了一种基于同型的软演员 - 批评方法(HSAC),它专注于通过跟随具有稀疏奖励和具有人工事先经验奖励的原始任务和辅助任务之间的同谐话的同谐路径来解决这些问题。本文还证明了该方法的收敛性和可行性。为了确认我们的方法,我们为基于RL的方法培训构建了一个详细的3D空调仿真环境,我们在攻击水平飞行UCAV任务和自我播放对抗任务中实现了我们的方法。实验结果表明,我们的方法比仅利用稀疏奖励或人工事先经验奖励的方法更好地表现得更好。通过我们方法训练的代理人可以在攻击水平飞行中达到98.3%的胜利率,平均在面对由另外两种方法培训的代理商面临的胜利时平均67.4%。
translated by 谷歌翻译