通过稀疏奖励的环境中的深度加强学习学习机器人操纵是一项具有挑战性的任务。在本文中,我们通过引入虚构对象目标的概念来解决这个问题。对于给定的操纵任务,首先通过物理逼真的模拟训练感兴趣的对象以达到自己的目标位置,而不会被操纵。然后利用对象策略来构建可编征物体轨迹的预测模型,该轨迹提供具有逐步更加困难的对象目标的机器人来达到训练期间的课程。所提出的算法,遵循对象(FO),已经在需要增加探索程度的7个Mujoco环境中进行评估,并且与替代算法相比,取得了更高的成功率。在特别具有挑战性的学习场景中,例如当物体的初始和目标位置相隔甚远,我们的方法仍然可以学习政策,而竞争方法目前失败。
translated by 谷歌翻译
通过加强学习(RL)掌握机器人操纵技巧通常需要设计奖励功能。该地区的最新进展表明,使用稀疏奖励,即仅在成功完成任务时奖励代理,可能会导致更好的政策。但是,在这种情况下,国家行动空间探索更困难。最近的RL与稀疏奖励学习的方法已经为任务提供了高质量的人类演示,但这些可能是昂贵的,耗时甚至不可能获得的。在本文中,我们提出了一种不需要人类示范的新颖有效方法。我们观察到,每个机器人操纵任务都可以被视为涉及从被操纵对象的角度来看运动的任务,即,对象可以了解如何自己达到目标状态。为了利用这个想法,我们介绍了一个框架,最初使用现实物理模拟器获得对象运动策略。然后,此策略用于生成辅助奖励,称为模拟的机器人演示奖励(SLDRS),使我们能够学习机器人操纵策略。拟议的方法已在增加复杂性的13个任务中进行了评估,与替代算法相比,可以实现更高的成功率和更快的学习率。 SLDRS对多对象堆叠和非刚性物体操作等任务特别有益。
translated by 谷歌翻译
Dealing with sparse rewards is one of the biggest challenges in Reinforcement Learning (RL). We present a novel technique called Hindsight Experience Replay which allows sample-efficient learning from rewards which are sparse and binary and therefore avoid the need for complicated reward engineering. It can be combined with an arbitrary off-policy RL algorithm and may be seen as a form of implicit curriculum. We demonstrate our approach on the task of manipulating objects with a robotic arm. In particular, we run experiments on three different tasks: pushing, sliding, and pick-and-place, in each case using only binary rewards indicating whether or not the task is completed. Our ablation studies show that Hindsight Experience Replay is a crucial ingredient which makes training possible in these challenging environments. We show that our policies trained on a physics simulation can be deployed on a physical robot and successfully complete the task. The video presenting our experiments is available at https://goo.gl/SMrQnI.
translated by 谷歌翻译
本文详细介绍了我们对2021年真正机器人挑战的第一阶段提交的提交;三指机器人必须沿指定目标轨迹携带立方体的挑战。为了解决第1阶段,我们使用一种纯净的增强学习方法,该方法需要对机器人系统或机器人抓握的最少专家知识。与事后的经验重播一起采用了稀疏,基于目标的奖励,以教导控制立方体将立方体移至目标的X和Y坐标。同时,采用了基于密集的距离奖励来教授将立方体提升到目标的Z坐标(高度组成部分)的政策。该策略在将域随机化的模拟中进行培训,然后再转移到真实的机器人进行评估。尽管此次转移后的性能往往会恶化,但我们的最佳政策可以通过有效的捏合掌握能够成功地沿目标轨迹提升真正的立方体。我们的方法表现优于所有其他提交,包括那些利用更传统的机器人控制技术的提交,并且是第一个解决这一挑战的纯学习方法。
translated by 谷歌翻译
Exploration in environments with sparse rewards has been a persistent problem in reinforcement learning (RL). Many tasks are natural to specify with a sparse reward, and manually shaping a reward function can result in suboptimal performance. However, finding a non-zero reward is exponentially more difficult with increasing task horizon or action dimensionality. This puts many real-world tasks out of practical reach of RL methods. In this work, we use demonstrations to overcome the exploration problem and successfully learn to perform long-horizon, multi-step robotics tasks with continuous control such as stacking blocks with a robot arm. Our method, which builds on top of Deep Deterministic Policy Gradients and Hindsight Experience Replay, provides an order of magnitude of speedup over RL on simulated robotics tasks. It is simple to implement and makes only the additional assumption that we can collect a small set of demonstrations. Furthermore, our method is able to solve tasks not solvable by either RL or behavior cloning alone, and often ends up outperforming the demonstrator policy.
translated by 谷歌翻译
稀疏奖励学习通常在加强学习(RL)方面效率低下。 Hindsight Experience重播(她)已显示出一种有效的解决方案,可以处理低样本效率,这是由于目标重新标记而导致的稀疏奖励效率。但是,她仍然有一个隐含的虚拟阳性稀疏奖励问题,这是由于实现目标而引起的,尤其是对于机器人操纵任务而言。为了解决这个问题,我们提出了一种新型的无模型连续RL算法,称为Relay-HER(RHER)。提出的方法首先分解并重新布置原始的长马任务,以增量复杂性为新的子任务。随后,多任务网络旨在以复杂性的上升顺序学习子任务。为了解决虚拟阳性的稀疏奖励问题,我们提出了一种随机混合的探索策略(RME),在该策略中,在复杂性较低的人的指导下,较高复杂性的子任务的实现目标很快就会改变。实验结果表明,在五个典型的机器人操纵任务中,与香草盖相比,RHER样品效率的显着提高,包括Push,Pickandplace,抽屉,插入物和InstaclePush。提出的RHER方法还应用于从头开始的物理机器人上的接触式推送任务,成功率仅使用250集达到10/10。
translated by 谷歌翻译
多目标增强学习被广泛应用于计划和机器人操纵中。多进球强化学习的两个主要挑战是稀疏的奖励和样本效率低下。 Hindsight Experience重播(她)旨在通过进球重新标记来应对这两个挑战。但是,与她相关的作品仍然需要数百万个样本和庞大的计算。在本文中,我们提出了多步事化经验重播(MHER),并根据$ n $ step Relabeling合并了多步重新标记的回报,以提高样品效率。尽管$ n $ step Relableling具有优势,但我们从理论上和实验上证明了$ n $ step Relabeling引入的非政策$ n $步骤偏置可能会导致许多环境的性能差。为了解决上述问题,提出了两种偏差降低的MHER算法,Mher($ \ lambda $)和基于模型的Mher(Mmher)。 Mher($ \ lambda $)利用$ \ lambda $返回,而Mmher从基于模型的价值扩展中受益。对众多多目标机器人任务的实验结果表明,我们的解决方案可以成功减轻$ n $ n $步骤的偏见,并获得比她的样本效率明显更高,并且课程引导她,而她几乎没有其他计算。
translated by 谷歌翻译
后敏感经验重播(她)是一种常见的脱离政策深度加强学习算法的目标,以解决面向目标的任务;它非常适合提供仅提供稀疏奖励的机器人操纵任务。在她身上,轨迹和过渡都是均匀地对训练进行采样的。然而,并非所有的代理商的经历都同样促进训练,因此天真的统一采样可能导致学习效率低下。在本文中,我们提出了与她(DTGSH)的多样性轨迹和目标选择。首先,根据目标状态的多样性对由决定点过程(DPP)的模型进行采样进行采样。其次,通过使用K-DPP从轨迹中选择具有不同目标状态的转换。我们在模拟机器人环境中评估五个挑战机器人操纵任务的DTGSH,在那里我们表明我们的方法可以更快地学到更快,并且比所有任务的其他最先进的方法达到更高的性能。
translated by 谷歌翻译
本文展示了熊猫健身房,一套加固学习(RL)环境,适用于与Openai健身房一体化的弗兰卡·埃米卡熊猫机器人。包括五项任务:达到,推,幻灯片,拾取和堆叠。它们都遵循多目标RL框架,允许使用面向目标的RL算法。为了促进开放式研究,我们选择使用开源物理引擎Pybullet。为此包选择的实现允许定义非常容易的新任务或新机器人。本文还介绍了通过最先进的无模式脱核算法获得的结果。熊猫健身房是开源,在https://github.com/qgallouedec/panda-gym上免费提供。
translated by 谷歌翻译
在环境中的多进球强化学习中,代理商通过利用从与环境的互动中获得的经验来学习实现多个目标的政策。由于缺乏成功的经验,培训代理人凭借稀疏的二元奖励特别具有挑战性。为了解决这个问题,事后观察体验重播(她)从失败的经历中获得了成功的经验。但是,在不考虑实现目标财产的情况下产生成功的经验效率较低。在本文中,提出了一种基于集群的采样策略,利用实现目标的财产。提出的采样策略小组以不同的方式实现了目标和样本经历。对于分组,使用K-均值聚类算法。集群的质心是从定义为未实现的原始目标的失败目标的分布中获得的。该方法通过使用OpenAI健身房的三个机器人控制任务进行实验来验证。实验的结果表明,所提出的方法显着减少了在这三个任务中的两个中收敛所需的时期数量,并略微增加了其余一个任务的成功率。还表明,提出的方法可以与她的其他抽样策略结合使用。
translated by 谷歌翻译
强化学习是机器人抓握的一种有前途的方法,因为它可以在困难的情况下学习有效的掌握和掌握政策。但是,由于问题的高维度,用精致的机器人手来实现类似人类的操纵能力是具有挑战性的。尽管可以采用奖励成型或专家示范等补救措施来克服这个问题,但它们通常导致过分简化和有偏见的政策。我们介绍了Dext-Gen,这是一种在稀疏奖励环境中灵巧抓握的强化学习框架,适用于各种抓手,并学习无偏见和复杂的政策。通过平滑方向表示实现了抓地力和物体的完全方向控制。我们的方法具有合理的培训时间,并提供了包括所需先验知识的选项。模拟实验证明了框架对不同方案的有效性和适应性。
translated by 谷歌翻译
尽管深入的强化学习(DRL)在包括机器人技术在内的许多学科中都很流行,但最先进的DRL算法仍然难以学习长途,多步骤和稀疏奖励任务,例如仅在只有一项任务的情况下堆叠几个块 - 集合奖励信号。为了提高此类任务的学习效率,本文提出了一种称为A^2的DRL探索技术,该技术集成了受人类经验启发的两个组成部分:抽象演示和适应性探索。 A^2首先将复杂的任务分解为子任务,然后提供正确的子任务订单以学习。在训练过程中,该代理商会自适应地探索环境,对良好的子任务的行为更确定性,并且更随机地对不良的子任务子任务。消融和比较实验是对几个网格世界任务和三个机器人操纵任务进行的。我们证明A^2可以帮助流行的DRL算法(DQN,DDPG和SAC)在这些环境中更有效,稳定地学习。
translated by 谷歌翻译
与一组复杂的RL问题有关的目标条件加固学习(GCRL)训练代理在特定情况下实现不同的目标。与仅根据州或观察结果了解政策的标准RL解决方案相比,GCRL还要求代理商根据不同的目标做出决策。在这项调查中,我们对GCRL的挑战和算法进行了全面的概述。首先,我们回答该领域研究的基本问题。然后,我们解释了如何代表目标并介绍如何从不同角度设计现有解决方案。最后,我们得出结论,并讨论最近研究重点的潜在未来前景。
translated by 谷歌翻译
解决稀疏奖励的多目标强化学习(RL)问题通常是具有挑战性的。现有方法利用目标依赖收集的经验,以减轻稀疏奖励提出的问题。然而,这些方法仍然有效,无法充分利用经验。在本文中,我们提出了基于模型的后敏感体验重放(MIRH),通过利用环境动态来产生虚拟实现的目标,更有效地利用更有效的体验。用从训练有素的动态模型的交互中产生的虚拟目标替换原始目标导致一种新的重定相制方法,基于模型的重新标记(MBR)。基于MBR,MEHER执行加强学习和监督学习以获得高效的政策改进。从理论上讲,我们还证明了MBR数据的目标调节监督学习的监督部分,优化了多目标RL目标的下限。基于几个点的任务和模拟机器人环境的实验结果表明,MINHER比以前的无模型和基于模型的多目标方法实现显着更高的样本效率。
translated by 谷歌翻译
深度加固学习(DRL)使机器人能够结束结束地执行一些智能任务。然而,长地平线稀疏奖励机器人机械手任务仍存在许多挑战。一方面,稀疏奖励设置会导致探索效率低下。另一方面,使用物理机器人的探索是高成本和不安全的。在本文中,我们提出了一种学习使用本文中名为基础控制器的一个或多个现有传统控制器的长地平线稀疏奖励任务。基于深度确定性的政策梯度(DDPG),我们的算法将现有基础控制器融入勘探,价值学习和策略更新的阶段。此外,我们介绍了合成不同基础控制器以整合它们的优点的直接方式。通过从堆叠块到杯子的实验,证明学习的国家或基于图像的策略稳定优于基础控制器。与以前的示范中的学习作品相比,我们的方法通过数量级提高了样品效率,提高了性能。总体而言,我们的方法具有利用现有的工业机器人操纵系统来构建更灵活和智能控制器的可能性。
translated by 谷歌翻译
强化学习(RL)在机器人中的应用通常受高数据需求的限制。另一方面,许多机器人场景中容易获得近似模型,使基于模型的方法,如规划数据有效的替代方案。尽管如此,这些方法的性能遭受了模型不精确或错误。从这个意义上讲,RL和基于模型的规划者的各个优势和弱点是。在目前的工作中,我们调查如何将两种方法集成到结合其优势的一个框架中。我们介绍了学习执行(L2E),从而利用近似计划中包含的信息学习有关计划的普遍政策。在我们的机器人操纵实验中,与纯RL,纯规划或基线方法相比,L2E在结合学习和规划的基线方法时表现出增加的性能。
translated by 谷歌翻译
强化学习(RL)代理商可以通过与环境进行交互来学习解决复杂的顺序决策任务。但是,样品效率仍然是一个重大挑战。在多目标RL领域中,需要代理以达到多个目标来解决复杂任务,提高采样效率可能尤其具有挑战性。另一方面,人类或其他生物代理商以更具战略方式学习此类任务,遵循随着难度水平的增加,以便逐步高效的学习进步。在这项工作中,我们提出了一种以自我监督方式使用动态距离功能(DDF)的自动目标生成方法。 DDF是一种函数,它预测马尔可夫决策过程(MDP)内的任何两个状态之间的动态距离。有了这个,我们在适当的难度水平下生成一个目标课程,以便在整个培训过程中有效地学习。我们在几个目标条件的机器人操纵和导航任务中评估这种方法,并在基线方法上显示出样本效率的改进,该方法仅使用随机目标采样。
translated by 谷歌翻译
In order to avoid conventional controlling methods which created obstacles due to the complexity of systems and intense demand on data density, developing modern and more efficient control methods are required. In this way, reinforcement learning off-policy and model-free algorithms help to avoid working with complex models. In terms of speed and accuracy, they become prominent methods because the algorithms use their past experience to learn the optimal policies. In this study, three reinforcement learning algorithms; DDPG, TD3 and SAC have been used to train Fetch robotic manipulator for four different tasks in MuJoCo simulation environment. All of these algorithms are off-policy and able to achieve their desired target by optimizing both policy and value functions. In the current study, the efficiency and the speed of these three algorithms are analyzed in a controlled environment.
translated by 谷歌翻译
连续控制设置中的复杂顺序任务通常需要代理在其状态空间中成功遍历一组“窄段”。通过以样本有效的方式解决具有稀疏奖励的这些任务对现代钢筋(RL)构成了挑战,由于问题的相关的长地平性,并且在学习期间缺乏充足的正信号。已应用各种工具来解决这一挑战。当可用时,大型演示可以指导代理探索。后威尔同时释放不需要额外的信息来源。然而,现有的战略基于任务不可行的目标分布探索,这可以使长地平线的解决方案不切实际。在这项工作中,我们扩展了后视可释放的机制,以指导沿着一小组成功示范所暗示的特定任务特定分布的探索。我们评估了四个复杂,单身和双臂,机器人操纵任务的方法,对抗强合适的基线。该方法需要较少的演示来解决所有任务,并且达到明显更高的整体性能作为任务复杂性增加。最后,我们研究了提出的解决方案对输入表示质量和示范人数的鲁棒性。
translated by 谷歌翻译
我们研究机器人如何自主学习需要联合导航和抓握的技能。虽然原则上的加固学习提供自动机器人技能学习,但在实践中,在现实世界中的加固学习是挑战性的,并且往往需要大量的仪器和监督。我们的宗旨是以无论没有人为干预的自主方式,设计用于学习导航和操纵的机器人强化学习系统,在没有人为干预的情况下,在现实的假设下实现持续学习。我们建议的系统relmm,可以在没有任何环境仪器的现实世界平台上不断学习,没有人为干预,而无需访问特权信息,例如地图,对象位置或环境的全局视图。我们的方法采用模块化策略与组件进行操纵和导航,其中操纵政策不确定性驱动导航控制器的探索,操作模块为导航提供奖励。我们在房间清理任务上评估我们的方法,机器人必须导航到并拾取散落在地板上的物品。在掌握课程训练阶段之后,relmm可以在自动真实培训的大约40小时内自动学习导航并完全抓住。
translated by 谷歌翻译