灵巧的操纵任务通常具有多个目标,这些目标的优先级可能会在操纵任务的不同阶段有所不同。不同的优先级使机器人几乎没有甚至没有通过深入的强化学习(DRL)方法来学习最佳政策。为了解决这个问题,我们开发了一种新颖的自适应分层奖励机制(AHRM),以指导DRL代理学习具有多个优先目标的操纵任务。AHRM可以在学习过程中确定客观优先级,并更新奖励层次结构,以适应不同阶段的客观优先级。所提出的方法通过Jaco机器人组在多目标操纵任务中进行了验证,该机器人需要在该任务中用障碍物包围来操纵目标。模拟和物理实验结果表明,该方法改善了任务绩效和学习效率的机器人学习。
translated by 谷歌翻译
在动态控制问题中将深度加强学习(DRL)应用于人体机器人合作(HRC)是有前途的,但由于机器人需要学习人类伴侣的受控系统和动态的动态,因此有挑战性。在现有研究中,由DRL提供动力的机器人采用耦合观察环境和人类伴侣同时学习两个动态。但是,这种学习策略在学习效率和团队表现方面有限。这项工作提出了一种新的任务分解方法,具有分层奖励机制,使机器人能够分开学习分层动态控制任务,从学习人类伴侣的行为。该方法在具有人体主题实验的模拟环境中用分层控制任务进行验证。我们的方法还提供了对HRC学习策略设计的洞察。结果表明,机器人应该首先学习任务,以实现更高的团队表现,并首先学习人类以实现更高的学习效率。
translated by 谷歌翻译
由于涉及的复杂动态和多标准优化,控制非静态双模型机器人具有挑战性。最近的作品已经证明了深度加强学习(DRL)的仿真和物理机器人的有效性。在这些方法中,通常总共总共汇总来自不同标准的奖励以学习单个值函数。但是,这可能导致混合奖励之间的依赖信息丢失并导致次优策略。在这项工作中,我们提出了一种新颖的奖励自适应加强学习,用于Biped运动,允许控制策略通过使用动态机制通过多标准同时优化。该方法应用多重批评,为每个奖励组件学习单独的值函数。这导致混合政策梯度。我们进一步提出了动态权重,允许每个组件以不同的优先级优化策略。这种混合动态和动态策略梯度(HDPG)设计使代理商更有效地学习。我们表明所提出的方法优于总结奖励方法,能够转移到物理机器人。 SIM-to-Real和Mujoco结果进一步证明了HDPG的有效性和泛化。
translated by 谷歌翻译
在人体机器人合作(HRC)中,机器人与人类合作,共同完成任务。现有方法假设人类在合作期间有一个特定的目标,机器人的贫富和行为。然而,在现实世界的环境中,人类通常在合作开始时只有一般目标(例如,运动规划中的一般方向或区域),这需要澄清到特定目标(例如,确切的位置)在合作期间。规范过程是互动和动态的,这取决于环境和合作伙伴的行为。不考虑目标规范过程的机器人可能会对人类伴侣造成挫败感,而漫长的时间来协议,并妥协或失败的团队表现。我们介绍了进化价值学习(EVL)方法,它使用基于国家的多元贝叶斯推理方法来模拟HRC中目标规范过程的动态。 EVL可以积极增强目标规范和合作形成的过程。这使得机器人能够同时帮助人类指定目标并在深度加强学习(DRL)方式中学习合作政策。在具有真实人类主题的动态球平衡任务中,配备EVL的机器人优先于现有方法,具有更快的目标规格流程和更好的团队性能。
translated by 谷歌翻译
稀疏奖励学习通常在加强学习(RL)方面效率低下。 Hindsight Experience重播(她)已显示出一种有效的解决方案,可以处理低样本效率,这是由于目标重新标记而导致的稀疏奖励效率。但是,她仍然有一个隐含的虚拟阳性稀疏奖励问题,这是由于实现目标而引起的,尤其是对于机器人操纵任务而言。为了解决这个问题,我们提出了一种新型的无模型连续RL算法,称为Relay-HER(RHER)。提出的方法首先分解并重新布置原始的长马任务,以增量复杂性为新的子任务。随后,多任务网络旨在以复杂性的上升顺序学习子任务。为了解决虚拟阳性的稀疏奖励问题,我们提出了一种随机混合的探索策略(RME),在该策略中,在复杂性较低的人的指导下,较高复杂性的子任务的实现目标很快就会改变。实验结果表明,在五个典型的机器人操纵任务中,与香草盖相比,RHER样品效率的显着提高,包括Push,Pickandplace,抽屉,插入物和InstaclePush。提出的RHER方法还应用于从头开始的物理机器人上的接触式推送任务,成功率仅使用250集达到10/10。
translated by 谷歌翻译
In this paper, we build on advances introduced by the Deep Q-Networks (DQN) approach to extend the multi-objective tabular Reinforcement Learning (RL) algorithm W-learning to large state spaces. W-learning algorithm can naturally solve the competition between multiple single policies in multi-objective environments. However, the tabular version does not scale well to environments with large state spaces. To address this issue, we replace underlying Q-tables with DQN, and propose an addition of W-Networks, as a replacement for tabular weights (W) representations. We evaluate the resulting Deep W-Networks (DWN) approach in two widely-accepted multi-objective RL benchmarks: deep sea treasure and multi-objective mountain car. We show that DWN solves the competition between multiple policies while outperforming the baseline in the form of a DQN solution. Additionally, we demonstrate that the proposed algorithm can find the Pareto front in both tested environments.
translated by 谷歌翻译
通过杂乱无章的场景推动对象是一项具有挑战性的任务,尤其是当要推动的对象最初具有未知的动态和触摸其他实体时,必须避免降低损害的风险。在本文中,我们通过应用深入的强化学习来解决此问题,以制造出作用在平面表面上的机器人操纵器的推动动作,在该机器人表面上必须将物体推到目标位置,同时避免同一工作空间中的其他项目。通过从场景的深度图像和环境的其他观察结果中学到的潜在空间,例如末端效应器和对象之间的接触信息以及与目标的距离,我们的框架能够学习接触率丰富的推动行动避免与其他物体发生冲突。随着实验结果具有六个自由度机器人臂的显示,我们的系统能够从开始到端位置成功地将物体推向,同时避免附近的物体。此外,我们与移动机器人的最先进的推动控制器相比,我们评估了我们的学术策略,并表明我们的代理在成功率,与其他对象的碰撞以及在各种情况下连续对象联系方面的性能更好。
translated by 谷歌翻译
Reinforcement learning holds the promise of enabling autonomous robots to learn large repertoires of behavioral skills with minimal human intervention. However, robotic applications of reinforcement learning often compromise the autonomy of the learning process in favor of achieving training times that are practical for real physical systems. This typically involves introducing hand-engineered policy representations and human-supplied demonstrations. Deep reinforcement learning alleviates this limitation by training general-purpose neural network policies, but applications of direct deep reinforcement learning algorithms have so far been restricted to simulated settings and relatively simple tasks, due to their apparent high sample complexity. In this paper, we demonstrate that a recent deep reinforcement learning algorithm based on offpolicy training of deep Q-functions can scale to complex 3D manipulation tasks and can learn deep neural network policies efficiently enough to train on real physical robots. We demonstrate that the training times can be further reduced by parallelizing the algorithm across multiple robots which pool their policy updates asynchronously. Our experimental evaluation shows that our method can learn a variety of 3D manipulation skills in simulation and a complex door opening skill on real robots without any prior demonstrations or manually designed representations.
translated by 谷歌翻译
现实的操纵任务要求机器人与具有长时间运动动作序列的环境相互作用。尽管最近出现了深厚的强化学习方法,这是自动化操作行为的有希望的范式,但由于勘探负担,它们通常在长途任务中缺乏。这项工作介绍了操纵原始增强的强化学习(Maple),这是一个学习框架,可通过预定的行为原始库来增强标准强化学习算法。这些行为原始素是专门实现操纵目标(例如抓住和推动)的强大功能模块。为了使用这些异质原始素,我们制定了涉及原语的层次结构策略,并使用输入参数实例化执行。我们证明,枫树的表现优于基线方法,通过一系列模拟的操纵任务的大幅度。我们还量化了学习行为的组成结构,并突出了我们方法将策略转移到新任务变体和物理硬件的能力。视频和代码可从https://ut-aut-autin-rpl.github.io/maple获得
translated by 谷歌翻译
强化学习表现出巨大的潜力,可以解决复杂的接触率丰富的机器人操纵任务。但是,在现实世界中使用RL的安全是一个关键问题,因为在培训期间或看不见的情况下,RL政策是不完善的,可能会发生意外的危险碰撞。在本文中,我们提出了一个接触安全的增强增强学习框架,用于接触良好的机器人操纵,该框架在任务空间和关节空间中保持安全性。当RL政策导致机器人组与环境之间的意外冲突时,我们的框架能够立即检测到碰撞并确保接触力量很小。此外,最终效应器被强制执行,同时对外部干扰保持强大的态度。我们训练RL政策以模拟并将其转移到真正的机器人中。关于机器人擦拭任务的现实世界实验表明,即使在策略处于看不见的情况下,我们的方法也能够使接触在任务空间和关节空间中保持较小,同时拒绝对主要任务的干扰。
translated by 谷歌翻译
深度加强学习(DRL)是教授机器人执行复杂任务的有希望的方法。因为直接重用所存储的体验数据的方法无法遵循与时变环境中的机器人问题的环境的变化,所需的在线DRL。资格迹线方法是一种用于提高传统增强学习中的样本效率的在线学习技术,而不是线性回归而不是DRL。深度神经网络参数之间的依赖性会破坏资格迹线,这就是它们不与DRL集成的原因。虽然用最具影响力的梯度替换渐变而不是累积梯度,但随着资格迹线可以缓解这个问题,替换操作会减少先前体验的重用率。为了解决这些问题,本研究提出了一种新的资格迹线方法,即使在DRL中也可以使用,同时保持高样本效率。当累积梯度与使用最新参数计算的梯度不同时,所提出的方法考虑了过去和最新参数之间的发散,以便自适应地衰减资格迹线。由于过去和最新参数之间的发散不可行的计算成本,利用了过去和最新参数的输出之间的Bregman分歧。另外,第一次设计具有多个时间尺度迹线的广义方法。这种设计允许更换最有影响力的自适应积累(衰减)的资格痕迹。
translated by 谷歌翻译
Real-world autonomous missions often require rich interaction with nearby objects, such as doors or switches, along with effective navigation. However, such complex behaviors are difficult to learn because they involve both high-level planning and low-level motor control. We present a novel framework, Cascaded Compositional Residual Learning (CCRL), which learns composite skills by recursively leveraging a library of previously learned control policies. Our framework learns multiplicative policy composition, task-specific residual actions, and synthetic goal information simultaneously while freezing the prerequisite policies. We further explicitly control the style of the motion by regularizing residual actions. We show that our framework learns joint-level control policies for a diverse set of motor skills ranging from basic locomotion to complex interactive navigation, including navigating around obstacles, pushing objects, crawling under a table, pushing a door open with its leg, and holding it open while walking through it. The proposed CCRL framework leads to policies with consistent styles and lower joint torques, which we successfully transfer to a real Unitree A1 robot without any additional fine-tuning.
translated by 谷歌翻译
机器人的长期愿景是装备机器人,技能与人类的多功能性和精度相匹配。例如,在播放乒乓球时,机器人应该能够以各种方式返回球,同时精确地将球放置在所需位置。模拟这种多功能行为的常见方法是使用专家(MOE)模型的混合,其中每个专家是一个上下文运动原语。然而,由于大多数目标强迫模型涵盖整个上下文空间,因此学习此类MOS是具有挑战性的,这可以防止基元的专业化导致相当低质量的组件。从最大熵增强学习(RL)开始,我们将目标分解为优化每个混合组件的个体下限。此外,我们通过允许组件专注于本地上下文区域来介绍课程,使模型能够学习高度准确的技能表示。为此,我们使用与专家原语共同调整的本地上下文分布。我们的下限主张迭代添加新组件,其中新组件将集中在当前MOE不涵盖的本地上下文区域上。这种本地和增量学习导致高精度和多功能性的模块化MOE模型,其中可以通过在飞行中添加更多组件来缩放两个属性。我们通过广泛的消融和两个具有挑战性的模拟机器人技能学习任务来证明这一点。我们将我们的绩效与Live和Hireps进行了比较,这是一个已知的分层政策搜索方法,用于学习各种技能。
translated by 谷歌翻译
从意外的外部扰动中恢复的能力是双模型运动的基本机动技能。有效的答复包括不仅可以恢复平衡并保持稳定性的能力,而且在平衡恢复物质不可行时,也可以保证安全的方式。对于与双式运动有关的机器人,例如人形机器人和辅助机器人设备,可帮助人类行走,设计能够提供这种稳定性和安全性的控制器可以防止机器人损坏或防止伤害相关的医疗费用。这是一个具有挑战性的任务,因为它涉及用触点产生高维,非线性和致动系统的高动态运动。尽管使用基于模型和优化方法的前进方面,但诸如广泛领域知识的要求,诸如较大的计算时间和有限的动态变化的鲁棒性仍然会使这个打开问题。在本文中,为了解决这些问题,我们开发基于学习的算法,能够为两种不同的机器人合成推送恢复控制政策:人形机器人和有助于双模型运动的辅助机器人设备。我们的工作可以分为两个密切相关的指示:1)学习人形机器人的安全下降和预防策略,2)使用机器人辅助装置学习人类的预防策略。为实现这一目标,我们介绍了一套深度加强学习(DRL)算法,以学习使用这些机器人时提高安全性的控制策略。
translated by 谷歌翻译
尽管移动操作在工业和服务机器人技术方面都重要,但仍然是一个重大挑战,因为它需要将最终效应轨迹的无缝整合与导航技能以及对长匹马的推理。现有方法难以控制大型配置空间,并导航动态和未知环境。在先前的工作中,我们建议将移动操纵任务分解为任务空间中最终效果的简化运动生成器,并将移动设备分解为训练有素的强化学习代理,以说明移动基础的运动基础,以说明运动的运动可行性。在这项工作中,我们引入了移动操作的神经导航(n $^2 $ m $^2 $),该导航将这种分解扩展到复杂的障碍环境,并使其能够解决现实世界中的广泛任务。最终的方法可以在未探索的环境中执行看不见的长马任务,同时立即对动态障碍和环境变化做出反应。同时,它提供了一种定义新的移动操作任务的简单方法。我们证明了我们提出的方法在多个运动学上多样化的移动操纵器上进行的广泛模拟和现实实验的能力。代码和视频可在http://mobile-rl.cs.uni-freiburg.de上公开获得。
translated by 谷歌翻译
通过直接将感知输入映射到机器人控制命令中,深入的强化学习(DRL)算法已被证明在机器人导航中有效,尤其是在未知环境中。但是,大多数现有方法忽略导航中的局部最小问题,从而无法处理复杂的未知环境。在本文中,我们提出了第一个基于DRL的导航方法,该方法由具有连续动作空间,自适应向前模拟时间(AFST)的SMDP建模,以克服此问题。具体而言,我们通过修改其GAE来更好地估计SMDP中的策略梯度,改善了指定SMDP问题的分布式近端策略优化(DPPO)算法。我们在模拟器和现实世界中评估了我们的方法。
translated by 谷歌翻译
技能链是一种希望通过顺序结合以前学习的技能来合成复杂行为的有希望的方法。然而,当政策遭遇在培训期间从未见过的起始状态时,幼稚的技能组成失败。对于成功的技能链接,先前的方法试图扩大策略的起始状态分布。然而,这些方法需要覆盖更大的状态分布,因为更多的策略进行测序,因此仅限于短的技能序列。在本文中,我们通过在对抗学习框架中规范终端状态分布来提出连锁多个初始状态分布的多重政策。我们评估了我们对家具组件的两个复杂的长地平衡任务的方法。我们的结果表明,我们的方法建立了第一种无模型加强学习算法来解决这些任务;而先前的技能链接方法失败。代码和视频可在https://clvrai.com/skill-chaining上获得
translated by 谷歌翻译
本文提出了一种基于强化学习的导航方法,在其中我们将占用观测定义为运动原始启发式评估,而不是使用原始传感器数据。我们的方法可以将多传感器融合生成的占用数据快速映射到3D工作区中的轨迹值中。计算有效的轨迹评估允许对动作空间进行密集采样。我们利用不同数据结构中的占用观测来分析其对培训过程和导航性能的影响。我们在基于物理的仿真环境(包括静态和动态障碍)中对两个不同机器人进行训练和测试。我们通过最先进方法的其他常规数据结构对我们的占用表示进行基准测试。在动态环境中,通过物理机器人成功验证了训练有素的导航政策。结果表明,与其他占用表示相比,我们的方法不仅减少了所需的训练时间,还可以改善导航性能。我们的工作和所有相关信息的开源实现可从\ url {https://github.com/river-lab/tentabot}获得。
translated by 谷歌翻译
我们提出了Composuite,这是一种用于组成多任务增强学习(RL)的开源模拟机器人操纵基准。每个复合仪任务都需要特定的机器人组来操纵一个单独的对象,以实现一个任务目标,同时避免障碍物。该任务的这种组成定义赋予了Composuite具有两个非凡的属性。首先,改变机器人/对象/客观/障碍元素会导致数百个RL任务,每个任务都需要有意义的不同行为。其次,可以专门评估RL方法,以了解其学习任务的组成结构的能力。后者在功能上分解问题的能力将使智能代理能够识别和利用学习任务之间的共同点,以处理大量高度多样化的问题。我们在各种培训环境中基准了现有的单任务,多任务和组成学习算法,并评估其在构图上概括到看不见的任务的能力。我们的评估暴露了现有RL方法在组成方面的缺点,并为调查开辟了新的途径。
translated by 谷歌翻译