在具有连续以对象的状态,连续的动作,长距离和稀疏反馈的机器人环境中,决策是具有挑战性的。诸如任务和运动计划(TAMP)之类的层次结构方法通过将决策分解为两个或更多级别的抽象来解决这些挑战。在给出演示和符号谓词的环境中,先前的工作已经显示了如何通过手动设计的参数化策略来学习符号操作员和神经采样器。我们的主要贡献是一种与操作员和采样器结合使用的参数化策略的方法。这些组件被包装到模块化神经符号技能中,并与搜索 - 然后样本tamp一起测序以解决新任务。在四个机器人域的实验中,我们表明我们的方法 - 具有神经符号技能的双重计划 - 可以解决具有不同初始状态,目标和对象不同的各种任务,表现优于六个基线和消融。视频:https://youtu.be/pbfzp8rpugg代码:https://tinyurl.com/skill-learning
translated by 谷歌翻译
在环境抽象中进行高级搜索来指导低水平决策,这是一种有效的方法,是解决连续状态和行动空间中的长途任务的有效方法。最近的工作表明,可以以符号操作员和神经采样器的形式学习使这种二聚体计划的动作抽象,并且鉴于实现已知目标的符号谓词和演示。在这项工作中,我们表明,在动作往往会导致大量谓词发生变化的环境中,现有的方法不足。为了解决这个问题,我们建议学习具有忽略效果的操作员。激发我们方法的关键思想是,对谓词的每一个观察到的变化进行建模是不必要的。唯一需要建模的更改是高级搜索以实现指定目标所需的更改。在实验上,我们表明我们的方法能够学习具有忽略六个混合机器人域效果的操作员,这些企业能够解决一个代理,以解决具有不同初始状态,目标和对象数量的新任务变化,比几个基线要高得多。
translated by 谷歌翻译
在机器人域中,学习和计划因连续的状态空间,连续的动作空间和较长的任务范围而变得复杂。在这项工作中,我们通过神经符号关系过渡模型(NSRTS)解决了这些挑战,这是一种具有数据效率学习的新型模型,与强大的机器人计划方法兼容,并且可以推广到对象上。NSRT具有符号和神经成分,实现了双重计划方案,其中外循环中的符号AI规划指导内部循环中的神经模型的连续计划。四个机器人计划域中的实验表明,仅在数十或数百个培训情节之后就可以学习NSRT,然后用于快速规划的新任务,这些任务需要高达60个动作,并且涉及比培训期间看到的更多物体。视频:https://tinyurl.com/chitnis-nsrts
translated by 谷歌翻译
Solving real-world sequential manipulation tasks requires robots to have a repertoire of skills applicable to a wide range of circumstances. To acquire such skills using data-driven approaches, we need massive and diverse training data which is often labor-intensive and non-trivial to collect and curate. In this work, we introduce Active Task Randomization (ATR), an approach that learns visuomotor skills for sequential manipulation by automatically creating feasible and novel tasks in simulation. During training, our approach procedurally generates tasks using a graph-based task parameterization. To adaptively estimate the feasibility and novelty of sampled tasks, we develop a relational neural network that maps each task parameter into a compact embedding. We demonstrate that our approach can automatically create suitable tasks for efficiently training the skill policies to handle diverse scenarios with a variety of objects. We evaluate our method on simulated and real-world sequential manipulation tasks by composing the learned skills using a task planner. Compared to baseline methods, the skills learned using our approach consistently achieve better success rates.
translated by 谷歌翻译
长期以来,能够接受和利用特定于人类的任务知识的增强学习(RL)代理人被认为是开发可扩展方法来解决长途问题的可能策略。尽管以前的作品已经研究了使用符号模型以及RL方法的可能性,但他们倾向于假设高级动作模型在低级别上是可执行的,并且流利者可以专门表征所有理想的MDP状态。但是,现实世界任务的符号模型通常是不完整的。为此,我们介绍了近似符号模型引导的增强学习,其中我们将正式化符号模型与基础MDP之间的关系,这将使我们能够表征符号模型的不完整性。我们将使用这些模型来提取将用于分解任务的高级地标。在低水平上,我们为地标确定的每个可能的任务次目标学习了一组不同的政策,然后将其缝合在一起。我们通过在三个不同的基准域进行测试来评估我们的系统,并显示即使是不完整的符号模型信息,我们的方法也能够发现任务结构并有效地指导RL代理到达目标。
translated by 谷歌翻译
我们提出了一种新颖的通用方法,该方法可以找到动作的,离散的对象和效果类别,并为非平凡的行动计划建立概率规则。我们的机器人使用原始操作曲目与对象进行交互,该曲目被认为是早先获取的,并观察到它在环境中可以产生的效果。为了形成动作界面的对象,效果和关系类别,我们在预测性的,深的编码器折线网络中采用二进制瓶颈层,该网络以场景的形象和应用为输入应用的动作,并在场景中生成结果效果在像素坐标中。学习后,二进制潜在向量根据机器人的相互作用体验代表动作驱动的对象类别。为了将神经网络代表的知识提炼成对符号推理有用的规则,对决策树进行了训练以复制其解码器功能。概率规则是从树的决策路径中提取的,并在概率计划域定义语言(PPDDL)中表示,允许现成的计划者根据机器人的感觉运动体验所提取的知识进行操作。模拟机器人操纵器的建议方法的部署使发现对象属性的离散表示,例如``滚动''和``插入''。反过来,将这些表示形式用作符号可以生成有效的计划来实现目标,例如建造所需高度的塔楼,证明了多步物体操纵方法的有效性。最后,我们证明了系统不仅通过评估其对MNIST 8个式式域的适用性来限于机器人域域,在该域​​中,学习的符号允许生成将空图块移至任何给定位置的计划。
translated by 谷歌翻译
教深入的强化学习(RL)代理在多任务环境中遵循说明是一个挑战性的问题。我们认为用户通过线性时间逻辑(LTL)公式定义了每个任务。但是,用户可能未知的复杂环境中的某些因果关系依赖性未知。因此,当人类用户指定说明时,机器人无法通过简单地按照给定的说明来解决任务。在这项工作中,我们提出了一个分层增强学习(HRL)框架,其中学习了符号过渡模型,以有效地制定高级计划,以指导代理有效地解决不同的任务。具体而言,符号过渡模型是通过归纳逻辑编程(ILP)学习的,以捕获状态过渡的逻辑规则。通过计划符号过渡模型的乘积和从LTL公式得出的自动机的乘积,代理可以解决因果关系依赖性,并将因果复杂问题分解为一系列简单的低级子任务。我们在离散和连续域中的三个环境上评估了提出的框架,显示了比以前的代表性方法的优势。
translated by 谷歌翻译
在本文中,我们研究了可以从原始图像中学习低级技能的曲目的问题,这些曲目可以测序以完成长效的视觉运动任务。强化学习(RL)是一种自主获取短疗法技能的有前途的方法。但是,RL算法的重点很大程度上是这些个人技能的成功,而不是学习和扎根大量的技能曲目,这些技能可以对这些技能进行测序,这些技能可以对完成扩展的多阶段任务进行测序。后者需要稳健性和持久性,因为技能的错误会随着时间的流逝而复杂,并且可能要求机器人在其曲目中具有许多原始技能,而不仅仅是一个。为此,我们介绍了Ember,Ember是一种基于模型的RL方法,用于学习原始技能,适合完成长途视觉运动任务。 Ember使用学识渊博的模型,评论家和成功分类器学习和计划,成功分类器既可以作为RL的奖励功能,又是一种基础机制,可连续检测机器人在失败或扰动下是否应重试技能。此外,学到的模型是任务不合时宜的,并使用来自所有技能的数据进行了培训,从而使机器人能够有效地学习许多不同的原语。这些视觉运动原始技能及其相关的前后条件可以直接与现成的符号计划者结合在一起,以完成长途任务。在Franka Emika机器人部门上,我们发现Ember使机器人能够以85%的成功率完成三个长马视觉运动任务,例如组织办公桌,文件柜和抽屉,需要排序多达12个技能,这些技能最多需要12个技能,涉及14个独特的学识渊博,并要求对新物体进行概括。
translated by 谷歌翻译
PDDLStream solvers have recently emerged as viable solutions for Task and Motion Planning (TAMP) problems, extending PDDL to problems with continuous action spaces. Prior work has shown how PDDLStream problems can be reduced to a sequence of PDDL planning problems, which can then be solved using off-the-shelf planners. However, this approach can suffer from long runtimes. In this paper we propose LAZY, a solver for PDDLStream problems that maintains a single integrated search over action skeletons, which gets progressively more geometrically informed as samples of possible motions are lazily drawn during motion planning. We explore how learned models of goal-directed policies and current motion sampling data can be incorporated in LAZY to adaptively guide the task planner. We show that this leads to significant speed-ups in the search for a feasible solution evaluated over unseen test environments of varying numbers of objects, goals, and initial conditions. We evaluate our TAMP approach by comparing to existing solvers for PDDLStream problems on a range of simulated 7DoF rearrangement/manipulation problems.
translated by 谷歌翻译
在对关节对象表示表示的工作之后,引入了面向对象的网络(FOON)作为机器人的知识图表示。以双方图的形式,Foon包含符号(高级)概念,可用于机器人对任务及其对象级别计划的环境的理解及其环境。在本文之前,几乎没有做任何事情来证明如何通过任务树检索从FOON获取的任务计划如何由机器人执行,因为Foon中的概念太抽象了,无法立即执行。我们提出了一种分层任务计划方法,该方法将FOON图转换为基于PDDL的域知识表示操作计划的表示。由于这个过程,可以获取一个任务计划,即机器人可以从头到尾执行,以利用动态运动原始功能(DMP)的形式使用动作上下文和技能。我们演示了从计划到使用Coppeliasim执行的整个管道,并展示如何将学习的动作上下文扩展到从未见过的场景。
translated by 谷歌翻译
强化学习可以培训有效执行复杂任务的政策。然而,对于长地平线任务,这些方法的性能与地平线脱落,通常需要推理和构成较低级别的技能。等级强化学习旨在通过为行动抽象提供一组低级技能来实现这一点。通过抽象空间状态,层次结构也可以进一步提高这一点。我们对适当的状态抽象应取决于可用的较低级别策略的功能。我们提出了价值函数空间:通过使用与每个较低级别的技能对应的值函数来产生这种表示的简单方法。这些价值函数捕获场景的可取性,从而形成了紧凑型摘要任务相关信息的表示,并强大地忽略了分散的人。迷宫解决和机器人操纵任务的实证评估表明,我们的方法提高了长地平的性能,并且能够比替代的无模型和基于模型的方法能够更好的零拍泛化。
translated by 谷歌翻译
在工厂或房屋等环境中协助我们的机器人必须学会使用对象作为执行任务的工具,例如使用托盘携带对象。我们考虑了学习常识性知识何时可能有用的问题,以及如何与其他工具一起使用其使用以完成由人类指示的高级任务。具体而言,我们引入了一种新型的神经模型,称为Tooltango,该模型首先预测要使用的下一个工具,然后使用此信息来预测下一项动作。我们表明,该联合模型可以告知学习精细的策略,从而使机器人可以顺序使用特定工具,并在使模型更加准确的情况下增加了重要价值。 Tooltango使用图神经网络编码世界状态,包括对象和它们之间的符号关系,并使用人类教师的演示进行了培训,这些演示是指导物理模拟器中的虚拟机器人的演示。该模型学会了使用目标和动作历史的知识来参加场景,最终将符号动作解码为执行。至关重要的是,我们解决了缺少一些已知工具的看不见的环境的概括,但是存在其他看不见的工具。我们表明,通过通过从知识库中得出的预训练的嵌入来增强环境的表示,该模型可以有效地将其推广到新的环境中。实验结果表明,在预测具有看不见对象的新型环境中模拟移动操纵器的成功符号计划时,至少48.8-58.1%的绝对改善对基准的绝对改善。这项工作朝着使机器人能够快速合成复杂任务的强大计划的方向,尤其是在新颖的环境中
translated by 谷歌翻译
技能链是一种希望通过顺序结合以前学习的技能来合成复杂行为的有希望的方法。然而,当政策遭遇在培训期间从未见过的起始状态时,幼稚的技能组成失败。对于成功的技能链接,先前的方法试图扩大策略的起始状态分布。然而,这些方法需要覆盖更大的状态分布,因为更多的策略进行测序,因此仅限于短的技能序列。在本文中,我们通过在对抗学习框架中规范终端状态分布来提出连锁多个初始状态分布的多重政策。我们评估了我们对家具组件的两个复杂的长地平衡任务的方法。我们的结果表明,我们的方法建立了第一种无模型加强学习算法来解决这些任务;而先前的技能链接方法失败。代码和视频可在https://clvrai.com/skill-chaining上获得
translated by 谷歌翻译
Robot learning provides a number of ways to teach robots simple skills, such as grasping. However, these skills are usually trained in open, clutter-free environments, and therefore would likely cause undesirable collisions in more complex, cluttered environments. In this work, we introduce an affordance model based on a graph representation of an environment, which is optimised during deployment to find suitable robot configurations to start a skill from, such that the skill can be executed without any collisions. We demonstrate that our method can generalise a priori acquired skills to previously unseen cluttered and constrained environments, in simulation and in the real world, for both a grasping and a placing task.
translated by 谷歌翻译
大型语言模型可以编码有关世界的大量语义知识。这种知识对于旨在采取自然语言表达的高级,时间扩展的指示的机器人可能非常有用。但是,语言模型的一个重大弱点是,它们缺乏现实世界的经验,这使得很难利用它们在给定的体现中进行决策。例如,要求语言模型描述如何清洁溢出物可能会导致合理的叙述,但是它可能不适用于需要在特定环境中执行此任务的特定代理商(例如机器人)。我们建议通过预处理的技能来提供现实世界的基础,这些技能用于限制模型以提出可行且在上下文上适当的自然语言动作。机器人可以充当语​​言模型的“手和眼睛”,而语言模型可以提供有关任务的高级语义知识。我们展示了如何将低级技能与大语言模型结合在一起,以便语言模型提供有关执行复杂和时间扩展说明的过程的高级知识,而与这些技能相关的价值功能则提供了连接必要的基础了解特定的物理环境。我们在许多现实世界的机器人任务上评估了我们的方法,我们表明了对现实世界接地的需求,并且这种方法能够在移动操纵器上完成长远,抽象的自然语言指令。该项目的网站和视频可以在https://say-can.github.io/上找到。
translated by 谷歌翻译
长摩根和包括一系列隐性子任务的日常任务仍然在离线机器人控制中构成了重大挑战。尽管许多先前的方法旨在通过模仿和离线增强学习的变体来解决这种设置,但学习的行为通常是狭窄的,并且经常努力实现可配置的长匹配目标。由于这两个范式都具有互补的优势和劣势,因此我们提出了一种新型的层次结构方法,结合了两种方法的优势,以从高维相机观察中学习任务无关的长胜压策略。具体而言,我们结合了一项低级政策,该政策通过模仿学习和从离线强化学习中学到的高级政策学习潜在的技能,以促进潜在的行为先验。各种模拟和真实机器人控制任务的实验表明,我们的配方使以前看不见的技能组合能够通过“缝制”潜在技能通过目标链条,并在绩效上提高绩效的顺序,从而实现潜在的目标。艺术基线。我们甚至还学习了一个多任务视觉运动策略,用于现实世界中25个不同的操纵任务,这既优于模仿学习和离线强化学习技术。
translated by 谷歌翻译
用于机器人操纵的多进球政策学习具有挑战性。先前的成功使用了对象的基于状态的表示或提供了演示数据来促进学习。在本文中,通过对域的高级离散表示形式进行手工编码,我们表明,可以使用来自像素的Q学习来学习达到数十个目标的策略。代理商将学习重点放在更简单的本地政策上,这些政策是通过在抽象空间中进行计划来对其进行测序的。我们将我们的方法与标准的多目标RL基线以及在具有挑战性的块构造域上利用离散表示的其他方法进行了比较。我们发现我们的方法可以构建一百多个不同的块结构,并证明具有新物体的结构向前转移。最后,我们将所学的政策部署在真正的机器人上的模拟中。
translated by 谷歌翻译
操纵任务,如装载洗碗机,可以被视为不同对象之间的空间约束和关系序列。我们的目标是通过将操纵作为图表构成操作来发现这些规则,其节点代表了对象和目标等任务相关实体,并呈现了从示范中解决此问题的图形神经网络(GNN)策略架构。在我们的实验中,使用20个专家演示的模仿学习(IL)培训的单个GNN策略可以解决块根,重排和洗碗机加载任务;一旦策略了解了空间结构,它就可以概括到更大数量的对象,目标配置,以及从模拟到现实世界。这些实验表明,图形IL可以解决复杂的长地平衡操作问题而不需要详细的任务描述。视频可以找到:https://youtu.be/poxatdaj7ay。
translated by 谷歌翻译
需要长马计划和持续控制能力的问题对现有的强化学习剂构成了重大挑战。在本文中,我们介绍了一种新型的分层增强学习代理,该学习代理将延时的技能与持续控制的技能与远期模型联系起来,以象征性的分离环境的计划进行计划。我们认为我们的代理商符合符号效应的多样化技能。我们制定了一种客观且相应的算法,该算法通过已知的抽象来通过内在动机来无监督学习各种技能。这些技能是通过符号前向模型共同学习的,该模型捕获了国家抽象中技能执行的影响。训练后,我们可以使用向前模型来利用符号动作的技能来进行长途计划,并随后使用学识渊博的连续行动控制技能执行计划。拟议的算法学习了技能和前瞻性模型,可用于解决复杂的任务,这些任务既需要连续控制和长效计划功能,却具有很高的成功率。它与其他平坦和分层的增强学习基线代理相比,并通过真正的机器人成功证明。
translated by 谷歌翻译
在机器人技术中,以可扩展的方式构建各种操纵技巧的曲目仍然是一个未解决的挑战。解决这一挑战的一种方法是在非结构化的人类游戏中,人类在环境中自由运作以实现未指定的目标。游戏是一种简单且廉价的方法,用于收集各种用户演示,并在环境中进行广泛的状态和目标覆盖。由于这种不同的覆盖范围,现有的从游戏中学习的方法对离线数据分布的在线政策偏差更加牢固。但是,这些方法通常很难在场景变化和具有挑战性的操纵基础上学习,部分原因是将复杂的行为与他们引起的场景变化联系起来。我们的见解是,以对象数据为中心的观点可以帮助将人类的行为和所产生的环境变化联系起来,从而改善多任务策略学习。在这项工作中,我们构建了一个潜在空间来建模对象\ textit {proffances} - 在环境中定义其用途的对象的属性,然后学习实现所需负担的策略。通过对可变范围任务进行建模和预测所需的负担,我们的方法通过以对象为中心的游戏(PLATO)预测潜在的负担,在2D和3D对象操纵模拟和现实世界环境中,在复杂的操纵任务上的现有方法优于现有方法互动。可以在我们的网站上找到视频:https://tinyurl.com/4U23HWFV
translated by 谷歌翻译