操纵任务,如装载洗碗机,可以被视为不同对象之间的空间约束和关系序列。我们的目标是通过将操纵作为图表构成操作来发现这些规则,其节点代表了对象和目标等任务相关实体,并呈现了从示范中解决此问题的图形神经网络(GNN)策略架构。在我们的实验中,使用20个专家演示的模仿学习(IL)培训的单个GNN策略可以解决块根,重排和洗碗机加载任务;一旦策略了解了空间结构,它就可以概括到更大数量的对象,目标配置,以及从模拟到现实世界。这些实验表明,图形IL可以解决复杂的长地平衡操作问题而不需要详细的任务描述。视频可以找到:https://youtu.be/poxatdaj7ay。
translated by 谷歌翻译
每个房屋都是不同的,每个人都喜欢以特殊方式完成的事情。因此,未来的家庭机器人需要既需要理由就日常任务的顺序性质,又要推广到用户的偏好。为此,我们提出了一个变压器任务计划者(TTP),该计划通过利用基于对象属性的表示来从演示中学习高级动作。TTP可以在多个偏好上进行预训练,并显示了使用单个演示作为模拟洗碗机加载任务中的提示的概括性的概括。此外,我们使用TTP与Franka Panda机器人臂一起展示了现实世界中的重排,并使用单一的人类示范引起了这种情况。
translated by 谷歌翻译
在工厂或房屋等环境中协助我们的机器人必须学会使用对象作为执行任务的工具,例如使用托盘携带对象。我们考虑了学习常识性知识何时可能有用的问题,以及如何与其他工具一起使用其使用以完成由人类指示的高级任务。具体而言,我们引入了一种新型的神经模型,称为Tooltango,该模型首先预测要使用的下一个工具,然后使用此信息来预测下一项动作。我们表明,该联合模型可以告知学习精细的策略,从而使机器人可以顺序使用特定工具,并在使模型更加准确的情况下增加了重要价值。 Tooltango使用图神经网络编码世界状态,包括对象和它们之间的符号关系,并使用人类教师的演示进行了培训,这些演示是指导物理模拟器中的虚拟机器人的演示。该模型学会了使用目标和动作历史的知识来参加场景,最终将符号动作解码为执行。至关重要的是,我们解决了缺少一些已知工具的看不见的环境的概括,但是存在其他看不见的工具。我们表明,通过通过从知识库中得出的预训练的嵌入来增强环境的表示,该模型可以有效地将其推广到新的环境中。实验结果表明,在预测具有看不见对象的新型环境中模拟移动操纵器的成功符号计划时,至少48.8-58.1%的绝对改善对基准的绝对改善。这项工作朝着使机器人能够快速合成复杂任务的强大计划的方向,尤其是在新颖的环境中
translated by 谷歌翻译
物体很少在人类环境中孤立地坐着。因此,我们希望我们的机器人来推理多个对象如何相互关系,以及这些关系在机器人与世界互动时可能会发生变化。为此,我们提出了一个新型的图形神经网络框架,用于多对象操纵,以预测对机器人行动的影响如何变化。我们的模型在部分视图点云上运行,可以推理操作过程中动态交互的多个对象。通过在学习的潜在图嵌入空间中学习动态模型,我们的模型使多步规划可以达到目标目标关系。我们展示了我们的模型纯粹是在模拟中训练的,可以很好地传输到现实世界。我们的计划器使机器人能够使用推送和拾取和地点技能重新排列可变数量的对象。
translated by 谷歌翻译
机器人大会发现是一个充满挑战的问题,它生活在资源分配和运动计划的交集中。目的是将一组预定义的对象组合在一起,以形成新事物,同时考虑使用机器人在循环中执行任务。在这项工作中,我们解决了使用一组类似俄罗斯方块的构建块和机器人操纵器完全从头开始构建任意,预定义的目标结构的问题。我们的新型分层方法旨在有效地将整个任务分解为三个可行的水平,这些级别相互受益。在高水平上,我们运行了一个经典的混合企业计划,用于全局优化块类型的选择和块的最终姿势,以重新创建所需的形状。然后利用其输出来有效地指导探索基础强化学习(RL)政策。该RL策略从基于Q的灵活图表中汲取了其概括属性,该属性通过Q-学习学习,可以通过搜索来完善。此外,它说明了结构稳定性和机器人可行性的必要条件,这些条件无法有效地反映在上一层中。最后,掌握和运动计划者将所需的组装命令转换为机器人关节运动。我们证明了我们提出的方法在一组竞争性的模拟RAD环境中的性能,展示现实世界的转移,并与非结构化的端到端方法相比,报告性能和稳健性。视频可从https://sites.google.com/view/rl-meets-milp获得。
translated by 谷歌翻译
虽然现代政策优化方法可以从感官数据进行复杂的操作,但他们对延长时间的地平线和多个子目标的问题挣扎。另一方面,任务和运动计划(夯实)方法规模缩放到长视野,但它们是计算昂贵的并且需要精确跟踪世界状态。我们提出了一种借鉴两种方法的方法:我们训练一项政策来模仿夯实求解器的输出。这产生了一种前馈策略,可以从感官数据完成多步任务。首先,我们构建一个异步分布式夯实求解器,可以快速产生足够的监督数据以进行模仿学习。然后,我们提出了一种分层策略架构,让我们使用部分训练的控制策略来加速夯实求解器。在具有7-自由度的机器人操纵任务中,部分训练有素的策略将规划所需的时间减少到2.6倍。在这些任务中,我们可以学习一个解决方案4对象拣选任务88%的策略从对象姿态观测和解决机器人9目标基准79%从RGB图像的时间(取平均值)跨越9个不同的任务)。
translated by 谷歌翻译
由于布料的复杂动态,缺乏低维状态表示和自闭合,机器人操纵布的机器人操纵对机器人来说仍然具有挑战性。与以前的基于模型的基于模型的方法形成对比,用于学习基于像素的动态模型或压缩潜伏的潜在载体动态,我们建议从部分点云观察中学习基于粒子的动力学模型。为了克服部分可观察性的挑战,我们推出在底层布料网上连接的可见点。然后,我们通过此可见连接图来学习动态模型。与以往的基于学习的方法相比,我们的模型与其基于粒子的表示具有强烈的感应偏差,用于学习底层布理物理学;它不变于视觉功能;并且预测可以更容易地可视化。我们表明我们的方法极大地优于以前的最先进的模型和无模型加强学习方法在模拟中。此外,我们展示了零拍摄的SIM-to-Real Transfer,在那里我们部署了在法兰卡臂上的模拟中培训的模型,并表明该模型可以从弄皱的配置中成功平滑不同类型的布料。视频可以在我们的项目网站上找到。
translated by 谷歌翻译
最近的作品表明,如何将大语言模型(LLM)的推理能力应用于自然语言处理以外的领域,例如机器人的计划和互动。这些具体的问题要求代理商了解世界上许多语义方面:可用技能的曲目,这些技能如何影响世界以及对世界的变化如何映射回该语言。在体现环境中规划的LLMS不仅需要考虑要做什么技能,还需要考虑如何以及何时进行操作 - 答案随着时间的推移而变化,以响应代理商自己的选择。在这项工作中,我们调查了在这种体现的环境中使用的LLM在多大程度上可以推论通过自然语言提供的反馈来源,而无需任何其他培训。我们建议,通过利用环境反馈,LLM能够形成内部独白,使他们能够在机器人控制方案中进行更丰富的处理和计划。我们研究了各种反馈来源,例如成功检测,场景描述和人类互动。我们发现,闭环语言反馈显着改善了三个领域的高级指导完成,包括模拟和真实的桌面顶部重新排列任务以及现实世界中厨房环境中的长途移动操作任务。
translated by 谷歌翻译
机器人操纵可以配制成诱导一系列空间位移:其中移动的空间可以包括物体,物体的一部分或末端执行器。在这项工作中,我们提出了一个简单的模型架构,它重新排列了深度功能,以从视觉输入推断出可视输入的空间位移 - 这可以参数化机器人操作。它没有对象的假设(例如规范姿势,模型或关键点),它利用空间对称性,并且比我们学习基于视觉的操纵任务的基准替代方案更高的样本效率,并且依赖于堆叠的金字塔用看不见的物体组装套件;从操纵可变形的绳索,以将堆积的小物体推动,具有闭环反馈。我们的方法可以表示复杂的多模态策略分布,并推广到多步顺序任务,以及6dof拾取器。 10个模拟任务的实验表明,它比各种端到端基线更快地学习并概括,包括使用地面真实对象姿势的政策。我们在现实世界中使用硬件验证我们的方法。实验视频和代码可在https://transporternets.github.io获得
translated by 谷歌翻译
长摩根和包括一系列隐性子任务的日常任务仍然在离线机器人控制中构成了重大挑战。尽管许多先前的方法旨在通过模仿和离线增强学习的变体来解决这种设置,但学习的行为通常是狭窄的,并且经常努力实现可配置的长匹配目标。由于这两个范式都具有互补的优势和劣势,因此我们提出了一种新型的层次结构方法,结合了两种方法的优势,以从高维相机观察中学习任务无关的长胜压策略。具体而言,我们结合了一项低级政策,该政策通过模仿学习和从离线强化学习中学到的高级政策学习潜在的技能,以促进潜在的行为先验。各种模拟和真实机器人控制任务的实验表明,我们的配方使以前看不见的技能组合能够通过“缝制”潜在技能通过目标链条,并在绩效上提高绩效的顺序,从而实现潜在的目标。艺术基线。我们甚至还学习了一个多任务视觉运动策略,用于现实世界中25个不同的操纵任务,这既优于模仿学习和离线强化学习技术。
translated by 谷歌翻译
我们考虑将移动机器人导航到具有视觉传感器的未知环境中的问题,在该环境中,机器人和传感器都无法访问全局定位信息,并且仅使用第一人称视图图像。虽然基于传感器网络的先前工作使用明确的映射和计划技术,并且经常得到外部定位系统的帮助,但我们提出了一种基于视觉的学习方法,该方法利用图形神经网络(GNN)来编码和传达相关的视点信息到移动机器人。在导航期间,机器人以模型为指导,我们通过模仿学习训练以近似最佳的运动原语,从而预测有效的成本(目标)。在我们的实验中,我们首先证明了具有各种传感器布局的以前看不见的环境的普遍性。仿真结果表明,通过利用传感器和机器人之间的通信,我们可以达到$ 18.1 \%$ $的成功率,同时将路径弯路的平均值降低$ 29.3 \%$,并且可变性降低了$ 48.4 \%$ $。这是在不需要全局地图,定位数据或传感器网络预校准的情况下完成的。其次,我们将模型从模拟到现实世界进行零拍传输。为此,我们训练一个“翻译器”模型,该模型在{}真实图像和模拟图像之间转换,以便可以直接在真实的机器人上使用导航策略(完全在模拟中训练),而无需其他微调。 。物理实验证明了我们在各种混乱的环境中的有效性。
translated by 谷歌翻译
Solving real-world sequential manipulation tasks requires robots to have a repertoire of skills applicable to a wide range of circumstances. To acquire such skills using data-driven approaches, we need massive and diverse training data which is often labor-intensive and non-trivial to collect and curate. In this work, we introduce Active Task Randomization (ATR), an approach that learns visuomotor skills for sequential manipulation by automatically creating feasible and novel tasks in simulation. During training, our approach procedurally generates tasks using a graph-based task parameterization. To adaptively estimate the feasibility and novelty of sampled tasks, we develop a relational neural network that maps each task parameter into a compact embedding. We demonstrate that our approach can automatically create suitable tasks for efficiently training the skill policies to handle diverse scenarios with a variety of objects. We evaluate our method on simulated and real-world sequential manipulation tasks by composing the learned skills using a task planner. Compared to baseline methods, the skills learned using our approach consistently achieve better success rates.
translated by 谷歌翻译
Exploration in environments with sparse rewards has been a persistent problem in reinforcement learning (RL). Many tasks are natural to specify with a sparse reward, and manually shaping a reward function can result in suboptimal performance. However, finding a non-zero reward is exponentially more difficult with increasing task horizon or action dimensionality. This puts many real-world tasks out of practical reach of RL methods. In this work, we use demonstrations to overcome the exploration problem and successfully learn to perform long-horizon, multi-step robotics tasks with continuous control such as stacking blocks with a robot arm. Our method, which builds on top of Deep Deterministic Policy Gradients and Hindsight Experience Replay, provides an order of magnitude of speedup over RL on simulated robotics tasks. It is simple to implement and makes only the additional assumption that we can collect a small set of demonstrations. Furthermore, our method is able to solve tasks not solvable by either RL or behavior cloning alone, and often ends up outperforming the demonstrator policy.
translated by 谷歌翻译
模块化机器人可以在每天重新排列到新设计中,通过为每项新任务形成定制机器人来处理各种各样的任务。但是,重新配置的机制是不够的:每个设计还需要自己独特的控制策略。人们可以从头开始为每个新设计制作一个政策,但这种方法不可扩展,特别是给出了甚至一小组模块可以生成的大量设计。相反,我们创建了一个模块化策略框架,策略结构在硬件排列上有调节,并仅使用一个培训过程来创建控制各种设计的策略。我们的方法利用了模块化机器人的运动学可以表示为设计图,其中节点作为模块和边缘作为它们之间的连接。给定机器人,它的设计图用于创建具有相同结构的策略图,其中每个节点包含一个深神经网络,以及通过共享参数的相同类型共享知识的模块(例如,Hexapod上的所有腿都相同网络参数)。我们开发了一种基于模型的强化学习算法,交织模型学习和轨迹优化,以培训策略。我们展示了模块化政策推广到培训期间没有看到的大量设计,没有任何额外的学习。最后,我们展示了与模拟和真实机器人一起控制各种设计的政策。
translated by 谷歌翻译
设计人工代理商是一个长期的梦想,可以通过内在动机有效地探索其环境,这类似于孩子们的表演方式。尽管最新的本质上动机增强学习(RL)的进步,但在物体操纵方案中的样本效率探索仍然是一个重大挑战,因为大多数相关信息都在于稀疏的代理对象和对象对象相互作用。在本文中,我们建议使用结构化的世界模型将关系电感偏置纳入控制回路中,以实现组成多对象环境中的样品效率和相互作用富含的探索。通过计划未来的新颖性结构化世界模型,我们的方法生成了自由播放的行为,这些行为早期就开始与对象交互,并随着时间的推移发展更复杂的行为。我们的方法不仅仅是使用模型来计算固有的奖励,我们的方法表明,良好模型和良好探索之间的自我增强周期也开辟了另一条途径:通过基于模型的计划,零击向下游任务。在完全固有的任务不足探索阶段之后,我们的方法解决了诸如堆叠,翻转,拾取和地点之类的挑战性下游任务,并投掷,这些任务概括为看不见的数字和对象的安排,而无需任何其他培训。
translated by 谷歌翻译
过去的十年充分证明了通过学习复杂的输入/输出关系可以实现的显着功能。从算法上讲,最重要,最不透明的关系之一是问题的结构与有效的解决方案方法之间。在这里,我们将计划问题的结构定量地连接到基于给定抽样的运动计划(SBMP)算法的性能。我们证明,运动计划问题的几何关系可以通过图神经网络(GNN)很好地捕获,以预测SBMP运行时。通过使用算法投资组合,我们表明可以利用GNN对特定问题的运行时预测,以在导航和操纵任务中加速在线运动计划。此外,可以倒置问题到倒及地图,以识别易于通过特定SBMP求解的子问题。我们提供了一个激励人物的例子,说明如何使用这些知识来改善模拟示例的集成任务和运动计划。这些成功依赖于GNN的关系结构来捕获从低维导航任务到3D环境中高度自由度操纵任务的可扩展概括。
translated by 谷歌翻译
在机器人技术中,以可扩展的方式构建各种操纵技巧的曲目仍然是一个未解决的挑战。解决这一挑战的一种方法是在非结构化的人类游戏中,人类在环境中自由运作以实现未指定的目标。游戏是一种简单且廉价的方法,用于收集各种用户演示,并在环境中进行广泛的状态和目标覆盖。由于这种不同的覆盖范围,现有的从游戏中学习的方法对离线数据分布的在线政策偏差更加牢固。但是,这些方法通常很难在场景变化和具有挑战性的操纵基础上学习,部分原因是将复杂的行为与他们引起的场景变化联系起来。我们的见解是,以对象数据为中心的观点可以帮助将人类的行为和所产生的环境变化联系起来,从而改善多任务策略学习。在这项工作中,我们构建了一个潜在空间来建模对象\ textit {proffances} - 在环境中定义其用途的对象的属性,然后学习实现所需负担的策略。通过对可变范围任务进行建模和预测所需的负担,我们的方法通过以对象为中心的游戏(PLATO)预测潜在的负担,在2D和3D对象操纵模拟和现实世界环境中,在复杂的操纵任务上的现有方法优于现有方法互动。可以在我们的网站上找到视频:https://tinyurl.com/4U23HWFV
translated by 谷歌翻译
机器人将机器人的无缝集成到人类环境需要机器人来学习如何使用现有的人类工具。学习工具操纵技能的目前方法主要依赖于目标机器人环境中提供的专家演示,例如,通过手动引导机器人操纵器或通过远程操作。在这项工作中,我们介绍了一种自动化方法,取代了一个专家演示,用YouTube视频来学习工具操纵策略。主要贡献是双重的。首先,我们设计一个对齐过程,使模拟环境与视频中观察到的真实世界。这是作为优化问题,找到刀具轨迹的空间对齐,以最大化环境给出的稀疏目标奖励。其次,我们描述了一种专注于工具的轨迹而不是人类的运动的模仿学习方法。为此,我们将加强学习与优化过程相结合,以基于对准环境中的工具运动来找到控制策略和机器人的放置。我们展示了仿真中的铲子,镰刀和锤子工具的建议方法,并展示了训练有素的政策对真正的弗兰卡·埃米卡熊猫机器人示范的卫生政策的有效性。
translated by 谷歌翻译
学识渊博的视觉运动策略已取得了相当大的成功,作为用于机器人操纵的传统手工制作框架的替代方法。令人惊讶的是,这些方法向多视域域的扩展相对尚未探索。可以在移动操作平台上部署成功的多视策略,从而使机器人可以完成任务,无论其场景的看法如何。在这项工作中,我们证明可以通过从各种观点收集数据来通过模仿学习来找到多览策略。我们通过在模拟环境和真实的移动操纵平台上学习完成几个具有挑战性的多阶段和接触任务来说明该方法的一般适用性。此外,与从固定角度收集的数据相比,我们分析了我们的政策,以确定从多视图数据中学习的好处。我们表明,与使用等效量的固定视图数据相比,从多视图数据中学习对固定视图任务的惩罚很少(如果有的话)。最后,我们研究了多视图和固定视图策略所学的视觉特征。我们的结果表明,多视图策略隐含地学习识别与空间相关的特征。
translated by 谷歌翻译