物体很少在人类环境中孤立地坐着。因此,我们希望我们的机器人来推理多个对象如何相互关系,以及这些关系在机器人与世界互动时可能会发生变化。为此,我们提出了一个新型的图形神经网络框架,用于多对象操纵,以预测对机器人行动的影响如何变化。我们的模型在部分视图点云上运行,可以推理操作过程中动态交互的多个对象。通过在学习的潜在图嵌入空间中学习动态模型,我们的模型使多步规划可以达到目标目标关系。我们展示了我们的模型纯粹是在模拟中训练的,可以很好地传输到现实世界。我们的计划器使机器人能够使用推送和拾取和地点技能重新排列可变数量的对象。
translated by 谷歌翻译
机器人需要在约束环境(例如架子和橱柜)中操纵物体,以帮助人类在房屋和办公室等日常设置中。这些限制因减少掌握能力而变得难以操纵,因此机器人需要使用非忽视策略来利用对象环境联系来执行操纵任务。为了应对在这种情况下规划和控制接触性富裕行为的挑战,该工作使用混合力量速度控制器(HFVC)作为技能表示和计划的技能序列,并使用学到的先决条件进行了计划。尽管HFVC自然能够实现稳健且合规的富裕行为,但合成它们的求解器传统上依赖于精确的对象模型和对物体姿势的闭环反馈,这些反馈因遮挡而在约束环境中很难获得。我们首先使用HFVC综合框架放松了HFVC对精确模型和反馈的需求,然后学习一个基于点云的前提函数,以对HFVC执行仍将成功地进行分类,尽管建模不正确。最后,我们在基于搜索的任务计划者中使用学到的前提来完成货架域中的接触式操纵任务。我们的方法达到了$ 73.2 \%$的任务成功率,表现优于基线实现的$ 51.5 \%$,而没有学习的先决条件。在模拟中训练了前提函数时,它也可以转移到现实世界中,而无需进行其他微调。
translated by 谷歌翻译
在工厂或房屋等环境中协助我们的机器人必须学会使用对象作为执行任务的工具,例如使用托盘携带对象。我们考虑了学习常识性知识何时可能有用的问题,以及如何与其他工具一起使用其使用以完成由人类指示的高级任务。具体而言,我们引入了一种新型的神经模型,称为Tooltango,该模型首先预测要使用的下一个工具,然后使用此信息来预测下一项动作。我们表明,该联合模型可以告知学习精细的策略,从而使机器人可以顺序使用特定工具,并在使模型更加准确的情况下增加了重要价值。 Tooltango使用图神经网络编码世界状态,包括对象和它们之间的符号关系,并使用人类教师的演示进行了培训,这些演示是指导物理模拟器中的虚拟机器人的演示。该模型学会了使用目标和动作历史的知识来参加场景,最终将符号动作解码为执行。至关重要的是,我们解决了缺少一些已知工具的看不见的环境的概括,但是存在其他看不见的工具。我们表明,通过通过从知识库中得出的预训练的嵌入来增强环境的表示,该模型可以有效地将其推广到新的环境中。实验结果表明,在预测具有看不见对象的新型环境中模拟移动操纵器的成功符号计划时,至少48.8-58.1%的绝对改善对基准的绝对改善。这项工作朝着使机器人能够快速合成复杂任务的强大计划的方向,尤其是在新颖的环境中
translated by 谷歌翻译
Solving real-world sequential manipulation tasks requires robots to have a repertoire of skills applicable to a wide range of circumstances. To acquire such skills using data-driven approaches, we need massive and diverse training data which is often labor-intensive and non-trivial to collect and curate. In this work, we introduce Active Task Randomization (ATR), an approach that learns visuomotor skills for sequential manipulation by automatically creating feasible and novel tasks in simulation. During training, our approach procedurally generates tasks using a graph-based task parameterization. To adaptively estimate the feasibility and novelty of sampled tasks, we develop a relational neural network that maps each task parameter into a compact embedding. We demonstrate that our approach can automatically create suitable tasks for efficiently training the skill policies to handle diverse scenarios with a variety of objects. We evaluate our method on simulated and real-world sequential manipulation tasks by composing the learned skills using a task planner. Compared to baseline methods, the skills learned using our approach consistently achieve better success rates.
translated by 谷歌翻译
操纵任务,如装载洗碗机,可以被视为不同对象之间的空间约束和关系序列。我们的目标是通过将操纵作为图表构成操作来发现这些规则,其节点代表了对象和目标等任务相关实体,并呈现了从示范中解决此问题的图形神经网络(GNN)策略架构。在我们的实验中,使用20个专家演示的模仿学习(IL)培训的单个GNN策略可以解决块根,重排和洗碗机加载任务;一旦策略了解了空间结构,它就可以概括到更大数量的对象,目标配置,以及从模拟到现实世界。这些实验表明,图形IL可以解决复杂的长地平衡操作问题而不需要详细的任务描述。视频可以找到:https://youtu.be/poxatdaj7ay。
translated by 谷歌翻译
我们介绍了忙碌的板,这是一种受玩具启发的机器人学习环境,它利用一组铰接的对象和对象间功能关系,为机器人交互提供丰富的视觉反馈。基于这种环境,我们介绍了一个学习框架,即Busughbot,该框架允许代理商以综合和自欺欺人的方式共同获得三个基本功能(互动,推理和计划)。凭借繁忙板提供的丰富感官反馈,Busudbot首先学习了有效与环境互动的政策;然后,随着使用该策略收集的数据,Busybot的原因是通过因果发现网络对象间功能关系;最后,通过结合学习的交互政策和关系推理技能,代理可以执行目标条件的操纵任务。我们在模拟环境和现实环境中评估了忙碌的机器人,并验证了其看不见的对象和关系的概括性。视频可从https://youtu.be/ej98xbjz9ek获得。
translated by 谷歌翻译
Robot learning provides a number of ways to teach robots simple skills, such as grasping. However, these skills are usually trained in open, clutter-free environments, and therefore would likely cause undesirable collisions in more complex, cluttered environments. In this work, we introduce an affordance model based on a graph representation of an environment, which is optimised during deployment to find suitable robot configurations to start a skill from, such that the skill can be executed without any collisions. We demonstrate that our method can generalise a priori acquired skills to previously unseen cluttered and constrained environments, in simulation and in the real world, for both a grasping and a placing task.
translated by 谷歌翻译
我们提出了一种从基于隐式对象编码器,神经辐射字段(NERFS)和图神经网络的图像观测值中学习组成多对象动力学模型的方法。由于其强大的3D先验,NERF已成为代表场景的流行选择。但是,大多数NERF方法都在单个场景上进行了训练,以全球模型代表整个场景,从而对新型场景进行概括,其中包含不同数量的对象,具有挑战性。取而代之的是,我们提出了一个以对象为中心的自动编码器框架,该框架将场景的多个视图映射到一组分别表示每个对象的潜在向量。潜在矢量参数化可以从中重建场景的单个nerf。基于那些潜在向量,我们在潜在空间中训练图形神经网络动力学模型,以实现动力学预测的组成性。我们方法的一个关键特征是,潜在向量被迫通过NERF解码器编码3D信息,这使我们能够在学习动力学模型中纳入结构先验,从而使长期预测与多个基线相比更加稳定。模拟和现实世界的实验表明,我们的方法可以建模和学习构图场景的动态,包括刚性和可变形对象。视频:https://dannydriess.github.io/compnerfdyn/
translated by 谷歌翻译
在本文中,我们探讨了机器人是否可以学会重新应用一组多样的物体以实现各种所需的掌握姿势。只要机器人的当前掌握姿势未能执行所需的操作任务,需要重新扫描。具有这种能力的赋予机器人具有在许多领域中的应用,例如制造或国内服务。然而,由于日常物体中的几何形状和状态和行动空间的高维度,这是一个具有挑战性的任务。在本文中,我们提出了一种机器人系统,用于将物体的部分点云和支持环境作为输入,输出序列和放置操作的序列来转换到所需的对象掌握姿势。关键技术包括神经稳定放置预测器,并通过利用和改变周围环境来引发基于图形的解决方案。我们介绍了一个新的和具有挑战性的合成数据集,用于学习和评估所提出的方法。我们展示了我们提出的系统与模拟器和现实世界实验的有效性。我们的项目网页上有更多视频和可视化示例。
translated by 谷歌翻译
Robots operating in human environments must be able to rearrange objects into semantically-meaningful configurations, even if these objects are previously unseen. In this work, we focus on the problem of building physically-valid structures without step-by-step instructions. We propose StructDiffusion, which combines a diffusion model and an object-centric transformer to construct structures out of a single RGB-D image based on high-level language goals, such as "set the table." Our method shows how diffusion models can be used for complex multi-step 3D planning tasks. StructDiffusion improves success rate on assembling physically-valid structures out of unseen objects by on average 16% over an existing multi-modal transformer model, while allowing us to use one multi-task model to produce a wider range of different structures. We show experiments on held-out objects in both simulation and on real-world rearrangement tasks. For videos and additional results, check out our website: http://weiyuliu.com/StructDiffusion/.
translated by 谷歌翻译
6D在杂乱的场景中抓住是机器人操纵中的长期存在。由于状态估计不准确,开环操作管道可能会失败,而大多数端到端的掌握方法尚未缩放到具有障碍物的复杂场景。在这项工作中,我们提出了一种新的杂乱场景掌握的最终学习方法。我们的分层框架基于部分点云观测学习无碰撞目标驱动的抓取性。我们学习嵌入空间来编码培训期间的专家掌握计划和一个变形式自动化器,以在测试时间上采样不同的抓握轨迹。此外,我们培训批评网络的计划选择和选项分类器,用于通过分层加强学习切换到实例掌握策略。我们评估我们的方法并与仿真中的几个基线进行比较,并证明我们的潜在规划可以概括为真实的杂乱场景掌握任务。我们的视频和代码可以在https://sites.google.com/view/latent-grasping中找到。
translated by 谷歌翻译
自我咬合对于布料操纵而具有挑战性,因为这使得很难估计布的全部状态。理想情况下,试图展开弄皱或折叠的布的机器人应该能够对布的遮挡区域进行推理。我们利用姿势估计的最新进展来构建一种使用明确的遮挡推理来展开皱巴布的系统的系统。具体来说,我们首先学习一个模型来重建布的网格。但是,由于布构型的复杂性以及遮挡的歧义,该模型可能会出现错误。我们的主要见解是,我们可以通过进行自我监督的损失进行测试时间填充来进一步完善预测的重建。获得的重建网格使我们能够在推理遮挡的同时使用基于网格的动力学模型来计划。我们在布料上和布料规范化上评估了系统,其目的是将布操作成典型的姿势。我们的实验表明,我们的方法显着优于未明确解释闭塞或执行测试时间优化的先验方法。可以在我们的$ \ href {https://sites.google.com/view/occlusion-reason/home/home} {\ text {project {project {project}}}上找到视频和可视化。
translated by 谷歌翻译
在本文中,我们研究了可以从原始图像中学习低级技能的曲目的问题,这些曲目可以测序以完成长效的视觉运动任务。强化学习(RL)是一种自主获取短疗法技能的有前途的方法。但是,RL算法的重点很大程度上是这些个人技能的成功,而不是学习和扎根大量的技能曲目,这些技能可以对这些技能进行测序,这些技能可以对完成扩展的多阶段任务进行测序。后者需要稳健性和持久性,因为技能的错误会随着时间的流逝而复杂,并且可能要求机器人在其曲目中具有许多原始技能,而不仅仅是一个。为此,我们介绍了Ember,Ember是一种基于模型的RL方法,用于学习原始技能,适合完成长途视觉运动任务。 Ember使用学识渊博的模型,评论家和成功分类器学习和计划,成功分类器既可以作为RL的奖励功能,又是一种基础机制,可连续检测机器人在失败或扰动下是否应重试技能。此外,学到的模型是任务不合时宜的,并使用来自所有技能的数据进行了培训,从而使机器人能够有效地学习许多不同的原语。这些视觉运动原始技能及其相关的前后条件可以直接与现成的符号计划者结合在一起,以完成长途任务。在Franka Emika机器人部门上,我们发现Ember使机器人能够以85%的成功率完成三个长马视觉运动任务,例如组织办公桌,文件柜和抽屉,需要排序多达12个技能,这些技能最多需要12个技能,涉及14个独特的学识渊博,并要求对新物体进行概括。
translated by 谷歌翻译
由于布料的复杂动态,缺乏低维状态表示和自闭合,机器人操纵布的机器人操纵对机器人来说仍然具有挑战性。与以前的基于模型的基于模型的方法形成对比,用于学习基于像素的动态模型或压缩潜伏的潜在载体动态,我们建议从部分点云观察中学习基于粒子的动力学模型。为了克服部分可观察性的挑战,我们推出在底层布料网上连接的可见点。然后,我们通过此可见连接图来学习动态模型。与以往的基于学习的方法相比,我们的模型与其基于粒子的表示具有强烈的感应偏差,用于学习底层布理物理学;它不变于视觉功能;并且预测可以更容易地可视化。我们表明我们的方法极大地优于以前的最先进的模型和无模型加强学习方法在模拟中。此外,我们展示了零拍摄的SIM-to-Real Transfer,在那里我们部署了在法兰卡臂上的模拟中培训的模型,并表明该模型可以从弄皱的配置中成功平滑不同类型的布料。视频可以在我们的项目网站上找到。
translated by 谷歌翻译
当机器人计划时,不同的型号可以提供不同水平的忠诚度。分析模型通常很快进行评估,但仅在有限的条件范围内起作用。同时,物理模拟器可以有效地建模对象之间的复杂相互作用,但通常在计算上更昂贵。学习何时在各种模型之间切换可以大大提高计划速度和任务成功的可靠性。在这项工作中,我们学习模型偏差估计器(MDE),以预测现实世界状态与通过过渡模型输出的状态之间的误差。 MDE可用于定义一个模型前提,该模型先决条件描述了哪些过渡是准确建模的。然后,我们提出了一个使用学到的模型先决条件在各种模型之间切换的计划者,以便在准确的条件下使用模型,并在可能的情况下更快地对模型进行优先级排序。我们在两个现实世界任务上评估我们的方法:将杆放入盒子中,将杆放入封闭的抽屉中。
translated by 谷歌翻译
本文介绍了一种从原始RGB-D视频进行任务演示的视频中学习类别级别的新技术,没有手动标签或注释。类别级的学习旨在获取可以推广到新对象的技能,其几何形状和纹理与演示中使用的对象不同。我们通过首先将抓地力和操作视为工具使用的特殊情况,解决此问题,其中工具对象被移至目标对象的参考框架中定义的一系列键置。使用动态图卷积神经网络预测工具和目标对象以及其钥匙置,该网络将整个场景的自动分割深度和颜色图像作为输入。具有真实机器人手臂的对象操纵任务上的经验结果表明,所提出的网络可以有效地从真实的视觉演示中学习,以在同一类别内的新颖对象上执行任务,并且优于替代方法。
translated by 谷歌翻译
每个房屋都是不同的,每个人都喜欢以特殊方式完成的事情。因此,未来的家庭机器人需要既需要理由就日常任务的顺序性质,又要推广到用户的偏好。为此,我们提出了一个变压器任务计划者(TTP),该计划通过利用基于对象属性的表示来从演示中学习高级动作。TTP可以在多个偏好上进行预训练,并显示了使用单个演示作为模拟洗碗机加载任务中的提示的概括性的概括。此外,我们使用TTP与Franka Panda机器人臂一起展示了现实世界中的重排,并使用单一的人类示范引起了这种情况。
translated by 谷歌翻译
Reliably planning fingertip grasps for multi-fingered hands lies as a key challenge for many tasks including tool use, insertion, and dexterous in-hand manipulation. This task becomes even more difficult when the robot lacks an accurate model of the object to be grasped. Tactile sensing offers a promising approach to account for uncertainties in object shape. However, current robotic hands tend to lack full tactile coverage. As such, a problem arises of how to plan and execute grasps for multi-fingered hands such that contact is made with the area covered by the tactile sensors. To address this issue, we propose an approach to grasp planning that explicitly reasons about where the fingertips should contact the estimated object surface while maximizing the probability of grasp success. Key to our method's success is the use of visual surface estimation for initial planning to encode the contact constraint. The robot then executes this plan using a tactile-feedback controller that enables the robot to adapt to online estimates of the object's surface to correct for errors in the initial plan. Importantly, the robot never explicitly integrates object pose or surface estimates between visual and tactile sensing, instead it uses the two modalities in complementary ways. Vision guides the robots motion prior to contact; touch updates the plan when contact occurs differently than predicted from vision. We show that our method successfully synthesises and executes precision grasps for previously unseen objects using surface estimates from a single camera view. Further, our approach outperforms a state of the art multi-fingered grasp planner, while also beating several baselines we propose.
translated by 谷歌翻译
最近的作品表明,如何将大语言模型(LLM)的推理能力应用于自然语言处理以外的领域,例如机器人的计划和互动。这些具体的问题要求代理商了解世界上许多语义方面:可用技能的曲目,这些技能如何影响世界以及对世界的变化如何映射回该语言。在体现环境中规划的LLMS不仅需要考虑要做什么技能,还需要考虑如何以及何时进行操作 - 答案随着时间的推移而变化,以响应代理商自己的选择。在这项工作中,我们调查了在这种体现的环境中使用的LLM在多大程度上可以推论通过自然语言提供的反馈来源,而无需任何其他培训。我们建议,通过利用环境反馈,LLM能够形成内部独白,使他们能够在机器人控制方案中进行更丰富的处理和计划。我们研究了各种反馈来源,例如成功检测,场景描述和人类互动。我们发现,闭环语言反馈显着改善了三个领域的高级指导完成,包括模拟和真实的桌面顶部重新排列任务以及现实世界中厨房环境中的长途移动操作任务。
translated by 谷歌翻译
机器人对高度可变形的布的操纵提供了一个有前途的机会,可以帮助人们完成几项日常任务,例如洗碗;折叠洗衣;或针对患有严重运动障碍的人的敷料,沐浴和卫生援助。在这项工作中,我们介绍了一种公式,该公式使协作机器人能够用布做出视觉触觉推理,这是在物理互动过程中推断应用力的位置和大小的行为。我们提出了两种不同的模型表示,并在物理模拟中训练,它们仅使用视觉和机器人运动学观测来实现触觉推理。我们对这些模型进行了定量评估,以模拟机器人辅助的调味料,沐浴和洗碗任务,并证明训练有素的模型可以通过不同的相互作用,人体大小和物体形状跨越不同的任务。我们还通过现实世界中的移动操纵器提出了结果,该操作器使用我们的模拟训练模型来估计应用接触力,同时用布料执行物理辅助任务。可以在我们的项目网页上找到视频。
translated by 谷歌翻译