我们介绍了忙碌的板,这是一种受玩具启发的机器人学习环境,它利用一组铰接的对象和对象间功能关系,为机器人交互提供丰富的视觉反馈。基于这种环境,我们介绍了一个学习框架,即Busughbot,该框架允许代理商以综合和自欺欺人的方式共同获得三个基本功能(互动,推理和计划)。凭借繁忙板提供的丰富感官反馈,Busudbot首先学习了有效与环境互动的政策;然后,随着使用该策略收集的数据,Busybot的原因是通过因果发现网络对象间功能关系;最后,通过结合学习的交互政策和关系推理技能,代理可以执行目标条件的操纵任务。我们在模拟环境和现实环境中评估了忙碌的机器人,并验证了其看不见的对象和关系的概括性。视频可从https://youtu.be/ej98xbjz9ek获得。
translated by 谷歌翻译
在工厂或房屋等环境中协助我们的机器人必须学会使用对象作为执行任务的工具,例如使用托盘携带对象。我们考虑了学习常识性知识何时可能有用的问题,以及如何与其他工具一起使用其使用以完成由人类指示的高级任务。具体而言,我们引入了一种新型的神经模型,称为Tooltango,该模型首先预测要使用的下一个工具,然后使用此信息来预测下一项动作。我们表明,该联合模型可以告知学习精细的策略,从而使机器人可以顺序使用特定工具,并在使模型更加准确的情况下增加了重要价值。 Tooltango使用图神经网络编码世界状态,包括对象和它们之间的符号关系,并使用人类教师的演示进行了培训,这些演示是指导物理模拟器中的虚拟机器人的演示。该模型学会了使用目标和动作历史的知识来参加场景,最终将符号动作解码为执行。至关重要的是,我们解决了缺少一些已知工具的看不见的环境的概括,但是存在其他看不见的工具。我们表明,通过通过从知识库中得出的预训练的嵌入来增强环境的表示,该模型可以有效地将其推广到新的环境中。实验结果表明,在预测具有看不见对象的新型环境中模拟移动操纵器的成功符号计划时,至少48.8-58.1%的绝对改善对基准的绝对改善。这项工作朝着使机器人能够快速合成复杂任务的强大计划的方向,尤其是在新颖的环境中
translated by 谷歌翻译
物体很少在人类环境中孤立地坐着。因此,我们希望我们的机器人来推理多个对象如何相互关系,以及这些关系在机器人与世界互动时可能会发生变化。为此,我们提出了一个新型的图形神经网络框架,用于多对象操纵,以预测对机器人行动的影响如何变化。我们的模型在部分视图点云上运行,可以推理操作过程中动态交互的多个对象。通过在学习的潜在图嵌入空间中学习动态模型,我们的模型使多步规划可以达到目标目标关系。我们展示了我们的模型纯粹是在模拟中训练的,可以很好地传输到现实世界。我们的计划器使机器人能够使用推送和拾取和地点技能重新排列可变数量的对象。
translated by 谷歌翻译
铰接的物体在日常生活中很丰富。发现它们的部位,关节和运动学对于机器人与这些物体相互作用至关重要。我们从Action(SFA)引入结构,该框架通过一系列推断相互作用来发现3D部分的几何形状和未看到的表达对象的关节参数。我们的主要见解是,应考虑构建3D明显的CAD模型的3D相互作用和感知,尤其是在训练过程中未见的类别的情况下。通过选择信息丰富的交互,SFA发现零件并揭示最初遮挡的表面,例如封闭抽屉的内部。通过在3D中汇总视觉观测,SFA可以准确段段多个部分,重建零件几何形状,并在规范坐标框架中渗透所有关节参数。我们的实验表明,在模拟中训练的单个SFA模型可以推广到具有未知运动结构和现实世界对象的许多看不见的对象类别。代码和数据将公开可用。
translated by 谷歌翻译
Solving real-world sequential manipulation tasks requires robots to have a repertoire of skills applicable to a wide range of circumstances. To acquire such skills using data-driven approaches, we need massive and diverse training data which is often labor-intensive and non-trivial to collect and curate. In this work, we introduce Active Task Randomization (ATR), an approach that learns visuomotor skills for sequential manipulation by automatically creating feasible and novel tasks in simulation. During training, our approach procedurally generates tasks using a graph-based task parameterization. To adaptively estimate the feasibility and novelty of sampled tasks, we develop a relational neural network that maps each task parameter into a compact embedding. We demonstrate that our approach can automatically create suitable tasks for efficiently training the skill policies to handle diverse scenarios with a variety of objects. We evaluate our method on simulated and real-world sequential manipulation tasks by composing the learned skills using a task planner. Compared to baseline methods, the skills learned using our approach consistently achieve better success rates.
translated by 谷歌翻译
建立可以与3D室内环境进行交互的体现智能代理,近年来已收到了越来越多的研究关注。虽然大多数作品专注于单一对象或代理 - 对象视觉功能和可供性,但我们的工作建议研究一种新的视觉关系,对感知和模型 - 对象间功能关系也很重要(例如,开关墙壁打开或关闭光线,遥控器操作电视)。人类常常花费很少或不努力推断这些关系,即使在进入新房时,即使在进入新房时,通过使用我们的强大的先验知识(例如,我们知道该按钮控制电气设备),或者在不确定性的情况下仅使用一些探索性相互作用(例如,多个开关和相同房间的灯)。在本文中,我们在3D室内环境中建立了AI系统学习对象间功能关系的第一步,通过培训大规模场景和设计互动政策,以有效地探索培训场景和快速设计互动政策,以便进行建模的主要技术贡献适应新颖的测试场景。我们根据AI2thor和Portnet数据集创建一个新的基准,并进行广泛的实验,证明了我们提出的方法的有效性。结果表明,我们的模型成功地了解了在复杂3D场景中探索对象内功能关系的前沿和快速交互式的策略。几项消融研究进一步验证了每个提出的模块的有用性。
translated by 谷歌翻译
精确学习动力学模型是基于模型的增强学习(MBRL)的重要目标,但是大多数MBRL方法都学习了一个易于虚假相关性的密集动力学模型,因此对看不见的状态的推广不佳。在本文中,我们引入了与任务无关的状态抽象(CDL)的因果动力学学习,该学习首先学习了理论上证明的因果动力学模型,该模型消除了状态变量和动作之间不必要的依赖性,从而很好地推广到了看不见的状态。然后可以从学习的动力学中得出状态抽象,这不仅提高了样本效率,而且还适用于与现有状态抽象方法更广泛的任务范围。在两个模拟环境和下游任务上进行了评估,所提出的方法学到的动力学模型和政策都可以很好地推广到看不见的状态,而派生的态度抽象则提高了样本效率,而没有它。
translated by 谷歌翻译
对于移动机器人而言,与铰接式对象的交互是一项具有挑战性但重要的任务。为了应对这一挑战,我们提出了一条新型的闭环控制管道,该管道将负担能力估计的操纵先验与基于采样的全身控制相结合。我们介绍了完全反映了代理的能力和体现的代理意识提供的概念,我们表明它们的表现优于其最先进的对应物,这些对应物仅以最终效果的几何形状为条件。此外,发现闭环负担推论使代理可以将任务分为多个非连续运动,并从失败和意外状态中恢复。最后,管道能够执行长途移动操作任务,即在现实世界中开放和关闭烤箱,成功率很高(开放:71%,关闭:72%)。
translated by 谷歌翻译
需要长马计划和持续控制能力的问题对现有的强化学习剂构成了重大挑战。在本文中,我们介绍了一种新型的分层增强学习代理,该学习代理将延时的技能与持续控制的技能与远期模型联系起来,以象征性的分离环境的计划进行计划。我们认为我们的代理商符合符号效应的多样化技能。我们制定了一种客观且相应的算法,该算法通过已知的抽象来通过内在动机来无监督学习各种技能。这些技能是通过符号前向模型共同学习的,该模型捕获了国家抽象中技能执行的影响。训练后,我们可以使用向前模型来利用符号动作的技能来进行长途计划,并随后使用学识渊博的连续行动控制技能执行计划。拟议的算法学习了技能和前瞻性模型,可用于解决复杂的任务,这些任务既需要连续控制和长效计划功能,却具有很高的成功率。它与其他平坦和分层的增强学习基线代理相比,并通过真正的机器人成功证明。
translated by 谷歌翻译
第三人称视频的逆增强学习(IRL)研究表明,令人鼓舞的结果是消除了对机器人任务的手动奖励设计的需求。但是,大多数先前的作品仍然受到相对受限域视频领域的培训的限制。在本文中,我们认为第三人称IRL的真正潜力在于增加视频的多样性以更好地扩展。为了从不同的视频中学习奖励功能,我们建议在视频上执行图形抽象,然后在图表空间中进行时间匹配,以衡量任务进度。我们的见解是,可以通过形成图形的实体交互来描述任务,并且该图抽象可以帮助删除无关紧要的信息,例如纹理,从而产生更强大的奖励功能。我们评估了我们的方法,即Graphirl,关于X魔术中的跨体制学习,并从人类的示范中学习进行真实机器人操纵。我们对以前的方法表现出对各种视频演示的鲁棒性的显着改善,甚至比真正的机器人推动任务上的手动奖励设计获得了更好的结果。视频可从https://sateeshkumar21.github.io/graphirl获得。
translated by 谷歌翻译
强化学习可以培训有效执行复杂任务的政策。然而,对于长地平线任务,这些方法的性能与地平线脱落,通常需要推理和构成较低级别的技能。等级强化学习旨在通过为行动抽象提供一组低级技能来实现这一点。通过抽象空间状态,层次结构也可以进一步提高这一点。我们对适当的状态抽象应取决于可用的较低级别策略的功能。我们提出了价值函数空间:通过使用与每个较低级别的技能对应的值函数来产生这种表示的简单方法。这些价值函数捕获场景的可取性,从而形成了紧凑型摘要任务相关信息的表示,并强大地忽略了分散的人。迷宫解决和机器人操纵任务的实证评估表明,我们的方法提高了长地平的性能,并且能够比替代的无模型和基于模型的方法能够更好的零拍泛化。
translated by 谷歌翻译
我们提出了一种从基于隐式对象编码器,神经辐射字段(NERFS)和图神经网络的图像观测值中学习组成多对象动力学模型的方法。由于其强大的3D先验,NERF已成为代表场景的流行选择。但是,大多数NERF方法都在单个场景上进行了训练,以全球模型代表整个场景,从而对新型场景进行概括,其中包含不同数量的对象,具有挑战性。取而代之的是,我们提出了一个以对象为中心的自动编码器框架,该框架将场景的多个视图映射到一组分别表示每个对象的潜在向量。潜在矢量参数化可以从中重建场景的单个nerf。基于那些潜在向量,我们在潜在空间中训练图形神经网络动力学模型,以实现动力学预测的组成性。我们方法的一个关键特征是,潜在向量被迫通过NERF解码器编码3D信息,这使我们能够在学习动力学模型中纳入结构先验,从而使长期预测与多个基线相比更加稳定。模拟和现实世界的实验表明,我们的方法可以建模和学习构图场景的动态,包括刚性和可变形对象。视频:https://dannydriess.github.io/compnerfdyn/
translated by 谷歌翻译
3D视觉输入的对象操纵对构建可宽大的感知和政策模型构成了许多挑战。然而,现有基准中的3D资产主要缺乏与拓扑和几何中的现实世界内复杂的3D形状的多样性。在这里,我们提出了Sapien操纵技能基准(Manishill)以在全物理模拟器中的各种物体上基准操纵技巧。 Manishill中的3D资产包括大型课堂内拓扑和几何变化。仔细选择任务以涵盖不同类型的操纵挑战。 3D Vision的最新进展也使我们认为我们应该定制基准,以便挑战旨在邀请研究3D深入学习的研究人员。为此,我们模拟了一个移动的全景摄像头,返回以自我为中心的点云或RGB-D图像。此外,我们希望Manishill是为一个对操纵研究感兴趣的广泛研究人员提供服务。除了支持从互动的政策学习,我们还支持学习 - 从演示(LFD)方法,通过提供大量的高质量演示(〜36,000个成功的轨迹,总共〜1.5米点云/ RGB-D帧)。我们提供使用3D深度学习和LFD算法的基线。我们的基准(模拟器,环境,SDK和基线)的所有代码都是开放的,并且将基于基准举办跨学科研究人员面临的挑战。
translated by 谷歌翻译
操纵任务,如装载洗碗机,可以被视为不同对象之间的空间约束和关系序列。我们的目标是通过将操纵作为图表构成操作来发现这些规则,其节点代表了对象和目标等任务相关实体,并呈现了从示范中解决此问题的图形神经网络(GNN)策略架构。在我们的实验中,使用20个专家演示的模仿学习(IL)培训的单个GNN策略可以解决块根,重排和洗碗机加载任务;一旦策略了解了空间结构,它就可以概括到更大数量的对象,目标配置,以及从模拟到现实世界。这些实验表明,图形IL可以解决复杂的长地平衡操作问题而不需要详细的任务描述。视频可以找到:https://youtu.be/poxatdaj7ay。
translated by 谷歌翻译
在本文中,我们提出了一个概念学习体系结构,该构建结构使机器人通过与不同数量的对象进行交互来通过自我探索来构建符号。我们的目的是允许机器人在没有约束的情况下学习概念,例如固定数量的相互作用对象或预定义的符号结构。因此,寻求的体系结构应该能够为可以抓住的单个对象,无法抓住的对象堆栈或其他复合动态结构构建符号。为此,我们提出了一种新颖的体系结构,这是一个具有二进制激活层的自我牵键的预测编码器网络。我们通过机器人操纵设置显示了拟议网络的有效性,该设置涉及不同数量的刚性对象。提出的网络使用机器人的连续感觉运动体验来形成效应预测因子和符号结构,以分散方式描述机器人的相互作用。我们表明,使用发现的符号,机器人获得了推理功能来编码不同配置中各种对象的交互动力学。例如,机器人可以认为,如果机器人移动下面的对象,另一个对象顶部(可能的多个数字)对象将一起移动。我们还表明,发现的符号可用于计划通过训练高级神经网络来实现目标,从而纯粹的象征性推理。
translated by 谷歌翻译
Object-centric representation is an essential abstraction for forward prediction. Most existing forward models learn this representation through extensive supervision (e.g., object class and bounding box) although such ground-truth information is not readily accessible in reality. To address this, we introduce KINet (Keypoint Interaction Network) -- an end-to-end unsupervised framework to reason about object interactions based on a keypoint representation. Using visual observations, our model learns to associate objects with keypoint coordinates and discovers a graph representation of the system as a set of keypoint embeddings and their relations. It then learns an action-conditioned forward model using contrastive estimation to predict future keypoint states. By learning to perform physical reasoning in the keypoint space, our model automatically generalizes to scenarios with a different number of objects, novel backgrounds, and unseen object geometries. Experiments demonstrate the effectiveness of our model in accurately performing forward prediction and learning plannable object-centric representations which can also be used in downstream robotic manipulation tasks.
translated by 谷歌翻译
设计人工代理商是一个长期的梦想,可以通过内在动机有效地探索其环境,这类似于孩子们的表演方式。尽管最新的本质上动机增强学习(RL)的进步,但在物体操纵方案中的样本效率探索仍然是一个重大挑战,因为大多数相关信息都在于稀疏的代理对象和对象对象相互作用。在本文中,我们建议使用结构化的世界模型将关系电感偏置纳入控制回路中,以实现组成多对象环境中的样品效率和相互作用富含的探索。通过计划未来的新颖性结构化世界模型,我们的方法生成了自由播放的行为,这些行为早期就开始与对象交互,并随着时间的推移发展更复杂的行为。我们的方法不仅仅是使用模型来计算固有的奖励,我们的方法表明,良好模型和良好探索之间的自我增强周期也开辟了另一条途径:通过基于模型的计划,零击向下游任务。在完全固有的任务不足探索阶段之后,我们的方法解决了诸如堆叠,翻转,拾取和地点之类的挑战性下游任务,并投掷,这些任务概括为看不见的数字和对象的安排,而无需任何其他培训。
translated by 谷歌翻译
基于模型的增强学习(RL)是一种通过利用学习的单步动力学模型来计划想象中的动作来学习复杂行为的样本效率方法。但是,计划为长马操作计划的每项行动都是不切实际的,类似于每个肌肉运动的人类计划。相反,人类有效地计划具有高级技能来解决复杂的任务。从这种直觉中,我们提出了一个基于技能的RL框架(SKIMO),该框架能够使用技能动力学模型在技能空间中进行计划,该模型直接预测技能成果,而不是预测中级状态中的所有小细节,逐步。为了准确有效的长期计划,我们共同学习了先前经验的技能动力学模型和技能曲目。然后,我们利用学到的技能动力学模型准确模拟和计划技能空间中的长范围,这可以有效地学习长摩盛,稀疏的奖励任务。导航和操纵域中的实验结果表明,Skimo扩展了基于模型的方法的时间范围,并提高了基于模型的RL和基于技能的RL的样品效率。代码和视频可在\ url {https://clvrai.com/skimo}上找到
translated by 谷歌翻译
最近的作品表明,如何将大语言模型(LLM)的推理能力应用于自然语言处理以外的领域,例如机器人的计划和互动。这些具体的问题要求代理商了解世界上许多语义方面:可用技能的曲目,这些技能如何影响世界以及对世界的变化如何映射回该语言。在体现环境中规划的LLMS不仅需要考虑要做什么技能,还需要考虑如何以及何时进行操作 - 答案随着时间的推移而变化,以响应代理商自己的选择。在这项工作中,我们调查了在这种体现的环境中使用的LLM在多大程度上可以推论通过自然语言提供的反馈来源,而无需任何其他培训。我们建议,通过利用环境反馈,LLM能够形成内部独白,使他们能够在机器人控制方案中进行更丰富的处理和计划。我们研究了各种反馈来源,例如成功检测,场景描述和人类互动。我们发现,闭环语言反馈显着改善了三个领域的高级指导完成,包括模拟和真实的桌面顶部重新排列任务以及现实世界中厨房环境中的长途移动操作任务。
translated by 谷歌翻译
我们介绍了栖息地2.0(H2.0),这是一个模拟平台,用于培训交互式3D环境和复杂物理的场景中的虚拟机器人。我们为体现的AI堆栈 - 数据,仿真和基准任务做出了全面的贡献。具体来说,我们提出:(i)复制:一个由艺术家的,带注释的,可重新配置的3D公寓(匹配真实空间)与铰接对象(例如可以打开/关闭的橱柜和抽屉); (ii)H2.0:一个高性能物理学的3D模拟器,其速度超过8-GPU节点上的每秒25,000个模拟步骤(实时850x实时),代表先前工作的100倍加速;和(iii)家庭助理基准(HAB):一套辅助机器人(整理房屋,准备杂货,设置餐桌)的一套常见任务,以测试一系列移动操作功能。这些大规模的工程贡献使我们能够系统地比较长期结构化任务中的大规模加固学习(RL)和经典的感官平面操作(SPA)管道,并重点是对新对象,容器和布局的概括。 。我们发现(1)与层次结构相比,(1)平面RL政策在HAB上挣扎; (2)具有独立技能的层次结构遭受“交接问题”的困扰,(3)水疗管道比RL政策更脆。
translated by 谷歌翻译