与3D铰接物体感知和互动,例如橱柜,门和龙头,对未来的家庭助手机器人进行人类环境中的日常任务构成特殊挑战。除了解析铰接部件和联合参数外,研究人员最近倡导学习操纵在输入形状几何形状上,这是更加任务感知和几何细粒度的。然而,只采用​​被动观测作为输入,这些方法忽略了许多隐藏但重要的运动限制(例如,联合位置和限制)和动态因素(例如,关节摩擦和恢复),因此对这种不确定性的测试用例失去了显着的准确性。在本文中,我们提出了一个名为Adaaveword的新颖框架,该框架是学习的,以便在更准确地将可怜的实例特定的后医中迅速调整可怜的地前沿来执行很少的测试时间相互作用。我们使用Partnet-Mobility DataSet进行大规模实验,并证明我们的系统比基线更好。
translated by 谷歌翻译
对于未来的家庭辅助机器人来说,在日常人类环境中了解和操纵不同的3D对象是必不可少的。旨在构建可以在各种3D形状上执行各种操纵任务的可扩展系统,最近的作品提倡并展示了有希望的结果学习视觉可行的负担能力,该结果标记了输入3D几何学上的每个点,并以完成下游任务的可能性(例如,推动下游任务)或接送)。但是,这些作品仅研究了单杆操纵任务,但是许多现实世界的任务需要两只手才能协作。在这项工作中,我们提出了一个新颖的学习框架Dualafford,以学习双手操纵任务的协作负担。该方法的核心设计是将两个抓手的二次问题减少到两个分离但相互联系的子任务中,以进行有效的学习。使用大规模的partnet-Mobility和Shapenet数据集,我们设置了四个基准任务,以进行双拖把操作。实验证明了我们方法比三个基线的有效性和优势。可以在https://hyperplane-lab.github.io/dualafford上找到其他结果和视频。
translated by 谷歌翻译
建立可以与3D室内环境进行交互的体现智能代理,近年来已收到了越来越多的研究关注。虽然大多数作品专注于单一对象或代理 - 对象视觉功能和可供性,但我们的工作建议研究一种新的视觉关系,对感知和模型 - 对象间功能关系也很重要(例如,开关墙壁打开或关闭光线,遥控器操作电视)。人类常常花费很少或不努力推断这些关系,即使在进入新房时,即使在进入新房时,通过使用我们的强大的先验知识(例如,我们知道该按钮控制电气设备),或者在不确定性的情况下仅使用一些探索性相互作用(例如,多个开关和相同房间的灯)。在本文中,我们在3D室内环境中建立了AI系统学习对象间功能关系的第一步,通过培训大规模场景和设计互动政策,以有效地探索培训场景和快速设计互动政策,以便进行建模的主要技术贡献适应新颖的测试场景。我们根据AI2thor和Portnet数据集创建一个新的基准,并进行广泛的实验,证明了我们提出的方法的有效性。结果表明,我们的模型成功地了解了在复杂3D场景中探索对象内功能关系的前沿和快速交互式的策略。几项消融研究进一步验证了每个提出的模块的有用性。
translated by 谷歌翻译
我们探索一种新的方法来感知和操纵3D铰接式物体,该物体可以概括地使机器人阐明看不见的对象。我们提出了一个基于视觉的系统,该系统学会预测各种铰接物体的各个部分的潜在运动,以指导系统的下游运动计划以表达对象。为了预测对象运动,我们训练一个神经网络,以输出一个密集的向量场,代表点云中点云中点的点运动方向。然后,我们根据该向量领域部署一个分析运动计划者,以实现产生最大发音的政策。我们完全在模拟中训练视觉系统,并演示了系统在模拟和现实世界中概括的对象实例和新颖类别的能力,并将我们的政策部署在没有任何填充的锯耶机器人上。结果表明,我们的系统在模拟和现实世界实验中都达到了最先进的性能。
translated by 谷歌翻译
对于移动机器人而言,与铰接式对象的交互是一项具有挑战性但重要的任务。为了应对这一挑战,我们提出了一条新型的闭环控制管道,该管道将负担能力估计的操纵先验与基于采样的全身控制相结合。我们介绍了完全反映了代理的能力和体现的代理意识提供的概念,我们表明它们的表现优于其最先进的对应物,这些对应物仅以最终效果的几何形状为条件。此外,发现闭环负担推论使代理可以将任务分为多个非连续运动,并从失败和意外状态中恢复。最后,管道能够执行长途移动操作任务,即在现实世界中开放和关闭烤箱,成功率很高(开放:71%,关闭:72%)。
translated by 谷歌翻译
铰接的物体在日常生活中很丰富。发现它们的部位,关节和运动学对于机器人与这些物体相互作用至关重要。我们从Action(SFA)引入结构,该框架通过一系列推断相互作用来发现3D部分的几何形状和未看到的表达对象的关节参数。我们的主要见解是,应考虑构建3D明显的CAD模型的3D相互作用和感知,尤其是在训练过程中未见的类别的情况下。通过选择信息丰富的交互,SFA发现零件并揭示最初遮挡的表面,例如封闭抽屉的内部。通过在3D中汇总视觉观测,SFA可以准确段段多个部分,重建零件几何形状,并在规范坐标框架中渗透所有关节参数。我们的实验表明,在模拟中训练的单个SFA模型可以推广到具有未知运动结构和现实世界对象的许多看不见的对象类别。代码和数据将公开可用。
translated by 谷歌翻译
在交互环境中学习操纵3D对象一直是强化学习(RL)的挑战性问题。特别是,很难训练可以概括具有不同语义类别,多样形状几何形状和多功能功能的对象的策略。最近,视觉负担能力的技术在提供有效的可操作语义方面提供了以对象为中心的信息先验的前景。因此,可以通过知道如何在手柄上施加力来训练有效的政策来打开门。但是,要学习负担能力,它通常需要人为定义的动作基础,这限制了适用的任务范围。在这项研究中,我们通过使用RL训练过程中生成的联系信息来预测感兴趣的接触图,利用视觉负担。然后,这种联系预测过程会导致一个端到端的负担能力学习框架,该框架可以概括不同类型的操纵任务。令人惊讶的是,这种框架的有效性即使在多阶段和多代理场景下也具有。我们对八种类型的操纵任务进行了测试。结果表明,我们的方法优于基线算法,包括基于视觉的负担方法和RL方法,其成功率很大。演示可以在https://sites.google.com/view/rlafford/上找到。
translated by 谷歌翻译
Perceiving and manipulating objects in a generalizable way has been actively studied by the computer vision and robotics communities, where cross-category generalizable manipulation skills are highly desired yet underexplored. In this work, we propose to learn such generalizable perception and manipulation via Generalizable and Actionable Parts (GAParts). By identifying and defining 9 GAPart classes (e.g. buttons, handles, etc), we show that our part-centric approach allows our method to learn object perception and manipulation skills from seen object categories and directly generalize to unseen categories. Following the GAPart definition, we construct a large-scale part-centric interactive dataset, GAPartNet, where rich, part-level annotations (semantics, poses) are provided for 1166 objects and 8489 part instances. Based on GAPartNet, we investigate three cross-category tasks: part segmentation, part pose estimation, and part-based object manipulation. Given the large domain gaps between seen and unseen object categories, we propose a strong 3D segmentation method from the perspective of domain generalization by integrating adversarial learning techniques. Our method outperforms all existing methods by a large margin, no matter on seen or unseen categories. Furthermore, with part segmentation and pose estimation results, we leverage the GAPart pose definition to design part-based manipulation heuristics that can generalize well to unseen object categories in both simulation and real world. The dataset and code will be released.
translated by 谷歌翻译
3D视觉输入的对象操纵对构建可宽大的感知和政策模型构成了许多挑战。然而,现有基准中的3D资产主要缺乏与拓扑和几何中的现实世界内复杂的3D形状的多样性。在这里,我们提出了Sapien操纵技能基准(Manishill)以在全物理模拟器中的各种物体上基准操纵技巧。 Manishill中的3D资产包括大型课堂内拓扑和几何变化。仔细选择任务以涵盖不同类型的操纵挑战。 3D Vision的最新进展也使我们认为我们应该定制基准,以便挑战旨在邀请研究3D深入学习的研究人员。为此,我们模拟了一个移动的全景摄像头,返回以自我为中心的点云或RGB-D图像。此外,我们希望Manishill是为一个对操纵研究感兴趣的广泛研究人员提供服务。除了支持从互动的政策学习,我们还支持学习 - 从演示(LFD)方法,通过提供大量的高质量演示(〜36,000个成功的轨迹,总共〜1.5米点云/ RGB-D帧)。我们提供使用3D深度学习和LFD算法的基线。我们的基准(模拟器,环境,SDK和基线)的所有代码都是开放的,并且将基于基准举办跨学科研究人员面临的挑战。
translated by 谷歌翻译
抓握是通过在一组触点上施加力和扭矩来挑选对象的过程。深度学习方法的最新进展允许在机器人对象抓地力方面快速进步。我们在过去十年中系统地调查了出版物,特别感兴趣使用最终效果姿势的所有6度自由度抓住对象。我们的综述发现了四种用于机器人抓钩的常见方法:基于抽样的方法,直接回归,强化学习和示例方法。此外,我们发现了围绕抓握的两种“支持方法”,这些方法使用深入学习来支持抓握过程,形状近似和负担能力。我们已经将本系统评论(85篇论文)中发现的出版物提炼为十个关键要点,我们认为对未来的机器人抓握和操纵研究至关重要。该调查的在线版本可从https://rhys-newbury.github.io/projects/6dof/获得
translated by 谷歌翻译
在本文中,我们探讨了机器人是否可以学会重新应用一组多样的物体以实现各种所需的掌握姿势。只要机器人的当前掌握姿势未能执行所需的操作任务,需要重新扫描。具有这种能力的赋予机器人具有在许多领域中的应用,例如制造或国内服务。然而,由于日常物体中的几何形状和状态和行动空间的高维度,这是一个具有挑战性的任务。在本文中,我们提出了一种机器人系统,用于将物体的部分点云和支持环境作为输入,输出序列和放置操作的序列来转换到所需的对象掌握姿势。关键技术包括神经稳定放置预测器,并通过利用和改变周围环境来引发基于图形的解决方案。我们介绍了一个新的和具有挑战性的合成数据集,用于学习和评估所提出的方法。我们展示了我们提出的系统与模拟器和现实世界实验的有效性。我们的项目网页上有更多视频和可视化示例。
translated by 谷歌翻译
As the basis for prehensile manipulation, it is vital to enable robots to grasp as robustly as humans. In daily manipulation, our grasping system is prompt, accurate, flexible and continuous across spatial and temporal domains. Few existing methods cover all these properties for robot grasping. In this paper, we propose a new methodology for grasp perception to enable robots these abilities. Specifically, we develop a dense supervision strategy with real perception and analytic labels in the spatial-temporal domain. Additional awareness of objects' center-of-mass is incorporated into the learning process to help improve grasping stability. Utilization of grasp correspondence across observations enables dynamic grasp tracking. Our model, AnyGrasp, can generate accurate, full-DoF, dense and temporally-smooth grasp poses efficiently, and works robustly against large depth sensing noise. Embedded with AnyGrasp, we achieve a 93.3% success rate when clearing bins with over 300 unseen objects, which is comparable with human subjects under controlled conditions. Over 900 MPPH is reported on a single-arm system. For dynamic grasping, we demonstrate catching swimming robot fish in the water.
translated by 谷歌翻译
当代掌握检测方法采用深度学习,实现传感器和物体模型不确定性的鲁棒性。这两个主导的方法设计了掌握质量评分或基于锚的掌握识别网络。本文通过将其视为图像空间中的关键点检测来掌握掌握检测的不同方法。深网络检测每个掌握候选者作为一对关键点,可转换为掌握代表= {x,y,w,{\ theta}} t,而不是转角点的三态或四重奏。通过将关键点分组成对来降低检测难度提高性能。为了促进捕获关键点之间的依赖关系,将非本地模块结合到网络设计中。基于离散和连续定向预测的最终过滤策略消除了错误的对应关系,并进一步提高了掌握检测性能。此处提出的方法GKNET在康奈尔和伸缩的提花数据集上的精度和速度之间实现了良好的平衡(在41.67和23.26 fps的96.9%和98.39%)之间。操纵器上的后续实验使用4种类型的抓取实验来评估GKNet,反映不同滋扰的速度:静态抓握,动态抓握,在各种相机角度抓住,夹住。 GKNet优于静态和动态掌握实验中的参考基线,同时表现出变化的相机观点和中度杂波的稳健性。结果证实了掌握关键点是深度掌握网络的有效输出表示的假设,为预期的滋扰因素提供鲁棒性。
translated by 谷歌翻译
我们介绍了栖息地2.0(H2.0),这是一个模拟平台,用于培训交互式3D环境和复杂物理的场景中的虚拟机器人。我们为体现的AI堆栈 - 数据,仿真和基准任务做出了全面的贡献。具体来说,我们提出:(i)复制:一个由艺术家的,带注释的,可重新配置的3D公寓(匹配真实空间)与铰接对象(例如可以打开/关闭的橱柜和抽屉); (ii)H2.0:一个高性能物理学的3D模拟器,其速度超过8-GPU节点上的每秒25,000个模拟步骤(实时850x实时),代表先前工作的100倍加速;和(iii)家庭助理基准(HAB):一套辅助机器人(整理房屋,准备杂货,设置餐桌)的一套常见任务,以测试一系列移动操作功能。这些大规模的工程贡献使我们能够系统地比较长期结构化任务中的大规模加固学习(RL)和经典的感官平面操作(SPA)管道,并重点是对新对象,容器和布局的概括。 。我们发现(1)与层次结构相比,(1)平面RL政策在HAB上挣扎; (2)具有独立技能的层次结构遭受“交接问题”的困扰,(3)水疗管道比RL政策更脆。
translated by 谷歌翻译
操纵铰接对象通常需要多个机器人臂。使多个机器人武器能够在铰接物体上协作地完成操纵任务是一项挑战性。在本文中,我们呈现$ \ textbf {v-mao} $,这是一个学习铰接物体的多臂操纵的框架。我们的框架包括一个变分生成模型,可以为每个机器人臂的物体刚性零件学习接触点分布。从与模拟环境的交互获得训练信号,该模拟环境是通过规划和用于铰接对象的对象控制的新颖制定的新颖制定。我们在定制的Mujoco仿真环境中部署了我们的框架,并证明我们的框架在六种不同的对象和两个不同的机器人上实现了高成功率。我们还表明,生成建模可以有效地学习铰接物体上的接触点分布。
translated by 谷歌翻译
机器人操纵计划是找到一系列机器人配置的问题,该配置涉及与场景中的对象的交互,例如掌握,放置,工具使用等来实现这种相互作用,传统方法需要手工设计的特征和对象表示,它仍然是如何以灵活有效的方式描述与任意对象的这种交互的开放问题。例如,通过3D建模的最新进步启发,例如,NERF,我们提出了一种方法来表示对象作为神经隐式功能,我们可以在其中定义和共同列车交互约束函数。所提出的像素对准表示直接从具有已知相机几何形状的相机图像推断出,当时在整个操纵管道中作为感知组件,同时能够实现连续的机器人操纵计划。
translated by 谷歌翻译
从语言灵活性和组成性中受益,人类自然打算使用语言来指挥体现的代理,以进行复杂的任务,例如导航和对象操纵。在这项工作中,我们旨在填补最后一英里的体现代理的空白 - 通过遵循人类的指导,例如,“将红杯子移到盒子旁边,同时将其保持直立。”为此,我们介绍了一个自动操纵求解器(AMSolver)模拟器,并基于IT构建视觉和语言操纵基准(VLMBENCH),其中包含有关机器人操纵任务的各种语言说明。具体而言,创建基于模块化规则的任务模板是为了自动生成具有语言指令的机器人演示,包括各种对象形状和外观,动作类型和运动约束。我们还开发了一个基于关键点的模型6D-Cliport,以处理多视图观察和语言输入,并输出一个6个自由度(DOF)动作的顺序。我们希望新的模拟器和基准将促进对语言引导机器人操纵的未来研究。
translated by 谷歌翻译
作为自治机器人的互动和导航在诸如房屋之类的真实环境中,可靠地识别和操纵铰接物体,例如门和橱柜是有用的。在对象铰接识别中许多先前的作品需要通过机器人或人类操纵物体。虽然最近的作品已经解决了从视觉观测的预测,但他们经常假设根据其运动约束的铰接部件移动的类别级运动模型或观察序列的先验知识。在这项工作中,我们提出了Formnet,是一种神经网络,该神经网络识别来自RGB-D图像和分段掩模的单帧对象部分的对象部分之间的铰接机制。从6个类别的149个铰接对象的100K合成图像培训网络培训。通过具有域随机化的光保护模拟器呈现合成图像。我们所提出的模型预测物体部件的运动残余流动,并且这些流量用于确定铰接类型和参数。该网络在训练有素的类别中的新对象实例上实现了82.5%的铰接式分类精度。实验还展示了该方法如何实现新颖类别的泛化,并且在没有微调的情况下应用于现实世界图像。
translated by 谷歌翻译
我们介绍了忙碌的板,这是一种受玩具启发的机器人学习环境,它利用一组铰接的对象和对象间功能关系,为机器人交互提供丰富的视觉反馈。基于这种环境,我们介绍了一个学习框架,即Busughbot,该框架允许代理商以综合和自欺欺人的方式共同获得三个基本功能(互动,推理和计划)。凭借繁忙板提供的丰富感官反馈,Busudbot首先学习了有效与环境互动的政策;然后,随着使用该策略收集的数据,Busybot的原因是通过因果发现网络对象间功能关系;最后,通过结合学习的交互政策和关系推理技能,代理可以执行目标条件的操纵任务。我们在模拟环境和现实环境中评估了忙碌的机器人,并验证了其看不见的对象和关系的概括性。视频可从https://youtu.be/ej98xbjz9ek获得。
translated by 谷歌翻译
在工厂或房屋等环境中协助我们的机器人必须学会使用对象作为执行任务的工具,例如使用托盘携带对象。我们考虑了学习常识性知识何时可能有用的问题,以及如何与其他工具一起使用其使用以完成由人类指示的高级任务。具体而言,我们引入了一种新型的神经模型,称为Tooltango,该模型首先预测要使用的下一个工具,然后使用此信息来预测下一项动作。我们表明,该联合模型可以告知学习精细的策略,从而使机器人可以顺序使用特定工具,并在使模型更加准确的情况下增加了重要价值。 Tooltango使用图神经网络编码世界状态,包括对象和它们之间的符号关系,并使用人类教师的演示进行了培训,这些演示是指导物理模拟器中的虚拟机器人的演示。该模型学会了使用目标和动作历史的知识来参加场景,最终将符号动作解码为执行。至关重要的是,我们解决了缺少一些已知工具的看不见的环境的概括,但是存在其他看不见的工具。我们表明,通过通过从知识库中得出的预训练的嵌入来增强环境的表示,该模型可以有效地将其推广到新的环境中。实验结果表明,在预测具有看不见对象的新型环境中模拟移动操纵器的成功符号计划时,至少48.8-58.1%的绝对改善对基准的绝对改善。这项工作朝着使机器人能够快速合成复杂任务的强大计划的方向,尤其是在新颖的环境中
translated by 谷歌翻译