We introduce MegaPose, a method to estimate the 6D pose of novel objects, that is, objects unseen during training. At inference time, the method only assumes knowledge of (i) a region of interest displaying the object in the image and (ii) a CAD model of the observed object. The contributions of this work are threefold. First, we present a 6D pose refiner based on a render&compare strategy which can be applied to novel objects. The shape and coordinate system of the novel object are provided as inputs to the network by rendering multiple synthetic views of the object's CAD model. Second, we introduce a novel approach for coarse pose estimation which leverages a network trained to classify whether the pose error between a synthetic rendering and an observed image of the same object can be corrected by the refiner. Third, we introduce a large-scale synthetic dataset of photorealistic images of thousands of objects with diverse visual and shape properties and show that this diversity is crucial to obtain good generalization performance on novel objects. We train our approach on this large synthetic dataset and apply it without retraining to hundreds of novel objects in real images from several pose estimation benchmarks. Our approach achieves state-of-the-art performance on the ModelNet and YCB-Video datasets. An extensive evaluation on the 7 core datasets of the BOP challenge demonstrates that our approach achieves performance competitive with existing approaches that require access to the target objects during training. Code, dataset and trained models are available on the project page: https://megapose6d.github.io/.
translated by 谷歌翻译
We present a unified and compact representation for object rendering, 3D reconstruction, and grasp pose prediction that can be inferred from a single image within a few seconds. We achieve this by leveraging recent advances in the Neural Radiance Field (NeRF) literature that learn category-level priors and fine-tune on novel objects with minimal data and time. Our insight is that we can learn a compact shape representation and extract meaningful additional information from it, such as grasping poses. We believe this to be the first work to retrieve grasping poses directly from a NeRF-based representation using a single viewpoint (RGB-only), rather than going through a secondary network and/or representation. When compared to prior art, our method is two to three orders of magnitude smaller while achieving comparable performance at view reconstruction and grasping. Accompanying our method, we also propose a new dataset of rendered shoes for training a sim-2-real NeRF method with grasping poses for different widths of grippers.
translated by 谷歌翻译
在现实世界中,教授多指的灵巧机器人在现实世界中掌握物体,这是一个充满挑战的问题,由于其高维状态和动作空间。我们提出了一个机器人学习系统,该系统可以进行少量的人类示范,并学会掌握在某些被遮挡的观察结果的情况下掌握看不见的物体姿势。我们的系统利用了一个小型运动捕获数据集,并为多指的机器人抓手生成具有多种多样且成功的轨迹的大型数据集。通过添加域随机化,我们表明我们的数据集提供了可以将其转移到策略学习者的强大抓地力轨迹。我们训练一种灵活的抓紧策略,该策略将对象的点云作为输入,并预测连续的动作以从不同初始机器人状态掌握对象。我们在模拟中评估了系统对22多伏的浮动手的有效性,并在现实世界中带有kuka手臂的23多杆Allegro机器人手。从我们的数据集中汲取的政策可以很好地概括在模拟和现实世界中的看不见的对象姿势
translated by 谷歌翻译
任务计划可能需要定义有关机器人需要采取行动的世界的无数领域知识。为了改善这项工作,可以使用大型语言模型(LLM)在任务计划期间为潜在的下一个操作评分,甚至直接生成动作序列,鉴于没有其他域信息的自然语言指令。但是,这样的方法要么需要列举所有可能的下一步评分,要么生成可能包含在当前机器人中给定机器人上不可能操作的自由形式文本。我们提出了一个程序化的LLM提示结构,该结构能够跨越位置环境,机器人功能和任务的计划生成功能。我们的关键见解是提示LLM具有环境中可用操作和对象的类似程序的规格,以及可以执行的示例程序。我们通过消融实验提出了有关迅速结构和生成约束的具体建议,证明了虚拟屋家庭任务中最先进的成功率,并将我们的方法部署在桌面任务的物理机器人组上。网站progprompt.github.io
translated by 谷歌翻译
变形金刚用大型数据集的扩展能力彻底改变了视力和自然语言处理。但是在机器人的操作中,数据既有限又昂贵。我们仍然可以从具有正确的问题制定的变压器中受益吗?我们用Peract进行了调查,这是一种用于多任务6 DOF操纵的语言条件的行为结合剂。 Peract用感知器变压器编码语言目标和RGB-D Voxel观测值,并通过“检测下一个最佳素素动作”来输出离散的动作。与在2D图像上运行的框架不同,体素化的观察和动作空间为有效学习的6-DOF策略提供了强大的结构性先验。通过此公式,我们训练一个单个多任务变压器,用于18个RLBench任务(具有249个变体)和7个现实世界任务(具有18个变体),从每个任务仅几个演示。我们的结果表明,针对各种桌面任务,佩内的磨损明显优于非结构化图像到作用剂和3D Convnet基准。
translated by 谷歌翻译
对具有复杂空间关系的几何结构的视觉理解是人类智力的基本组成部分。作为孩子,我们不仅从观察中,而且通过与周围的世界互动来学习如何推理结构 - 通过将事物拆开并将它们重新放回原处。理解结构和组成性的能力不仅使我们不仅可以构建事物,还可以理解和反向工程复合系统。为了推进基于部分几何理解的互动推理研究,我们提出了一个充满挑战的新组装问题,它使用我们称之为中断和制造的乐高积木。在此问题中,给代理人获得了一个乐高模型,并试图通过交互检查和拆卸它来理解其结构。在此检查期之后,代理必须通过使用低级动作原始素从头开始重建模型来证明其理解。为了促进有关此问题的研究,我们构建了Ltron,这是一种完全交互的3D模拟器,允许学习代理组装,拆卸和操纵乐高模型。我们将此模拟器与一个新的粉丝乐高创作的数据集配对,该数据集已上传到Internet,以提供包含一千多种独特砖头的复杂场景。我们使用序列到序列模型迈出了解决此问题的第一步,这些模型为如何在这个具有挑战性的问题上取得进展提供指导。我们的模拟器和数据可在github.com/aaronwalsman/ltron上获得。可以在github.com/aaronwalsman/ltron-torch-eccv22上获得其他培训代码和Pytorch示例。
translated by 谷歌翻译
抓握是通过在一组触点上施加力和扭矩来挑选对象的过程。深度学习方法的最新进展允许在机器人对象抓地力方面快速进步。我们在过去十年中系统地调查了出版物,特别感兴趣使用最终效果姿势的所有6度自由度抓住对象。我们的综述发现了四种用于机器人抓钩的常见方法:基于抽样的方法,直接回归,强化学习和示例方法。此外,我们发现了围绕抓握的两种“支持方法”,这些方法使用深入学习来支持抓握过程,形状近似和负担能力。我们已经将本系统评论(85篇论文)中发现的出版物提炼为十个关键要点,我们认为对未来的机器人抓握和操纵研究至关重要。该调查的在线版本可从https://rhys-newbury.github.io/projects/6dof/获得
translated by 谷歌翻译
当前机器人拾取方法的管道通常包括几个阶段:抓握姿势检测,寻找检测到的姿势的逆运动溶液,计划无碰撞轨迹,然后用开放环轨迹执行对Grasp Pose的执行。低级跟踪控制器。虽然这些抓握方法在将静态对象掌握在台式顶上方面表现出良好的性能,但在受约束环境中抓住动态对象的问题仍然是一个开放的问题。我们提出了神经运动场,这是一种新颖的对象表示,将对象点云和相对任务轨迹编码为由神经网络参数化的隐式值函数。以对象为中心的表示形式在SE(3)空间上建模了连续分布,并使我们能够通过利用基于采样的MPC来反应地执行握把以优化此值函数。
translated by 谷歌翻译
本文提出了一种类别级别的6D对象姿势和形状估计方法IDAPS,其允许在类别中跟踪6D姿势并估计其3D形状。我们使用深度图像作为输入开发类别级别自动编码器网络,其中来自自动编码器编码的特征嵌入在类别中对象的姿势。自动编码器可用于粒子过滤器框架,以估计和跟踪类别中的对象的姿势。通过利用基于符号距离函数的隐式形状表示,我们构建延迟网络以估计给定对象的估计姿势的3D形状的潜在表示。然后,估计的姿势和形状可用于以迭代方式互相更新。我们的类别级别6D对象姿势和形状估计流水线仅需要2D检测和分段进行初始化。我们在公开的数据集中评估我们的方法,并展示其有效性。特别是,我们的方法在形状估计上实现了相对高的准确性。
translated by 谷歌翻译
在机器人和人类运营商之间分享自主权可以促进机器人任务示范的数据收集,以不断改进学习模型。然而,沟通意图的手段和关于未来的原因是人类和机器人之间的差异。我们介绍了辅助Tele-Op,虚拟现实(VR)系统,用于收集展示自主轨迹预测的机器人任务演示,以传达机器人的意图。随着机器人移动,用户可以在需要时切换自主和手动控制。这允许用户通过高成功率和比手动遥操作系统更轻松地收集任务演示。我们的系统由变压器供电,可以为未来提供潜在的状态和行动的窗口 - 几乎没有添加计算时间。密钥识别是,如果用户决定模型预测的操作是不合适的,则可以在变换器序列内的任何位置注入人类意图。在每次步骤中,用户可以(1)无所作为并允许自主操作在观察机器人的未来计划序列时继续,或者(2)接管并暂时规定不同一组动作以使模型返回到轨道上。我们在https://sites.google.com/view/assistive-teleop上托管视频和其他补充材料。
translated by 谷歌翻译