在机器人远程操作中的研究一直围绕着行动规范 - 从连续关节控制到离散的最终效果姿势控制。但是,这些以机器人为中心的接口通常需要具有广泛机器人专业知识的熟练操作员。为了使非专家用户可以访问远程操作,我们提出了框架“场景编辑为teleperation”(座位),其中关键的想法是将传统的“以机器人为中心的”界面转换为“以场景为中心的”界面 - 而是通过控制机器人,用户专注于通过操纵现实世界对象的数字双胞胎来指定任务的目标。结果,用户可以在没有任何机器人硬件的任何专业知识的情况下执行远程关系。为了实现这一目标,我们利用一种类别 - 不合时宜的场景完整算法,该算法将现实世界工作空间(带有未知对象)转换为可操作的虚拟场景表示和一个动作捕捉算法,并在生成机器人的动作计划之前对其进行改进的动作捕捉算法。为了训练算法,我们在过程中生成了一个大规模的,多样的套件组装数据集,其中包含模仿现实世界对象套件任务的对象芯对。我们在模拟和现实世界中的实验表明,我们的框架提高了6DOF套件组装任务的效率和成功率。一项用户研究表明,与替代机器人以机器人为中心的界面相比,座椅框架参与者获得了更高的任务成功率,并报告了主观工作量较低。可以在https://www.youtube.com/watch?v=-ndr3MKPBQQ上找到视频。
translated by 谷歌翻译
机器人操纵可以配制成诱导一系列空间位移:其中移动的空间可以包括物体,物体的一部分或末端执行器。在这项工作中,我们提出了一个简单的模型架构,它重新排列了深度功能,以从视觉输入推断出可视输入的空间位移 - 这可以参数化机器人操作。它没有对象的假设(例如规范姿势,模型或关键点),它利用空间对称性,并且比我们学习基于视觉的操纵任务的基准替代方案更高的样本效率,并且依赖于堆叠的金字塔用看不见的物体组装套件;从操纵可变形的绳索,以将堆积的小物体推动,具有闭环反馈。我们的方法可以表示复杂的多模态策略分布,并推广到多步顺序任务,以及6dof拾取器。 10个模拟任务的实验表明,它比各种端到端基线更快地学习并概括,包括使用地面真实对象姿势的政策。我们在现实世界中使用硬件验证我们的方法。实验视频和代码可在https://transporternets.github.io获得
translated by 谷歌翻译
抓握是通过在一组触点上施加力和扭矩来挑选对象的过程。深度学习方法的最新进展允许在机器人对象抓地力方面快速进步。我们在过去十年中系统地调查了出版物,特别感兴趣使用最终效果姿势的所有6度自由度抓住对象。我们的综述发现了四种用于机器人抓钩的常见方法:基于抽样的方法,直接回归,强化学习和示例方法。此外,我们发现了围绕抓握的两种“支持方法”,这些方法使用深入学习来支持抓握过程,形状近似和负担能力。我们已经将本系统评论(85篇论文)中发现的出版物提炼为十个关键要点,我们认为对未来的机器人抓握和操纵研究至关重要。该调查的在线版本可从https://rhys-newbury.github.io/projects/6dof/获得
translated by 谷歌翻译
Grasp learning has become an exciting and important topic in robotics. Just a few years ago, the problem of grasping novel objects from unstructured piles of clutter was considered a serious research challenge. Now, it is a capability that is quickly becoming incorporated into industrial supply chain automation. How did that happen? What is the current state of the art in robotic grasp learning, what are the different methodological approaches, and what machine learning models are used? This review attempts to give an overview of the current state of the art of grasp learning research.
translated by 谷歌翻译
Being able to grasp objects is a fundamental component of most robotic manipulation systems. In this paper, we present a new approach to simultaneously reconstruct a mesh and a dense grasp quality map of an object from a depth image. At the core of our approach is a novel camera-centric object representation called the "object shell" which is composed of an observed "entry image" and a predicted "exit image". We present an image-to-image residual ConvNet architecture in which the object shell and a grasp-quality map are predicted as separate output channels. The main advantage of the shell representation and the corresponding neural network architecture, ShellGrasp-Net, is that the input-output pixel correspondences in the shell representation are explicitly represented in the architecture. We show that this coupling yields superior generalization capabilities for object reconstruction and accurate grasp quality estimation implicitly considering the object geometry. Our approach yields an efficient dense grasp quality map and an object geometry estimate in a single forward pass. Both of these outputs can be used in a wide range of robotic manipulation applications. With rigorous experimental validation, both in simulation and on a real setup, we show that our shell-based method can be used to generate precise grasps and the associated grasp quality with over 90% accuracy. Diverse grasps computed on shell reconstructions allow the robot to select and execute grasps in cluttered scenes with more than 93% success rate.
translated by 谷歌翻译
在现实世界中,教授多指的灵巧机器人在现实世界中掌握物体,这是一个充满挑战的问题,由于其高维状态和动作空间。我们提出了一个机器人学习系统,该系统可以进行少量的人类示范,并学会掌握在某些被遮挡的观察结果的情况下掌握看不见的物体姿势。我们的系统利用了一个小型运动捕获数据集,并为多指的机器人抓手生成具有多种多样且成功的轨迹的大型数据集。通过添加域随机化,我们表明我们的数据集提供了可以将其转移到策略学习者的强大抓地力轨迹。我们训练一种灵活的抓紧策略,该策略将对象的点云作为输入,并预测连续的动作以从不同初始机器人状态掌握对象。我们在模拟中评估了系统对22多伏的浮动手的有效性,并在现实世界中带有kuka手臂的23多杆Allegro机器人手。从我们的数据集中汲取的政策可以很好地概括在模拟和现实世界中的看不见的对象姿势
translated by 谷歌翻译
As the basis for prehensile manipulation, it is vital to enable robots to grasp as robustly as humans. In daily manipulation, our grasping system is prompt, accurate, flexible and continuous across spatial and temporal domains. Few existing methods cover all these properties for robot grasping. In this paper, we propose a new methodology for grasp perception to enable robots these abilities. Specifically, we develop a dense supervision strategy with real perception and analytic labels in the spatial-temporal domain. Additional awareness of objects' center-of-mass is incorporated into the learning process to help improve grasping stability. Utilization of grasp correspondence across observations enables dynamic grasp tracking. Our model, AnyGrasp, can generate accurate, full-DoF, dense and temporally-smooth grasp poses efficiently, and works robustly against large depth sensing noise. Embedded with AnyGrasp, we achieve a 93.3% success rate when clearing bins with over 300 unseen objects, which is comparable with human subjects under controlled conditions. Over 900 MPPH is reported on a single-arm system. For dynamic grasping, we demonstrate catching swimming robot fish in the water.
translated by 谷歌翻译
成功掌握对象的能力在机器人中是至关重要的,因为它可以实现多个交互式下游应用程序。为此,大多数方法要么计算兴趣对象的完整6D姿势,要么学习预测一组掌握点。虽然前一种方法对多个对象实例或类没有很好地扩展,但后者需要大的注释数据集,并且受到新几何形状的普遍性能力差的阻碍。为了克服这些缺点,我们建议教授一个机器人如何用简单而简短的人类示范掌握一个物体。因此,我们的方法既不需要许多注释图像,也不限于特定的几何形状。我们首先介绍了一个小型RGB-D图像,显示人对象交互。然后利用该序列来构建表示所描绘的交互的相关手和对象网格。随后,我们完成重建对象形状的缺失部分,并估计了场景中的重建和可见对象之间的相对变换。最后,我们从物体和人手之间的相对姿势转移a-prioriz知识,随着当前对象在场景中的估计到机器人的必要抓握指令。与丰田的人类支持机器人(HSR)在真实和合成环境中的详尽评估证明了我们所提出的方法的适用性及其优势与以前的方法相比。
translated by 谷歌翻译
Humans form mental images of 3D scenes to support counterfactual imagination, planning, and motor control. Our abilities to predict the appearance and affordance of the scene from previously unobserved viewpoints aid us in performing manipulation tasks (e.g., 6-DoF kitting) with a level of ease that is currently out of reach for existing robot learning frameworks. In this work, we aim to build artificial systems that can analogously plan actions on top of imagined images. To this end, we introduce Mental Imagery for Robotic Affordances (MIRA), an action reasoning framework that optimizes actions with novel-view synthesis and affordance prediction in the loop. Given a set of 2D RGB images, MIRA builds a consistent 3D scene representation, through which we synthesize novel orthographic views amenable to pixel-wise affordances prediction for action optimization. We illustrate how this optimization process enables us to generalize to unseen out-of-plane rotations for 6-DoF robotic manipulation tasks given a limited number of demonstrations, paving the way toward machines that autonomously learn to understand the world around them for planning actions.
translated by 谷歌翻译
本文介绍了Apamant,这是一组软件模块,可为现有的机器人计划和控制软件框架提供掌握计划功能。我们提出的工作允许用户调整操作任务,以在不同的情况下使用最小的用户输入,从而减少操作员的认知负载。开发的工具包括(1)基于插件的组件,使得易于扩展默认功能并使用第三方Grasp库,(2)以对象为中心的方式来定义任务约束,(3)用户友好的RVIZ接口使用GRASP计划者实用程序,以及(4)使用感知数据来编程任务的交互式工具。我们在各种机器人模拟上测试了框架。
translated by 谷歌翻译
形状通知如何将对象掌握,无论是如何以及如何。因此,本文介绍了一种基于分割的架构,用于将用深度摄像机进行分解为多个基本形状的对象,以及用于机器人抓握的后处理管道。分段采用深度网络,称为PS-CNN,在具有6个类的原始形状和使用模拟引擎生成的合成数据上培训。每个原始形状都设计有参数化掌握家族,允许管道识别每个形状区域的多个掌握候选者。掌握是排序的排名,选择用于执行的第一个可行的。对于无任务掌握单个对象,该方法达到94.2%的成功率将其放置在顶部执行掌握方法中,与自上而下和SE(3)基础相比。涉及变量观点和杂波的其他测试展示了设置的鲁棒性。对于面向任务的掌握,PS-CNN实现了93.0%的成功率。总体而言,结果支持该假设,即在抓地管道内明确地编码形状原语应该提高掌握性能,包括无任务和任务相关的掌握预测。
translated by 谷歌翻译
我们呈现神经描述符字段(NDFS),对象表示,其通过类别级别描述符在对象和目标(例如用于悬挂的机器人夹具或用于悬挂的机架)之间进行编码和相对姿势。我们使用此表示进行对象操作,在这里,在给定任务演示时,我们要在同一类别中对新对象实例重复相同的任务。我们建议通过搜索(通过优化)来实现这一目标,为演示中观察到的描述符匹配的姿势。 NDFS通过不依赖于专家标记的关键点的3D自动编码任务,方便地以自我监督的方式培训。此外,NDFS是SE(3) - 保证在所有可能的3D对象翻译和旋转中推广的性能。我们展示了在仿真和真正的机器人上的少数(5-10)示范中的操纵任务的学习。我们的性能遍历两个对象实例和6-DOF对象姿势,并且显着优于最近依赖于2D描述符的基线。项目网站:https://yilundu.github.io/ndf/。
translated by 谷歌翻译
在本文中,我们探讨了机器人是否可以学会重新应用一组多样的物体以实现各种所需的掌握姿势。只要机器人的当前掌握姿势未能执行所需的操作任务,需要重新扫描。具有这种能力的赋予机器人具有在许多领域中的应用,例如制造或国内服务。然而,由于日常物体中的几何形状和状态和行动空间的高维度,这是一个具有挑战性的任务。在本文中,我们提出了一种机器人系统,用于将物体的部分点云和支持环境作为输入,输出序列和放置操作的序列来转换到所需的对象掌握姿势。关键技术包括神经稳定放置预测器,并通过利用和改变周围环境来引发基于图形的解决方案。我们介绍了一个新的和具有挑战性的合成数据集,用于学习和评估所提出的方法。我们展示了我们提出的系统与模拟器和现实世界实验的有效性。我们的项目网页上有更多视频和可视化示例。
translated by 谷歌翻译
我们探索一种新的方法来感知和操纵3D铰接式物体,该物体可以概括地使机器人阐明看不见的对象。我们提出了一个基于视觉的系统,该系统学会预测各种铰接物体的各个部分的潜在运动,以指导系统的下游运动计划以表达对象。为了预测对象运动,我们训练一个神经网络,以输出一个密集的向量场,代表点云中点云中点的点运动方向。然后,我们根据该向量领域部署一个分析运动计划者,以实现产生最大发音的政策。我们完全在模拟中训练视觉系统,并演示了系统在模拟和现实世界中概括的对象实例和新颖类别的能力,并将我们的政策部署在没有任何填充的锯耶机器人上。结果表明,我们的系统在模拟和现实世界实验中都达到了最先进的性能。
translated by 谷歌翻译
重新安排任务已被确定为智能机器人操纵的关键挑战,但是很少有方法可以精确构造看不见的结构。我们为挑选重排操作提供了视觉远见模型,该模型能够有效地学习。此外,我们开发了一个多模式的动作提案模块,该模块建立在目标条件转运者网络上,这是一种最新的模仿学习方法。我们基于图像的任务计划方法,具有视觉前瞻性的转运蛋白,只能从少数数据中学习,并以零拍的方式推广到多个看不见的任务。 TVF能够提高对模拟和真实机器人实验中看不见的任务的最先进模仿学习方法的性能。特别是,在模拟实验中,看不见的任务的平均成功率从55.4%提高到78.5%,而在实际机器人实验中,只有数十次专家示范。视频和代码可在我们的项目网站上找到:https://chirikjianlab.github.io/tvf/
translated by 谷歌翻译
Generating grasp poses is a crucial component for any robot object manipulation task. In this work, we formulate the problem of grasp generation as sampling a set of grasps using a variational autoencoder and assess and refine the sampled grasps using a grasp evaluator model. Both Grasp Sampler and Grasp Refinement networks take 3D point clouds observed by a depth camera as input. We evaluate our approach in simulation and real-world robot experiments. Our approach achieves 88% success rate on various commonly used objects with diverse appearances, scales, and weights. Our model is trained purely in simulation and works in the real world without any extra steps. The video of our experiments can be found here.
translated by 谷歌翻译
我们介绍了一个机器人组装系统,该系统简化了从产品组件的CAD模型到完整编程和自适应组装过程的设计对制造工作流程。我们的系统(在CAD工具中)捕获了特定机器人工作电脑组装过程的意图,并生成了任务级指令的配方。通过将视觉传感与深度学习的感知模型相结合,机器人推断出从生成的配方中组装设计的必要动作。感知模型是直接从模拟训练的,从而使系统可以根据CAD信息识别各个部分。我们用两个机器人的工作栏演示了系统,以组装互锁的3D零件设计。我们首先在模拟中构建和调整组装过程,并验证生成的食谱。最后,真正的机器人工作电池使用相同的行为组装了设计。
translated by 谷歌翻译
Real-world robotic grasping can be done robustly if a complete 3D Point Cloud Data (PCD) of an object is available. However, in practice, PCDs are often incomplete when objects are viewed from few and sparse viewpoints before the grasping action, leading to the generation of wrong or inaccurate grasp poses. We propose a novel grasping strategy, named 3DSGrasp, that predicts the missing geometry from the partial PCD to produce reliable grasp poses. Our proposed PCD completion network is a Transformer-based encoder-decoder network with an Offset-Attention layer. Our network is inherently invariant to the object pose and point's permutation, which generates PCDs that are geometrically consistent and completed properly. Experiments on a wide range of partial PCD show that 3DSGrasp outperforms the best state-of-the-art method on PCD completion tasks and largely improves the grasping success rate in real-world scenarios. The code and dataset will be made available upon acceptance.
translated by 谷歌翻译
本文介绍了一种从原始RGB-D视频进行任务演示的视频中学习类别级别的新技术,没有手动标签或注释。类别级的学习旨在获取可以推广到新对象的技能,其几何形状和纹理与演示中使用的对象不同。我们通过首先将抓地力和操作视为工具使用的特殊情况,解决此问题,其中工具对象被移至目标对象的参考框架中定义的一系列键置。使用动态图卷积神经网络预测工具和目标对象以及其钥匙置,该网络将整个场景的自动分割深度和颜色图像作为输入。具有真实机器人手臂的对象操纵任务上的经验结果表明,所提出的网络可以有效地从真实的视觉演示中学习,以在同一类别内的新颖对象上执行任务,并且优于替代方法。
translated by 谷歌翻译
从语言灵活性和组成性中受益,人类自然打算使用语言来指挥体现的代理,以进行复杂的任务,例如导航和对象操纵。在这项工作中,我们旨在填补最后一英里的体现代理的空白 - 通过遵循人类的指导,例如,“将红杯子移到盒子旁边,同时将其保持直立。”为此,我们介绍了一个自动操纵求解器(AMSolver)模拟器,并基于IT构建视觉和语言操纵基准(VLMBENCH),其中包含有关机器人操纵任务的各种语言说明。具体而言,创建基于模块化规则的任务模板是为了自动生成具有语言指令的机器人演示,包括各种对象形状和外观,动作类型和运动约束。我们还开发了一个基于关键点的模型6D-Cliport,以处理多视图观察和语言输入,并输出一个6个自由度(DOF)动作的顺序。我们希望新的模拟器和基准将促进对语言引导机器人操纵的未来研究。
translated by 谷歌翻译