我们提出了多视图表演者(MVP) - 从一系列时间顺序的视图中完成3D形状完成的新体系结构。MVP通过使用称为表演者的线性注意变压器来完成此任务。我们的模型允许当前对场景的观察到以前的观察,以更准确地填充。过去观察的历史通过紧凑的关联内存来压缩,该记忆近似于现代连续的霍普菲尔德内存,但至关重要的是与历史长度无关。我们将模型与几个基线进行比较,以便随着时间的推移完成形状完成,这证明了MVP提供的概括。据我们所知,MVP是第一个多重视图体素重建方法,它不需要对多个深度视图进行注册,也需要第一个基于因果变压器的模型进行3D形状完成。
translated by 谷歌翻译
许多涉及某种形式的3D视觉感知的机器人任务极大地受益于对工作环境的完整知识。但是,机器人通常必须应对非结构化的环境,并且由于工作空间有限,混乱或对象自我划分,它们的车载视觉传感器只能提供不完整的信息。近年来,深度学习架构的形状完成架构已开始将牵引力作为从部分视觉数据中推断出完整的3D对象表示的有效手段。然而,大多数现有的最新方法都以体素电网形式提供了固定的输出分辨率,这与神经网络输出阶段的大小严格相关。尽管这足以完成某些任务,例如导航,抓握和操纵的障碍需要更精细的分辨率,并且简单地扩大神经网络输出在计算上是昂贵的。在本文中,我们通过基于隐式3D表示的对象形状完成方法来解决此限制,该方法为每个重建点提供了置信值。作为第二个贡献,我们提出了一种基于梯度的方法,用于在推理时在任意分辨率下有效地采样这种隐式函数。我们通过将重建的形状与地面真理进行比较,并通过在机器人握把管道中部署形状完成算法来实验验证我们的方法。在这两种情况下,我们将结果与最先进的形状完成方法进行了比较。
translated by 谷歌翻译
Recent 3D-based manipulation methods either directly predict the grasp pose using 3D neural networks, or solve the grasp pose using similar objects retrieved from shape databases. However, the former faces generalizability challenges when testing with new robot arms or unseen objects; and the latter assumes that similar objects exist in the databases. We hypothesize that recent 3D modeling methods provides a path towards building digital replica of the evaluation scene that affords physical simulation and supports robust manipulation algorithm learning. We propose to reconstruct high-quality meshes from real-world point clouds using state-of-the-art neural surface reconstruction method (the Real2Sim step). Because most simulators take meshes for fast simulation, the reconstructed meshes enable grasp pose labels generation without human efforts. The generated labels can train grasp network that performs robustly in the real evaluation scene (the Sim2Real step). In synthetic and real experiments, we show that the Real2Sim2Real pipeline performs better than baseline grasp networks trained with a large dataset and a grasp sampling method with retrieval-based reconstruction. The benefit of the Real2Sim2Real pipeline comes from 1) decoupling scene modeling and grasp sampling into sub-problems, and 2) both sub-problems can be solved with sufficiently high quality using recent 3D learning algorithms and mesh-based physical simulation techniques.
translated by 谷歌翻译
成功掌握对象的能力在机器人中是至关重要的,因为它可以实现多个交互式下游应用程序。为此,大多数方法要么计算兴趣对象的完整6D姿势,要么学习预测一组掌握点。虽然前一种方法对多个对象实例或类没有很好地扩展,但后者需要大的注释数据集,并且受到新几何形状的普遍性能力差的阻碍。为了克服这些缺点,我们建议教授一个机器人如何用简单而简短的人类示范掌握一个物体。因此,我们的方法既不需要许多注释图像,也不限于特定的几何形状。我们首先介绍了一个小型RGB-D图像,显示人对象交互。然后利用该序列来构建表示所描绘的交互的相关手和对象网格。随后,我们完成重建对象形状的缺失部分,并估计了场景中的重建和可见对象之间的相对变换。最后,我们从物体和人手之间的相对姿势转移a-prioriz知识,随着当前对象在场景中的估计到机器人的必要抓握指令。与丰田的人类支持机器人(HSR)在真实和合成环境中的详尽评估证明了我们所提出的方法的适用性及其优势与以前的方法相比。
translated by 谷歌翻译
Being able to grasp objects is a fundamental component of most robotic manipulation systems. In this paper, we present a new approach to simultaneously reconstruct a mesh and a dense grasp quality map of an object from a depth image. At the core of our approach is a novel camera-centric object representation called the "object shell" which is composed of an observed "entry image" and a predicted "exit image". We present an image-to-image residual ConvNet architecture in which the object shell and a grasp-quality map are predicted as separate output channels. The main advantage of the shell representation and the corresponding neural network architecture, ShellGrasp-Net, is that the input-output pixel correspondences in the shell representation are explicitly represented in the architecture. We show that this coupling yields superior generalization capabilities for object reconstruction and accurate grasp quality estimation implicitly considering the object geometry. Our approach yields an efficient dense grasp quality map and an object geometry estimate in a single forward pass. Both of these outputs can be used in a wide range of robotic manipulation applications. With rigorous experimental validation, both in simulation and on a real setup, we show that our shell-based method can be used to generate precise grasps and the associated grasp quality with over 90% accuracy. Diverse grasps computed on shell reconstructions allow the robot to select and execute grasps in cluttered scenes with more than 93% success rate.
translated by 谷歌翻译
Real-world robotic grasping can be done robustly if a complete 3D Point Cloud Data (PCD) of an object is available. However, in practice, PCDs are often incomplete when objects are viewed from few and sparse viewpoints before the grasping action, leading to the generation of wrong or inaccurate grasp poses. We propose a novel grasping strategy, named 3DSGrasp, that predicts the missing geometry from the partial PCD to produce reliable grasp poses. Our proposed PCD completion network is a Transformer-based encoder-decoder network with an Offset-Attention layer. Our network is inherently invariant to the object pose and point's permutation, which generates PCDs that are geometrically consistent and completed properly. Experiments on a wide range of partial PCD show that 3DSGrasp outperforms the best state-of-the-art method on PCD completion tasks and largely improves the grasping success rate in real-world scenarios. The code and dataset will be made available upon acceptance.
translated by 谷歌翻译
We present a unified and compact representation for object rendering, 3D reconstruction, and grasp pose prediction that can be inferred from a single image within a few seconds. We achieve this by leveraging recent advances in the Neural Radiance Field (NeRF) literature that learn category-level priors and fine-tune on novel objects with minimal data and time. Our insight is that we can learn a compact shape representation and extract meaningful additional information from it, such as grasping poses. We believe this to be the first work to retrieve grasping poses directly from a NeRF-based representation using a single viewpoint (RGB-only), rather than going through a secondary network and/or representation. When compared to prior art, our method is two to three orders of magnitude smaller while achieving comparable performance at view reconstruction and grasping. Accompanying our method, we also propose a new dataset of rendered shoes for training a sim-2-real NeRF method with grasping poses for different widths of grippers.
translated by 谷歌翻译
我们引入了来自多个机器人手的对象的神经隐式表示。多个机器人手之间的不同抓地力被编码为共享的潜在空间。学会了每个潜在矢量以两个3D形状的签名距离函数来解码对象的3D形状和机器人手的3D形状。此外,学会了潜在空间中的距离度量,以保留不同机器人手之间的graSps之间的相似性,其中根据机器人手的接触区域定义了grasps的相似性。该属性使我们能够在包括人手在内的不同抓地力之间转移抓地力,并且GRASP转移有可能在机器人之间分享抓地力,并使机器人能够从人类那里学习掌握技能。此外,我们隐式表示中对象和grasps的编码符号距离函数可用于6D对象姿势估计,并从部分点云中掌握触点优化,这可以在现实世界中启用机器人抓握。
translated by 谷歌翻译
在家庭中运行的机器人可以观察到多个物体在几天或几周内移动时。这些物体可以被居民移动,但不是完全随机的。稍后可以要求机器人检索对象,并需要一个基于对象的内存才能知道如何找到它们。语义大满贯中现有的工作并不试图捕获对象运动的动态。在本文中,我们将用于数据缔合过滤的经典技术与现代化的神经网络相结合,以构建基于对象的内存系统,这些系统在高维观察和假设上运行。我们对标记的观察轨迹进行端到端学习,以学习过渡和观察模型。我们证明了系统在模拟环境和真实图像中动态变化对象的记忆方面的有效性,并证明了对经典结构化方法以及非结构化神经方法的改进。在项目网站上获得的其他信息:https://yilundu.github.io/obm/。
translated by 谷歌翻译
如今,机器人在我们的日常生活中起着越来越重要的作用。在以人为本的环境中,机器人经常会遇到成堆的对象,包装的项目或孤立的对象。因此,机器人必须能够在各种情况下掌握和操纵不同的物体,以帮助人类进行日常任务。在本文中,我们提出了一种多视图深度学习方法,以处理以人为中心的域中抓住强大的对象。特别是,我们的方法将任意对象的点云作为输入,然后生成给定对象的拼字图。获得的视图最终用于估计每个对象的像素抓握合成。我们使用小对象抓住数据集训练模型端到端,并在模拟和现实世界数据上对其进行测试,而无需进行任何进一步的微调。为了评估所提出方法的性能,我们在三种情况下进行了广泛的实验集,包括孤立的对象,包装的项目和一堆对象。实验结果表明,我们的方法在所有仿真和现实机器人方案中都表现出色,并且能够在各种场景配置中实现新颖对象的可靠闭环抓握。
translated by 谷歌翻译
抓握是通过在一组触点上施加力和扭矩来挑选对象的过程。深度学习方法的最新进展允许在机器人对象抓地力方面快速进步。我们在过去十年中系统地调查了出版物,特别感兴趣使用最终效果姿势的所有6度自由度抓住对象。我们的综述发现了四种用于机器人抓钩的常见方法:基于抽样的方法,直接回归,强化学习和示例方法。此外,我们发现了围绕抓握的两种“支持方法”,这些方法使用深入学习来支持抓握过程,形状近似和负担能力。我们已经将本系统评论(85篇论文)中发现的出版物提炼为十个关键要点,我们认为对未来的机器人抓握和操纵研究至关重要。该调查的在线版本可从https://rhys-newbury.github.io/projects/6dof/获得
translated by 谷歌翻译
尽管在移动机器人技术中常用的2D占用图可以在室内环境中进行安全导航,但为了让机器人理解和与其环境互动及其代表3D几何和语义环境信息的居民。语义信息对于有效解释人类归因于空间不同部分的含义至关重要,而3D几何形状对于安全性和高级理解很重要。我们提出了一条管道,该管道可以生成用于机器人应用的室内环境的多层表示。提出的表示形式包括3D度量语义层,2D占用层和对象实例层,其中已知对象被通过新型模型匹配方法获得的近似模型代替。将度量层和对象实例层组合在一起以形成对环境的增强表示形式。实验表明,当任务完成场景中对象的一部分时,提出的形状匹配方法优于最先进的深度学习方法。如F1得分分析所示,管道性能从模拟到现实世界都很好,使用蒙版R-CNN作为主要瓶颈具有语义分割精度。最后,我们还在真正的机器人平台上演示了多层地图如何用于提高导航安全性。
translated by 谷歌翻译
对于旨在提供家庭服务,搜索和救援,狭窄的检查和医疗援助的机器人来说,在未知,混乱的环境中进行积极的感测和计划是一个公开挑战。尽管存在许多主动感应方法,但它们通常考虑开放空间,假设已知设置,或者大多不概括为现实世界的场景。我们介绍了活跃的神经传感方法,该方法通过手持摄像头生成机器人操纵器的运动学可行视点序列,以收集重建基础环境所需的最小观测值。我们的框架积极收集视觉RGBD观测值,将它们汇总到场景表示中,并执行对象形状推断,以避免与环境的不必要的机器人相互作用。我们使用域随机化训练我们的合成数据方法,并通过SIM到实现的传递成功地执行了其成功执行,以重建狭窄,覆盖的,现实的机柜环境,这些环境杂乱无章。由于周围的障碍物和环境较低的照明条件,自然机柜场景对机器人运动和场景重建构成了重大挑战。然而,尽管设置不利,但就各种环境重建指标(包括计划速度,观点数量和整体场景覆盖)而言,我们的方法与基线相比表现出高性能。
translated by 谷歌翻译
铰接的物体在日常生活中很丰富。发现它们的部位,关节和运动学对于机器人与这些物体相互作用至关重要。我们从Action(SFA)引入结构,该框架通过一系列推断相互作用来发现3D部分的几何形状和未看到的表达对象的关节参数。我们的主要见解是,应考虑构建3D明显的CAD模型的3D相互作用和感知,尤其是在训练过程中未见的类别的情况下。通过选择信息丰富的交互,SFA发现零件并揭示最初遮挡的表面,例如封闭抽屉的内部。通过在3D中汇总视觉观测,SFA可以准确段段多个部分,重建零件几何形状,并在规范坐标框架中渗透所有关节参数。我们的实验表明,在模拟中训练的单个SFA模型可以推广到具有未知运动结构和现实世界对象的许多看不见的对象类别。代码和数据将公开可用。
translated by 谷歌翻译
Generating grasp poses is a crucial component for any robot object manipulation task. In this work, we formulate the problem of grasp generation as sampling a set of grasps using a variational autoencoder and assess and refine the sampled grasps using a grasp evaluator model. Both Grasp Sampler and Grasp Refinement networks take 3D point clouds observed by a depth camera as input. We evaluate our approach in simulation and real-world robot experiments. Our approach achieves 88% success rate on various commonly used objects with diverse appearances, scales, and weights. Our model is trained purely in simulation and works in the real world without any extra steps. The video of our experiments can be found here.
translated by 谷歌翻译
自我咬合对于布料操纵而具有挑战性,因为这使得很难估计布的全部状态。理想情况下,试图展开弄皱或折叠的布的机器人应该能够对布的遮挡区域进行推理。我们利用姿势估计的最新进展来构建一种使用明确的遮挡推理来展开皱巴布的系统的系统。具体来说,我们首先学习一个模型来重建布的网格。但是,由于布构型的复杂性以及遮挡的歧义,该模型可能会出现错误。我们的主要见解是,我们可以通过进行自我监督的损失进行测试时间填充来进一步完善预测的重建。获得的重建网格使我们能够在推理遮挡的同时使用基于网格的动力学模型来计划。我们在布料上和布料规范化上评估了系统,其目的是将布操作成典型的姿势。我们的实验表明,我们的方法显着优于未明确解释闭塞或执行测试时间优化的先验方法。可以在我们的$ \ href {https://sites.google.com/view/occlusion-reason/home/home} {\ text {project {project {project}}}上找到视频和可视化。
translated by 谷歌翻译
Grasp learning has become an exciting and important topic in robotics. Just a few years ago, the problem of grasping novel objects from unstructured piles of clutter was considered a serious research challenge. Now, it is a capability that is quickly becoming incorporated into industrial supply chain automation. How did that happen? What is the current state of the art in robotic grasp learning, what are the different methodological approaches, and what machine learning models are used? This review attempts to give an overview of the current state of the art of grasp learning research.
translated by 谷歌翻译
从混乱中挑选特定对象是许多操纵任务的重要组成部分。部分观察结果通常要求机器人在尝试掌握之前收集场景的其他观点。本文提出了一个闭环的下一次最佳策划者,该计划者根据遮挡的对象零件驱动探索。通过不断从最新场景重建中预测抓地力,我们的政策可以在线决定最终确定执行或适应机器人的轨迹以进行进一步探索。我们表明,与常见的相机位置和处理固定基线失败的情况相比,我们的反应性方法会减少执行时间而不会丢失掌握成功率。视频和代码可在https://github.com/ethz-asl/active_grasp上找到。
translated by 谷歌翻译
机器人操纵计划是找到一系列机器人配置的问题,该配置涉及与场景中的对象的交互,例如掌握,放置,工具使用等来实现这种相互作用,传统方法需要手工设计的特征和对象表示,它仍然是如何以灵活有效的方式描述与任意对象的这种交互的开放问题。例如,通过3D建模的最新进步启发,例如,NERF,我们提出了一种方法来表示对象作为神经隐式功能,我们可以在其中定义和共同列车交互约束函数。所提出的像素对准表示直接从具有已知相机几何形状的相机图像推断出,当时在整个操纵管道中作为感知组件,同时能够实现连续的机器人操纵计划。
translated by 谷歌翻译
我们为RGB视频提供了基于变压器的神经网络体系结构,用于多对象3D重建。它依赖于表示知识的两种替代方法:作为特征的全局3D网格和一系列特定的2D网格。我们通过专用双向注意机制在两者之间逐步交换信息。我们利用有关图像形成过程的知识,以显着稀疏注意力重量矩阵,从而使我们的体系结构在记忆和计算方面可行。我们在3D特征网格的顶部附上一个detr风格的头,以检测场景中的对象并预测其3D姿势和3D形状。与以前的方法相比,我们的体系结构是单阶段,端到端可训练,并且可以从整体上考虑来自多个视频帧的场景,而无需脆弱的跟踪步骤。我们在挑战性的SCAN2CAD数据集上评估了我们的方法,在该数据集中,我们的表现要优于RGB视频的3D对象姿势估算的最新最新方法; (2)将多视图立体声与RGB-D CAD对齐结合的强大替代方法。我们计划发布我们的源代码。
translated by 谷歌翻译