Scene understanding is essential in determining how intelligent robotic grasping and manipulation could get. It is a problem that can be approached using different techniques: seen object segmentation, unseen object segmentation, or 6D pose estimation. These techniques can even be extended to multi-view. Most of the work on these problems depends on synthetic datasets due to the lack of real datasets that are big enough for training and merely use the available real datasets for evaluation. This encourages us to introduce a new dataset (called DoPose-6D). The dataset contains annotations for 6D Pose estimation, object segmentation, and multi-view annotations, which serve all the pre-mentioned techniques. The dataset contains two types of scenes bin picking and tabletop, with the primary motive for this dataset collection being bin picking. We illustrate the effect of this dataset in the context of unseen object segmentation and provide some insights on mixing synthetic and real data for the training. We train a Mask R-CNN model that is practical to be used in industry and robotic grasping applications. Finally, we show how our dataset boosted the performance of a Mask R-CNN model. Our DoPose-6D dataset, trained network models, pipeline code, and ROS driver are available online.
translated by 谷歌翻译
视觉感知任务通常需要大量的标记数据,包括3D姿势和图像空间分割掩码。创建此类培训数据集的过程可能很难或耗时,可以扩展到一般使用的功效。考虑对刚性对象的姿势估计的任务。在大型公共数据集中接受培训时,基于神经网络的深层方法表现出良好的性能。但是,将这些网络调整为其他新颖对象,或针对不同环境的现有模型进行微调,需要大量的时间投资才能产生新标记的实例。为此,我们提出了ProgressLabeller作为一种方法,以更有效地以可扩展的方式从彩色图像序列中生成大量的6D姿势训练数据。 ProgressLabeller还旨在支持透明或半透明的对象,以深度密集重建的先前方法将失败。我们通过快速创建一个超过1M样品的数据集来证明ProgressLabeller的有效性,我们将其微调一个最先进的姿势估计网络,以显着提高下游机器人的抓地力。 ProgressLabeller是https://github.com/huijiezh/progresslabeller的开放源代码。
translated by 谷歌翻译
鉴于问题的复杂性,从各种传感器模式到高度纠缠的对象布局,再到多样化的项目属性和抓地力类型,因此对视觉驱动的机器人系统提出了重大挑战。现有方法通常从一个角度解决问题。各种项目和复杂的垃圾箱场景需要多种选择策略以及高级推理。因此,要构建可靠的机器学习算法来解决这项复杂的任务,需要大量的全面和高质量的数据。在现实世界中收集此类数据将太昂贵,时间过高,因此从可伸缩性角度来看。为了解决这个大型,多样化的数据问题,我们从最近的元素概念上的增长中获得了灵感,并引入了MetagraspNet,这是一种通过基于物理学的元合成构建的大规模的照片现实垃圾箱挑选数据集。所提出的数据集在82种不同的文章类型上包含217K RGBD图像,并具有完整的注释,可用于对象检测,Amodal感知,关键点检测,操纵顺序和平行jaw和真空吸尘器的Ambidextrous Grasp标签。我们还提供了一个真实的数据集,该数据集由超过2.3k全面注释的高质量RGBD图像组成,分为5个困难级别和一个看不见的对象,以评估不同的对象和布局属性。最后,我们进行了广泛的实验,表明我们提出的真空密封模型和合成数据集实现了最先进的性能,并将其推广到现实世界用例。
translated by 谷歌翻译
在本文中,我们提出了一个迭代的自我训练框架,用于SIM到现实的6D对象姿势估计,以促进具有成本效益的机器人抓钩。给定bin选择场景,我们建立了一个光真实的模拟器来合成丰富的虚拟数据,并使用它来训练初始姿势估计网络。然后,该网络扮演教师模型的角色,该模型为未标记的真实数据生成了姿势预测。有了这些预测,我们进一步设计了一个全面的自适应选择方案,以区分可靠的结果,并将它们作为伪标签来更新学生模型以估算真实数据。为了不断提高伪标签的质量,我们通过将受过训练的学生模型作为新老师并使用精致的教师模型重新标记实际数据来迭代上述步骤。我们在公共基准和新发布的数据集上评估了我们的方法,分别提高了11.49%和22.62%的方法。我们的方法还能够将机器人箱的成功成功提高19.54%,这表明了对机器人应用的迭代SIM到现实解决方案的潜力。
translated by 谷歌翻译
对于机器人来说,在混乱的场景中抓住检测是一项非常具有挑战性的任务。生成合成抓地数据是训练和测试抓握方法的流行方式,DEX-NET和GRASPNET也是如此。然而,这些方法在3D合成对象模型上生成了训练掌握,但是在具有不同分布的图像或点云上进行评估,从而降低了由于稀疏的掌握标签和协变量移位而在真实场景上的性能。为了解决现有的问题,我们提出了一种新型的policy抓取检测方法,该方法可以用RGB-D图像生成的密集像素级抓握标签对相同的分布进行训练和测试。提出了一种并行深度的掌握生成(PDG生成)方法,以通过并行的投射点的新成像模型生成平行的深度图像;然后,该方法为每个像素生成多个候选抓地力,并通过平坦检测,力闭合度量和碰撞检测获得可靠的抓地力。然后,构建并释放了大型综合像素级姿势数据集(PLGP数据集)。该数据集使用先前的数据集和稀疏的Grasp样品区分开,是第一个像素级掌握数据集,其上的分布分布基于深度图像生成了grasps。最后,我们建立和测试了一系列像素级的抓地力检测网络,并通过数据增强过程进行不平衡训练,该过程以输入RGB-D图像的方式学习抓握姿势。广泛的实验表明,我们的policy掌握方法可以在很大程度上克服模拟与现实之间的差距,并实现最新的性能。代码和数据可在https://github.com/liuchunsense/plgp-dataset上提供。
translated by 谷歌翻译
我们介绍了日常桌面对象的998 3D型号的数据集及其847,000个现实世界RGB和深度图像。每个图像的相机姿势和对象姿势的准确注释都以半自动化方式执行,以促进将数据集用于多种3D应用程序,例如形状重建,对象姿势估计,形状检索等。3D重建由于缺乏适当的现实世界基准来完成该任务,并证明我们的数据集可以填补该空白。整个注释数据集以及注释工具和评估基线的源代码可在http://www.ocrtoc.org/3d-reconstruction.html上获得。
translated by 谷歌翻译
我们提出了一种使用图像增强的自我监督训练方法,用于学习视图的视觉描述符。与通常需要复杂数据集的现有作品(例如注册的RGBD序列)不同,我们在无序的一组RGB图像上训练。这允许从单个相机视图(例如,在带有安装式摄像机的现有机器人单元格中学习)学习。我们使用数据增强创建合成视图和密集的像素对应关系。尽管数据记录和设置要求更简单,但我们发现我们的描述符与现有方法具有竞争力。我们表明,对合成对应的培训提供了各种相机视图的描述符的一致性。我们将训练与来自多种视图的几何对应关系进行比较,并提供消融研究。我们还使用从固定式摄像机中学到的描述符显示了一个机器人箱进行挑选实验,以定义掌握偏好。
translated by 谷歌翻译
The goal of this paper is to estimate the 6D pose and dimensions of unseen object instances in an RGB-D image. Contrary to "instance-level" 6D pose estimation tasks, our problem assumes that no exact object CAD models are available during either training or testing time. To handle different and unseen object instances in a given category, we introduce Normalized Object Coordinate Space (NOCS)-a shared canonical representation for all possible object instances within a category. Our region-based neural network is then trained to directly infer the correspondence from observed pixels to this shared object representation (NOCS) along with other object information such as class label and instance mask. These predictions can be combined with the depth map to jointly estimate the metric 6D pose and dimensions of multiple objects in a cluttered scene. To train our network, we present a new contextaware technique to generate large amounts of fully annotated mixed reality data. To further improve our model and evaluate its performance on real data, we also provide a fully annotated real-world dataset with large environment and instance variation. Extensive experiments demonstrate that the proposed method is able to robustly estimate the pose and size of unseen object instances in real environments while also achieving state-of-the-art performance on standard 6D pose estimation benchmarks.
translated by 谷歌翻译
在许多机器人应用中,要执行已知,刚体对象及其随后的抓握的6多-DOF姿势估计的环境设置几乎保持不变,甚至可能是机器人事先知道的。在本文中,我们将此问题称为特定实例的姿势估计:只有在有限的一组熟悉的情况下,该机器人将以高度准确性估算姿势。场景中的微小变化,包括照明条件和背景外观的变化,是可以接受的,但没有预期的改变。为此,我们提出了一种方法,可以快速训练和部署管道,以估算单个RGB图像的对象的连续6-DOF姿势。关键的想法是利用已知的相机姿势和刚性的身体几何形状部分自动化大型标记数据集的生成。然后,数据集以及足够的域随机化来监督深度神经网络的培训,以预测语义关键。在实验上,我们证明了我们提出的方法的便利性和有效性,以准确估计物体姿势,仅需要少量的手动注释才能进行训练。
translated by 谷歌翻译
利用6DOF(自由度)对象的姿势信息及其组件对于对象状态检测任务至关重要。我们展示了IKEA对象状态数据集,该数据集包含宜家家具3D模型,装配过程的RGBD视频,家具部件的6dof姿势及其边界盒。建议的数据集将在https://github.com/mxllmx/ikeaObjectstateTateDataSet上使用。
translated by 谷歌翻译
尽管在机器人抓住方面取得了令人印象深刻的进展,但机器人在复杂的任务中不熟练(例如,在杂乱中搜索并掌握指定的目标)。这些任务不仅涉及抓住,而是对世界的全面感知(例如,对象关系)。最近,令人鼓舞的结果表明,可以通过学习来理解高级概念。然而,这种算法通常是数据密集型的,并且缺乏数据严重限制了它们的性能。在本文中,我们提出了一个名为Reactad的新数据集,用于学习物体和掌握之间的关系。我们收集对象姿势,分段,掌握和目标驱动的关系掌握任务的关系。我们的数据集以2D图像和3D点云的两种形式收集。此外,由于所有数据都会自动生成,因此可以自由地导入数据生成的新对象。我们还发布了一个真实的验证数据集,以评估模型的SIM-to-Real性能,这些模型正在接受重新研磨的模型。最后,我们进行了一系列的实验,表明,根据关系和掌握检测,培训的模型可以概括到现实场景。我们的数据集和代码可以在:https://github.com/poisonwine/gerad
translated by 谷歌翻译
我们介绍了几个弹出的对象学习(LITESOL)数据集,以供对象识别,每个对象有几个图像。我们从不同的视图中捕获了336个现实世界对象,每个对象有9个RGB-D图像。提供对象分割掩码,对象姿势和对象属性。此外,使用330 3D对象模型生成的合成图像用于增强数据集。我们研究了(i)使用我们的数据集的最先进的方法和最新方法,研究了(ii)(ii)使用最先进的方法和元学习的最先进方法的联合对象分割和几乎没有射击分类。评估结果表明,在机器人环境中,对于几个射击对象分类,仍有很大的边距可以改善。我们的数据集可用于研究一组几个弹出的对象识别问题,例如分类,检测和分割,形状重建,姿势估计,关键点对应关系和属性识别。该数据集和代码可在https://irvlutd.github.io/fewsol上找到。
translated by 谷歌翻译
在这项工作中,我们通过利用3D Suite Blender生产具有6D姿势的合成RGBD图像数据集来提出数据生成管道。提出的管道可以有效地生成大量的照片现实的RGBD图像,以了解感兴趣的对象。此外,引入了域随机化技术的集合来弥合真实数据和合成数据之间的差距。此外,我们通过整合对象检测器Yolo-V4微型和6D姿势估计算法PVN3D来开发实时的两阶段6D姿势估计方法,用于时间敏感的机器人应用。借助提出的数据生成管道,我们的姿势估计方法可以仅使用没有任何预训练模型的合成数据从头开始训练。在LineMod数据集评估时,与最先进的方法相比,所得网络显示出竞争性能。我们还证明了在机器人实验中提出的方法,在不同的照明条件下从混乱的背景中抓住家用物体。
translated by 谷歌翻译
透明的物体在家庭环境中无处不在,并且对视觉传感和感知系统构成了不同的挑战。透明物体的光学特性使常规的3D传感器仅对物体深度和姿势估计不可靠。这些挑战是由重点关注现实世界中透明对象的大规模RGB深度数据集突出了这些挑战。在这项工作中,我们为名为ClearPose的大规模现实世界RGB深度透明对象数据集提供了一个用于分割,场景级深度完成和以对象为中心的姿势估计任务的基准数据集。 ClearPose数据集包含超过350K标记的现实世界RGB深度框架和5M实例注释,涵盖了63个家用对象。该数据集包括在各种照明和遮挡条件下在日常生活中常用的对象类别,以及具有挑战性的测试场景,例如不透明或半透明物体的遮挡病例,非平面取向,液体的存在等。 - 艺术深度完成和对象构成清晰度上的深神经网络。数据集和基准源代码可在https://github.com/opipari/clearpose上获得。
translated by 谷歌翻译
透明的物体在我们的日常生活中很常见,并且经常在自动生产线中处理。对这些物体的强大基于视力的机器人抓握和操纵将对自动化有益。但是,在这种情况下,大多数当前的握把算法都会失败,因为它们严重依赖于深度图像,而普通的深度传感器通常无法产生准确的深度信息,因为由于光的反射和折射,它们都会用于透明对象。在这项工作中,我们通过为透明对象深度完成的大规模现实世界数据集提供了解决此问题,该数据集包含来自130个不同场景的57,715个RGB-D图像。我们的数据集是第一个大规模的,现实世界中的数据集,可提供地面真相深度,表面正常,透明的面具,以各种各样的场景和混乱。跨域实验表明,我们的数据集更具通用性,可以为模型提供更好的概括能力。此外,我们提出了一个端到端深度完成网络,该网络将RGB图像和不准确的深度图作为输入,并输出精制的深度图。实验证明了我们方法的效率,效率和鲁棒性优于以前的工作,并且能够处理有限的硬件资源下的高分辨率图像。真正的机器人实验表明,我们的方法也可以应用于新颖的透明物体牢固地抓住。完整的数据集和我们的方法可在www.graspnet.net/transcg上公开获得
translated by 谷歌翻译
We present a new dataset for 6-DoF pose estimation of known objects, with a focus on robotic manipulation research. We propose a set of toy grocery objects, whose physical instantiations are readily available for purchase and are appropriately sized for robotic grasping and manipulation. We provide 3D scanned textured models of these objects, suitable for generating synthetic training data, as well as RGBD images of the objects in challenging, cluttered scenes exhibiting partial occlusion, extreme lighting variations, multiple instances per image, and a large variety of poses. Using semi-automated RGBD-to-model texture correspondences, the images are annotated with ground truth poses accurate within a few millimeters. We also propose a new pose evaluation metric called ADD-H based on the Hungarian assignment algorithm that is robust to symmetries in object geometry without requiring their explicit enumeration. We share pre-trained pose estimators for all the toy grocery objects, along with their baseline performance on both validation and test sets. We offer this dataset to the community to help connect the efforts of computer vision researchers with the needs of roboticists.
translated by 谷歌翻译
We introduce MegaPose, a method to estimate the 6D pose of novel objects, that is, objects unseen during training. At inference time, the method only assumes knowledge of (i) a region of interest displaying the object in the image and (ii) a CAD model of the observed object. The contributions of this work are threefold. First, we present a 6D pose refiner based on a render&compare strategy which can be applied to novel objects. The shape and coordinate system of the novel object are provided as inputs to the network by rendering multiple synthetic views of the object's CAD model. Second, we introduce a novel approach for coarse pose estimation which leverages a network trained to classify whether the pose error between a synthetic rendering and an observed image of the same object can be corrected by the refiner. Third, we introduce a large-scale synthetic dataset of photorealistic images of thousands of objects with diverse visual and shape properties and show that this diversity is crucial to obtain good generalization performance on novel objects. We train our approach on this large synthetic dataset and apply it without retraining to hundreds of novel objects in real images from several pose estimation benchmarks. Our approach achieves state-of-the-art performance on the ModelNet and YCB-Video datasets. An extensive evaluation on the 7 core datasets of the BOP challenge demonstrates that our approach achieves performance competitive with existing approaches that require access to the target objects during training. Code, dataset and trained models are available on the project page: https://megapose6d.github.io/.
translated by 谷歌翻译
实时机器人掌握,支持随后的精确反对操作任务,是高级高级自治系统的优先目标。然而,尚未找到这样一种可以用时间效率进行充分准确的掌握的算法。本文提出了一种新的方法,其具有2阶段方法,它使用深神经网络结合快速的2D对象识别,以及基于点对特征框架的随后的精确和快速的6D姿态估计来形成实时3D对象识别和抓握解决方案能够多对象类场景。所提出的解决方案有可能在实时应用上稳健地进行,需要效率和准确性。为了验证我们的方法,我们进行了广泛且彻底的实验,涉及我们自己的数据集的费力准备。实验结果表明,该方法在5CM5DEG度量标准中的精度97.37%,平均距离度量分数99.37%。实验结果显示了通过使用该方法的总体62%的相对改善(5cm5deg度量)和52.48%(平均距离度量)。此外,姿势估计执行也显示出运行时间的平均改善47.6%。最后,为了说明系统在实时操作中的整体效率,进行了一个拾取和放置的机器人实验,并显示了90%的准确度的令人信服的成功率。此实验视频可在https://sites.google.com/view/dl-ppf6dpose/上获得。
translated by 谷歌翻译
在非结构化环境中,使用看不见的对象进行实例分割是一个具有挑战性的问题。为了解决这个问题,我们提出了一种机器人学习方法,以积极与新对象进行互动,并收集每个对象的训练标签,以进一步进行微调以提高细分模型的性能,同时避免手动标记数据集的耗时过程。通过端到端的强化学习对奇异和抓斗(SAG)政策进行培训。考虑到一堆混乱的对象,我们的方法选择推动和抓住动作来打破混乱并进行对象不合时宜的抓握,而SAG策略则将其作为输入视觉观察和不完善的分割。我们将问题分解为三个子任务:(1)对象singulation子任务旨在将对象彼此分开,从而产生更多的空间,从而减轻了(2)无碰撞抓握子任务的难度; (3)通过使用基于光流的二进制分类器和运动提示后处理进行传输学习,掩盖生成子任务以获得自标记的地面真相蒙版。我们的系统在模拟的混乱场景中达到了70%的单次成功率。我们系统的交互式分割可实现87.8%,73.9%和69.3%的玩具块,模拟中的YCB对象和现实世界中的新颖对象的平均精度,这表现优于几个基准。
translated by 谷歌翻译
Recent 3D-based manipulation methods either directly predict the grasp pose using 3D neural networks, or solve the grasp pose using similar objects retrieved from shape databases. However, the former faces generalizability challenges when testing with new robot arms or unseen objects; and the latter assumes that similar objects exist in the databases. We hypothesize that recent 3D modeling methods provides a path towards building digital replica of the evaluation scene that affords physical simulation and supports robust manipulation algorithm learning. We propose to reconstruct high-quality meshes from real-world point clouds using state-of-the-art neural surface reconstruction method (the Real2Sim step). Because most simulators take meshes for fast simulation, the reconstructed meshes enable grasp pose labels generation without human efforts. The generated labels can train grasp network that performs robustly in the real evaluation scene (the Sim2Real step). In synthetic and real experiments, we show that the Real2Sim2Real pipeline performs better than baseline grasp networks trained with a large dataset and a grasp sampling method with retrieval-based reconstruction. The benefit of the Real2Sim2Real pipeline comes from 1) decoupling scene modeling and grasp sampling into sub-problems, and 2) both sub-problems can be solved with sufficiently high quality using recent 3D learning algorithms and mesh-based physical simulation techniques.
translated by 谷歌翻译