尽管在机器人抓住方面取得了令人印象深刻的进展,但机器人在复杂的任务中不熟练(例如,在杂乱中搜索并掌握指定的目标)。这些任务不仅涉及抓住,而是对世界的全面感知(例如,对象关系)。最近,令人鼓舞的结果表明,可以通过学习来理解高级概念。然而,这种算法通常是数据密集型的,并且缺乏数据严重限制了它们的性能。在本文中,我们提出了一个名为Reactad的新数据集,用于学习物体和掌握之间的关系。我们收集对象姿势,分段,掌握和目标驱动的关系掌握任务的关系。我们的数据集以2D图像和3D点云的两种形式收集。此外,由于所有数据都会自动生成,因此可以自由地导入数据生成的新对象。我们还发布了一个真实的验证数据集,以评估模型的SIM-to-Real性能,这些模型正在接受重新研磨的模型。最后,我们进行了一系列的实验,表明,根据关系和掌握检测,培训的模型可以概括到现实场景。我们的数据集和代码可以在:https://github.com/poisonwine/gerad
translated by 谷歌翻译
对于机器人来说,在混乱的场景中抓住检测是一项非常具有挑战性的任务。生成合成抓地数据是训练和测试抓握方法的流行方式,DEX-NET和GRASPNET也是如此。然而,这些方法在3D合成对象模型上生成了训练掌握,但是在具有不同分布的图像或点云上进行评估,从而降低了由于稀疏的掌握标签和协变量移位而在真实场景上的性能。为了解决现有的问题,我们提出了一种新型的policy抓取检测方法,该方法可以用RGB-D图像生成的密集像素级抓握标签对相同的分布进行训练和测试。提出了一种并行深度的掌握生成(PDG生成)方法,以通过并行的投射点的新成像模型生成平行的深度图像;然后,该方法为每个像素生成多个候选抓地力,并通过平坦检测,力闭合度量和碰撞检测获得可靠的抓地力。然后,构建并释放了大型综合像素级姿势数据集(PLGP数据集)。该数据集使用先前的数据集和稀疏的Grasp样品区分开,是第一个像素级掌握数据集,其上的分布分布基于深度图像生成了grasps。最后,我们建立和测试了一系列像素级的抓地力检测网络,并通过数据增强过程进行不平衡训练,该过程以输入RGB-D图像的方式学习抓握姿势。广泛的实验表明,我们的policy掌握方法可以在很大程度上克服模拟与现实之间的差距,并实现最新的性能。代码和数据可在https://github.com/liuchunsense/plgp-dataset上提供。
translated by 谷歌翻译
As the basis for prehensile manipulation, it is vital to enable robots to grasp as robustly as humans. In daily manipulation, our grasping system is prompt, accurate, flexible and continuous across spatial and temporal domains. Few existing methods cover all these properties for robot grasping. In this paper, we propose a new methodology for grasp perception to enable robots these abilities. Specifically, we develop a dense supervision strategy with real perception and analytic labels in the spatial-temporal domain. Additional awareness of objects' center-of-mass is incorporated into the learning process to help improve grasping stability. Utilization of grasp correspondence across observations enables dynamic grasp tracking. Our model, AnyGrasp, can generate accurate, full-DoF, dense and temporally-smooth grasp poses efficiently, and works robustly against large depth sensing noise. Embedded with AnyGrasp, we achieve a 93.3% success rate when clearing bins with over 300 unseen objects, which is comparable with human subjects under controlled conditions. Over 900 MPPH is reported on a single-arm system. For dynamic grasping, we demonstrate catching swimming robot fish in the water.
translated by 谷歌翻译
鉴于问题的复杂性,从各种传感器模式到高度纠缠的对象布局,再到多样化的项目属性和抓地力类型,因此对视觉驱动的机器人系统提出了重大挑战。现有方法通常从一个角度解决问题。各种项目和复杂的垃圾箱场景需要多种选择策略以及高级推理。因此,要构建可靠的机器学习算法来解决这项复杂的任务,需要大量的全面和高质量的数据。在现实世界中收集此类数据将太昂贵,时间过高,因此从可伸缩性角度来看。为了解决这个大型,多样化的数据问题,我们从最近的元素概念上的增长中获得了灵感,并引入了MetagraspNet,这是一种通过基于物理学的元合成构建的大规模的照片现实垃圾箱挑选数据集。所提出的数据集在82种不同的文章类型上包含217K RGBD图像,并具有完整的注释,可用于对象检测,Amodal感知,关键点检测,操纵顺序和平行jaw和真空吸尘器的Ambidextrous Grasp标签。我们还提供了一个真实的数据集,该数据集由超过2.3k全面注释的高质量RGBD图像组成,分为5个困难级别和一个看不见的对象,以评估不同的对象和布局属性。最后,我们进行了广泛的实验,表明我们提出的真空密封模型和合成数据集实现了最先进的性能,并将其推广到现实世界用例。
translated by 谷歌翻译
Recent 3D-based manipulation methods either directly predict the grasp pose using 3D neural networks, or solve the grasp pose using similar objects retrieved from shape databases. However, the former faces generalizability challenges when testing with new robot arms or unseen objects; and the latter assumes that similar objects exist in the databases. We hypothesize that recent 3D modeling methods provides a path towards building digital replica of the evaluation scene that affords physical simulation and supports robust manipulation algorithm learning. We propose to reconstruct high-quality meshes from real-world point clouds using state-of-the-art neural surface reconstruction method (the Real2Sim step). Because most simulators take meshes for fast simulation, the reconstructed meshes enable grasp pose labels generation without human efforts. The generated labels can train grasp network that performs robustly in the real evaluation scene (the Sim2Real step). In synthetic and real experiments, we show that the Real2Sim2Real pipeline performs better than baseline grasp networks trained with a large dataset and a grasp sampling method with retrieval-based reconstruction. The benefit of the Real2Sim2Real pipeline comes from 1) decoupling scene modeling and grasp sampling into sub-problems, and 2) both sub-problems can be solved with sufficiently high quality using recent 3D learning algorithms and mesh-based physical simulation techniques.
translated by 谷歌翻译
在本文中,我们介绍了DA $^2 $,这是第一个大型双臂灵敏性吸引数据集,用于生成最佳的双人握把对,用于任意大型对象。该数据集包含大约900万的平行jaw grasps,由6000多个对象生成,每个对象都有各种抓紧敏度度量。此外,我们提出了一个端到端的双臂掌握评估模型,该模型在该数据集的渲染场景上训练。我们利用评估模型作为基准,通过在线分析和真实的机器人实验来显示这一新颖和非平凡数据集的价值。所有数据和相关的代码将在https://sites.google.com/view/da2dataset上开源。
translated by 谷歌翻译
在本文中,我们提出了一条基于截短的签名距离函数(TSDF)体积的接触点检测的新型抓紧管道,以实现闭环7度自由度(7-DOF)在杂物环境上抓住。我们方法的关键方面是1)提议的管道以多视图融合,接触点采样和评估以及碰撞检查,可提供可靠且无碰撞的7-DOF抓手姿势,并带有真实的碰撞 - 时间性能;2)基于接触的姿势表示有效地消除了基于正常方法的歧义,从而提供了更精确和灵活的解决方案。广泛的模拟和实体机器人实验表明,在模拟和物理场景中,就掌握成功率而言,提出的管道可以选择更多的反物和稳定的抓握姿势,并优于基于正常的基线。
translated by 谷歌翻译
抓握是通过在一组触点上施加力和扭矩来挑选对象的过程。深度学习方法的最新进展允许在机器人对象抓地力方面快速进步。我们在过去十年中系统地调查了出版物,特别感兴趣使用最终效果姿势的所有6度自由度抓住对象。我们的综述发现了四种用于机器人抓钩的常见方法:基于抽样的方法,直接回归,强化学习和示例方法。此外,我们发现了围绕抓握的两种“支持方法”,这些方法使用深入学习来支持抓握过程,形状近似和负担能力。我们已经将本系统评论(85篇论文)中发现的出版物提炼为十个关键要点,我们认为对未来的机器人抓握和操纵研究至关重要。该调查的在线版本可从https://rhys-newbury.github.io/projects/6dof/获得
translated by 谷歌翻译
The accurate detection and grasping of transparent objects are challenging but of significance to robots. Here, a visual-tactile fusion framework for transparent object grasping under complex backgrounds and variant light conditions is proposed, including the grasping position detection, tactile calibration, and visual-tactile fusion based classification. First, a multi-scene synthetic grasping dataset generation method with a Gaussian distribution based data annotation is proposed. Besides, a novel grasping network named TGCNN is proposed for grasping position detection, showing good results in both synthetic and real scenes. In tactile calibration, inspired by human grasping, a fully convolutional network based tactile feature extraction method and a central location based adaptive grasping strategy are designed, improving the success rate by 36.7% compared to direct grasping. Furthermore, a visual-tactile fusion method is proposed for transparent objects classification, which improves the classification accuracy by 34%. The proposed framework synergizes the advantages of vision and touch, and greatly improves the grasping efficiency of transparent objects.
translated by 谷歌翻译
6多机器人抓钩是一个持久但未解决的问题。最近的方法利用强3D网络从深度传感器中提取几何抓握表示形式,表明对公共物体的准确性卓越,但对光度化挑战性物体(例如,透明或反射材料中的物体)进行不满意。瓶颈在于这些物体的表面由于光吸收或折射而无法反射准确的深度。在本文中,与利用不准确的深度数据相反,我们提出了第一个称为MonograspNet的只有RGB的6-DOF握把管道,该管道使用稳定的2D特征同时处理任意对象抓握,并克服由光学上具有挑战性挑战的对象引起的问题。 MonograspNet利用关键点热图和正常地图来恢复由我们的新型表示形式表示的6-DOF抓握姿势,该表示的2D键盘具有相应的深度,握把方向,抓握宽度和角度。在真实场景中进行的广泛实验表明,我们的方法可以通过在抓住光学方面挑战的对象方面抓住大量对象并超过基于深度的竞争者的竞争成果。为了进一步刺激机器人的操纵研究,我们还注释并开源一个多视图和多场景现实世界抓地数据集,其中包含120个具有20m精确握把标签的混合光度复杂性对象。
translated by 谷歌翻译
形状通知如何将对象掌握,无论是如何以及如何。因此,本文介绍了一种基于分割的架构,用于将用深度摄像机进行分解为多个基本形状的对象,以及用于机器人抓握的后处理管道。分段采用深度网络,称为PS-CNN,在具有6个类的原始形状和使用模拟引擎生成的合成数据上培训。每个原始形状都设计有参数化掌握家族,允许管道识别每个形状区域的多个掌握候选者。掌握是排序的排名,选择用于执行的第一个可行的。对于无任务掌握单个对象,该方法达到94.2%的成功率将其放置在顶部执行掌握方法中,与自上而下和SE(3)基础相比。涉及变量观点和杂波的其他测试展示了设置的鲁棒性。对于面向任务的掌握,PS-CNN实现了93.0%的成功率。总体而言,结果支持该假设,即在抓地管道内明确地编码形状原语应该提高掌握性能,包括无任务和任务相关的掌握预测。
translated by 谷歌翻译
视觉感知任务通常需要大量的标记数据,包括3D姿势和图像空间分割掩码。创建此类培训数据集的过程可能很难或耗时,可以扩展到一般使用的功效。考虑对刚性对象的姿势估计的任务。在大型公共数据集中接受培训时,基于神经网络的深层方法表现出良好的性能。但是,将这些网络调整为其他新颖对象,或针对不同环境的现有模型进行微调,需要大量的时间投资才能产生新标记的实例。为此,我们提出了ProgressLabeller作为一种方法,以更有效地以可扩展的方式从彩色图像序列中生成大量的6D姿势训练数据。 ProgressLabeller还旨在支持透明或半透明的对象,以深度密集重建的先前方法将失败。我们通过快速创建一个超过1M样品的数据集来证明ProgressLabeller的有效性,我们将其微调一个最先进的姿势估计网络,以显着提高下游机器人的抓地力。 ProgressLabeller是https://github.com/huijiezh/progresslabeller的开放源代码。
translated by 谷歌翻译
机器人仿真一直是数据驱动的操作任务的重要工具。但是,大多数现有的仿真框架都缺乏与触觉传感器的物理相互作用的高效和准确模型,也没有逼真的触觉模拟。这使得基于触觉的操纵任务的SIM转交付仍然具有挑战性。在这项工作中,我们通过建模接触物理学来整合机器人动力学和基于视觉的触觉传感器的模拟。该触点模型使用机器人最终效应器上的模拟接触力来告知逼真的触觉输出。为了消除SIM到真实传输差距,我们使用现实世界数据校准了机器人动力学,接触模型和触觉光学模拟器的物理模拟器,然后我们在零摄像机上演示了系统的有效性 - 真实掌握稳定性预测任务,在各种对象上,我们达到平均准确性为90.7%。实验揭示了将我们的模拟框架应用于更复杂的操纵任务的潜力。我们在https://github.com/cmurobotouch/taxim/tree/taxim-robot上开放仿真框架。
translated by 谷歌翻译
在密集的混乱中抓住是自动机器人的一项基本技能。但是,在混乱的情况下,拥挤性和遮挡造成了很大的困难,无法在没有碰撞的情况下产生有效的掌握姿势,这会导致低效率和高失败率。为了解决这些问题,我们提出了一个名为GE-GRASP的通用框架,用于在密集的混乱中用于机器人运动计划,在此,我们利用各种动作原始素来遮挡对象去除,并呈现发电机 - 评估器架构以避免空间碰撞。因此,我们的ge-grasp能够有效地抓住密集的杂物中的物体,并有希望的成功率。具体而言,我们定义了三个动作基础:面向目标的抓握,用于捕获,推动和非目标的抓握,以减少拥挤和遮挡。发电机有效地提供了参考空间信息的各种动作候选者。同时,评估人员评估了所选行动原始候选者,其中最佳动作由机器人实施。在模拟和现实世界中进行的广泛实验表明,我们的方法在运动效率和成功率方面优于杂乱无章的最新方法。此外,我们在现实世界中实现了可比的性能,因为在模拟环境中,这表明我们的GE-Grasp具有强大的概括能力。补充材料可在以下网址获得:https://github.com/captainwudaokou/ge-grasp。
translated by 谷歌翻译
智能服务机器人需要能够在动态环境中执行各种任务。尽管在机器人抓住方面取得了重大进展,但机器人在非结构化的现实环境中给出不同的任务时,机器人可以决定掌握位置仍然是一项挑战。为了克服这一挑战,创建一个正确的知识表示框架是关键。与以前的工作不同,在本文中,任务定义为三联体,包括掌握工具,所需的动作和目标对象。我们所提出的算法给予(掌握 - Action-Target Embeddings和关系)模型掌握工具之间的关系 - 嵌入空间中的目标对象 - 目标对象。要验证我们的方法,为特定于任务的GRASPing创建了一种新型数据集。给予新数据集的培训,并实现特定于任务的掌握推理,以94.6%的成功率。最后,在真正的服务机器人平台上测试了等级算法的有效性。等级算法在人类行为预测和人机互动中具有潜力。
translated by 谷歌翻译
Being able to grasp objects is a fundamental component of most robotic manipulation systems. In this paper, we present a new approach to simultaneously reconstruct a mesh and a dense grasp quality map of an object from a depth image. At the core of our approach is a novel camera-centric object representation called the "object shell" which is composed of an observed "entry image" and a predicted "exit image". We present an image-to-image residual ConvNet architecture in which the object shell and a grasp-quality map are predicted as separate output channels. The main advantage of the shell representation and the corresponding neural network architecture, ShellGrasp-Net, is that the input-output pixel correspondences in the shell representation are explicitly represented in the architecture. We show that this coupling yields superior generalization capabilities for object reconstruction and accurate grasp quality estimation implicitly considering the object geometry. Our approach yields an efficient dense grasp quality map and an object geometry estimate in a single forward pass. Both of these outputs can be used in a wide range of robotic manipulation applications. With rigorous experimental validation, both in simulation and on a real setup, we show that our shell-based method can be used to generate precise grasps and the associated grasp quality with over 90% accuracy. Diverse grasps computed on shell reconstructions allow the robot to select and execute grasps in cluttered scenes with more than 93% success rate.
translated by 谷歌翻译
如今,机器人在我们的日常生活中起着越来越重要的作用。在以人为本的环境中,机器人经常会遇到成堆的对象,包装的项目或孤立的对象。因此,机器人必须能够在各种情况下掌握和操纵不同的物体,以帮助人类进行日常任务。在本文中,我们提出了一种多视图深度学习方法,以处理以人为中心的域中抓住强大的对象。特别是,我们的方法将任意对象的点云作为输入,然后生成给定对象的拼字图。获得的视图最终用于估计每个对象的像素抓握合成。我们使用小对象抓住数据集训练模型端到端,并在模拟和现实世界数据上对其进行测试,而无需进行任何进一步的微调。为了评估所提出方法的性能,我们在三种情况下进行了广泛的实验集,包括孤立的对象,包装的项目和一堆对象。实验结果表明,我们的方法在所有仿真和现实机器人方案中都表现出色,并且能够在各种场景配置中实现新颖对象的可靠闭环抓握。
translated by 谷歌翻译
在本文中,我们探讨了机器人是否可以学会重新应用一组多样的物体以实现各种所需的掌握姿势。只要机器人的当前掌握姿势未能执行所需的操作任务,需要重新扫描。具有这种能力的赋予机器人具有在许多领域中的应用,例如制造或国内服务。然而,由于日常物体中的几何形状和状态和行动空间的高维度,这是一个具有挑战性的任务。在本文中,我们提出了一种机器人系统,用于将物体的部分点云和支持环境作为输入,输出序列和放置操作的序列来转换到所需的对象掌握姿势。关键技术包括神经稳定放置预测器,并通过利用和改变周围环境来引发基于图形的解决方案。我们介绍了一个新的和具有挑战性的合成数据集,用于学习和评估所提出的方法。我们展示了我们提出的系统与模拟器和现实世界实验的有效性。我们的项目网页上有更多视频和可视化示例。
translated by 谷歌翻译
深度学习已被广​​泛用于推断强大的掌握。虽然最初用于学习掌握配置的人类标记的RGB-D数据集,但是这种大型数据集的准备是昂贵的。为了解决这个问题,通过物理模拟器生成图像,并且使用物理启发模型(例如,抽吸真空杯和物体之间的接触型号)作为掌握质量评估度量来注释合成图像。然而,这种联系方式复杂,需要通过实验进行参数识别,以确保真实的世界表现。此外,以前的研究还没有考虑机器人可达性,例如当具有高抓握质量的掌握配置由于机器人的碰撞或物理限制而无法到达目标时无法到达目标。在这项研究中,我们提出了一种直观的几何分析掌握质量评估度量。我们进一步纳入了可达性评估度量。我们通过拟议的评估度量对模拟器中的合成图像上的综合评估标准进行注释,以培训称为抽吸贪污U-Net ++(SG-U-Net ++)的自动编码器解码器。实验结果表明,我们直观的掌握质量评估度量与物理启发度量有竞争力。学习可达性有助于通过消除明显无法访问的候选者来减少运动规划计算时间。该系统实现了560pph(每小时碎片)的整体拾取速度。
translated by 谷歌翻译
当代掌握检测方法采用深度学习,实现传感器和物体模型不确定性的鲁棒性。这两个主导的方法设计了掌握质量评分或基于锚的掌握识别网络。本文通过将其视为图像空间中的关键点检测来掌握掌握检测的不同方法。深网络检测每个掌握候选者作为一对关键点,可转换为掌握代表= {x,y,w,{\ theta}} t,而不是转角点的三态或四重奏。通过将关键点分组成对来降低检测难度提高性能。为了促进捕获关键点之间的依赖关系,将非本地模块结合到网络设计中。基于离散和连续定向预测的最终过滤策略消除了错误的对应关系,并进一步提高了掌握检测性能。此处提出的方法GKNET在康奈尔和伸缩的提花数据集上的精度和速度之间实现了良好的平衡(在41.67和23.26 fps的96.9%和98.39%)之间。操纵器上的后续实验使用4种类型的抓取实验来评估GKNet,反映不同滋扰的速度:静态抓握,动态抓握,在各种相机角度抓住,夹住。 GKNet优于静态和动态掌握实验中的参考基线,同时表现出变化的相机观点和中度杂波的稳健性。结果证实了掌握关键点是深度掌握网络的有效输出表示的假设,为预期的滋扰因素提供鲁棒性。
translated by 谷歌翻译