透明的物体在我们的日常生活中广泛使用,因此机器人需要能够处理它们。但是,透明的物体遭受了光反射和折射的影响,这使得获得执行操控任务所需的准确深度图的挑战。在本文中,我们提出了一个基于负担能力的新型框架,用于深度重建和操纵透明物体,称为A4T。层次负担能力首先用于检测透明对象及其相关的负担,以编码对象不同部分的相对位置。然后,鉴于预测的负担映射,多步深度重建方法用于逐步重建透明对象的深度图。最后,使用重建的深度图用于基于负担的透明物体操纵。为了评估我们提出的方法,我们构建了一个真实的数据集trans-frans-frans-fans-and-trans-trans-frastance和透明对象的深度图,这是同类物体中的第一个。广泛的实验表明,我们提出的方法可以预测准确的负担能图,并显着改善了与最新方法相比的透明物体的深度重建,其根平方平方误差在0.097米中显着降低至0.042。此外,我们通过一系列机器人操纵实验在透明物体上进行了提出的方法的有效性。请参阅https://sites.google.com/view/affordance4trans的补充视频和结果。
translated by 谷歌翻译
对于机器人来说,拾取透明的对象仍然是一项具有挑战性的任务。透明对象(例如反射和折射)的视觉属性使依赖相机传感的当前抓握方法无法检测和本地化。但是,人类可以通过首先观察其粗剖面,然后戳其感兴趣的区域以获得良好的抓握轮廓来很好地处理透明的物体。受到这一点的启发,我们提出了一个新颖的视觉引导触觉框架,以抓住透明的物体。在拟议的框架中,首先使用分割网络来预测称为戳戳区域的水平上部区域,在该区域中,机器人可以在该区域戳入对象以获得良好的触觉读数,同时导致对物体状态的最小干扰。然后,使用高分辨率胶触觉传感器进行戳戳。鉴于触觉阅读有所改善的当地概况,计划掌握透明物体的启发式掌握。为了减轻对透明对象的现实世界数据收集和标记的局限性,构建了一个大规模逼真的合成数据集。广泛的实验表明,我们提出的分割网络可以预测潜在的戳戳区域,平均平均精度(地图)为0.360,而视觉引导的触觉戳戳可以显着提高抓地力成功率,从38.9%到85.2%。由于其简单性,我们提出的方法也可以被其他力量或触觉传感器采用,并可以用于掌握其他具有挑战性的物体。本文中使用的所有材料均可在https://sites.google.com/view/tactilepoking上获得。
translated by 谷歌翻译
透明的物体广泛用于工业自动化和日常生活中。但是,强大的视觉识别和对透明物体的感知一直是一个主要挑战。目前,由于光的折射和反射,大多数商用级深度摄像机仍然不擅长感知透明物体的表面。在这项工作中,我们从单个RGB-D输入中提出了一种基于变压器的透明对象深度估计方法。我们观察到,变压器的全球特征使得更容易提取上下文信息以执行透明区域的深度估计。此外,为了更好地增强细粒度的特征,功能融合模块(FFM)旨在帮助连贯的预测。我们的经验证据表明,与以前的最新基于卷积的数据集相比,我们的模型在最近的流行数据集中有了重大改进,例如RMSE增长25%,RER增长21%。广泛的结果表明,我们的基于变压器的模型可以更好地汇总对象的RGB和不准确的深度信息,以获得更好的深度表示。我们的代码和预培训模型将在https://github.com/yuchendoudou/tode上找到。
translated by 谷歌翻译
6多机器人抓钩是一个持久但未解决的问题。最近的方法利用强3D网络从深度传感器中提取几何抓握表示形式,表明对公共物体的准确性卓越,但对光度化挑战性物体(例如,透明或反射材料中的物体)进行不满意。瓶颈在于这些物体的表面由于光吸收或折射而无法反射准确的深度。在本文中,与利用不准确的深度数据相反,我们提出了第一个称为MonograspNet的只有RGB的6-DOF握把管道,该管道使用稳定的2D特征同时处理任意对象抓握,并克服由光学上具有挑战性挑战的对象引起的问题。 MonograspNet利用关键点热图和正常地图来恢复由我们的新型表示形式表示的6-DOF抓握姿势,该表示的2D键盘具有相应的深度,握把方向,抓握宽度和角度。在真实场景中进行的广泛实验表明,我们的方法可以通过在抓住光学方面挑战的对象方面抓住大量对象并超过基于深度的竞争者的竞争成果。为了进一步刺激机器人的操纵研究,我们还注释并开源一个多视图和多场景现实世界抓地数据集,其中包含120个具有20m精确握把标签的混合光度复杂性对象。
translated by 谷歌翻译
透明的物体在我们的日常生活中很常见,并且经常在自动生产线中处理。对这些物体的强大基于视力的机器人抓握和操纵将对自动化有益。但是,在这种情况下,大多数当前的握把算法都会失败,因为它们严重依赖于深度图像,而普通的深度传感器通常无法产生准确的深度信息,因为由于光的反射和折射,它们都会用于透明对象。在这项工作中,我们通过为透明对象深度完成的大规模现实世界数据集提供了解决此问题,该数据集包含来自130个不同场景的57,715个RGB-D图像。我们的数据集是第一个大规模的,现实世界中的数据集,可提供地面真相深度,表面正常,透明的面具,以各种各样的场景和混乱。跨域实验表明,我们的数据集更具通用性,可以为模型提供更好的概括能力。此外,我们提出了一个端到端深度完成网络,该网络将RGB图像和不准确的深度图作为输入,并输出精制的深度图。实验证明了我们方法的效率,效率和鲁棒性优于以前的工作,并且能够处理有限的硬件资源下的高分辨率图像。真正的机器人实验表明,我们的方法也可以应用于新颖的透明物体牢固地抓住。完整的数据集和我们的方法可在www.graspnet.net/transcg上公开获得
translated by 谷歌翻译
商业深度传感器通常会产生嘈杂和缺失的深度,尤其是在镜面和透明的对象上,这对下游深度或基于点云的任务构成了关键问题。为了减轻此问题,我们提出了一个强大的RGBD融合网络Swindrnet,以进行深度修复。我们进一步提出了域随机增强深度模拟(DREDS)方法,以使用基于物理的渲染模拟主动的立体声深度系统,并生成一个大规模合成数据集,该数据集包含130k Photorealistic RGB图像以及其模拟深度带有现实主义的传感器。为了评估深度恢复方法,我们还策划了一个现实世界中的数据集,即STD,该数据集捕获了30个混乱的场景,这些场景由50个对象组成,具有不同的材料,从透明,透明,弥漫性。实验表明,提议的DREDS数据集桥接了SIM到实地域间隙,因此,经过训练,我们的Swindrnet可以无缝地概括到其他真实的深度数据集,例如。 ClearGrasp,并以实时速度优于深度恢复的竞争方法。我们进一步表明,我们的深度恢复有效地提高了下游任务的性能,包括类别级别的姿势估计和掌握任务。我们的数据和代码可从https://github.com/pku-epic/dreds获得
translated by 谷歌翻译
The accurate detection and grasping of transparent objects are challenging but of significance to robots. Here, a visual-tactile fusion framework for transparent object grasping under complex backgrounds and variant light conditions is proposed, including the grasping position detection, tactile calibration, and visual-tactile fusion based classification. First, a multi-scene synthetic grasping dataset generation method with a Gaussian distribution based data annotation is proposed. Besides, a novel grasping network named TGCNN is proposed for grasping position detection, showing good results in both synthetic and real scenes. In tactile calibration, inspired by human grasping, a fully convolutional network based tactile feature extraction method and a central location based adaptive grasping strategy are designed, improving the success rate by 36.7% compared to direct grasping. Furthermore, a visual-tactile fusion method is proposed for transparent objects classification, which improves the classification accuracy by 34%. The proposed framework synergizes the advantages of vision and touch, and greatly improves the grasping efficiency of transparent objects.
translated by 谷歌翻译
现场机器人收获是农业产业近期发展的有希望的技术。在自然果园收获之前,机器人识别和本地化水果至关重要。然而,果园中收获机器人的工作空间很复杂:许多水果被分支和叶子堵塞。在执行操纵之前,估计每个果实的适当抓握姿势是很重要的。在本研究中,建议使用来自RGB-D相机的颜色和几何感官数据来执行端到端实例分段和掌握估计的几何意识网络A3N。此外,应用了工作区几何建模以帮助机器人操纵。此外,我们实施全球到本地扫描策略,它使机器人能够在具有两个消费级RGB-D相机中准确地识别和检索现场环境中的水果。我们还全面评估了所提出的网络的准确性和鲁棒性。实验结果表明,A3N达到了0.873的实例分割精度,平均计算时间为35毫秒。掌握估计的平均准确性分别为0.61厘米,4.8美元,中心和方向分别为4.8美元。总的来说,利用全球到局部扫描和A3N的机器人系统实现了从现场收集实验中的70 \%-85 \%的收获量的成功率。
translated by 谷歌翻译
触摸感在使人类能够理解和与周围环境互动方面发挥着关键作用。对于机器人,触觉感应也是不可替代的。在与物体交互时,触觉传感器为机器人提供了理解物体的有用信息,例如分布式压力,温度,振动和纹理。在机器人抓住期间,视力通常由其最终效应器封闭,而触觉感应可以测量视觉无法访问的区域。在过去的几十年中,已经为机器人开发了许多触觉传感器,并用于不同的机器人任务。在本章中,我们专注于使用触觉对机器人抓握的触觉,并研究近期对物质性质的触觉趋势。我们首先讨论了术语,即形状,姿势和材料特性对三个重要的物体特性的触觉感知。然后,我们通过触觉感应审查抓握稳定性预测的最新发展。在这些作品中,我们确定了在机器人抓握中协调视觉和触觉感应的要求。为了证明使用触觉传感来提高视觉感知,介绍了我们最近的抗议重建触觉触觉感知的发展。在所提出的框架中,首先利用相机视觉的大型接收领域以便快速搜索含有裂缝的候选区域,然后使用高分辨率光学触觉传感器来检查这些候选区域并重建精制的裂缝形状。实验表明,我们所提出的方法可以实现0.82mm至0.24mm的平均距离误差的显着降低,以便重建。最后,我们在讨论了对机器人任务中施加触觉感应的公开问题和未来方向的讨论。
translated by 谷歌翻译
Being able to grasp objects is a fundamental component of most robotic manipulation systems. In this paper, we present a new approach to simultaneously reconstruct a mesh and a dense grasp quality map of an object from a depth image. At the core of our approach is a novel camera-centric object representation called the "object shell" which is composed of an observed "entry image" and a predicted "exit image". We present an image-to-image residual ConvNet architecture in which the object shell and a grasp-quality map are predicted as separate output channels. The main advantage of the shell representation and the corresponding neural network architecture, ShellGrasp-Net, is that the input-output pixel correspondences in the shell representation are explicitly represented in the architecture. We show that this coupling yields superior generalization capabilities for object reconstruction and accurate grasp quality estimation implicitly considering the object geometry. Our approach yields an efficient dense grasp quality map and an object geometry estimate in a single forward pass. Both of these outputs can be used in a wide range of robotic manipulation applications. With rigorous experimental validation, both in simulation and on a real setup, we show that our shell-based method can be used to generate precise grasps and the associated grasp quality with over 90% accuracy. Diverse grasps computed on shell reconstructions allow the robot to select and execute grasps in cluttered scenes with more than 93% success rate.
translated by 谷歌翻译
形状通知如何将对象掌握,无论是如何以及如何。因此,本文介绍了一种基于分割的架构,用于将用深度摄像机进行分解为多个基本形状的对象,以及用于机器人抓握的后处理管道。分段采用深度网络,称为PS-CNN,在具有6个类的原始形状和使用模拟引擎生成的合成数据上培训。每个原始形状都设计有参数化掌握家族,允许管道识别每个形状区域的多个掌握候选者。掌握是排序的排名,选择用于执行的第一个可行的。对于无任务掌握单个对象,该方法达到94.2%的成功率将其放置在顶部执行掌握方法中,与自上而下和SE(3)基础相比。涉及变量观点和杂波的其他测试展示了设置的鲁棒性。对于面向任务的掌握,PS-CNN实现了93.0%的成功率。总体而言,结果支持该假设,即在抓地管道内明确地编码形状原语应该提高掌握性能,包括无任务和任务相关的掌握预测。
translated by 谷歌翻译
当代掌握检测方法采用深度学习,实现传感器和物体模型不确定性的鲁棒性。这两个主导的方法设计了掌握质量评分或基于锚的掌握识别网络。本文通过将其视为图像空间中的关键点检测来掌握掌握检测的不同方法。深网络检测每个掌握候选者作为一对关键点,可转换为掌握代表= {x,y,w,{\ theta}} t,而不是转角点的三态或四重奏。通过将关键点分组成对来降低检测难度提高性能。为了促进捕获关键点之间的依赖关系,将非本地模块结合到网络设计中。基于离散和连续定向预测的最终过滤策略消除了错误的对应关系,并进一步提高了掌握检测性能。此处提出的方法GKNET在康奈尔和伸缩的提花数据集上的精度和速度之间实现了良好的平衡(在41.67和23.26 fps的96.9%和98.39%)之间。操纵器上的后续实验使用4种类型的抓取实验来评估GKNet,反映不同滋扰的速度:静态抓握,动态抓握,在各种相机角度抓住,夹住。 GKNet优于静态和动态掌握实验中的参考基线,同时表现出变化的相机观点和中度杂波的稳健性。结果证实了掌握关键点是深度掌握网络的有效输出表示的假设,为预期的滋扰因素提供鲁棒性。
translated by 谷歌翻译
抓握是通过在一组触点上施加力和扭矩来挑选对象的过程。深度学习方法的最新进展允许在机器人对象抓地力方面快速进步。我们在过去十年中系统地调查了出版物,特别感兴趣使用最终效果姿势的所有6度自由度抓住对象。我们的综述发现了四种用于机器人抓钩的常见方法:基于抽样的方法,直接回归,强化学习和示例方法。此外,我们发现了围绕抓握的两种“支持方法”,这些方法使用深入学习来支持抓握过程,形状近似和负担能力。我们已经将本系统评论(85篇论文)中发现的出版物提炼为十个关键要点,我们认为对未来的机器人抓握和操纵研究至关重要。该调查的在线版本可从https://rhys-newbury.github.io/projects/6dof/获得
translated by 谷歌翻译
高分辨率表示对于基于视觉的机器人抓问题很重要。现有作品通常通过子网络将输入图像编码为低分辨率表示形式,然后恢复高分辨率表示。这将丢失空间信息,当考虑多种类型的对象或远离摄像机时,解码器引入的错误将更加严重。为了解决这些问题,我们重新审视了CNN的设计范式,以实现机器人感知任务。我们证明,与串行堆叠的卷积层相反,使用平行分支将是机器人视觉抓握任务的更强大设计。特别是,为机器人感知任务(例如,高分辨率代表和轻量级设计)提供了神经网络设计的准则,这些指南应对不同操纵场景中的挑战做出回应。然后,我们开发了一种新颖的抓地视觉体系结构,称为HRG-NET,这是一种平行分支结构,始终保持高分辨率表示形式,并反复在分辨率上交换信息。广泛的实验验证了这两种设计可以有效地提高基于视觉的握把和加速网络训练的准确性。我们在YouTube上的真实物理环境中显示了一系列比较实验:https://youtu.be/jhlsp-xzhfy。
translated by 谷歌翻译
尽管在过去几年中取得了重大进展,但使用单眼图像进行深度估计仍然存在挑战。首先,训练度量深度预测模型的训练是不算气的,该预测模型可以很好地推广到主要由于训练数据有限的不同场景。因此,研究人员建立了大规模的相对深度数据集,这些数据集更容易收集。但是,由于使用相对深度数据训练引起的深度转移,现有的相对深度估计模型通常无法恢复准确的3D场景形状。我们在此处解决此问题,并尝试通过对大规模相对深度数据进行训练并估算深度转移来估计现场形状。为此,我们提出了一个两阶段的框架,该框架首先将深度预测到未知量表并从单眼图像转移,然后利用3D点云数据来预测深度​​移位和相机的焦距,使我们能够恢复恢复3D场景形状。由于两个模块是单独训练的,因此我们不需要严格配对的培训数据。此外,我们提出了图像级的归一化回归损失和基于正常的几何损失,以通过相对深度注释来改善训练。我们在九个看不见的数据集上测试我们的深度模型,并在零拍摄评估上实现最先进的性能。代码可用:https://git.io/depth
translated by 谷歌翻译
根据目标的语义信息,减少抓取检测的范围对于提高抓取检测模型的准确性并扩大其应用。研究人员一直在尝试将这些能力与端到端网络中的这些功能相结合,以有效地掌握杂乱场景中的特定对象。在本文中,我们提出了一种端到端语义抓握检测模型,可以实现语义识别和掌握检测。我们还设计了一个目标要素过滤机制,其仅根据用于抓取检测的语义信息维护单个对象的特征。该方法有效地减少了与目标对象弱相关的背景特征,从而使得具有更独特的功能并保证抓取检测的准确性和效率。实验结果表明,该方法在康奈尔抓地数据集中可以实现98.38%的精度,我们对不同数据集或评估度量的结果显示了我们对最先进的方法的域适应性。
translated by 谷歌翻译
As the basis for prehensile manipulation, it is vital to enable robots to grasp as robustly as humans. In daily manipulation, our grasping system is prompt, accurate, flexible and continuous across spatial and temporal domains. Few existing methods cover all these properties for robot grasping. In this paper, we propose a new methodology for grasp perception to enable robots these abilities. Specifically, we develop a dense supervision strategy with real perception and analytic labels in the spatial-temporal domain. Additional awareness of objects' center-of-mass is incorporated into the learning process to help improve grasping stability. Utilization of grasp correspondence across observations enables dynamic grasp tracking. Our model, AnyGrasp, can generate accurate, full-DoF, dense and temporally-smooth grasp poses efficiently, and works robustly against large depth sensing noise. Embedded with AnyGrasp, we achieve a 93.3% success rate when clearing bins with over 300 unseen objects, which is comparable with human subjects under controlled conditions. Over 900 MPPH is reported on a single-arm system. For dynamic grasping, we demonstrate catching swimming robot fish in the water.
translated by 谷歌翻译
对于机器人来说,在混乱的场景中抓住检测是一项非常具有挑战性的任务。生成合成抓地数据是训练和测试抓握方法的流行方式,DEX-NET和GRASPNET也是如此。然而,这些方法在3D合成对象模型上生成了训练掌握,但是在具有不同分布的图像或点云上进行评估,从而降低了由于稀疏的掌握标签和协变量移位而在真实场景上的性能。为了解决现有的问题,我们提出了一种新型的policy抓取检测方法,该方法可以用RGB-D图像生成的密集像素级抓握标签对相同的分布进行训练和测试。提出了一种并行深度的掌握生成(PDG生成)方法,以通过并行的投射点的新成像模型生成平行的深度图像;然后,该方法为每个像素生成多个候选抓地力,并通过平坦检测,力闭合度量和碰撞检测获得可靠的抓地力。然后,构建并释放了大型综合像素级姿势数据集(PLGP数据集)。该数据集使用先前的数据集和稀疏的Grasp样品区分开,是第一个像素级掌握数据集,其上的分布分布基于深度图像生成了grasps。最后,我们建立和测试了一系列像素级的抓地力检测网络,并通过数据增强过程进行不平衡训练,该过程以输入RGB-D图像的方式学习抓握姿势。广泛的实验表明,我们的policy掌握方法可以在很大程度上克服模拟与现实之间的差距,并实现最新的性能。代码和数据可在https://github.com/liuchunsense/plgp-dataset上提供。
translated by 谷歌翻译
作为许多自主驾驶和机器人活动的基本组成部分,如自我运动估计,障碍避免和场景理解,单眼深度估计(MDE)引起了计算机视觉和机器人社区的极大关注。在过去的几十年中,已经开发了大量方法。然而,据我们所知,对MDE没有全面调查。本文旨在通过审查1970年至2021年之间发布的197个相关条款来弥补这一差距。特别是,我们为涵盖各种方法的MDE提供了全面的调查,介绍了流行的绩效评估指标并汇总公开的数据集。我们还总结了一些代表方法的可用开源实现,并比较了他们的表演。此外,我们在一些重要的机器人任务中审查了MDE的应用。最后,我们通过展示一些有希望的未来研究方向来结束本文。预计本调查有助于读者浏览该研究领域。
translated by 谷歌翻译
我们提出了GRASP提案网络(GP-NET),这是一种卷积神经网络模型,可以为移动操纵器生成6-DOF GRASP。为了训练GP-NET,我们合成生成一个包含深度图像和地面真相掌握信息的数据集,以供超过1400个对象。在现实世界实验中,我们使用egad!掌握基准测试,以评估两种常用算法的GP-NET,即体积抓地力网络(VGN)和在PAL TIAGO移动操纵器上进行的GRASP抓取网络(VGN)和GRASP姿势检测包(GPD)。GP-NET的掌握率为82.2%,而VGN为57.8%,GPD的成功率为63.3%。与机器人握把中最新的方法相反,GP-NET可以在不限制工作空间的情况下使用移动操纵器抓住对象,用于抓住对象,需要桌子进行分割或需要高端GPU。为了鼓励使用GP-NET,我们在https://aucoroboticsmu.github.io/gp-net/上提供ROS包以及我们的代码和预培训模型。
translated by 谷歌翻译