如今,机器人在我们的日常生活中起着越来越重要的作用。在以人为本的环境中,机器人经常会遇到成堆的对象,包装的项目或孤立的对象。因此,机器人必须能够在各种情况下掌握和操纵不同的物体,以帮助人类进行日常任务。在本文中,我们提出了一种多视图深度学习方法,以处理以人为中心的域中抓住强大的对象。特别是,我们的方法将任意对象的点云作为输入,然后生成给定对象的拼字图。获得的视图最终用于估计每个对象的像素抓握合成。我们使用小对象抓住数据集训练模型端到端,并在模拟和现实世界数据上对其进行测试,而无需进行任何进一步的微调。为了评估所提出方法的性能,我们在三种情况下进行了广泛的实验集,包括孤立的对象,包装的项目和一堆对象。实验结果表明,我们的方法在所有仿真和现实机器人方案中都表现出色,并且能够在各种场景配置中实现新颖对象的可靠闭环抓握。
translated by 谷歌翻译
在以人为本的环境中工作的机器人需要知道场景中存在哪种物体,以及如何掌握和操纵不同情况下的各种对象,以帮助人类在日常任务中。因此,对象识别和抓握是此类机器人的两个关键功能。最先进的解决物体识别并将其抓握为两个单独的问题,同时都使用可视输入。此外,在训练阶段之后,机器人的知识是固定的。在这种情况下,如果机器人面临新的对象类别,则必须从划痕中重新培训以结合新信息而无需灾难性干扰。为了解决这个问题,我们提出了一个深入的学习架构,具有增强的存储器能力来处理开放式对象识别和同时抓握。特别地,我们的方法将物体的多视图作为输入,并共同估计像素 - 方向掌握配置以及作为输出的深度和旋转不变表示。然后通过元主动学习技术使用所获得的表示用于开放式对象识别。我们展示了我们掌握从未见过的对象的方法的能力,并在模拟和现实世界中使用非常少数的例子在现场使用很少的例子快速学习新的对象类别。
translated by 谷歌翻译
机器人经常面临抓住目标对象的情况,但由于其他当前物体阻止了掌握动作。我们提出了一种深入的强化学习方法,以学习掌握和推动政策,以在高度混乱的环境中操纵目标对象以解决这个问题。特别是,提出了双重强化学习模型方法,该方法在处理复杂场景时具有很高的弹性,在模拟环境中使用原始对象平均达到98%的任务完成。为了评估所提出方法的性能,我们在包装对象和一堆对象方案中进行了两组实验集,在模拟中总共进行了1000个测试。实验结果表明,该提出的方法在各种情况下都效果很好,并且表现出了最新的最新方法。演示视频,训练有素的模型和源代码可重复可重复性目的。 https://github.com/kamalnl92/self-superist-learning-for-pushing-and-grasping。
translated by 谷歌翻译
从混乱中挑选特定对象是许多操纵任务的重要组成部分。部分观察结果通常要求机器人在尝试掌握之前收集场景的其他观点。本文提出了一个闭环的下一次最佳策划者,该计划者根据遮挡的对象零件驱动探索。通过不断从最新场景重建中预测抓地力,我们的政策可以在线决定最终确定执行或适应机器人的轨迹以进行进一步探索。我们表明,与常见的相机位置和处理固定基线失败的情况相比,我们的反应性方法会减少执行时间而不会丢失掌握成功率。视频和代码可在https://github.com/ethz-asl/active_grasp上找到。
translated by 谷歌翻译
Being able to grasp objects is a fundamental component of most robotic manipulation systems. In this paper, we present a new approach to simultaneously reconstruct a mesh and a dense grasp quality map of an object from a depth image. At the core of our approach is a novel camera-centric object representation called the "object shell" which is composed of an observed "entry image" and a predicted "exit image". We present an image-to-image residual ConvNet architecture in which the object shell and a grasp-quality map are predicted as separate output channels. The main advantage of the shell representation and the corresponding neural network architecture, ShellGrasp-Net, is that the input-output pixel correspondences in the shell representation are explicitly represented in the architecture. We show that this coupling yields superior generalization capabilities for object reconstruction and accurate grasp quality estimation implicitly considering the object geometry. Our approach yields an efficient dense grasp quality map and an object geometry estimate in a single forward pass. Both of these outputs can be used in a wide range of robotic manipulation applications. With rigorous experimental validation, both in simulation and on a real setup, we show that our shell-based method can be used to generate precise grasps and the associated grasp quality with over 90% accuracy. Diverse grasps computed on shell reconstructions allow the robot to select and execute grasps in cluttered scenes with more than 93% success rate.
translated by 谷歌翻译
同时对象识别和姿势估计是机器人安全与人类和环境安全相互作用的两个关键功能。尽管对象识别和姿势估计都使用视觉输入,但大多数最先进的问题将它们作为两个独立的问题解决,因为前者需要视图不变的表示,而对象姿势估计需要一个与观点有关的描述。如今,多视图卷积神经网络(MVCNN)方法显示出最新的分类性能。尽管已广泛探索了MVCNN对象识别,但对多视图对象构成估计方法的研究很少,而同时解决这两个问题的研究更少。 MVCNN方法中虚拟摄像机的姿势通常是预先定义的,从而绑定了这种方法的应用。在本文中,我们提出了一种能够同时处理对象识别和姿势估计的方法。特别是,我们开发了一个深度的对象不合时宜的熵估计模型,能够预测给定3D对象的最佳观点。然后将对象的视图馈送到网络中,以同时预测目标对象的姿势和类别标签。实验结果表明,从此类位置获得的观点足以达到良好的精度得分。此外,我们设计了现实生活中的饮料场景,以证明拟议方法在真正的机器人任务中的运作效果如何。代码可在线获得:github.com/subhadityamukherjee/more_mvcnn
translated by 谷歌翻译
在密集的混乱中抓住是自动机器人的一项基本技能。但是,在混乱的情况下,拥挤性和遮挡造成了很大的困难,无法在没有碰撞的情况下产生有效的掌握姿势,这会导致低效率和高失败率。为了解决这些问题,我们提出了一个名为GE-GRASP的通用框架,用于在密集的混乱中用于机器人运动计划,在此,我们利用各种动作原始素来遮挡对象去除,并呈现发电机 - 评估器架构以避免空间碰撞。因此,我们的ge-grasp能够有效地抓住密集的杂物中的物体,并有希望的成功率。具体而言,我们定义了三个动作基础:面向目标的抓握,用于捕获,推动和非目标的抓握,以减少拥挤和遮挡。发电机有效地提供了参考空间信息的各种动作候选者。同时,评估人员评估了所选行动原始候选者,其中最佳动作由机器人实施。在模拟和现实世界中进行的广泛实验表明,我们的方法在运动效率和成功率方面优于杂乱无章的最新方法。此外,我们在现实世界中实现了可比的性能,因为在模拟环境中,这表明我们的GE-Grasp具有强大的概括能力。补充材料可在以下网址获得:https://github.com/captainwudaokou/ge-grasp。
translated by 谷歌翻译
Grasp learning has become an exciting and important topic in robotics. Just a few years ago, the problem of grasping novel objects from unstructured piles of clutter was considered a serious research challenge. Now, it is a capability that is quickly becoming incorporated into industrial supply chain automation. How did that happen? What is the current state of the art in robotic grasp learning, what are the different methodological approaches, and what machine learning models are used? This review attempts to give an overview of the current state of the art of grasp learning research.
translated by 谷歌翻译
抓握是通过在一组触点上施加力和扭矩来挑选对象的过程。深度学习方法的最新进展允许在机器人对象抓地力方面快速进步。我们在过去十年中系统地调查了出版物,特别感兴趣使用最终效果姿势的所有6度自由度抓住对象。我们的综述发现了四种用于机器人抓钩的常见方法:基于抽样的方法,直接回归,强化学习和示例方法。此外,我们发现了围绕抓握的两种“支持方法”,这些方法使用深入学习来支持抓握过程,形状近似和负担能力。我们已经将本系统评论(85篇论文)中发现的出版物提炼为十个关键要点,我们认为对未来的机器人抓握和操纵研究至关重要。该调查的在线版本可从https://rhys-newbury.github.io/projects/6dof/获得
translated by 谷歌翻译
当代掌握检测方法采用深度学习,实现传感器和物体模型不确定性的鲁棒性。这两个主导的方法设计了掌握质量评分或基于锚的掌握识别网络。本文通过将其视为图像空间中的关键点检测来掌握掌握检测的不同方法。深网络检测每个掌握候选者作为一对关键点,可转换为掌握代表= {x,y,w,{\ theta}} t,而不是转角点的三态或四重奏。通过将关键点分组成对来降低检测难度提高性能。为了促进捕获关键点之间的依赖关系,将非本地模块结合到网络设计中。基于离散和连续定向预测的最终过滤策略消除了错误的对应关系,并进一步提高了掌握检测性能。此处提出的方法GKNET在康奈尔和伸缩的提花数据集上的精度和速度之间实现了良好的平衡(在41.67和23.26 fps的96.9%和98.39%)之间。操纵器上的后续实验使用4种类型的抓取实验来评估GKNet,反映不同滋扰的速度:静态抓握,动态抓握,在各种相机角度抓住,夹住。 GKNet优于静态和动态掌握实验中的参考基线,同时表现出变化的相机观点和中度杂波的稳健性。结果证实了掌握关键点是深度掌握网络的有效输出表示的假设,为预期的滋扰因素提供鲁棒性。
translated by 谷歌翻译
As the basis for prehensile manipulation, it is vital to enable robots to grasp as robustly as humans. In daily manipulation, our grasping system is prompt, accurate, flexible and continuous across spatial and temporal domains. Few existing methods cover all these properties for robot grasping. In this paper, we propose a new methodology for grasp perception to enable robots these abilities. Specifically, we develop a dense supervision strategy with real perception and analytic labels in the spatial-temporal domain. Additional awareness of objects' center-of-mass is incorporated into the learning process to help improve grasping stability. Utilization of grasp correspondence across observations enables dynamic grasp tracking. Our model, AnyGrasp, can generate accurate, full-DoF, dense and temporally-smooth grasp poses efficiently, and works robustly against large depth sensing noise. Embedded with AnyGrasp, we achieve a 93.3% success rate when clearing bins with over 300 unseen objects, which is comparable with human subjects under controlled conditions. Over 900 MPPH is reported on a single-arm system. For dynamic grasping, we demonstrate catching swimming robot fish in the water.
translated by 谷歌翻译
Generating grasp poses is a crucial component for any robot object manipulation task. In this work, we formulate the problem of grasp generation as sampling a set of grasps using a variational autoencoder and assess and refine the sampled grasps using a grasp evaluator model. Both Grasp Sampler and Grasp Refinement networks take 3D point clouds observed by a depth camera as input. We evaluate our approach in simulation and real-world robot experiments. Our approach achieves 88% success rate on various commonly used objects with diverse appearances, scales, and weights. Our model is trained purely in simulation and works in the real world without any extra steps. The video of our experiments can be found here.
translated by 谷歌翻译
深度学习已被广​​泛用于推断强大的掌握。虽然最初用于学习掌握配置的人类标记的RGB-D数据集,但是这种大型数据集的准备是昂贵的。为了解决这个问题,通过物理模拟器生成图像,并且使用物理启发模型(例如,抽吸真空杯和物体之间的接触型号)作为掌握质量评估度量来注释合成图像。然而,这种联系方式复杂,需要通过实验进行参数识别,以确保真实的世界表现。此外,以前的研究还没有考虑机器人可达性,例如当具有高抓握质量的掌握配置由于机器人的碰撞或物理限制而无法到达目标时无法到达目标。在这项研究中,我们提出了一种直观的几何分析掌握质量评估度量。我们进一步纳入了可达性评估度量。我们通过拟议的评估度量对模拟器中的合成图像上的综合评估标准进行注释,以培训称为抽吸贪污U-Net ++(SG-U-Net ++)的自动编码器解码器。实验结果表明,我们直观的掌握质量评估度量与物理启发度量有竞争力。学习可达性有助于通过消除明显无法访问的候选者来减少运动规划计算时间。该系统实现了560pph(每小时碎片)的整体拾取速度。
translated by 谷歌翻译
我们提出了GRASP提案网络(GP-NET),这是一种卷积神经网络模型,可以为移动操纵器生成6-DOF GRASP。为了训练GP-NET,我们合成生成一个包含深度图像和地面真相掌握信息的数据集,以供超过1400个对象。在现实世界实验中,我们使用egad!掌握基准测试,以评估两种常用算法的GP-NET,即体积抓地力网络(VGN)和在PAL TIAGO移动操纵器上进行的GRASP抓取网络(VGN)和GRASP姿势检测包(GPD)。GP-NET的掌握率为82.2%,而VGN为57.8%,GPD的成功率为63.3%。与机器人握把中最新的方法相反,GP-NET可以在不限制工作空间的情况下使用移动操纵器抓住对象,用于抓住对象,需要桌子进行分割或需要高端GPU。为了鼓励使用GP-NET,我们在https://aucoroboticsmu.github.io/gp-net/上提供ROS包以及我们的代码和预培训模型。
translated by 谷歌翻译
形状通知如何将对象掌握,无论是如何以及如何。因此,本文介绍了一种基于分割的架构,用于将用深度摄像机进行分解为多个基本形状的对象,以及用于机器人抓握的后处理管道。分段采用深度网络,称为PS-CNN,在具有6个类的原始形状和使用模拟引擎生成的合成数据上培训。每个原始形状都设计有参数化掌握家族,允许管道识别每个形状区域的多个掌握候选者。掌握是排序的排名,选择用于执行的第一个可行的。对于无任务掌握单个对象,该方法达到94.2%的成功率将其放置在顶部执行掌握方法中,与自上而下和SE(3)基础相比。涉及变量观点和杂波的其他测试展示了设置的鲁棒性。对于面向任务的掌握,PS-CNN实现了93.0%的成功率。总体而言,结果支持该假设,即在抓地管道内明确地编码形状原语应该提高掌握性能,包括无任务和任务相关的掌握预测。
translated by 谷歌翻译
在本文中,我们探讨了机器人是否可以学会重新应用一组多样的物体以实现各种所需的掌握姿势。只要机器人的当前掌握姿势未能执行所需的操作任务,需要重新扫描。具有这种能力的赋予机器人具有在许多领域中的应用,例如制造或国内服务。然而,由于日常物体中的几何形状和状态和行动空间的高维度,这是一个具有挑战性的任务。在本文中,我们提出了一种机器人系统,用于将物体的部分点云和支持环境作为输入,输出序列和放置操作的序列来转换到所需的对象掌握姿势。关键技术包括神经稳定放置预测器,并通过利用和改变周围环境来引发基于图形的解决方案。我们介绍了一个新的和具有挑战性的合成数据集,用于学习和评估所提出的方法。我们展示了我们提出的系统与模拟器和现实世界实验的有效性。我们的项目网页上有更多视频和可视化示例。
translated by 谷歌翻译
成功掌握对象的能力在机器人中是至关重要的,因为它可以实现多个交互式下游应用程序。为此,大多数方法要么计算兴趣对象的完整6D姿势,要么学习预测一组掌握点。虽然前一种方法对多个对象实例或类没有很好地扩展,但后者需要大的注释数据集,并且受到新几何形状的普遍性能力差的阻碍。为了克服这些缺点,我们建议教授一个机器人如何用简单而简短的人类示范掌握一个物体。因此,我们的方法既不需要许多注释图像,也不限于特定的几何形状。我们首先介绍了一个小型RGB-D图像,显示人对象交互。然后利用该序列来构建表示所描绘的交互的相关手和对象网格。随后,我们完成重建对象形状的缺失部分,并估计了场景中的重建和可见对象之间的相对变换。最后,我们从物体和人手之间的相对姿势转移a-prioriz知识,随着当前对象在场景中的估计到机器人的必要抓握指令。与丰田的人类支持机器人(HSR)在真实和合成环境中的详尽评估证明了我们所提出的方法的适用性及其优势与以前的方法相比。
translated by 谷歌翻译
对于机器人来说,在混乱的场景中抓住检测是一项非常具有挑战性的任务。生成合成抓地数据是训练和测试抓握方法的流行方式,DEX-NET和GRASPNET也是如此。然而,这些方法在3D合成对象模型上生成了训练掌握,但是在具有不同分布的图像或点云上进行评估,从而降低了由于稀疏的掌握标签和协变量移位而在真实场景上的性能。为了解决现有的问题,我们提出了一种新型的policy抓取检测方法,该方法可以用RGB-D图像生成的密集像素级抓握标签对相同的分布进行训练和测试。提出了一种并行深度的掌握生成(PDG生成)方法,以通过并行的投射点的新成像模型生成平行的深度图像;然后,该方法为每个像素生成多个候选抓地力,并通过平坦检测,力闭合度量和碰撞检测获得可靠的抓地力。然后,构建并释放了大型综合像素级姿势数据集(PLGP数据集)。该数据集使用先前的数据集和稀疏的Grasp样品区分开,是第一个像素级掌握数据集,其上的分布分布基于深度图像生成了grasps。最后,我们建立和测试了一系列像素级的抓地力检测网络,并通过数据增强过程进行不平衡训练,该过程以输入RGB-D图像的方式学习抓握姿势。广泛的实验表明,我们的policy掌握方法可以在很大程度上克服模拟与现实之间的差距,并实现最新的性能。代码和数据可在https://github.com/liuchunsense/plgp-dataset上提供。
translated by 谷歌翻译
Cloth in the real world is often crumpled, self-occluded, or folded in on itself such that key regions, such as corners, are not directly graspable, making manipulation difficult. We propose a system that leverages visual and tactile perception to unfold the cloth via grasping and sliding on edges. By doing so, the robot is able to grasp two adjacent corners, enabling subsequent manipulation tasks like folding or hanging. As components of this system, we develop tactile perception networks that classify whether an edge is grasped and estimate the pose of the edge. We use the edge classification network to supervise a visuotactile edge grasp affordance network that can grasp edges with a 90% success rate. Once an edge is grasped, we demonstrate that the robot can slide along the cloth to the adjacent corner using tactile pose estimation/control in real time. See http://nehasunil.com/visuotactile/visuotactile.html for videos.
translated by 谷歌翻译
在机器人操作中,以前未见的新物体的自主抓住是一个持续的挑战。在过去的几十年中,已经提出了许多方法来解决特定机器人手的问题。最近引入的Unigrasp框架具有推广到不同类型的机器人抓手的能力。但是,此方法不适用于具有闭环约束的抓手,并且当应用于具有MultiGRASP配置的机器人手时,具有数据范围。在本文中,我们提出了有效绘制的,这是一种独立于抓手模型规范的广义掌握合成和抓地力控制方法。有效绘制利用抓地力工作空间功能,而不是Unigrasp的抓属属性输入。这在训练过程中将记忆使用量减少了81.7%,并可以推广到更多类型的抓地力,例如具有闭环约束的抓手。通过在仿真和现实世界中进行对象抓住实验来评估有效绘制的有效性;结果表明,所提出的方法在仅考虑没有闭环约束的抓手时也胜过Unigrasp。在这些情况下,有效抓取在产生接触点的精度高9.85%,模拟中的握把成功率提高了3.10%。现实世界实验是用带有闭环约束的抓地力进行的,而Unigrasp无法处理,而有效绘制的成功率达到了83.3%。分析了该方法的抓地力故障的主要原因,突出了增强掌握性能的方法。
translated by 谷歌翻译