在本文中,我们使用从低成本消费者RGB-D传感器获取的RGB-D数据提出蘑菇检测,定位和3D姿势估计算法。我们使用RGB和深度信息进行不同的目的。从RGB颜色,我们首先提取蘑菇的初始轮廓位置,然后将初始轮廓位置和原始图像提供给蘑菇分割的活动轮廓。然后将这些分段蘑菇用作每个蘑菇检测的圆形Hough变换的输入,包括其中心和半径。一旦RGB图像中的每个蘑菇的中心位置都是已知的,我们就会使用深度信息在3D空间中定位它,即在世界坐标系中。在每个蘑菇的检测到的中心缺少深度信息的情况下,我们从每个蘑菇的半径内的最近可用深度信息估计。我们还使用预先准备的直立蘑菇模型来估计每个蘑菇的3D姿势。我们使用全球注册,然后是本地精炼登记方法进行此3D姿势估计。从估计的3D姿势,我们仅使用四元素表示的旋转部分作为每个蘑菇的方向。这些估计(X,Y,Z)位置,直径和蘑菇的方向用于机器人拣选应用。我们对3D印刷和真正的蘑菇进行了广泛的实验,表明我们的方法具有有趣的性能。
translated by 谷歌翻译
多模式传感器的融合在自动驾驶和智能机器人中变得越来越流行,因为它可以比任何单个传感器提供更丰富的信息,从而在复杂的环境中增强可靠性。多传感器外部校准是传感器融合的关键因素之一。但是,由于传感器方式的种类以及对校准目标和人工的需求,这种校准很困难。在本文中,我们通过关注立体相机,热摄像机和激光传感器之间的外部转换,展示了一个新的无目标跨模式校准框架。具体而言,立体声和激光器之间的校准是通过最小化登记误差在3D空间中进行的,而通过优化边缘特征的对齐方式来估计其他两个传感器的热外部传感器。我们的方法不需要专门的目标,并且可以在没有人类相互作用的情况下进行一次镜头进行多传感器校准。实验结果表明,校准框架是准确且适用于一般场景的。
translated by 谷歌翻译
点对特征(PPF)广泛用于6D姿势估计。在本文中,我们提出了一种基于PPF框架的有效的6D姿势估计方法。我们介绍了一个目标良好的下采样策略,该策略更多地集中在边缘区域,以有效地提取复杂的几何形状。提出了一种姿势假设验证方法来通过计算边缘匹配度来解决对称歧义。我们对两个具有挑战性的数据集和一个现实世界中收集的数据集进行评估,这证明了我们方法对姿势估计几何复杂,遮挡,对称对象的优越性。我们通过将其应用于模拟穿刺来进一步验证我们的方法。
translated by 谷歌翻译
基于传感器的环境感知是自主驾驶系统的关键步骤,多个传感器之间的准确校准起着至关重要的作用。为了校准激光雷达和相机,现有方法通常是先校准相机的固有,然后校准激光雷达和相机的外部。如果在第一阶段无法正确校准摄像机的固有效果,则可以准确地校准激光镜相机外部校准并不容易。由于相机的复杂内部结构以及缺乏对摄像机内在校准的有效定量评估方法,因此在实际校准中,由于摄像机内在参数的微小误差,外部参数校准的准确性通常会降低。为此,我们提出了一种新型的基于目标的关节校准方法,用于摄像机内在和激光摄像机外部参数。首先,我们设计了一个新颖的校准板图案,在棋盘上增加了四个圆形孔,以定位激光姿势。随后,在棋盘板的再投影约束和圆形孔特征下定义的成本函数旨在求解相机的内在参数,失真因子和激光相机外部外部参数。最后,定量和定性实验是在实际和模拟环境中进行的,结果表明该方法可以达到准确性和鲁棒性能。开源代码可在https://github.com/opencalib/jointcalib上获得。
translated by 谷歌翻译
Estimating 6D poses of objects from images is an important problem in various applications such as robot manipulation and virtual reality. While direct regression of images to object poses has limited accuracy, matching rendered images of an object against the input image can produce accurate results. In this work, we propose a novel deep neural network for 6D pose matching named DeepIM. Given an initial pose estimation, our network is able to iteratively refine the pose by matching the rendered image against the observed image. The network is trained to predict a relative pose transformation using a disentangled representation of 3D location and 3D orientation and an iterative training process. Experiments on two commonly used benchmarks for 6D pose estimation demonstrate that DeepIM achieves large improvements over stateof-the-art methods. We furthermore show that DeepIM is able to match previously unseen objects.
translated by 谷歌翻译
广播视频中的运动场注册通常被解释为同型估算的任务,该任务在平面场和图像的相应可见区域之间提供了映射。与以前的方法相反,我们将任务视为摄像机校准问题。首先,我们引入了一个可区分的目标函数,该功能能够根据已知校准对象的片段,即运动领域的片段,从段对应(例如,线,点云)中学习相机姿势和焦距。 。校准模块迭代地最小化了由估计的摄像机参数引起的段重新投影误差。其次,我们提出了一种从广播足球图像中进行3D运动场注册的新方法。校准模块不需要任何训练数据,并且与典型的解决方案进行了比较,该解决方案随后完善了初始估计,我们的解决方案在一个步骤中进行。评估了所提出的方法在两个数据集上进行运动现场注册,并与两种最先进的方法相比,取得了优越的结果。
translated by 谷歌翻译
We introduce an approach for recovering the 6D pose of multiple known objects in a scene captured by a set of input images with unknown camera viewpoints. First, we present a single-view single-object 6D pose estimation method, which we use to generate 6D object pose hypotheses. Second, we develop a robust method for matching individual 6D object pose hypotheses across different input images in order to jointly estimate camera viewpoints and 6D poses of all objects in a single consistent scene. Our approach explicitly handles object symmetries, does not require depth measurements, is robust to missing or incorrect object hypotheses, and automatically recovers the number of objects in the scene. Third, we develop a method for global scene refinement given multiple object hypotheses and their correspondences across views. This is achieved by solving an object-level bundle adjustment problem that refines the poses of cameras and objects to minimize the reprojection error in all views. We demonstrate that the proposed method, dubbed Cosy-Pose, outperforms current state-of-the-art results for single-view and multi-view 6D object pose estimation by a large margin on two challenging benchmarks: the YCB-Video and T-LESS datasets. Code and pre-trained models are available on the project webpage. 5
translated by 谷歌翻译
Mohamed Bin Zayed国际机器人挑战(MBZIRC)2020为无人机(无人机)构成了不同的挑战。我们提供了四个量身定制的无人机,专门为MBZIRC的单独空中机器人任务开发,包括自定义硬件和软件组件。在挑战1中,使用高效率,车载对象检测管道进行目标UAV,以捕获来自目标UAV的球。第二个UAV使用类似的检测方法来查找和流行散落在整个竞技场的气球。对于挑战2,我们展示了一种能够自主空中操作的更大的无人机:从相机图像找到并跟踪砖。随后,将它们接近,挑选,运输并放在墙上。最后,在挑战3中,我们的UAV自动发现使用LIDAR和热敏摄像机的火灾。它用船上灭火器熄灭火灾。虽然每个机器人都具有任务特定的子系统,但所有无人机都依赖于为该特定和未来竞争开发的标准软件堆栈。我们介绍了我们最开源的软件解决方案,包括系统配置,监控,强大无线通信,高级控制和敏捷轨迹生成的工具。为了解决MBZirc 2020任务,我们在多个研究领域提出了机器视觉和轨迹生成的多个研究领域。我们介绍了我们的科学贡献,这些贡献构成了我们的算法和系统的基础,并分析了在阿布扎比的MBZIRC竞赛2020年的结果,我们的系统在大挑战中达到了第二名。此外,我们讨论了我们参与这种复杂的机器人挑战的经验教训。
translated by 谷歌翻译
休眠季节葡萄树修剪需要熟练的季节性工人,这在冬季变得越来越缺乏。随着在短期季节性招聘文化和低工资的短期季节性招聘文化和低工资的时间内,随着工人更少的葡萄藤,葡萄藤往往被修剪不一致地导致葡萄化物不平衡。除此之外,目前现有的机械方法无法选择性地修剪葡萄园和手动后续操作,通常需要进一步提高生产成本。在本文中,我们展示了崎岖,全自治机器人的设计和田间评估,用于休眠季节葡萄园的端到最终修剪。该设计的设计包括新颖的相机系统,运动冗余机械手,地面机器人和在感知系统中的新颖算法。所提出的研究原型机器人系统能够在213秒/葡萄藤中完全从两侧刺激一排藤蔓,总修枝精度为87%。与机械预灌浆试验相比,商业葡萄园中自治系统的初始现场测试显示出休眠季节修剪的显着变化。在手稿中描述了设计方法,系统组件,经验教训,未来增强以及简要的经济分析。
translated by 谷歌翻译
In this paper, we propose a novel 3D graph convolution based pipeline for category-level 6D pose and size estimation from monocular RGB-D images. The proposed method leverages an efficient 3D data augmentation and a novel vector-based decoupled rotation representation. Specifically, we first design an orientation-aware autoencoder with 3D graph convolution for latent feature learning. The learned latent feature is insensitive to point shift and size thanks to the shift and scale-invariance properties of the 3D graph convolution. Then, to efficiently decode the rotation information from the latent feature, we design a novel flexible vector-based decomposable rotation representation that employs two decoders to complementarily access the rotation information. The proposed rotation representation has two major advantages: 1) decoupled characteristic that makes the rotation estimation easier; 2) flexible length and rotated angle of the vectors allow us to find a more suitable vector representation for specific pose estimation task. Finally, we propose a 3D deformation mechanism to increase the generalization ability of the pipeline. Extensive experiments show that the proposed pipeline achieves state-of-the-art performance on category-level tasks. Further, the experiments demonstrate that the proposed rotation representation is more suitable for the pose estimation tasks than other rotation representations.
translated by 谷歌翻译
Three-dimensional (3D) technologies have been developing rapidly recent years, and have influenced industrial, medical, cultural, and many other fields. In this paper, we introduce an automatic 3D human head scanning-printing system, which provides a complete pipeline to scan, reconstruct, select, and finally print out physical 3D human heads. To enhance the accuracy of our system, we developed a consumer-grade composite sensor (including a gyroscope, an accelerometer, a digital compass, and a Kinect v2 depth sensor) as our sensing device. This sensing device is then mounted on a robot, which automatically rotates around the human subject with approximate 1-meter radius, to capture the full-view information. The data streams are further processed and fused into a 3D model of the subject using a tablet located on the robot. In addition, an automatic selection method, based on our specific system configurations, is proposed to select the head portion. We evaluated the accuracy of the proposed system by comparing our generated 3D head models, from both standard human head model and real human subjects, with the ones reconstructed from FastSCAN and Cyberware commercial laser scanning systems through computing and visualizing Hausdorff distances. Computational cost is also provided to further assess our proposed system.
translated by 谷歌翻译
在这项研究中,我们提出了一种新型的视觉定位方法,以根据RGB摄像机的可视数据准确估计机器人在3D激光镜头内的六个自由度(6-DOF)姿势。使用基于先进的激光雷达的同时定位和映射(SLAM)算法,可获得3D地图,能够收集精确的稀疏图。将从相机图像中提取的功能与3D地图的点进行了比较,然后解决了几何优化问题,以实现精确的视觉定位。我们的方法允许使用配备昂贵激光雷达的侦察兵机器人一次 - 用于映射环境,并且仅使用RGB摄像头的多个操作机器人 - 执行任务任务,其本地化精度高于常见的基于相机的解决方案。该方法在Skolkovo科学技术研究所(Skoltech)收集的自定义数据集上进行了测试。在评估本地化准确性的过程中,我们设法达到了厘米级的准确性;中间翻译误差高达1.3厘米。仅使用相机实现的确切定位使使用自动移动机器人可以解决需要高度本地化精度的最复杂的任务。
translated by 谷歌翻译
Using geometric landmarks like lines and planes can increase navigation accuracy and decrease map storage requirements compared to commonly-used LiDAR point cloud maps. However, landmark-based registration for applications like loop closure detection is challenging because a reliable initial guess is not available. Global landmark matching has been investigated in the literature, but these methods typically use ad hoc representations of 3D line and plane landmarks that are not invariant to large viewpoint changes, resulting in incorrect matches and high registration error. To address this issue, we adopt the affine Grassmannian manifold to represent 3D lines and planes and prove that the distance between two landmarks is invariant to rotation and translation if a shift operation is performed before applying the Grassmannian metric. This invariance property enables the use of our graph-based data association framework for identifying landmark matches that can subsequently be used for registration in the least-squares sense. Evaluated on a challenging landmark matching and registration task using publicly-available LiDAR datasets, our approach yields a 1.7x and 3.5x improvement in successful registrations compared to methods that use viewpoint-dependent centroid and "closest point" representations, respectively.
translated by 谷歌翻译
结合同时定位和映射(SLAM)估计和动态场景建模可以高效地在动态环境中获得机器人自主权。机器人路径规划和障碍避免任务依赖于场景中动态对象运动的准确估计。本文介绍了VDO-SLAM,这是一种强大的视觉动态对象感知SLAM系统,用于利用语义信息,使得能够在场景中进行准确的运动估计和跟踪动态刚性物体,而无需任何先前的物体形状或几何模型的知识。所提出的方法识别和跟踪环境中的动态对象和静态结构,并将这些信息集成到统一的SLAM框架中。这导致机器人轨迹的高度准确估计和对象的全部SE(3)运动以及环境的时空地图。该系统能够从对象的SE(3)运动中提取线性速度估计,为复杂的动态环境中的导航提供重要功能。我们展示了所提出的系统对许多真实室内和室外数据集的性能,结果表明了对最先进的算法的一致和实质性的改进。可以使用源代码的开源版本。
translated by 谷歌翻译
本文介绍了使用腿收割机进行精密收集任务的集成系统。我们的收割机在狭窄的GPS拒绝了森林环境中的自主导航和树抓取了一项挑战性的任务。提出了映射,本地化,规划和控制的策略,并集成到完全自主系统中。任务从使用定制的传感器模块开始使用人员映射感兴趣区域。随后,人类专家选择树木进行收获。然后将传感器模块安装在机器上并用于给定地图内的本地化。规划算法在单路径规划问题中搜索一个方法姿势和路径。我们设计了一个路径,后面的控制器利用腿的收割机的谈判粗糙地形的能力。在达接近姿势时,机器用通用夹具抓住一棵树。此过程重复操作员选择的所有树。我们的系统已经在与树干和自然森林中的测试领域进行了测试。据我们所知,这是第一次在现实环境中运行的全尺寸液压机上显示了这一自主权。
translated by 谷歌翻译
由于扭曲钻的结构复杂,因此对于其同轴误差测量是艰难和挑战的。本文提出了一种新颖的扭转钻头同轴误差测量的新机理,框架和方法。该机构包括编码器,PLC控制器,线结构传感器和高精度转盘。首先,当钻头转动PLC的控制时,通过线结构光传感器收集扭转钻头的轮廓点云数据。其次,研究了基于GMM的基于GMM的基于GMM的点云分割算法,基于局部深度特征来提取刀片背面数据。为了提高测量精度,设计统计滤波器以在目标区域提取期间去除异常值。然后,根据同轴性误差的两个特征,提出了一种基于轴对称轮廓差异的正交合成的轴重建方法,便于预先定位钻轴的最大偏差横截面。最后,通过在预先定位的最大偏差位置拟合基准轴和轴来测量同轴误差。最后,进行了大量实验,并表明我们的方法是准确性和鲁棒性。
translated by 谷歌翻译
6D object pose estimation has been a research topic in the field of computer vision and robotics. Many modern world applications like robot grasping, manipulation, autonomous navigation etc, require the correct pose of objects present in a scene to perform their specific task. It becomes even harder when the objects are placed in a cluttered scene and the level of occlusion is high. Prior works have tried to overcome this problem but could not achieve accuracy that can be considered reliable in real-world applications. In this paper, we present an architecture that, unlike prior work, is context-aware. It utilizes the context information available to us about the objects. Our proposed architecture treats the objects separately according to their types i.e; symmetric and non-symmetric. A deeper estimator and refiner network pair is used for non-symmetric objects as compared to symmetric due to their intrinsic differences. Our experiments show an enhancement in the accuracy of about 3.2% over the LineMOD dataset, which is considered a benchmark for pose estimation in the occluded and cluttered scenes, against the prior state-of-the-art DenseFusion. Our results also show that the inference time we got is sufficient for real-time usage.
translated by 谷歌翻译
培训和测试监督对象检测模型需要大量带有地面真相标签的图像。标签定义图像中的对象类及其位置,形状以及可能的其他信息,例如姿势。即使存在人力,标签过程也非常耗时。我们引入了一个新的标签工具,用于2D图像以及3D三角网格:3D标记工具(3DLT)。这是一个独立的,功能丰富和跨平台软件,不需要安装,并且可以在Windows,MacOS和基于Linux的发行版上运行。我们不再像当前工具那样在每个图像上分别标记相同的对象,而是使用深度信息从上述图像重建三角形网格,并仅在上述网格上标记一次对象。我们使用注册来简化3D标记,离群值检测来改进2D边界框的计算和表面重建,以将标记可能性扩展到大点云。我们的工具经过最先进的方法测试,并且在保持准确性和易用性的同时,它极大地超过了它们。
translated by 谷歌翻译
光有许多可以通过视觉传感器被动测量的特性。色带分离波长和强度可以说是单眼6D对象姿态估计的最常用的波长。本文探讨了互补偏振信息的互补信息,即光波振荡的方向,可以影响姿态预测的准确性。一种混合模型,利用数据驱动的学习策略共同利用物理代理,并在具有不同量的光度复杂度的物体上进行设计和仔细测试。我们的设计不仅显着提高了与光度 - 最先进的方法相关的姿态精度,而且还使对象姿势估计用于高反射性和透明的物体。
translated by 谷歌翻译
尽管常规机器人系统中的每个不同任务都需要专用的场景表示形式,但本文表明,统一表示形式可以直接用于多个关键任务。我们提出了用于映射,进程和计划(LOG-GPIS-MOP)的log-gaussian过程隐式表面:基于统一表示形式的表面重建,本地化和导航的概率框架。我们的框架将对数转换应用于高斯过程隐式表面(GPIS)公式,以恢复全局表示,该表示可以准确地捕获具有梯度的欧几里得距离场,同时又是隐式表面。通过直接估计距离字段及其通过LOG-GPIS推断的梯度,提出的增量进程技术计算出传入帧的最佳比对,并在全球范围内融合以生成MAP。同时,基于优化的计划者使用相同的LOG-GPIS表面表示计算安全的无碰撞路径。我们根据最先进的方法验证了2D和3D和3D和基准测试的模拟和真实数据集的拟议框架。我们的实验表明,LOG-GPIS-MOP在顺序的音程,表面映射和避免障碍物中产生竞争结果。
translated by 谷歌翻译