在机器人和计算机视觉社区中,6D对象姿态跟踪已被广泛研究。最有前途的解决方案,利用深度神经网络和/或过滤和优化,在标准基准上表现出显着的性能。然而,为了我们的最佳知识,这些尚未对快速的对象动作彻底进行测试。在这种情况下跟踪性能显着降低,特别是对于未实现实时性能并引入不可忽略的延迟的方法。在这项工作中,我们介绍了RGB-D图像流的6D对象姿势和速度跟踪的卡尔曼滤波方法。通过利用实时光流,Roft使低帧速率卷积神经网络的延迟输出与RGB-D输入流的实例分段和6D对象姿态估计实现快速和精确的6D对象姿势和速度跟踪。我们在新引入的照片型数据集中测试我们的方法,Fast-YCB,包括来自YCB模型集的快速移动对象,以及对象的数据集和手动姿势估计HO-3D。结果表明,我们的方法优于6D对象姿势跟踪的最先进方法,同时还提供6D对象速度跟踪。显示实验的视频作为补充材料提供。
translated by 谷歌翻译
结合同时定位和映射(SLAM)估计和动态场景建模可以高效地在动态环境中获得机器人自主权。机器人路径规划和障碍避免任务依赖于场景中动态对象运动的准确估计。本文介绍了VDO-SLAM,这是一种强大的视觉动态对象感知SLAM系统,用于利用语义信息,使得能够在场景中进行准确的运动估计和跟踪动态刚性物体,而无需任何先前的物体形状或几何模型的知识。所提出的方法识别和跟踪环境中的动态对象和静态结构,并将这些信息集成到统一的SLAM框架中。这导致机器人轨迹的高度准确估计和对象的全部SE(3)运动以及环境的时空地图。该系统能够从对象的SE(3)运动中提取线性速度估计,为复杂的动态环境中的导航提供重要功能。我们展示了所提出的系统对许多真实室内和室外数据集的性能,结果表明了对最先进的算法的一致和实质性的改进。可以使用源代码的开源版本。
translated by 谷歌翻译
Estimating 6D poses of objects from images is an important problem in various applications such as robot manipulation and virtual reality. While direct regression of images to object poses has limited accuracy, matching rendered images of an object against the input image can produce accurate results. In this work, we propose a novel deep neural network for 6D pose matching named DeepIM. Given an initial pose estimation, our network is able to iteratively refine the pose by matching the rendered image against the observed image. The network is trained to predict a relative pose transformation using a disentangled representation of 3D location and 3D orientation and an iterative training process. Experiments on two commonly used benchmarks for 6D pose estimation demonstrate that DeepIM achieves large improvements over stateof-the-art methods. We furthermore show that DeepIM is able to match previously unseen objects.
translated by 谷歌翻译
估计没有先验知识的新对象的相对姿势是一个困难的问题,而它是机器人技术和增强现实中非常需要的能力。我们提出了一种方法,可以在训练图像和对象的3D几何形状都没有可用时跟踪对象中对象的6D运动。因此,与以前的作品相反,我们的方法可以立即考虑开放世界中的未知对象,而无需任何先前的信息或特定的培训阶段。我们考虑两个架构,一个基于两个帧,另一个依赖于变压器编码器,它们可以利用任意数量的过去帧。我们仅使用具有域随机化的合成渲染训练架构。我们在具有挑战性的数据集上的结果与以前需要更多信息的作品(训练目标对象,3D模型和/或深度数据的培训图像)相当。我们的源代码可从https://github.com/nv-nguyen/pizza获得
translated by 谷歌翻译
本文提出了一种类别级别的6D对象姿势和形状估计方法IDAPS,其允许在类别中跟踪6D姿势并估计其3D形状。我们使用深度图像作为输入开发类别级别自动编码器网络,其中来自自动编码器编码的特征嵌入在类别中对象的姿势。自动编码器可用于粒子过滤器框架,以估计和跟踪类别中的对象的姿势。通过利用基于符号距离函数的隐式形状表示,我们构建延迟网络以估计给定对象的估计姿势的3D形状的潜在表示。然后,估计的姿势和形状可用于以迭代方式互相更新。我们的类别级别6D对象姿势和形状估计流水线仅需要2D检测和分段进行初始化。我们在公开的数据集中评估我们的方法,并展示其有效性。特别是,我们的方法在形状估计上实现了相对高的准确性。
translated by 谷歌翻译
基于学习的视觉自我运动估计是有希望的,但尚未准备好在现实世界中浏览敏捷的移动机器人。在本文中,我们提出了Cuahn-Vio,这是一款适用于配备了向下式摄像头的微型航空车(MAVS)的强大而有效的单眼视觉惯性镜(VIO)。视觉前端是一个内容和不确定性的同型同构网络(CUAHN),它对非主体摄影图像内容和网络预测的故障案例非常有力。它不仅可以预测截然变换,还可以估计其不确定性。培训是自学的,因此它不需要通常难以获得的地面真理。该网络具有良好的概括,可以在不进行微调的情况下在新环境中部署“插件”。轻巧的扩展卡尔曼过滤器(EKF)用作VIO后端,并利用网络中的平均预测和方差估计进行视觉测量更新。 Cuahn-Vio在高速公共数据集上进行了评估,并显示出与最先进(SOTA)VIO方法的竞争精度。由于运动模糊,低网络推理时间(〜23ms)和稳定的处理延迟(〜26ms),Cuahn-Vio成功运行了NVIDIA JETSON TX2嵌入式处理器,以导航快速自动驾驶MAV。
translated by 谷歌翻译
现代视觉惯性导航系统(VINS)面临着实际部署中的一个关键挑战:他们需要在高度动态的环境中可靠且强大地运行。当前最佳解决方案仅根据对象类别的语义将动态对象过滤为异常值。这样的方法不缩放,因为它需要语义分类器来包含所有可能移动的对象类;这很难定义,更不用说部署。另一方面,许多现实世界的环境以墙壁和地面等平面形式表现出强大的结构规律,这也是至关重要的。我们呈现RP-VIO,一种单眼视觉惯性内径系统,可以利用这些平面的简单几何形状,以改善充满活力环境的鲁棒性和准确性。由于现有数据集具有有限数量的动态元素,因此我们还提供了一种高动态的光致态度合成数据集,用于更有效地对现代VINS系统的功能的评估。我们评估我们在该数据集中的方法,以及来自标准数据集的三个不同序列,包括两个真实的动态序列,并在最先进的单眼视觉惯性内径系统上显示出鲁棒性和准确性的显着提高。我们还显示在模拟中,通过简单的动态特征掩蔽方法改进。我们的代码和数据集是公开可用的。
translated by 谷歌翻译
Simultaneous Localization & Mapping (SLAM) is the process of building a mutual relationship between localization and mapping of the subject in its surrounding environment. With the help of different sensors, various types of SLAM systems have developed to deal with the problem of building the relationship between localization and mapping. A limitation in the SLAM process is the lack of consideration of dynamic objects in the mapping of the environment. We propose the Dynamic Object Tracking SLAM (DyOb-SLAM), which is a Visual SLAM system that can localize and map the surrounding dynamic objects in the environment as well as track the dynamic objects in each frame. With the help of a neural network and a dense optical flow algorithm, dynamic objects and static objects in an environment can be differentiated. DyOb-SLAM creates two separate maps for both static and dynamic contents. For the static features, a sparse map is obtained. For the dynamic contents, a trajectory global map is created as output. As a result, a frame to frame real-time based dynamic object tracking system is obtained. With the pose calculation of the dynamic objects and camera, DyOb-SLAM can estimate the speed of the dynamic objects with time. The performance of DyOb-SLAM is observed by comparing it with a similar Visual SLAM system, VDO-SLAM and the performance is measured by calculating the camera and object pose errors as well as the object speed error.
translated by 谷歌翻译
从RGB图像中对刚性对象进行精确的6D构成估计是机器人技术和增强现实中的一项至关重要的任务。为了解决这个问题,我们提出了DeepRM,这是一种新型的经过精炼的新型经过的网络体系结构。 DeepRM利用初始粗姿势估计来渲染目标对象的合成图像。然后将渲染图像与观察到的图像匹配,以预测更新先前姿势估计值的刚性变换。重复此过程以逐步完善每次迭代的估计值。 LSTM单元用于通过每个完善步骤来传播信息,从而显着提高整体性能。与许多基于2阶段的透视点解决方案相反,DEEPRM是端到端训练的,并使用可扩展的主链,可以通过单个参数调整以提高准确性和效率。在训练过程中,添加了多尺度的光流头,以预测观察到的和合成图像之间的光流。光流预测稳定了训练过程,并强制学习与姿势估计任务相关的功能。我们的结果表明,DEEPRM在两个广泛接受的具有挑战性的数据集上实现了最先进的性能。
translated by 谷歌翻译
We introduce an approach for recovering the 6D pose of multiple known objects in a scene captured by a set of input images with unknown camera viewpoints. First, we present a single-view single-object 6D pose estimation method, which we use to generate 6D object pose hypotheses. Second, we develop a robust method for matching individual 6D object pose hypotheses across different input images in order to jointly estimate camera viewpoints and 6D poses of all objects in a single consistent scene. Our approach explicitly handles object symmetries, does not require depth measurements, is robust to missing or incorrect object hypotheses, and automatically recovers the number of objects in the scene. Third, we develop a method for global scene refinement given multiple object hypotheses and their correspondences across views. This is achieved by solving an object-level bundle adjustment problem that refines the poses of cameras and objects to minimize the reprojection error in all views. We demonstrate that the proposed method, dubbed Cosy-Pose, outperforms current state-of-the-art results for single-view and multi-view 6D object pose estimation by a large margin on two challenging benchmarks: the YCB-Video and T-LESS datasets. Code and pre-trained models are available on the project webpage. 5
translated by 谷歌翻译
We propose a method for in-hand 3D scanning of an unknown object from a sequence of color images. We cast the problem as reconstructing the object surface from un-posed multi-view images and rely on a neural implicit surface representation that captures both the geometry and the appearance of the object. By contrast with most NeRF-based methods, we do not assume that the camera-object relative poses are known and instead simultaneously optimize both the object shape and the pose trajectory. As global optimization over all the shape and pose parameters is prone to fail without coarse-level initialization of the poses, we propose an incremental approach which starts by splitting the sequence into carefully selected overlapping segments within which the optimization is likely to succeed. We incrementally reconstruct the object shape and track the object poses independently within each segment, and later merge all the segments by aligning poses estimated at the overlapping frames. Finally, we perform a global optimization over all the aligned segments to achieve full reconstruction. We experimentally show that the proposed method is able to reconstruct the shape and color of both textured and challenging texture-less objects, outperforms classical methods that rely only on appearance features, and its performance is close to recent methods that assume known camera poses.
translated by 谷歌翻译
在接受高质量的地面真相(如LiDAR数据)培训时,监督的学习深度估计方法可以实现良好的性能。但是,LIDAR只能生成稀疏的3D地图,从而导致信息丢失。每个像素获得高质量的地面深度数据很难获取。为了克服这一限制,我们提出了一种新颖的方法,将有前途的平面和视差几何管道与深度信息与U-NET监督学习网络相结合的结构信息结合在一起,与现有的基于流行的学习方法相比,这会导致定量和定性的改进。特别是,该模型在两个大规模且具有挑战性的数据集上进行了评估:Kitti Vision Benchmark和CityScapes数据集,并在相对错误方面取得了最佳性能。与纯深度监督模型相比,我们的模型在薄物体和边缘的深度预测上具有令人印象深刻的性能,并且与结构预测基线相比,我们的模型的性能更加强大。
translated by 谷歌翻译
在本文中,通过以自我监督的方式将基于几何的方法纳入深度学习架构来实现强大的视觉测量(VO)的基本问题。通常,基于纯几何的算法与特征点提取和匹配中的深度学习不那么稳健,但由于其成熟的几何理论,在自我运动估计中表现良好。在这项工作中,首先提出了一种新颖的光学流量网络(PANET)内置于位置感知机构。然后,提出了一种在没有典型网络的情况下共同估计深度,光学流动和自我运动来学习自我运动的新系统。所提出的系统的关键组件是一种改进的束调节模块,其包含多个采样,初始化的自我运动,动态阻尼因子调整和Jacobi矩阵加权。另外,新颖的相对光度损耗函数先进以提高深度估计精度。该实验表明,所提出的系统在基于基于基于基于基于基于基于基于学习的基于学习的方法之间的深度,流量和VO估计方面不仅优于其他最先进的方法,而且与几何形状相比,也显着提高了鲁棒性 - 基于,基于学习和混合VO系统。进一步的实验表明,我们的模型在挑战室内(TMU-RGBD)和室外(KAIST)场景中实现了出色的泛化能力和性能。
translated by 谷歌翻译
在本文中,我们提出了一个紧密耦合的视觉惯性对象级多效性动态大满贯系统。即使在极其动态的场景中,它也可以为摄像机姿势,速度,IMU偏见并构建一个密集的3D重建对象级映射图。我们的系统可以通过稳健的传感器和对象跟踪,可以强牢固地跟踪和重建任意对象的几何形状,其语义和运动的几何形状,其语义和运动的几何形状,并通过逐步融合相关的颜色,深度,语义和前景对象概率概率。此外,当对象在视野视野外丢失或移动时,我们的系统可以在重新观察时可靠地恢复其姿势。我们通过定量和定性测试现实世界数据序列来证明我们方法的鲁棒性和准确性。
translated by 谷歌翻译
由于其对环境变化的鲁棒性,视觉猛感的间接方法是受欢迎的。 ORB-SLAM2 \ CITE {ORBSLM2}是该域中的基准方法,但是,除非选择帧作为关键帧,否则它会消耗从未被重用的描述符。轻量级和高效,因为它跟踪相邻帧之间的关键点而不计算描述符。为此,基于稀疏光流提出了一种两个级粗到微小描述符独立的Keypoint匹配方法。在第一阶段,我们通过简单但有效的运动模型预测初始关键点对应,然后通过基于金字塔的稀疏光流跟踪鲁棒地建立了对应关系。在第二阶段,我们利用运动平滑度和末端几何形状的约束来改进对应关系。特别是,我们的方法仅计算关键帧的描述符。我们在\ texit {tum}和\ texit {icl-nuim} RGB-D数据集上测试Fastorb-Slam,并将其准确性和效率与九种现有的RGB-D SLAM方法进行比较。定性和定量结果表明,我们的方法实现了最先进的准确性,并且大约是ORB-SLAM2的两倍。
translated by 谷歌翻译
我们提出了场景运动的新颖双流表示,将光流分​​解为由摄像机运动引起的静态流场和另一个由场景中对象的运动引起的动态流场。基于此表示形式,我们提出了一个动态的大满贯,称为Deflowslam,它利用图像中的静态和动态像素来求解相机的姿势,而不是像其他动态SLAM系统一样简单地使用静态背景像素。我们提出了一个动态更新模块,以一种自我监督的方式训练我们的Deflowslam,其中密集的束调节层采用估计的静态流场和由动态掩码控制的权重,并输出优化的静态流动场的残差,相机姿势的残差,和反度。静态和动态流场是通过将当前图像翘曲到相邻图像来估计的,并且可以通过将两个字段求和来获得光流。广泛的实验表明,在静态场景和动态场景中,Deflowslam可以很好地推广到静态和动态场景,因为它表现出与静态和动态较小的场景中最先进的Droid-Slam相当的性能,同时在高度动态的环境中表现出明显优于Droid-Slam。代码和数据可在项目网页上找到:\ urlstyle {tt} \ textColor {url_color} {\ url {https://zju3dv.github.io/deflowslam/}}}。
translated by 谷歌翻译
对世界的丰富几何理解是许多机器人应用(例如计划和操纵)的重要组成部分。在本文中,我们提出了一个模块化管道,用于鉴于其类别的RGB-D图像的姿势和形状估计。我们方法的核心是一种生成形状模型,我们将其与新的初始化网络集成在一起,并具有可区分的渲染器,以从单个或多个视图中启用6D姿势和形状估计。我们研究了离散的签名距离字段作为有效的形状表示,以通过合成优化快速分析。我们的模块化框架可以实现多视图优化和可扩展性。我们证明了在合成和真实数据的几种实验中,我们的方法比最先进的方法的好处。我们在https://github.com/roym899/sdfest上开放我们的方法。
translated by 谷歌翻译
完全自主移动机器人的现实部署取决于能够处理动态环境的强大的大满贯(同时本地化和映射)系统,其中对象在机器人的前面移动以及不断变化的环境,在此之后移动或更换对象。机器人已经绘制了现场。本文介绍了更换式SLAM,这是一种在动态和不断变化的环境中强大的视觉猛烈抨击的方法。这是通过使用与长期数据关联算法结合的贝叶斯过滤器来实现的。此外,它采用了一种有效的算法,用于基于对象检测的动态关键点过滤,该对象检测正确识别了不动态的边界框中的特征,从而阻止了可能导致轨道丢失的功能的耗竭。此外,开发了一个新的数据集,其中包含RGB-D数据,专门针对评估对象级别的变化环境,称为PUC-USP数据集。使用移动机器人,RGB-D摄像头和运动捕获系统创建了六个序列。这些序列旨在捕获可能导致跟踪故障或地图损坏的不同情况。据我们所知,更换 - 峰是第一个对动态和不断变化的环境既有坚固耐用的视觉大满贯系统,又不假设给定的相机姿势或已知地图,也能够实时运行。使用基准数据集对所提出的方法进行了评估,并将其与其他最先进的方法进行了比较,证明是高度准确的。
translated by 谷歌翻译
我们提出了一种称为DPODV2(密集姿势对象检测器)的三个阶段6 DOF对象检测方法,该方法依赖于致密的对应关系。我们将2D对象检测器与密集的对应关系网络和多视图姿势细化方法相结合,以估计完整的6 DOF姿势。与通常仅限于单眼RGB图像的其他深度学习方法不同,我们提出了一个统一的深度学习网络,允许使用不同的成像方式(RGB或DEPTH)。此外,我们提出了一种基于可区分渲染的新型姿势改进方法。主要概念是在多个视图中比较预测并渲染对应关系,以获得与所有视图中预测的对应关系一致的姿势。我们提出的方法对受控设置中的不同数据方式和培训数据类型进行了严格的评估。主要结论是,RGB在对应性估计中表现出色,而如果有良好的3D-3D对应关系,则深度有助于姿势精度。自然,他们的组合可以实现总体最佳性能。我们进行广泛的评估和消融研究,以分析和验证几个具有挑战性的数据集的结果。 DPODV2在所有这些方面都取得了出色的成果,同时仍然保持快速和可扩展性,独立于使用的数据模式和培训数据的类型
translated by 谷歌翻译
贝叶斯过滤器的测量更新规则通常包含手工制作的启发式,以计算高维传感器数据的观察概率,如图像。在这项工作中,我们提出了新颖的方法深度测量更新(DMU)作为广泛系统的一般更新规则。 DMU具有条件编码器 - 解码器神经网络结构,用于处理深度图像作为原始输入。尽管网络仅在合成数据上培训,但该模型在真实数据上的评估时间下显示出良好的性能。通过我们提出的培训计划引发数据培训,我们展示了如何有效地培训DMU模型对条件变量敏感,而无需依赖于随机信息瓶颈。我们在多种情况下验证提出的方法,从而增加了复杂性的姿势,从单个物体的姿势估计开始到姿势的关节估计和铰接系统的内部状态。此外,我们在RBO数据集上提供反对铰接的符号距离功能(A-SDF)的基准,作为关节状态估计的基线比较。
translated by 谷歌翻译