形状和姿势估计是自动驾驶汽车充分了解其周围环境的关键感知问题。解决此问题的一个基本挑战是不完整的传感器信号(例如Lidar扫描),尤其是对于遥远或遮挡的物体。在本文中,我们提出了一种新的算法来应对这一挑战,该挑战明确利用了连续捕获的传感器信号:连续信号可以提供有关对象的更多信息,包括不同的观点及其运动。通过通过经常性神经网络编码连续的信号,我们的算法不仅可以改善形状和姿势估计,而且还会产生一种标签工具,可以使自主驱动研究中的其他任务受益。具体而言,在我们的算法上,我们提出了一条新型的管道,以自动注释高质量的标签,以进行图像上的Amodal分割,这很难手动注释。我们的代码和数据将公开可用。
translated by 谷歌翻译
在城市环境中导航时,许多需要跟踪和避免的对象严重封闭。使用这些部分扫描的规划和跟踪可能具有挑战性。这项工作的目的是学习完成这些部分点云,让我们仅仅使用部分观测全面了解对象的几何。以前的方法在目标对象的完整地面注释的帮助下实现了此目的,这些方法仅适用于模拟数据集。但是,真实的真相对于现实世界的LIDAR数据不可用。在这项工作中,我们介绍了一个自我监督的点云完成算法,Pointpncnet,仅在部分扫描上培训,而无需采取完整的地面说明注释。我们的方法通过修正来实现这一目标。我们删除了一部分输入数据并培训网络以完成丢失的区域。由于难以确定在初始云中被封闭的区域并且综合地删除了哪些区域,我们的网络了解完成完整的云,包括初始部分云中的缺失区域。我们展示我们的方法优于以前在合成数据集,ShoceEnet和现实世界Lidar DataSet,语义基提上的未经监督和弱监督的方法。
translated by 谷歌翻译
从杂乱场景跟踪和重建3D对象是计算机视觉,机器人和自主驾驶系统的关键组件。虽然最近隐含功能的进展(例如,Deepsdf)已经显示出令人鼓舞的高质量3D形状重建结果,但仍然非常具有挑战性,以概括为杂乱和部分可观察的LIDAR数据。在本文中,我们建议利用视频数据的连续性。我们介绍了一种新颖和统一的框架,它利用DeepsDF模型来同时跟踪和重建野外的3D对象。我们在线调整视频中的DeepsDF模型,迭代改善形状重建,同时在返回改进跟踪时,反之亦然。我们试验Waymo和Kitti数据集,并对跟踪和形状重建的最先进方法显着改进。
translated by 谷歌翻译
每个自动驾驶数据集都有不同的传感器配置,源自不同的地理区域并涵盖各种情况。结果,3D检测器倾向于过度拟合他们的数据集。当在一个数据集上训练检测器并在另一个数据集上进行测试时,这会导致精度急剧下降。我们观察到激光扫描模式差异构成了这种降低性能的很大组成部分。我们通过设计一个新颖的以观看者为中心的表面完成网络(VCN)来完成我们的方法,以在无监督的域适应框架内完成感兴趣的对象表面,从而解决此问题。使用See-VCN,我们获得了跨数据集的对象的统一表示,从而使网络可以专注于学习几何形状,而不是过度拟合扫描模式。通过采用域不变表示,可以将SEE-VCN归类为一种多目标域适应方法,在该方法中无需注释或重新训练才能获得新的扫描模式的3D检测。通过广泛的实验,我们表明我们的方法在多个域适应设置中优于先前的域适应方法。我们的代码和数据可在https://github.com/darrenjkt/see-vcn上找到。
translated by 谷歌翻译
本文提出了一种类别级别的6D对象姿势和形状估计方法IDAPS,其允许在类别中跟踪6D姿势并估计其3D形状。我们使用深度图像作为输入开发类别级别自动编码器网络,其中来自自动编码器编码的特征嵌入在类别中对象的姿势。自动编码器可用于粒子过滤器框架,以估计和跟踪类别中的对象的姿势。通过利用基于符号距离函数的隐式形状表示,我们构建延迟网络以估计给定对象的估计姿势的3D形状的潜在表示。然后,估计的姿势和形状可用于以迭代方式互相更新。我们的类别级别6D对象姿势和形状估计流水线仅需要2D检测和分段进行初始化。我们在公开的数据集中评估我们的方法,并展示其有效性。特别是,我们的方法在形状估计上实现了相对高的准确性。
translated by 谷歌翻译
了解场景是自主导航车辆的关键,以及在线将周围环境分段为移动和非移动物体的能力是这项任务的中央成分。通常,基于深度学习的方法用于执行移动对象分段(MOS)。然而,这些网络的性能强烈取决于标记培训数据的多样性和数量,可以获得昂贵的信息。在本文中,我们提出了一种自动数据标记管道,用于3D LIDAR数据,以节省广泛的手动标记工作,并通过自动生成标记的训练数据来提高现有的基于学习的MOS系统的性能。我们所提出的方法通过批量处理数据来实现数据。首先利用基于占用的动态对象拆除以粗略地检测可能的动态物体。其次,它提取了提案中的段,并使用卡尔曼滤波器跟踪它们。基于跟踪的轨迹,它标记了实际移动的物体,如驾驶汽车和行人。相反,非移动物体,例如,停放的汽车,灯,道路或建筑物被标记为静态。我们表明,这种方法允许我们高效地标记LIDAR数据,并将我们的结果与其他标签生成方法的结果进行比较。我们还使用自动生成的标签培训深度神经网络,并与在同一数据上的手动标签上接受过的手动标签的培训相比,实现了类似的性能,以及使用我们方法生成的标签的其他数据集时更好的性能。此外,我们使用不同的传感器评估我们在多个数据集上的方法,我们的实验表明我们的方法可以在各种环境中生成标签。
translated by 谷歌翻译
我们提出了一种新的方法,用于从室内环境中的RGB-D序列进行连接3D多对象跟踪和重建。为此,我们在每个帧中检测并重建对象,同时预测密集的对应关系映射到归一化对象空间中。我们利用这些对应关系来告知图神经网络,以解决所有对象的最佳,时间一致的7-DOF姿势轨迹。我们方法的新颖性是两个方面:首先,我们提出了一种基于图的新方法,用于随着时间的流逝而进行区分姿势估计,以学习最佳的姿势轨迹。其次,我们提出了沿时间轴的重建和姿势估计的联合公式,以实现健壮和几何一致的多对象跟踪。为了验证我们的方法,我们引入了一个新的合成数据集,其中包含2381个唯一室内序列,总共有60k渲染的RGB-D图像,用于多对象跟踪,并带有移动对象和来自合成3D-Front数据集的相机位置。我们证明,与现有最新方法相比,我们的方法将所有测试序列的累积MOTA得分提高了24.8%。在关于合成和现实世界序列的几个消融中,我们表明我们的基于图的完全端到端学习方法可以显着提高跟踪性能。
translated by 谷歌翻译
Our dataset provides dense annotations for each scan of all sequences from the KITTI Odometry Benchmark [19]. Here, we show multiple scans aggregated using pose information estimated by a SLAM approach.
translated by 谷歌翻译
Shape completion, the problem of estimating the complete geometry of objects from partial observations, lies at the core of many vision and robotics applications. In this work, we propose Point Completion Network (PCN), a novel learning-based approach for shape completion. Unlike existing shape completion methods, PCN directly operates on raw point clouds without any structural assumption (e.g. symmetry) or annotation (e.g. semantic class) about the underlying shape. It features a decoder design that enables the generation of fine-grained completions while maintaining a small number of parameters. Our experiments show that PCN produces dense, complete point clouds with realistic structures in the missing regions on inputs with various levels of incompleteness and noise, including cars from LiDAR scans in the KITTI dataset. Code, data and trained models are available at https://wentaoyuan.github.io/pcn.
translated by 谷歌翻译
在自动驾驶汽车和移动机器人上使用的多光束liDAR传感器可获得3D范围扫描的序列(“帧”)。由于有限的角度扫描分辨率和阻塞,每个框架都稀疏地覆盖了场景。稀疏性限制了语义分割或表面重建等下游过程的性能。幸运的是,当传感器移动时,帧将从一系列不同的观点捕获。这提供了互补的信息,当积累在公共场景坐标框架中时,会产生更密集的采样和对基础3D场景的更完整覆盖。但是,扫描场景通常包含移动对象。这些对象上的点不能仅通过撤消扫描仪的自我运动来正确对齐。在本文中,我们将多帧点云积累作为3D扫描序列的中级表示,并开发了一种利用室外街道场景的感应偏见的方法,包括其几何布局和对象级刚性。与最新的场景流估计器相比,我们提出的方法旨在使所有3D点在共同的参考框架中对齐,以正确地积累各个对象上的点。我们的方法大大减少了几个基准数据集上的对齐错误。此外,累积的点云使诸如表面重建之类的高级任务受益。
translated by 谷歌翻译
基于LIDAR的传感驱动器电流自主车辆。尽管进展迅速,但目前的激光雷达传感器在分辨率和成本方面仍然落后于传统彩色相机背后的二十年。对于自主驾驶,这意味着靠近传感器的大物体很容易可见,但远方或小物体仅包括一个测量或两个。这是一个问题,尤其是当这些对象结果驾驶危险时。另一方面,在车载RGB传感器中清晰可见这些相同的对象。在这项工作中,我们提出了一种将RGB传感器无缝熔化成基于LIDAR的3D识别方法。我们的方法采用一组2D检测来生成密集的3D虚拟点,以增加否则稀疏的3D点云。这些虚拟点自然地集成到任何基于标准的LIDAR的3D探测器以及常规激光雷达测量。由此产生的多模态检测器简单且有效。大规模NUSCENES数据集的实验结果表明,我们的框架通过显着的6.6地图改善了强大的中心点基线,并且优于竞争融合方法。代码和更多可视化可在https://tianweiy.github.io/mvp/上获得
translated by 谷歌翻译
A key technical challenge in performing 6D object pose estimation from RGB-D image is to fully leverage the two complementary data sources. Prior works either extract information from the RGB image and depth separately or use costly post-processing steps, limiting their performances in highly cluttered scenes and real-time applications. In this work, we present DenseFusion, a generic framework for estimating 6D pose of a set of known objects from RGB-D images. DenseFusion is a heterogeneous architecture that processes the two data sources individually and uses a novel dense fusion network to extract pixel-wise dense feature embedding, from which the pose is estimated. Furthermore, we integrate an end-to-end iterative pose refinement procedure that further improves the pose estimation while achieving near real-time inference. Our experiments show that our method outperforms state-of-the-art approaches in two datasets, YCB-Video and LineMOD. We also deploy our proposed method to a real robot to grasp and manipulate objects based on the estimated pose. Our code and video are available at https://sites.google.com/view/densefusion/.
translated by 谷歌翻译
使用3D激光点云数据的对象检测和语义分割需要昂贵的注释。我们提出了一种数据增强方法,该方法多次利用已经注释的数据。我们提出了一个重用真实数据的增强框架,自动在场景中找到合适的位置要增加,并明确地处理遮挡。由于使用真实数据,新插入的物体在增强中的扫描点维持了激光雷达的物理特征,例如强度和射线表。该管道证明在训练3D对象检测和语义分割的最佳模型中具有竞争力。新的增强为稀有和基本类别提供了显着的性能增长,尤其是在Kitti对象检测中“硬”行人级的平均精度增益为6.65%,或者2.14表示在Semantickitti细分挑战中获得的iOU在艺术状态下的增益。
translated by 谷歌翻译
Depth estimation is usually ill-posed and ambiguous for monocular camera-based 3D multi-person pose estimation. Since LiDAR can capture accurate depth information in long-range scenes, it can benefit both the global localization of individuals and the 3D pose estimation by providing rich geometry features. Motivated by this, we propose a monocular camera and single LiDAR-based method for 3D multi-person pose estimation in large-scale scenes, which is easy to deploy and insensitive to light. Specifically, we design an effective fusion strategy to take advantage of multi-modal input data, including images and point cloud, and make full use of temporal information to guide the network to learn natural and coherent human motions. Without relying on any 3D pose annotations, our method exploits the inherent geometry constraints of point cloud for self-supervision and utilizes 2D keypoints on images for weak supervision. Extensive experiments on public datasets and our newly collected dataset demonstrate the superiority and generalization capability of our proposed method.
translated by 谷歌翻译
Panoptic现场了解和跟踪动态代理对于机器人和自动化车辆至关重要,以在城市环境中导航。由于LiDAR提供了方案的精确照明和几何描绘,使用LIDAR点云执行这些任务提供可靠的预测。然而,现有数据集缺乏城市场景类型的多样性,并且具有有限数量的动态对象实例,其阻碍了这些任务的学习以及开发方法的可信基准。在本文中,我们介绍了大规模的Panoptic Nuscenes基准数据集,它扩展了我们流行的NUSCENES DataSet,具有用于语义分割,Panoptic分段和Panoptic跟踪任务的Pock-Wise Trountruth annotations。为了便于比较,我们为我们提出的数据集提供了几个任务的强大基线。此外,我们分析了Panoptic跟踪的现有度量标准的缺点,并提出了一种解决问题的小说实例的Pat度量。我们提供详尽的实验,展示了Panoptic Nuscenes与现有数据集相比的效用,并在Nuscenes.org提供的在线评估服务器。我们认为,此扩展将加快新颖的现场了解动态城市环境的新方法研究。
translated by 谷歌翻译
尽管收集了越来越多的数据集用于培训3D对象检测模型,但在LiDar扫描上注释3D盒仍然需要大量的人类努力。为了自动化注释并促进了各种自定义数据集的生产,我们提出了一个端到端的多模式变压器(MTRANS)自动标签器,该标签既利用LIDAR扫描和图像,以生成来自弱2D边界盒的精确的3D盒子注释。为了减轻阻碍现有自动标签者的普遍稀疏性问题,MTRAN通过基于2D图像信息生成新的3D点来致密稀疏点云。凭借多任务设计,MTRANS段段前景/背景片段,使LIDAR POINT CLUENS云密布,并同时回归3D框。实验结果验证了MTRAN对提高生成标签质量的有效性。通过丰富稀疏点云,我们的方法分别在Kitti中度和硬样品上获得了4.48 \%和4.03 \%更好的3D AP,而不是最先进的自动标签器。也可以扩展Mtrans以提高3D对象检测的准确性,从而在Kitti硬样品上产生了显着的89.45 \%AP。代码位于\ url {https://github.com/cliu2/mtrans}。
translated by 谷歌翻译
自动驾驶技术的加速开发对获得大量高质量数据的需求更大。标签,现实世界数据代表性是培训深度学习网络的燃料,对于改善自动驾驶感知算法至关重要。在本文中,我们介绍了PANDASET,由完整的高精度自动车辆传感器套件生产的第一个数据集,具有无需成本商业许可证。使用一个360 {\ DEG}机械纺丝利达,一个前置,远程LIDAR和6个摄像机收集数据集。DataSet包含100多个场景,每个场景为8秒,为目标分类提供28种类型的标签和37种类型的语义分割标签。我们提供仅限LIDAR 3D对象检测的基线,LIDAR-Camera Fusion 3D对象检测和LIDAR点云分割。有关Pandaset和开发套件的更多详细信息,请参阅https://scale.com/open-datasets/pandaset。
translated by 谷歌翻译
Figure 1: We introduce datasets for 3D tracking and motion forecasting with rich maps for autonomous driving. Our 3D tracking dataset contains sequences of LiDAR measurements, 360 • RGB video, front-facing stereo (middle-right), and 6-dof localization. All sequences are aligned with maps containing lane center lines (magenta), driveable region (orange), and ground height. Sequences are annotated with 3D cuboid tracks (green). A wider map view is shown in the bottom-right.
translated by 谷歌翻译
自动驾驶应用中使用的激光雷达传感器会受到不利天气条件的负面影响。一种常见但有研究的效果是在寒冷的天气中凝结车辆气体的凝结。这种日常现象会严重影响雷达测量值的质量,从而通过创建像幽灵对象检测之类的人工制品,从而导致不太准确的环境感知。在文献中,使用基于学习的方法来实现雨水和雾之类的不利天气影响的语义分割。但是,这样的方法需要大量标记的数据,这可能非常昂贵且艰辛。我们通过提出两步方法来检测冷凝车气排气的方法来解决这个问题。首先,我们在场景中为每辆车确定其排放区域,并在存在的情况下检测气体排气。然后,通过对可能存在气体排气的空间区域进行建模来检测到孤立的云。我们测试了实际城市数据的方法,表明我们的方法可以可靠地检测到不同情况下的气体排气,从而吸引了离线预标和在线应用程序(例如幽灵对象检测)的吸引力。
translated by 谷歌翻译
不同制造商和激光雷达传感器模型之间的采样差异导致对象的不一致表示。当在其他类型的楣上测试为一个激光雷达培训的3D探测器时,这导致性能下降。 LIDAR制造业的显着进展使机械,固态和最近可调节的扫描图案LIDARS的进展带来了进展。对于后者,现有工作通常需要微调模型,每次调整扫描模式,这是不可行的。我们通过提出一种小型无监督的多目标域适配框架,明确地处理采样差异,参见,用于在固定和灵活的扫描图案Lidars上传送最先进的3D探测器的性能,而无需微调模型通过最终用户。我们的方法在将其传递到检测网络之前,将底层几何形状插值并将其从不同LIDAR的对象的扫描模式正常化。我们展示了在公共数据集上看到的有效性,实现最先进的结果,并另外为新颖的高分辨率LIDAR提供定量结果,以证明我们框架的行业应用。此数据集和我们的代码将公开可用。
translated by 谷歌翻译