大量的研究与逼真的传感器数据的产生有关。激光点云是由复杂的模拟或学习的生成模型生成的。通常利用生成的数据来启用或改善下游感知算法。这些程序来自两个主要问题:首先,如何评估生成数据的现实主义?其次,更现实的数据还会导致更好的感知表现吗?本文解决了问题,并提出了一个新颖的指标,以量化LiDar Point Cloud的现实主义。通过训练代理分类任务,可以从现实世界和合成点云中学到相关功能。在一系列实验中,我们证明了我们的指标的应用来确定生成的LiDAR数据的现实主义,并将我们的度量的现实主义估计与分割模型的性能进行比较。我们确认我们的指标为下游细分性能提供了指示。
translated by 谷歌翻译
Three-dimensional geometric data offer an excellent domain for studying representation learning and generative modeling. In this paper, we look at geometric data represented as point clouds. We introduce a deep AutoEncoder (AE) network with state-of-the-art reconstruction quality and generalization ability. The learned representations outperform existing methods on 3D recognition tasks and enable shape editing via simple algebraic manipulations, such as semantic part editing, shape analogies and shape interpolation, as well as shape completion. We perform a thorough study of different generative models including GANs operating on the raw point clouds, significantly improved GANs trained in the fixed latent space of our AEs, and Gaussian Mixture Models (GMMs). To quantitatively evaluate generative models we introduce measures of sample fidelity and diversity based on matchings between sets of point clouds. Interestingly, our evaluation of generalization, fidelity and diversity reveals that GMMs trained in the latent space of our AEs yield the best results overall.
translated by 谷歌翻译
我们提出了Lidargen,这是一种新型,有效且可控的生成模型,可产生逼真的LIDAR点云感觉读数。我们的方法利用强大的得分匹配基于能量的模型,并将点云生成过程作为随机降解过程在等应角视图中。该模型使我们能够采样具有保证的物理可行性和可控性的多样化和高质量点云样本。我们验证方法对挑战性Kitti-360和Nuscenes数据集的有效性。定量和定性结果表明,与其他生成模型相比,我们的方法产生的样本更现实。此外,LIDARGEN可以在不进行重新培训的情况下在输入上进行样本云。我们证明我们所提出的生成模型可直接用于致密激光点云。我们的代码可在以下网址找到:https://www.zyrianov.org/lidargen/
translated by 谷歌翻译
虽然对2D图像的零射击学习(ZSL)进行了许多研究,但其在3D数据中的应用仍然是最近且稀缺的,只有几种方法限于分类。我们在3D数据上介绍了ZSL和广义ZSL(GZSL)的第一代生成方法,可以处理分类,并且是第一次语义分割。我们表明它达到或胜过了INTEMNET40对归纳ZSL和归纳GZSL的ModelNet40分类的最新状态。对于语义分割,我们创建了三个基准,用于评估此新ZSL任务,使用S3DIS,Scannet和Semantickitti进行评估。我们的实验表明,我们的方法优于强大的基线,我们另外为此任务提出。
translated by 谷歌翻译
Shape completion, the problem of estimating the complete geometry of objects from partial observations, lies at the core of many vision and robotics applications. In this work, we propose Point Completion Network (PCN), a novel learning-based approach for shape completion. Unlike existing shape completion methods, PCN directly operates on raw point clouds without any structural assumption (e.g. symmetry) or annotation (e.g. semantic class) about the underlying shape. It features a decoder design that enables the generation of fine-grained completions while maintaining a small number of parameters. Our experiments show that PCN produces dense, complete point clouds with realistic structures in the missing regions on inputs with various levels of incompleteness and noise, including cars from LiDAR scans in the KITTI dataset. Code, data and trained models are available at https://wentaoyuan.github.io/pcn.
translated by 谷歌翻译
在城市环境中导航时,许多需要跟踪和避免的对象严重封闭。使用这些部分扫描的规划和跟踪可能具有挑战性。这项工作的目的是学习完成这些部分点云,让我们仅仅使用部分观测全面了解对象的几何。以前的方法在目标对象的完整地面注释的帮助下实现了此目的,这些方法仅适用于模拟数据集。但是,真实的真相对于现实世界的LIDAR数据不可用。在这项工作中,我们介绍了一个自我监督的点云完成算法,Pointpncnet,仅在部分扫描上培训,而无需采取完整的地面说明注释。我们的方法通过修正来实现这一目标。我们删除了一部分输入数据并培训网络以完成丢失的区域。由于难以确定在初始云中被封闭的区域并且综合地删除了哪些区域,我们的网络了解完成完整的云,包括初始部分云中的缺失区域。我们展示我们的方法优于以前在合成数据集,ShoceEnet和现实世界Lidar DataSet,语义基提上的未经监督和弱监督的方法。
translated by 谷歌翻译
虚拟测试是确保自动驾驶安全性的至关重要的任务,而传感器仿真是该域中的重要任务。大多数当前的激光雷达模拟非常简单,主要用于执行初始测试,而大多数见解是在道路上收集的。在本文中,我们提出了一种轻巧的方法,以实现更现实的激光雷达模拟,该方法从测试驱动器数据中学习了真实传感器的行为,并将其转换为虚拟域。核心思想是将仿真施加到图像到图像翻译问题中。我们将基于PIX2PIX的架构训练两个现实世界数据集,即流行的Kitti数据集和提供RGB和LIDAR图像的Audi自动驾驶数据集。我们将该网络应用于合成渲染,并表明它从真实图像到模拟图像充分概括。该策略使我们可以在我们的合成世界中跳过传感器特异性,昂贵且复杂的LIDAR物理模拟,并避免过度简化和通过干净的合成环境较大的域间隙。
translated by 谷歌翻译
Point cloud completion is a generation and estimation issue derived from the partial point clouds, which plays a vital role in the applications in 3D computer vision. The progress of deep learning (DL) has impressively improved the capability and robustness of point cloud completion. However, the quality of completed point clouds is still needed to be further enhanced to meet the practical utilization. Therefore, this work aims to conduct a comprehensive survey on various methods, including point-based, convolution-based, graph-based, and generative model-based approaches, etc. And this survey summarizes the comparisons among these methods to provoke further research insights. Besides, this review sums up the commonly used datasets and illustrates the applications of point cloud completion. Eventually, we also discussed possible research trends in this promptly expanding field.
translated by 谷歌翻译
您将如何通过一些错过来修复物理物体?您可能会想象它的原始形状从先前捕获的图像中,首先恢复其整体(全局)但粗大的形状,然后完善其本地细节。我们有动力模仿物理维修程序以解决点云完成。为此,我们提出了一个跨模式的形状转移双转化网络(称为CSDN),这是一种带有全循环参与图像的粗到精细范式,以完成优质的点云完成。 CSDN主要由“ Shape Fusion”和“ Dual-Refinect”模块组成,以应对跨模式挑战。第一个模块将固有的形状特性从单个图像传输,以指导点云缺失区域的几何形状生成,在其中,我们建议iPadain嵌入图像的全局特征和部分点云的完成。第二个模块通过调整生成点的位置来完善粗糙输出,其中本地改进单元通过图卷积利用了小说和输入点之间的几何关系,而全局约束单元则利用输入图像来微调生成的偏移。与大多数现有方法不同,CSDN不仅探讨了图像中的互补信息,而且还可以在整个粗到精细的完成过程中有效利用跨模式数据。实验结果表明,CSDN对十个跨模式基准的竞争对手表现出色。
translated by 谷歌翻译
Point Cloud升级旨在从给定的稀疏中产生密集的点云,这是一项具有挑战性的任务,这是由于点集的不规则和无序的性质。为了解决这个问题,我们提出了一种新型的基于深度学习的模型,称为PU-Flow,该模型结合了正常的流量和权重预测技术,以产生均匀分布在基础表面上的致密点。具体而言,我们利用标准化流的可逆特征来转换欧几里得和潜在空间之间的点,并将UPSMPLING过程作为潜在空间中相邻点的集合,从本地几何环境中自适应地学习。广泛的实验表明,我们的方法具有竞争力,并且在大多数测试用例中,它在重建质量,近距到表面的准确性和计算效率方面的表现优于最先进的方法。源代码将在https://github.com/unknownue/pu-flow上公开获得。
translated by 谷歌翻译
Perception in autonomous vehicles is often carried out through a suite of different sensing modalities. Given the massive amount of openly available labeled RGB data and the advent of high-quality deep learning algorithms for image-based recognition, high-level semantic perception tasks are pre-dominantly solved using high-resolution cameras. As a result of that, other sensor modalities potentially useful for this task are often ignored. In this paper, we push the state of the art in LiDAR-only semantic segmentation forward in order to provide another independent source of semantic information to the vehicle. Our approach can accurately perform full semantic segmentation of LiDAR point clouds at sensor frame rate. We exploit range images as an intermediate representation in combination with a Convolutional Neural Network (CNN) exploiting the rotating LiDAR sensor model. To obtain accurate results, we propose a novel postprocessing algorithm that deals with problems arising from this intermediate representation such as discretization errors and blurry CNN outputs. We implemented and thoroughly evaluated our approach including several comparisons to the state of the art. Our experiments show that our approach outperforms state-of-the-art approaches, while still running online on a single embedded GPU. The code can be accessed at https://github.com/PRBonn/lidar-bonnetal.
translated by 谷歌翻译
模拟逼真的传感器是自主系统数据生成的挑战,通常涉及精心手工的传感器设计,场景属性和物理建模。为了减轻这一点,我们引入了一条管道,用于对逼真的激光雷达传感器进行数据驱动的模拟。我们提出了一个模型,该模型可以在RGB图像和相应的LIDAR功能(例如Raydrop或每点强度)之间直接从真实数据集中进行映射。我们表明,我们的模型可以学会编码逼真的效果,例如透明表面上的掉落点或反射材料上的高强度回报。当应用于现成的模拟器软件提供的天真播放点云时,我们的模型通过根据场景的外观预测强度和删除点来增强数据,以匹配真实的激光雷达传感器。我们使用我们的技术来学习两个不同的LIDAR传感器的模型,并使用它们相应地改善模拟的LiDAR数据。通过车辆细分的示例任务,我们表明通过我们的技术增强模拟点云可以改善下游任务性能。
translated by 谷歌翻译
3D点云的卷积经过广泛研究,但在几何深度学习中却远非完美。卷积的传统智慧在3D点之间表现出特征对应关系,这是对差的独特特征学习的内在限制。在本文中,我们提出了自适应图卷积(AGCONV),以供点云分析的广泛应用。 AGCONV根据其动态学习的功能生成自适应核。与使用固定/各向同性核的解决方案相比,AGCONV提高了点云卷积的灵活性,有效,精确地捕获了不同语义部位的点之间的不同关系。与流行的注意力体重方案不同,AGCONV实现了卷积操作内部的适应性,而不是简单地将不同的权重分配给相邻点。广泛的评估清楚地表明,我们的方法优于各种基准数据集中的点云分类和分割的最新方法。同时,AGCONV可以灵活地采用更多的点云分析方法来提高其性能。为了验证其灵活性和有效性,我们探索了基于AGCONV的完成,DeNoing,Upsmpling,注册和圆圈提取的范式,它们与竞争对手相当甚至优越。我们的代码可在https://github.com/hrzhou2/adaptconv-master上找到。
translated by 谷歌翻译
机器学习模型通常会遇到与训练分布不同的样本。无法识别分布(OOD)样本,因此将该样本分配给课堂标签会显着损害模​​型的可靠性。由于其对在开放世界中的安全部署模型的重要性,该问题引起了重大关注。由于对所有可能的未知分布进行建模的棘手性,检测OOD样品是具有挑战性的。迄今为止,一些研究领域解决了检测陌生样本的问题,包括异常检测,新颖性检测,一级学习,开放式识别识别和分布外检测。尽管有相似和共同的概念,但分别分布,开放式检测和异常检测已被独立研究。因此,这些研究途径尚未交叉授粉,创造了研究障碍。尽管某些调查打算概述这些方法,但它们似乎仅关注特定领域,而无需检查不同领域之间的关系。这项调查旨在在确定其共同点的同时,对各个领域的众多著名作品进行跨域和全面的审查。研究人员可以从不同领域的研究进展概述中受益,并协同发展未来的方法。此外,据我们所知,虽然进行异常检测或单级学习进行了调查,但没有关于分布外检测的全面或最新的调查,我们的调查可广泛涵盖。最后,有了统一的跨域视角,我们讨论并阐明了未来的研究线,打算将这些领域更加紧密地融为一体。
translated by 谷歌翻译
Lidar sensors are costly yet critical for understanding the 3D environment in autonomous driving. High-resolution sensors provide more details about the surroundings because they contain more vertical beams, but they come at a much higher cost, limiting their inclusion in autonomous vehicles. Upsampling lidar pointclouds is a promising approach to gain the benefits of high resolution while maintaining an affordable cost. Although there exist many pointcloud upsampling frameworks, a consistent comparison of these works against each other on the same dataset using unified metrics is still missing. In the first part of this paper, we propose to benchmark existing methods on the Kitti dataset. In the second part, we introduce a novel lidar upsampling model, HALS: Height-Aware Lidar Super-resolution. HALS exploits the observation that lidar scans exhibit a height-aware range distribution and adopts a generator architecture with multiple upsampling branches of different receptive fields. HALS regresses polar coordinates instead of spherical coordinates and uses a surface-normal loss. Extensive experiments show that HALS achieves state-of-the-art performance on 3 real-world lidar datasets.
translated by 谷歌翻译
作为一种流行的几何表示,点云在3D视觉中引起了很多关注,导致自动驾驶和机器人中的许多应用。在点云上学习一个重要的尚未解决的问题是,如果使用不同的过程或使用不同的传感器捕获,则相同对象的点云可以具有显着的几何变化。这些不一致地诱导域间隙,使得在一个域上培训的神经网络可能无法概括他人。减少域间隙的典型技术是执行逆势训练,以便特征空间中的点云可以对齐。然而,对抗性训练易于落入退化的局部最小值,导致负适应性收益。在这里,我们提出了一种简单而有效的方法,可以通过采用学习几何感知含义的自我监督任务来提出对点云的无监督域适应的方法,这在一次拍摄中扮演两个关键角色。首先,通过对下游任务的隐式表示保留点云中的几何信息。更重要的是,可以在隐式空间中有效地学习域特定变体。我们还提出了一种自适应策略,以计算由于在实践中缺乏形状模型而计算任意点云的无符号距离场。当结合任务丢失时,所提出的优先表现出最先进的无监督域适应方法,依赖于对抗域对齐和更复杂的自我监督任务。我们的方法在PointDA-10和Graspnet数据集上进行评估。代码和培训的型号将公开可用。
translated by 谷歌翻译
Segmentation of lidar data is a task that provides rich, point-wise information about the environment of robots or autonomous vehicles. Currently best performing neural networks for lidar segmentation are fine-tuned to specific datasets. Switching the lidar sensor without retraining on a big set of annotated data from the new sensor creates a domain shift, which causes the network performance to drop drastically. In this work we propose a new method for lidar domain adaption, in which we use annotated panoptic lidar datasets and recreate the recorded scenes in the structure of a different lidar sensor. We narrow the domain gap to the target data by recreating panoptic data from one domain in another and mixing the generated data with parts of (pseudo) labeled target domain data. Our method improves the nuScenes to SemanticKITTI unsupervised domain adaptation performance by 15.2 mean Intersection over Union points (mIoU) and by 48.3 mIoU in our semi-supervised approach. We demonstrate a similar improvement for the SemanticKITTI to nuScenes domain adaptation by 21.8 mIoU and 51.5 mIoU, respectively. We compare our method with two state of the art approaches for semantic lidar segmentation domain adaptation with a significant improvement for unsupervised and semi-supervised domain adaptation. Furthermore we successfully apply our proposed method to two entirely unlabeled datasets of two state of the art lidar sensors Velodyne Alpha Prime and InnovizTwo, and train well performing semantic segmentation networks for both.
translated by 谷歌翻译
最近对隐含形状表示的兴趣日益增长。与明确的陈述相反,他们没有解决局限性,他们很容易处理各种各样的表面拓扑。为了了解这些隐式表示,电流方法依赖于一定程度的形状监督(例如,内部/外部信息或距离形状知识),或者至少需要密集点云(以近似距离 - 到 - 到 - 形状)。相比之下,我们介绍{\方法},一种用于学习形状表示的自我监督方法,从可能极其稀疏的点云。就像在水牛的针问题一样,我们在点云上“掉落”(样本)针头,认为,静统计地靠近表面,针端点位于表面的相对侧。不需要形状知识,点云可以高稀疏,例如,作为车辆获取的Lidar点云。以前的自我监督形状表示方法未能在这种数据上产生良好的结果。我们获得定量结果与现有的形状重建数据集上现有的监督方法标准,并在Kitti等硬自动驾驶数据集中显示有前途的定性结果。
translated by 谷歌翻译
随着点云上的3D对象检测依赖于点之间的几何关系,非标准对象形状可以妨碍方法的检测能力。然而,在安全关键环境中,在分销外和长尾样品上的鲁棒性是对规避危险问题的基础,例如损坏或稀有汽车的误读。在这项工作中,我们通过在训练期间考虑到变形的点云来大大改善3D对象探测器的概括到域名数据。我们通过3D-VFIEL实现这一点:一种新的方法,可以通过越野时代的载体衡量物体。我们的方法将3D点限制以沿着传感器视图幻灯片幻灯片,而既不添加也不添加它们中的任何一个。所获得的载体是可转移的,独立于样的和保持形状平滑度和闭塞。通过在训练期间使用这些载体场产生的变形来增强正常样本,我们显着改善了对不同形状物体的鲁棒性,例如损坏/变形汽车,即使仅在基蒂训练。为此,我们提出并分享开源Crashd:现实损坏和稀有汽车的合成数据集,具有各种碰撞情景。在Kitti,Waymo,我们的Crashd和Sun RGB-D上进行了广泛的实验,表明了我们对室内和室外场景的域外数据,不同型号和传感器,即LIDAR和TOF相机的技术的高度普遍性。我们的crashd数据集可在https://crashd-cars.github.io上获得。
translated by 谷歌翻译
点云的Panoptic分割是一种重要的任务,使自动车辆能够使用高精度可靠的激光雷达传感器来理解其附近。现有的自上而下方法通过将独立的任务特定网络或转换方法从图像域转换为忽略激光雷达数据的复杂性,因此通常会导致次优性性能来解决这个问题。在本文中,我们提出了新的自上而下的高效激光乐光线分割(有效的LID)架构,该架构解决了分段激光雷达云中的多种挑战,包括距离依赖性稀疏性,严重的闭塞,大规模变化和重新投影误差。高效地板包括一种新型共享骨干,可以通过加强的几何变换建模容量进行编码,并聚合语义丰富的范围感知多尺度特征。它结合了新的不变语义和实例分段头以及由我们提出的Panoptic外围损耗功能监督的Panoptic Fusion模块。此外,我们制定了正则化的伪标签框架,通过对未标记数据的培训进行进一步提高高效性的性能。我们在两个大型LIDAR数据集中建议模型基准:NUSCENES,我们还提供了地面真相注释和Semantickitti。值得注意的是,高效地将在两个数据集上设置新的最先进状态。
translated by 谷歌翻译