已广泛研究从合成综合数据转移到实际数据,以减轻各种计算机视觉任务(如语义分割)中的数据注释约束。然而,由于缺乏大规模合成数据集和有效的转移方法,该研究专注于2D图像及其在3D点云分割的同行落后滞后。我们通过收集Synlidar来解决这个问题,这是一个大规模合成的LIDAR数据集,其中包含具有精确的几何形状和综合语义类的Point-Wise带注释点云。 Synlidar从​​具有丰富的场景和布局的多个虚拟环境中收集,该布局由超过190亿点的32个语义课程组成。此外,我们设计PCT,一种新型点云转换器,有效地减轻了合成和实点云之间的差距。具体地,我们将合成与实际间隙分解成外观部件和稀疏性分量,并单独处理它们,这会大大改善点云转换。我们在三次转移学习设置中进行了广泛的实验,包括数据增强,半监督域适应和无监督域适应。广泛的实验表明,Synlidar提供了用于研究3D转移的高质量数据源,所提出的PCT在三个设置上一致地实现了优越的点云平移。 Synlidar项目页面:\ url {https://github.com/xiaoaoran/synlidar}
translated by 谷歌翻译
LIDAR语义分割提供有关环境的3D语义信息,在其决策过程中为智能系统提供基本提示。深度神经网络正在实现这项任务的大型公共基准的最先进结果。不幸的是,找到概括井或适应其他域的模型,其中数据分布不同,仍然是一个重大挑战。这项工作解决了LIDAR语义分段模型的无监督域适应问题。我们的方法将新颖的想法结合在最新的最先进的方法之上,并产生了新的最先进的结果。我们提出了简单但有效的策略,以通过对齐输入空间的数据分布来减少域移位。此外,我们提出了一种基于学习的方法,使目标域的语义类的分布对准到源域。呈现的消融研究表明,每个部分如何促成最终表现。我们的策略显示在三个不同的域上运行的比较以前的域适应方法。
translated by 谷歌翻译
LIDAR点云通常通过连续旋转LIDAR传感器扫描,捕获周围环境的精确几何形状,并且对于许多自主检测和导航任务至关重要。尽管已经开发了许多3D深度体系结构,但是在分析和理解点云数据中,有效收集和大量点云的注释仍然是一个主要挑战。本文介绍了Polarmix,这是一种简单且通用的点云增强技术,但可以在不同的感知任务和场景中有效地减轻数据约束。 Polarmix通过两种跨扫描扩展策略来富含点云分布,并保留点云保真度,这些杂志沿扫描方向切割,编辑和混合点云。第一个是场景级交换,它交换了两个LiDAR扫描的点云扇区,这些扫描沿方位角轴切割。第二个是实例级旋转和粘贴,它是从一个激光雷达扫描中进行的点点实例,用多个角度旋转它们(以创建多个副本),然后将旋转点实例粘贴到其他扫描中。广泛的实验表明,Polarmix在不同的感知任务和场景中始终如一地达到卓越的性能。此外,它可以用作各种3D深度体系结构的插件,并且对于无监督的域适应性也很好。
translated by 谷歌翻译
Segmentation of lidar data is a task that provides rich, point-wise information about the environment of robots or autonomous vehicles. Currently best performing neural networks for lidar segmentation are fine-tuned to specific datasets. Switching the lidar sensor without retraining on a big set of annotated data from the new sensor creates a domain shift, which causes the network performance to drop drastically. In this work we propose a new method for lidar domain adaption, in which we use annotated panoptic lidar datasets and recreate the recorded scenes in the structure of a different lidar sensor. We narrow the domain gap to the target data by recreating panoptic data from one domain in another and mixing the generated data with parts of (pseudo) labeled target domain data. Our method improves the nuScenes to SemanticKITTI unsupervised domain adaptation performance by 15.2 mean Intersection over Union points (mIoU) and by 48.3 mIoU in our semi-supervised approach. We demonstrate a similar improvement for the SemanticKITTI to nuScenes domain adaptation by 21.8 mIoU and 51.5 mIoU, respectively. We compare our method with two state of the art approaches for semantic lidar segmentation domain adaptation with a significant improvement for unsupervised and semi-supervised domain adaptation. Furthermore we successfully apply our proposed method to two entirely unlabeled datasets of two state of the art lidar sensors Velodyne Alpha Prime and InnovizTwo, and train well performing semantic segmentation networks for both.
translated by 谷歌翻译
3D激光雷达语义细分对于自动驾驶是基础。最近已经提出了几种用于点云数据的无监督域适应性(UDA)方法,以改善不同传感器和环境的模型概括。研究图像域中研究UDA问题的研究人员表明,样品混合可以减轻域的转移。我们提出了一种针对点云UDA的样品混合的新方法,即组成语义混合(Cosmix),这是基于样品混合的第一种UDA方法。 Cosmix由一个两分支对称网络组成,该网络可以同时处理标记的合成数据(源)和现实世界中未标记的点云(目标)。每个分支通过从另一个域中混合选定的数据来在一个域上运行,并使用源标签和目标伪标签的语义信息。我们在两个大规模数据集上评估Cosmix,表明它的表现要优于最先进的方法。我们的代码可在https://github.com/saltoricristiano/cosmix-uda上找到。
translated by 谷歌翻译
无监督的域对点云语义分割的适应性引起了极大的关注,因为它在没有标记的数据中学习有效性。大多数现有方法都使用全局级特征对齐方式将知识从源域转移到目标域,这可能会导致特征空间的语义歧义。在本文中,我们提出了一个基于图形的框架,以探索两个域之间的局部特征对齐,可以在适应过程中保留语义歧视。具体而言,为了提取本地级特征,我们首先在两个域上动态构建本地特征图,并使用来自源域的图形构建存储库。特别是,我们使用最佳传输来生成图形匹配对。然后,基于分配矩阵,我们可以将两个域之间的特征分布与基于图的本地特征损失对齐。此外,我们考虑了不同类别的特征之间的相关性,并制定了类别引导的对比损失,以指导分割模型以学习目标域上的区分特征。对不同的合成到现实和真实域的适应情景进行了广泛的实验表明,我们的方法可以实现最先进的性能。
translated by 谷歌翻译
3D autonomous driving semantic segmentation using deep learning has become, a well-studied subject, providing methods that can reach very high performance. Nonetheless, because of the limited size of the training datasets, these models cannot see every type of object and scenes found in real-world applications. The ability to be reliable in these various unknown environments is called domain generalization. Despite its importance, domain generalization is relatively unexplored in the case of 3D autonomous driving semantic segmentation. To fill this gap, this paper presents the first benchmark for this application by testing state-of-the-art methods and discussing the difficulty of tackling LiDAR domain shifts. We also propose the first method designed to address this domain generalization, which we call 3DLabelProp. This method relies on leveraging the geometry and sequentiality of the LiDAR data to enhance its generalization performances by working on partially accumulated point clouds. It reaches a mIoU of 52.6% on SemanticPOSS while being trained only on SemanticKITTI, making it state-of-the-art method for generalization (+7.4% better than the second best method). The code for this method will be available on Github.
translated by 谷歌翻译
当标签稀缺时,域的适应性是使学习能够学习的重要任务。尽管大多数作品仅着眼于图像模式,但有许多重要的多模式数据集。为了利用多模式的域适应性,我们提出了跨模式学习,在这种学习中,我们通过相互模仿在两种模式的预测之间执行一致性。我们限制了我们的网络,以对未标记的目标域数据进行正确预测,并在标记的数据和跨模式的一致预测中进行预测。在无监督和半监督的域适应设置中进行的实验证明了这种新型域适应策略的有效性。具体而言,我们评估了从2D图像,3D点云或两者都从3D语义分割的任务进行评估。我们利用最近的驾驶数据集生产各种域名适应场景,包括场景布局,照明,传感器设置和天气以及合成到现实的设置的变化。我们的方法在所有适应方案上都显着改善了以前的单模式适应基线。我们的代码可在https://github.com/valeoai/xmuda_journal上公开获取
translated by 谷歌翻译
Measuring and alleviating the discrepancies between the synthetic (source) and real scene (target) data is the core issue for domain adaptive semantic segmentation. Though recent works have introduced depth information in the source domain to reinforce the geometric and semantic knowledge transfer, they cannot extract the intrinsic 3D information of objects, including positions and shapes, merely based on 2D estimated depth. In this work, we propose a novel Geometry-Aware Network for Domain Adaptation (GANDA), leveraging more compact 3D geometric point cloud representations to shrink the domain gaps. In particular, we first utilize the auxiliary depth supervision from the source domain to obtain the depth prediction in the target domain to accomplish structure-texture disentanglement. Beyond depth estimation, we explicitly exploit 3D topology on the point clouds generated from RGB-D images for further coordinate-color disentanglement and pseudo-labels refinement in the target domain. Moreover, to improve the 2D classifier in the target domain, we perform domain-invariant geometric adaptation from source to target and unify the 2D semantic and 3D geometric segmentation results in two domains. Note that our GANDA is plug-and-play in any existing UDA framework. Qualitative and quantitative results demonstrate that our model outperforms state-of-the-arts on GTA5->Cityscapes and SYNTHIA->Cityscapes.
translated by 谷歌翻译
深度学习方法在3D语义细分中取得了显着的成功。但是,收集密集注释的现实世界3D数据集非常耗时且昂贵。关于合成数据和对现实世界情景的培训模型成为一种吸引人的选择,但不幸的是,臭名昭著的领域变化。在这项工作中,我们提出了一个面向数据的域适应性(DODA)框架,以减轻由不同的感应机制和跨域的布局放置引起的模式和上下文差距。我们的DODA涵盖了虚拟扫描模拟,以模仿现实世界中的点云图案和尾声的长方体混合,以减轻基于Cuboid的中间域的内部环境差距。 3D室内语义分割上的第一个无监督的SIM到运行适应基准也构建在3D-Front,Scannet和S3DIS上,以及7种流行的无监督域适应(UDA)方法。我们的DODA在3D -Front-> scannet和3d -Front-> S3DIS上都超过了13%的UDA方法。代码可从https://github.com/cvmi-lab/doda获得。
translated by 谷歌翻译
Domain adaptation for Cross-LiDAR 3D detection is challenging due to the large gap on the raw data representation with disparate point densities and point arrangements. By exploring domain-invariant 3D geometric characteristics and motion patterns, we present an unsupervised domain adaptation method that overcomes above difficulties. First, we propose the Spatial Geometry Alignment module to extract similar 3D shape geometric features of the same object class to align two domains, while eliminating the effect of distinct point distributions. Second, we present Temporal Motion Alignment module to utilize motion features in sequential frames of data to match two domains. Prototypes generated from two modules are incorporated into the pseudo-label reweighting procedure and contribute to our effective self-training framework for the target domain. Extensive experiments show that our method achieves state-of-the-art performance on cross-device datasets, especially for the datasets with large gaps captured by mechanical scanning LiDARs and solid-state LiDARs in various scenes. Project homepage is at https://github.com/4DVLab/CL3D.git
translated by 谷歌翻译
随着商业深度传感器和3D扫描仪的最近可用性和可承受能力,越来越多的3D(即RGBD,点云)数据集已被宣传以促进3D计算机视觉的研究。但是,现有的数据集覆盖相对较小的区域或具有有限的语义注释。对城市规模3D场景的细粒度理解仍处于起步阶段。在本文中,我们介绍了Sensaturban,一个城市规模的UAV摄影测量点云数据集,包括从三个英国城市收集的近30亿积分,占地7.6公里^ 2。 DataSet中的每个点已标记为具有细粒度的语义注释,导致数据集是上一个现有最大摄影测量点云数据集的三倍的三倍。除了诸如道路和植被等诸如道路和植被的常见类别之外,我们的数据集还包含包括轨道,桥梁和河流的城市水平类别。基于此数据集,我们进一步构建了基准,以评估最先进的分段算法的性能。特别是,我们提供了全面的分析,确定了限制城市规模点云理解的几个关键挑战。数据集可在http://point-cloud-analysis.cs.ox.ac.uk中获取。
translated by 谷歌翻译
对象点云的语义分析在很大程度上是由释放基准数据集的驱动的,包括合成的数据集,其实例是从对象CAD模型中采样的。但是,从合成数据中学习可能不会推广到实际情况,在这种情况下,点云通常不完整,不均匀分布和嘈杂。可以通过学习域适应算法来减轻模拟对真实性(SIM2REAL)域间隙的挑战。但是,我们认为通过更现实的渲染来产生合成点云是一种强大的选择,因为可以捕获系统的非均匀噪声模式。为此,我们提出了一个集成方案,该方案包括通过将斑点模式的投影渲染到CAD模型上,以及一种新颖的准平衡自我训练,通过散布驱动驱动的选择,通过将斑点模式投影到CAD模型上,并通过将斑点模式投影和一种新颖的准平衡自我训练来渲染立体声图像,该方案包括对象点云的物理现实综合。长尾巴的伪标记为样品。实验结果可以验证我们方法的有效性及其两个模块,用于对点云分类的无监督域适应,从而实现最新的性能。源代码和SpeckLenet合成数据集可在https://github.com/gorilla-lab-scut/qs3上找到。
translated by 谷歌翻译
大规模发光点云的快速有效语义分割是自主驾驶中的一个基本问题。为了实现这一目标,现有的基于点的方法主要选择采用随机抽样策略来处理大规模点云。但是,我们的数量和定性研究发现,随机抽样可能不适合自主驾驶场景,因为LiDAR点遵循整个空间的不均匀甚至长尾巴分布,这阻止了模型从从中捕获足够的信息,从而从中捕获了足够的信息不同的距离范围并降低了模型的学习能力。为了减轻这个问题,我们提出了一种新的极性缸平衡的随机抽样方法,该方法使下采样的点云能够保持更平衡的分布并改善不同空间分布下的分割性能。此外,引入了采样一致性损失,以进一步提高分割性能并降低模型在不同采样方法下的方差。广泛的实验证实,我们的方法在Semantickitti和Semanticposs基准测试中都产生了出色的性能,分别提高了2.8%和4.0%。
translated by 谷歌翻译
Paris-Carla-3d是由移动激光器和相机系统构建的几个浓彩色点云的数据集。数据由两组具有来自开源Carla模拟器(700百万分)的合成数据和在巴黎市中获取的真实数据(6000万分),因此Paris-Carla-3d的名称。此数据集的一个优点是在开源Carla模拟器中模拟了相同的LIDAR和相机平台,因为用于生产真实数据的开源Carla Simulator。此外,使用Carla的语义标记的手动注释在真实数据上执行,允许将转移方法从合成到实际数据进行测试。该数据集的目的是提供一个具有挑战性的数据集,以评估和改进户外环境3D映射的困难视觉任务的方法:语义分段,实例分段和场景完成。对于每项任务,我们描述了评估协议以及建立基线的实验。
translated by 谷歌翻译
模拟逼真的传感器是自主系统数据生成的挑战,通常涉及精心手工的传感器设计,场景属性和物理建模。为了减轻这一点,我们引入了一条管道,用于对逼真的激光雷达传感器进行数据驱动的模拟。我们提出了一个模型,该模型可以在RGB图像和相应的LIDAR功能(例如Raydrop或每点强度)之间直接从真实数据集中进行映射。我们表明,我们的模型可以学会编码逼真的效果,例如透明表面上的掉落点或反射材料上的高强度回报。当应用于现成的模拟器软件提供的天真播放点云时,我们的模型通过根据场景的外观预测强度和删除点来增强数据,以匹配真实的激光雷达传感器。我们使用我们的技术来学习两个不同的LIDAR传感器的模型,并使用它们相应地改善模拟的LiDAR数据。通过车辆细分的示例任务,我们表明通过我们的技术增强模拟点云可以改善下游任务性能。
translated by 谷歌翻译
作为一种流行的几何表示,点云在3D视觉中引起了很多关注,导致自动驾驶和机器人中的许多应用。在点云上学习一个重要的尚未解决的问题是,如果使用不同的过程或使用不同的传感器捕获,则相同对象的点云可以具有显着的几何变化。这些不一致地诱导域间隙,使得在一个域上培训的神经网络可能无法概括他人。减少域间隙的典型技术是执行逆势训练,以便特征空间中的点云可以对齐。然而,对抗性训练易于落入退化的局部最小值,导致负适应性收益。在这里,我们提出了一种简单而有效的方法,可以通过采用学习几何感知含义的自我监督任务来提出对点云的无监督域适应的方法,这在一次拍摄中扮演两个关键角色。首先,通过对下游任务的隐式表示保留点云中的几何信息。更重要的是,可以在隐式空间中有效地学习域特定变体。我们还提出了一种自适应策略,以计算由于在实践中缺乏形状模型而计算任意点云的无符号距离场。当结合任务丢失时,所提出的优先表现出最先进的无监督域适应方法,依赖于对抗域对齐和更复杂的自我监督任务。我们的方法在PointDA-10和Graspnet数据集上进行评估。代码和培训的型号将公开可用。
translated by 谷歌翻译
无监督的域适应(UDA)旨在使源域上培训的模型适应到新的目标域,其中没有可用标记的数据。在这项工作中,我们调查从合成计算机生成的域的UDA的问题,以用于学习语义分割的类似但实际的域。我们提出了一种与UDA的一致性正则化方法结合的语义一致的图像到图像转换方法。我们克服了将合成图像转移到真实的图像的先前限制。我们利用伪标签来学习生成的图像到图像转换模型,该图像到图像转换模型从两个域上的语义标签接收额外的反馈。我们的方法优于最先进的方法,将图像到图像转换和半监督学习与相关域适应基准,即Citycapes和Synthia上的CutyCapes和Synthia进行了全面的学习。
translated by 谷歌翻译
从预期的观点(例如范围视图(RV)和Bird's-eye-view(BEV))进行了云云语义细分。不同的视图捕获了点云的不同信息,因此彼此互补。但是,最近基于投影的点云语义分割方法通常会利用一种香草后期的融合策略来预测不同观点,因此未能从表示学习过程中从几何学角度探索互补信息。在本文中,我们引入了一个几何流动网络(GFNET),以探索以融合方式对准不同视图之间的几何对应关系。具体而言,我们设计了一个新颖的几何流量模块(GFM),以双向对齐并根据端到端学习方案下的几何关系跨不同观点传播互补信息。我们对两个广泛使用的基准数据集(Semantickitti和Nuscenes)进行了广泛的实验,以证明我们的GFNET对基于项目的点云语义分割的有效性。具体而言,GFNET不仅显着提高了每个单独观点的性能,而且还可以在所有基于投影的模型中取得最新的结果。代码可在\ url {https://github.com/haibo-qiu/gfnet}中获得。
translated by 谷歌翻译
Existing methods for large-scale point cloud semantic segmentation require expensive, tedious and error-prone manual point-wise annotations. Intuitively, weakly supervised training is a direct solution to reduce the cost of labeling. However, for weakly supervised large-scale point cloud semantic segmentation, too few annotations will inevitably lead to ineffective learning of network. We propose an effective weakly supervised method containing two components to solve the above problem. Firstly, we construct a pretext task, \textit{i.e.,} point cloud colorization, with a self-supervised learning to transfer the learned prior knowledge from a large amount of unlabeled point cloud to a weakly supervised network. In this way, the representation capability of the weakly supervised network can be improved by the guidance from a heterogeneous task. Besides, to generate pseudo label for unlabeled data, a sparse label propagation mechanism is proposed with the help of generated class prototypes, which is used to measure the classification confidence of unlabeled point. Our method is evaluated on large-scale point cloud datasets with different scenarios including indoor and outdoor. The experimental results show the large gain against existing weakly supervised and comparable results to fully supervised methods\footnote{Code based on mindspore: https://github.com/dmcv-ecnu/MindSpore\_ModelZoo/tree/main/WS3\_MindSpore}.
translated by 谷歌翻译