Existing methods for large-scale point cloud semantic segmentation require expensive, tedious and error-prone manual point-wise annotations. Intuitively, weakly supervised training is a direct solution to reduce the cost of labeling. However, for weakly supervised large-scale point cloud semantic segmentation, too few annotations will inevitably lead to ineffective learning of network. We propose an effective weakly supervised method containing two components to solve the above problem. Firstly, we construct a pretext task, \textit{i.e.,} point cloud colorization, with a self-supervised learning to transfer the learned prior knowledge from a large amount of unlabeled point cloud to a weakly supervised network. In this way, the representation capability of the weakly supervised network can be improved by the guidance from a heterogeneous task. Besides, to generate pseudo label for unlabeled data, a sparse label propagation mechanism is proposed with the help of generated class prototypes, which is used to measure the classification confidence of unlabeled point. Our method is evaluated on large-scale point cloud datasets with different scenarios including indoor and outdoor. The experimental results show the large gain against existing weakly supervised and comparable results to fully supervised methods\footnote{Code based on mindspore: https://github.com/dmcv-ecnu/MindSpore\_ModelZoo/tree/main/WS3\_MindSpore}.
translated by 谷歌翻译
Deep learning has attained remarkable success in many 3D visual recognition tasks, including shape classification, object detection, and semantic segmentation. However, many of these results rely on manually collecting densely annotated real-world 3D data, which is highly time-consuming and expensive to obtain, limiting the scalability of 3D recognition tasks. Thus, we study unsupervised 3D recognition and propose a Self-supervised-Self-Labeled 3D Recognition (SL3D) framework. SL3D simultaneously solves two coupled objectives, i.e., clustering and learning feature representation to generate pseudo-labeled data for unsupervised 3D recognition. SL3D is a generic framework and can be applied to solve different 3D recognition tasks, including classification, object detection, and semantic segmentation. Extensive experiments demonstrate its effectiveness. Code is available at https://github.com/fcendra/sl3d.
translated by 谷歌翻译
点云的语义分割通常依赖于累累且昂贵的致密注释,因此它吸引了广泛的关注,以研究弱监督方案的解决方案,仅稀疏点注释。现有作品从给定的标签开始,并将其传播到高度相关但无标记的点,例如数据的指导,例如内部关系。但是,它遭受了(i)对数据信息的效率低下的利用,并且(ii)在给出更少的注释时,很容易抑制对标签的强烈依赖。因此,我们提出了一个新颖的框架,即DimpMatch,它通过将一致性正则化应用于数据本身的足够探测信息,并同时利用弱标签作为帮助,该框架具有数据和标签。通过这样做,可以从数据和标签中学习有意义的信息,以获得更好的表示,这也使模型可以在标签稀疏度的范围内更强大。简单而有效的是,提议的尖头竞赛在Scannet-V2和S3DIS数据集上都在各种弱监督的方案下实现了最先进的性能,尤其是在具有极为稀疏标签的设置上,例如。在0.01%和0.1%的扫描仪V2设置上,SQN超过21.2%和17.2%。
translated by 谷歌翻译
点云语义分割通常需要大型群体注释的培训数据,但清楚地,点明智的标签太乏味了。虽然最近的一些方法建议用小百分比点标签训练3D网络,但我们采取了一个极端的方法并提出“一件事点击”,这意味着注释只需要每对象标记一个点。为了利用这些极其稀疏的标签在网络培训中,我们设计了一种新颖的自我训练方法,其中我们迭代地进行培训和标签传播,通过图形传播模块促进。此外,我们采用关系网络来生成每个类别的原型,并明确地模拟图形节点之间的相似性,以产生伪标签以指导迭代培训。 Scannet-V2和S3DIS的实验结果表明,我们的自我训练方法具有极其稀疏的注释,优于大幅度的全部现有的3D语义细分的所有现有的弱监督方法,我们的结果也与完全监督的结果相媲美同行。
translated by 谷歌翻译
由于准备点云的标记数据用于训练语义分割网络是一个耗时的过程,因此已经引入了弱监督的方法,以从一小部分数据中学习。这些方法通常是基于对比损失的学习,同时自动从一组稀疏的用户注销标签中得出每个点伪标签。在本文中,我们的关键观察是,选择要注释的样品的选择与这些样品的使用方式一样重要。因此,我们介绍了一种对3D场景进行弱监督分割的方法,该方法将自我训练与主动学习结合在一起。主动学习选择注释点可能会导致训练有素的模型的性能改进,而自我培训则可以有效利用用户提供的标签来学习模型。我们证明我们的方法会导致一种有效的方法,该方法可改善场景细分对以前的作品和基线,同时仅需要少量的用户注释。
translated by 谷歌翻译
弱监督的点云语义分割方法需要1 \%或更少的标签,希望实现与完全监督的方法几乎相同的性能,这些方法最近引起了广泛的研究关注。该框架中的一个典型解决方案是使用自我训练或伪标记来从点云本身挖掘监督,但忽略了图像中的关键信息。实际上,在激光雷达场景中广泛存在相机,而这种互补信息对于3D应用似乎非常重要。在本文中,我们提出了一种用于3D分割的新型交叉模式弱监督的方法,并结合了来自未标记图像的互补信息。基本上,我们设计了一个配备有效标签策略的双分支网络,以最大程度地发挥标签的力量,并直接实现2D到3D知识转移。之后,我们以期望最大(EM)的视角建立了一个跨模式的自我训练框架,该框架在伪标签估计和更新参数之间进行了迭代。在M-Step中,我们提出了一个跨模式关联学习,通过增强3D点和2D超级像素之间的周期矛盾性,从图像中挖掘互补的监督。在E-Step中,伪标签的自我校准机制被得出过滤噪声标签,从而为网络提供了更准确的标签,以进行全面训练。广泛的实验结果表明,我们的方法甚至优于最先进的竞争对手,而少于1 \%的主动选择注释。
translated by 谷歌翻译
手动注释复杂的场景点云数据集昂贵且容易出错。为了减少对标记数据的依赖性,提出了一种名为Snapshotnet的新模型作为自我监督的特征学习方法,它直接用于复杂3D场景的未标记点云数据。 Snapshotnet Pipleine包括三个阶段。在快照捕获阶段,从点云场景中采样被定义为本地点的快照。快照可以是直接从真实场景捕获的本地3D扫描的视图,或者从大3D 3D点云数据集中的虚拟视图。也可以在不同的采样率或视野(FOV)的不同采样率或视野(FOV)中进行对快照进行,从而从场景中捕获比例信息。在特征学习阶段,提出了一种名为Multi-FoV对比度的新的预文本任务,以识别两个快照是否来自同一对象,而不是在同一FOV中或跨不同的FOV中。快照通过两个自我监督的学习步骤:对比学习步骤与零件和比例对比度,然后是快照聚类步骤以提取更高的级别语义特征。然后,通过首先培训在学习特征上的标准SVM分类器的培训中实现了弱监督的分割阶段,其中包含少量标记的快照。训练的SVM用于预测输入快照的标签,并使用投票过程将预测标签转换为整个场景的语义分割的点明智标签分配。实验是在语义3D数据集上进行的,结果表明,该方法能够从无任何标签的复杂场景数据的快照学习有效特征。此外,当与弱监管点云语义分割的SOA方法相比,该方法已经显示了优势。
translated by 谷歌翻译
弱监督的点云分段,即,由于在整个3D场景中只有几个标记点的点云,因此由于为模型训练收集丰富的密集注释的沉重负担,因此是非常可取的。但是,由于有限的注释数据可能导致标签传播的指导不足,因此现有方法仍然具有挑战性,无法准确细分3D点云。考虑到基于平滑度的方法已经取得了令人鼓舞的进步,在本文中,我们主张在各种扰动下应用一致性约束,以有效地正规化未标记的3D点。具体而言,我们提出了一个新颖的dat(\ textbf {d} ual \ textbf {a} dappive \ textbf {t} ransformations模型,用于弱监督点云进行分割,其中双重自适应转换是通过两种对敌方策略在点 - 级别和区域级别,旨在在3D点云上执行局部和结构平滑度约束。我们在大规模S3DIS和SCANNET-V2数据集上使用两个流行的骨干评估了我们提出的DAT模型。广泛的实验表明,我们的模型可以有效地利用未标记的3D点并在两个数据集上实现显着的性能增长,从而为弱监督的点云进行了新的最新性能。
translated by 谷歌翻译
点云实例分割在深度学习的出现方面取得了巨大进展。然而,这些方法通常是具有昂贵且耗时的密度云注释的数据饥饿。为了减轻注释成本,在任务中仍申请未标记或弱标记的数据。在本文中,我们使用标记和未标记的边界框作为监控,介绍第一个半监控点云实例分段框架(SPIB)。具体而言,我们的SPIB架构涉及两级学习程序。对于阶段,在具有扰动一致性正则化(SPCR)的半监控设置下培训边界框提案生成网络。正规化通过强制执行对应用于输入点云的不同扰动的边界框预测的不变性,为网络学习提供自我监督。对于阶段,使用SPCR的边界框提案被分组为某些子集,并且使用新颖的语义传播模块和属性一致性图模块中的每个子集中挖掘实例掩码。此外,我们介绍了一种新型占用比导改进模块,以优化实例掩码。对挑战队的攻击v2数据集进行了广泛的实验,证明了我们的方法可以实现与最近的完全监督方法相比的竞争性能。
translated by 谷歌翻译
由于其广泛的应用,尤其是在现场理解领域,因此在3D点云上进行的实例细分一直在吸引越来越多的关注。但是,大多数现有方法都需要完全注释培训数据。在点级的手动准备地面真相标签非常繁琐且劳动密集型。为了解决这个问题,我们提出了一种新颖的弱监督方法RWSEG,该方法仅需要用一个点标记一个对象。有了这些稀疏的标签,我们使用自我注意事项和随机步行引入了一个带有两个分支的统一框架,分别将语义和实例信息分别传播到未知区域。此外,我们提出了一个跨画竞争的随机步行(CGCRW)算法,该算法鼓励不同实例图之间的竞争以解决紧密放置对象中的歧义并改善实例分配的性能。 RWSEG可以生成定性实例级伪标签。 Scannet-V2和S3DIS数据集的实验结果表明,我们的方法通过完全监督的方法实现了可比的性能,并且通过大幅度优于先前的弱监督方法。这是弥合该地区弱和全面监督之间差距的第一项工作。
translated by 谷歌翻译
大规模点云的注释仍然耗时,并且对于许多真实世界任务不可用。点云预训练是用于获得快速适配的可扩展模型的一个潜在解决方案。因此,在本文中,我们调查了一种新的自我监督学习方法,称为混合和解除戒(MD),用于点云预培训。顾名思义,我们探索如何将原始点云与混合点云分开,并利用这一具有挑战的任务作为模型培训的借口优化目标。考虑到原始数据集中的有限培训数据,这远低于普遍的想象,混合过程可以有效地产生更高质量的样本。我们构建一个基线网络以验证我们的直觉,只包含两个模块,编码器和解码器。给定混合点云,首先预先训练编码器以提取语义嵌入。然后,利用实例 - 自适应解码器根据嵌入来解除点云。尽管简单,编码器本质上是能够在训练后捕获点云关键点,并且可以快速适应下游任务,包括预先训练和微调范例的分类和分割。在两个数据集上的广泛实验表明编码器+我们的(MD)显着超越了从头划痕培训的编码器和快速收敛的编码器。在消融研究中,我们进一步研究了每个部件的效果,并讨论了拟议的自我监督学习策略的优势。我们希望这种自我监督的学习尝试点云可以铺平了减少对大规模标记数据的深度学习模型依赖的方式,并在将来节省了大量的注释成本。
translated by 谷歌翻译
大多数现有的点云实例和语义分割方法在很大程度上依赖于强大的监督信号,这需要场景中每个点的点级标签。但是,这种强大的监督遭受了巨大的注释成本,引起了研究有效注释的需求。在本文中,我们发现实例的位置对实例和语义3D场景细分都很重要。通过充分利用位置,我们设计了一种弱监督的点云分割算法,该算法仅需要单击每个实例以指示其注释的位置。通过进行预处理过度分割,我们将这些位置注释扩展到seg级标签中。我们通过将未标记的片段分组分组到相关的附近标签段中,进一步设计一个段分组网络(SEGGROUP),以在SEG级标签下生成点级伪标签,以便现有的点级监督的分段模型可以直接消耗这些PSEUDO标签为了训练。实验结果表明,我们的SEG级监督方法(SEGGROUP)通过完全注释的点级监督方法获得了可比的结果。此外,在固定注释预算的情况下,它的表现优于最近弱监督的方法。
translated by 谷歌翻译
从非结构化的3D点云学习密集点语义,虽然是一个逼真的问题,但在文献中探讨了逼真的问题。虽然现有的弱监督方法可以仅具有小数点的点级注释来有效地学习语义,但我们发现香草边界箱级注释也是大规模3D点云的语义分割信息。在本文中,我们介绍了一个神经结构,称为Box2Seg,以了解3D点云的点级语义,具有边界盒级监控。我们方法的关键是通过探索每个边界框内和外部的几何和拓扑结构来生成准确的伪标签。具体地,利用基于注意的自我训练(AST)技术和点类激活映射(PCAM)来估计伪标签。通过伪标签进行进一步培训并精制网络。在两个大型基准测试中的实验,包括S3DIS和Scannet,证明了该方法的竞争性能。特别是,所提出的网络可以培训,甚至是均匀的空缺边界箱级注释和子环级标签。
translated by 谷歌翻译
随着商业深度传感器和3D扫描仪的最近可用性和可承受能力,越来越多的3D(即RGBD,点云)数据集已被宣传以促进3D计算机视觉的研究。但是,现有的数据集覆盖相对较小的区域或具有有限的语义注释。对城市规模3D场景的细粒度理解仍处于起步阶段。在本文中,我们介绍了Sensaturban,一个城市规模的UAV摄影测量点云数据集,包括从三个英国城市收集的近30亿积分,占地7.6公里^ 2。 DataSet中的每个点已标记为具有细粒度的语义注释,导致数据集是上一个现有最大摄影测量点云数据集的三倍的三倍。除了诸如道路和植被等诸如道路和植被的常见类别之外,我们的数据集还包含包括轨道,桥梁和河流的城市水平类别。基于此数据集,我们进一步构建了基准,以评估最先进的分段算法的性能。特别是,我们提供了全面的分析,确定了限制城市规模点云理解的几个关键挑战。数据集可在http://point-cloud-analysis.cs.ox.ac.uk中获取。
translated by 谷歌翻译
点云的语义分割,旨在为每个点分配语义类别,对3D场景的理解至关重要。尽管近年来取得了重大进展,但大多数现有方法仍然遭受对象级别的错误分类或边界级别的歧义。在本文中,我们通过深入探索被称为Geosegnet的点云的几何形状来提出一个强大的语义分割网络。我们的Geosegnet由一个基于多几何的编码器和边界引导的解码器组成。在编码器中,我们从多几何的角度开发了一个新的残差几何模块,以提取对象级特征。在解码器中,我们引入了一个对比边界学习模块,以增强边界点的几何表示。从几何编码器模型中受益,我们的GEOSEGNET可以在使两个或多个对象的相交(边界)清晰地确定对象的分割。从总体分割精度和对象边界清除方面,实验显示了我们方法对竞争对手的明显改善。代码可在https://github.com/chen-yuiyui/geosegnet上找到。
translated by 谷歌翻译
深度神经网络的3D语义分割的最新进展已取得了显着的成功,并且可用数据集的性能快速提高。但是,当前的3D语义分割基准仅包含少数类别 - 例如,扫描仪和semantickitti少于30个类别,这些类别不足以反映真实环境的多样性(例如,语义图像涵盖数百到数千个类别的类别)。因此,我们建议研究3D语义分割的较大词汇,并在扫描仪数据上具有新的扩展基准测试,其中有200个类别类别,比以前研究的数量级要多。大量的类别类别也引起了巨大的自然级别不平衡,这两者对于现有的3D语义分割方法都具有挑战性。为了在这种情况下了解更多强大的3D功能,我们提出了一种以语言为导向的预训练方法来鼓励学习的3D功能,该方法可能有限的培训示例以靠近其预训练的文本嵌入。广泛的实验表明,我们的方法始终优于我们所提出的基准测试( +9%相对MIOU)的3D语义分割的最先进的3D预训练,包括仅使用5%的 +25%相对MIOU的有限数据方案注释。
translated by 谷歌翻译
我们建议在2D域中利用自我监督的技术来实现细粒度的3D形状分割任务。这是受到观察的启发:基于视图的表面表示比基于点云或体素占用率的3D对应物更有效地建模高分辨率表面细节和纹理。具体而言,给定3D形状,我们将其从多个视图中渲染,并在对比度学习框架内建立密集的对应学习任务。结果,与仅在2D或3D中使用自学的替代方案相比,学到的2D表示是视图不变和几何一致的,在对有限的标记形状进行培训时,可以更好地概括概括。对纹理(渲染peple)和未纹理(partnet)3D数据集的实验表明,我们的方法在细粒部分分割中优于最先进的替代方案。当仅一组稀疏的视图可供训练或形状纹理时,对基准的改进就会更大,这表明MVDecor受益于2D处理和3D几何推理。
translated by 谷歌翻译
大规模发光点云的快速有效语义分割是自主驾驶中的一个基本问题。为了实现这一目标,现有的基于点的方法主要选择采用随机抽样策略来处理大规模点云。但是,我们的数量和定性研究发现,随机抽样可能不适合自主驾驶场景,因为LiDAR点遵循整个空间的不均匀甚至长尾巴分布,这阻止了模型从从中捕获足够的信息,从而从中捕获了足够的信息不同的距离范围并降低了模型的学习能力。为了减轻这个问题,我们提出了一种新的极性缸平衡的随机抽样方法,该方法使下采样的点云能够保持更平衡的分布并改善不同空间分布下的分割性能。此外,引入了采样一致性损失,以进一步提高分割性能并降低模型在不同采样方法下的方差。广泛的实验证实,我们的方法在Semantickitti和Semanticposs基准测试中都产生了出色的性能,分别提高了2.8%和4.0%。
translated by 谷歌翻译
Reliable and automated 3D plant shoot segmentation is a core prerequisite for the extraction of plant phenotypic traits at the organ level. Combining deep learning and point clouds can provide effective ways to address the challenge. However, fully supervised deep learning methods require datasets to be point-wise annotated, which is extremely expensive and time-consuming. In our work, we proposed a novel weakly supervised framework, Eff-3DPSeg, for 3D plant shoot segmentation. First, high-resolution point clouds of soybean were reconstructed using a low-cost photogrammetry system, and the Meshlab-based Plant Annotator was developed for plant point cloud annotation. Second, a weakly-supervised deep learning method was proposed for plant organ segmentation. The method contained: (1) Pretraining a self-supervised network using Viewpoint Bottleneck loss to learn meaningful intrinsic structure representation from the raw point clouds; (2) Fine-tuning the pre-trained model with about only 0.5% points being annotated to implement plant organ segmentation. After, three phenotypic traits (stem diameter, leaf width, and leaf length) were extracted. To test the generality of the proposed method, the public dataset Pheno4D was included in this study. Experimental results showed that the weakly-supervised network obtained similar segmentation performance compared with the fully-supervised setting. Our method achieved 95.1%, 96.6%, 95.8% and 92.2% in the Precision, Recall, F1-score, and mIoU for stem leaf segmentation and 53%, 62.8% and 70.3% in the AP, AP@25, and AP@50 for leaf instance segmentation. This study provides an effective way for characterizing 3D plant architecture, which will become useful for plant breeders to enhance selection processes.
translated by 谷歌翻译
许多3D表示(例如,点云)是下面连续3D表面的离散样本。该过程不可避免地介绍了底层的3D形状上的采样变化。在学习3D表示中,应忽略应忽略变化,而应捕获基础3D形状的可转换知识。这成为现有代表学习范式的大挑战。本文在点云上自动编码。标准自动编码范例强制编码器捕获这种采样变体,因为解码器必须重建具有采样变化的原始点云。我们介绍了隐式AutoEncoder(IAE),这是一种简单而有效的方法,通过用隐式解码器替换点云解码器来解决这一挑战。隐式解码器输出与相同模型的不同点云采样之间共享的连续表示。在隐式表示下重建可以优先考虑编码器丢弃采样变体,引入更多空间以学习有用的功能。在一个简单的线性AutoEncoder下,理论上理论地证明这一索赔。此外,隐式解码器提供丰富的空间来为不同的任务设计合适的隐式表示。我们展示了IAE对3D对象和3D场景的各种自我监督学习任务的有用性。实验结果表明,IAE在每项任务中始终如一地优于最先进的。
translated by 谷歌翻译