由于准备点云的标记数据用于训练语义分割网络是一个耗时的过程,因此已经引入了弱监督的方法,以从一小部分数据中学习。这些方法通常是基于对比损失的学习,同时自动从一组稀疏的用户注销标签中得出每个点伪标签。在本文中,我们的关键观察是,选择要注释的样品的选择与这些样品的使用方式一样重要。因此,我们介绍了一种对3D场景进行弱监督分割的方法,该方法将自我训练与主动学习结合在一起。主动学习选择注释点可能会导致训练有素的模型的性能改进,而自我培训则可以有效利用用户提供的标签来学习模型。我们证明我们的方法会导致一种有效的方法,该方法可改善场景细分对以前的作品和基线,同时仅需要少量的用户注释。
translated by 谷歌翻译
点云语义分割通常需要大型群体注释的培训数据,但清楚地,点明智的标签太乏味了。虽然最近的一些方法建议用小百分比点标签训练3D网络,但我们采取了一个极端的方法并提出“一件事点击”,这意味着注释只需要每对象标记一个点。为了利用这些极其稀疏的标签在网络培训中,我们设计了一种新颖的自我训练方法,其中我们迭代地进行培训和标签传播,通过图形传播模块促进。此外,我们采用关系网络来生成每个类别的原型,并明确地模拟图形节点之间的相似性,以产生伪标签以指导迭代培训。 Scannet-V2和S3DIS的实验结果表明,我们的自我训练方法具有极其稀疏的注释,优于大幅度的全部现有的3D语义细分的所有现有的弱监督方法,我们的结果也与完全监督的结果相媲美同行。
translated by 谷歌翻译
点云的语义分割通常依赖于累累且昂贵的致密注释,因此它吸引了广泛的关注,以研究弱监督方案的解决方案,仅稀疏点注释。现有作品从给定的标签开始,并将其传播到高度相关但无标记的点,例如数据的指导,例如内部关系。但是,它遭受了(i)对数据信息的效率低下的利用,并且(ii)在给出更少的注释时,很容易抑制对标签的强烈依赖。因此,我们提出了一个新颖的框架,即DimpMatch,它通过将一致性正则化应用于数据本身的足够探测信息,并同时利用弱标签作为帮助,该框架具有数据和标签。通过这样做,可以从数据和标签中学习有意义的信息,以获得更好的表示,这也使模型可以在标签稀疏度的范围内更强大。简单而有效的是,提议的尖头竞赛在Scannet-V2和S3DIS数据集上都在各种弱监督的方案下实现了最先进的性能,尤其是在具有极为稀疏标签的设置上,例如。在0.01%和0.1%的扫描仪V2设置上,SQN超过21.2%和17.2%。
translated by 谷歌翻译
We propose LiDAL, a novel active learning method for 3D LiDAR semantic segmentation by exploiting inter-frame uncertainty among LiDAR frames. Our core idea is that a well-trained model should generate robust results irrespective of viewpoints for scene scanning and thus the inconsistencies in model predictions across frames provide a very reliable measure of uncertainty for active sample selection. To implement this uncertainty measure, we introduce new inter-frame divergence and entropy formulations, which serve as the metrics for active selection. Moreover, we demonstrate additional performance gains by predicting and incorporating pseudo-labels, which are also selected using the proposed inter-frame uncertainty measure. Experimental results validate the effectiveness of LiDAL: we achieve 95% of the performance of fully supervised learning with less than 5% of annotations on the SemanticKITTI and nuScenes datasets, outperforming state-of-the-art active learning methods. Code release: https://github.com/hzykent/LiDAL.
translated by 谷歌翻译
弱监督的点云语义分割方法需要1 \%或更少的标签,希望实现与完全监督的方法几乎相同的性能,这些方法最近引起了广泛的研究关注。该框架中的一个典型解决方案是使用自我训练或伪标记来从点云本身挖掘监督,但忽略了图像中的关键信息。实际上,在激光雷达场景中广泛存在相机,而这种互补信息对于3D应用似乎非常重要。在本文中,我们提出了一种用于3D分割的新型交叉模式弱监督的方法,并结合了来自未标记图像的互补信息。基本上,我们设计了一个配备有效标签策略的双分支网络,以最大程度地发挥标签的力量,并直接实现2D到3D知识转移。之后,我们以期望最大(EM)的视角建立了一个跨模式的自我训练框架,该框架在伪标签估计和更新参数之间进行了迭代。在M-Step中,我们提出了一个跨模式关联学习,通过增强3D点和2D超级像素之间的周期矛盾性,从图像中挖掘互补的监督。在E-Step中,伪标签的自我校准机制被得出过滤噪声标签,从而为网络提供了更准确的标签,以进行全面训练。广泛的实验结果表明,我们的方法甚至优于最先进的竞争对手,而少于1 \%的主动选择注释。
translated by 谷歌翻译
Deep learning has attained remarkable success in many 3D visual recognition tasks, including shape classification, object detection, and semantic segmentation. However, many of these results rely on manually collecting densely annotated real-world 3D data, which is highly time-consuming and expensive to obtain, limiting the scalability of 3D recognition tasks. Thus, we study unsupervised 3D recognition and propose a Self-supervised-Self-Labeled 3D Recognition (SL3D) framework. SL3D simultaneously solves two coupled objectives, i.e., clustering and learning feature representation to generate pseudo-labeled data for unsupervised 3D recognition. SL3D is a generic framework and can be applied to solve different 3D recognition tasks, including classification, object detection, and semantic segmentation. Extensive experiments demonstrate its effectiveness. Code is available at https://github.com/fcendra/sl3d.
translated by 谷歌翻译
从非结构化的3D点云学习密集点语义,虽然是一个逼真的问题,但在文献中探讨了逼真的问题。虽然现有的弱监督方法可以仅具有小数点的点级注释来有效地学习语义,但我们发现香草边界箱级注释也是大规模3D点云的语义分割信息。在本文中,我们介绍了一个神经结构,称为Box2Seg,以了解3D点云的点级语义,具有边界盒级监控。我们方法的关键是通过探索每个边界框内和外部的几何和拓扑结构来生成准确的伪标签。具体地,利用基于注意的自我训练(AST)技术和点类激活映射(PCAM)来估计伪标签。通过伪标签进行进一步培训并精制网络。在两个大型基准测试中的实验,包括S3DIS和Scannet,证明了该方法的竞争性能。特别是,所提出的网络可以培训,甚至是均匀的空缺边界箱级注释和子环级标签。
translated by 谷歌翻译
Existing methods for large-scale point cloud semantic segmentation require expensive, tedious and error-prone manual point-wise annotations. Intuitively, weakly supervised training is a direct solution to reduce the cost of labeling. However, for weakly supervised large-scale point cloud semantic segmentation, too few annotations will inevitably lead to ineffective learning of network. We propose an effective weakly supervised method containing two components to solve the above problem. Firstly, we construct a pretext task, \textit{i.e.,} point cloud colorization, with a self-supervised learning to transfer the learned prior knowledge from a large amount of unlabeled point cloud to a weakly supervised network. In this way, the representation capability of the weakly supervised network can be improved by the guidance from a heterogeneous task. Besides, to generate pseudo label for unlabeled data, a sparse label propagation mechanism is proposed with the help of generated class prototypes, which is used to measure the classification confidence of unlabeled point. Our method is evaluated on large-scale point cloud datasets with different scenarios including indoor and outdoor. The experimental results show the large gain against existing weakly supervised and comparable results to fully supervised methods\footnote{Code based on mindspore: https://github.com/dmcv-ecnu/MindSpore\_ModelZoo/tree/main/WS3\_MindSpore}.
translated by 谷歌翻译
尽管深入学习对监督点云语义细分的成功取得了成功,但获得大规模的逐点手动注释仍然是一个重大挑战。为了减轻巨大的注释负担,我们提出了一个基于区域和多样性的积极学习(REDAL),这是许多深度学习方法的一般框架,旨在自动选择用于标签获取的信息丰富和多样化的子场所。观察到只有一小部分带注释的区域足以通过深度学习的方式理解3D场景,我们使用SoftMax熵,颜色不连续性和结构复杂性来衡量子场所区域的信息。还开发了一种多样性的选择算法,以避免通过在查询批次中选择信息性但相似的区域而产生的多余注释。广泛的实验表明,我们的方法的表现高于先前的活跃学习策略,并且我们达到了90%的全面监督学习,而S3DIS和Semantickitti数据集则需要不到15%和5%的注释。我们的代码可在https://github.com/tsunghan-wu/redal上公开获取。
translated by 谷歌翻译
由于其广泛的应用,尤其是在现场理解领域,因此在3D点云上进行的实例细分一直在吸引越来越多的关注。但是,大多数现有方法都需要完全注释培训数据。在点级的手动准备地面真相标签非常繁琐且劳动密集型。为了解决这个问题,我们提出了一种新颖的弱监督方法RWSEG,该方法仅需要用一个点标记一个对象。有了这些稀疏的标签,我们使用自我注意事项和随机步行引入了一个带有两个分支的统一框架,分别将语义和实例信息分别传播到未知区域。此外,我们提出了一个跨画竞争的随机步行(CGCRW)算法,该算法鼓励不同实例图之间的竞争以解决紧密放置对象中的歧义并改善实例分配的性能。 RWSEG可以生成定性实例级伪标签。 Scannet-V2和S3DIS数据集的实验结果表明,我们的方法通过完全监督的方法实现了可比的性能,并且通过大幅度优于先前的弱监督方法。这是弥合该地区弱和全面监督之间差距的第一项工作。
translated by 谷歌翻译
弱监督的点云分段,即,由于在整个3D场景中只有几个标记点的点云,因此由于为模型训练收集丰富的密集注释的沉重负担,因此是非常可取的。但是,由于有限的注释数据可能导致标签传播的指导不足,因此现有方法仍然具有挑战性,无法准确细分3D点云。考虑到基于平滑度的方法已经取得了令人鼓舞的进步,在本文中,我们主张在各种扰动下应用一致性约束,以有效地正规化未标记的3D点。具体而言,我们提出了一个新颖的dat(\ textbf {d} ual \ textbf {a} dappive \ textbf {t} ransformations模型,用于弱监督点云进行分割,其中双重自适应转换是通过两种对敌方策略在点 - 级别和区域级别,旨在在3D点云上执行局部和结构平滑度约束。我们在大规模S3DIS和SCANNET-V2数据集上使用两个流行的骨干评估了我们提出的DAT模型。广泛的实验表明,我们的模型可以有效地利用未标记的3D点并在两个数据集上实现显着的性能增长,从而为弱监督的点云进行了新的最新性能。
translated by 谷歌翻译
大多数现有的点云实例和语义分割方法在很大程度上依赖于强大的监督信号,这需要场景中每个点的点级标签。但是,这种强大的监督遭受了巨大的注释成本,引起了研究有效注释的需求。在本文中,我们发现实例的位置对实例和语义3D场景细分都很重要。通过充分利用位置,我们设计了一种弱监督的点云分割算法,该算法仅需要单击每个实例以指示其注释的位置。通过进行预处理过度分割,我们将这些位置注释扩展到seg级标签中。我们通过将未标记的片段分组分组到相关的附近标签段中,进一步设计一个段分组网络(SEGGROUP),以在SEG级标签下生成点级伪标签,以便现有的点级监督的分段模型可以直接消耗这些PSEUDO标签为了训练。实验结果表明,我们的SEG级监督方法(SEGGROUP)通过完全注释的点级监督方法获得了可比的结果。此外,在固定注释预算的情况下,它的表现优于最近弱监督的方法。
translated by 谷歌翻译
当前的3D分割方法很大程度上依赖于大规模的点状数据集,众所周知,这些数据集众所周知。很少有尝试规避需要每点注释的需求。在这项工作中,我们研究了弱监督的3D语义实例分割。关键的想法是利用3D边界框标签,更容易,更快地注释。确实,我们表明只有仅使用边界框标签训练密集的分割模型。在我们方法的核心上,\ name {}是一个深层模型,灵感来自经典的霍夫投票,直接投票赞成边界框参数,并且是专门针对边界盒票的专门定制的群集方法。这超出了常用的中心票,这不会完全利用边界框注释。在扫描仪测试中,我们弱监督的模型在其他弱监督的方法中获得了领先的性能(+18 MAP@50)。值得注意的是,它还达到了当前完全监督模型的50分数的地图的97%。为了进一步说明我们的工作的实用性,我们在最近发布的Arkitscenes数据集中训练Box2mask,该数据集仅使用3D边界框注释,并首次显示引人注目的3D实例细分掩码。
translated by 谷歌翻译
手动注释复杂的场景点云数据集昂贵且容易出错。为了减少对标记数据的依赖性,提出了一种名为Snapshotnet的新模型作为自我监督的特征学习方法,它直接用于复杂3D场景的未标记点云数据。 Snapshotnet Pipleine包括三个阶段。在快照捕获阶段,从点云场景中采样被定义为本地点的快照。快照可以是直接从真实场景捕获的本地3D扫描的视图,或者从大3D 3D点云数据集中的虚拟视图。也可以在不同的采样率或视野(FOV)的不同采样率或视野(FOV)中进行对快照进行,从而从场景中捕获比例信息。在特征学习阶段,提出了一种名为Multi-FoV对比度的新的预文本任务,以识别两个快照是否来自同一对象,而不是在同一FOV中或跨不同的FOV中。快照通过两个自我监督的学习步骤:对比学习步骤与零件和比例对比度,然后是快照聚类步骤以提取更高的级别语义特征。然后,通过首先培训在学习特征上的标准SVM分类器的培训中实现了弱监督的分割阶段,其中包含少量标记的快照。训练的SVM用于预测输入快照的标签,并使用投票过程将预测标签转换为整个场景的语义分割的点明智标签分配。实验是在语义3D数据集上进行的,结果表明,该方法能够从无任何标签的复杂场景数据的快照学习有效特征。此外,当与弱监管点云语义分割的SOA方法相比,该方法已经显示了优势。
translated by 谷歌翻译
接受注释较弱的对象探测器是全面监督者的负担得起的替代方案。但是,它们之间仍然存在显着的性能差距。我们建议通过微调预先训练的弱监督检测器来缩小这一差距,并使用``Box-In-box''(bib'(bib)自动从训练集中自动选择了一些完全注销的样品,这是一种新颖的活跃学习专门针对弱势监督探测器的据可查的失败模式而设计的策略。 VOC07和可可基准的实验表明,围嘴表现优于其他活跃的学习技术,并显着改善了基本的弱监督探测器的性能,而每个类别仅几个完全宣布的图像。围嘴达到了完全监督的快速RCNN的97%,在VOC07上仅10%的全已通量图像。在可可(COCO)上,平均每类使用10张全面通量的图像,或同等的训练集的1%,还减少了弱监督检测器和完全监督的快速RCN之间的性能差距(In AP)以上超过70% ,在性能和数据效率之间表现出良好的权衡。我们的代码可在https://github.com/huyvvo/bib上公开获取。
translated by 谷歌翻译
点云实例分割在深度学习的出现方面取得了巨大进展。然而,这些方法通常是具有昂贵且耗时的密度云注释的数据饥饿。为了减轻注释成本,在任务中仍申请未标记或弱标记的数据。在本文中,我们使用标记和未标记的边界框作为监控,介绍第一个半监控点云实例分段框架(SPIB)。具体而言,我们的SPIB架构涉及两级学习程序。对于阶段,在具有扰动一致性正则化(SPCR)的半监控设置下培训边界框提案生成网络。正规化通过强制执行对应用于输入点云的不同扰动的边界框预测的不变性,为网络学习提供自我监督。对于阶段,使用SPCR的边界框提案被分组为某些子集,并且使用新颖的语义传播模块和属性一致性图模块中的每个子集中挖掘实例掩码。此外,我们介绍了一种新型占用比导改进模块,以优化实例掩码。对挑战队的攻击v2数据集进行了广泛的实验,证明了我们的方法可以实现与最近的完全监督方法相比的竞争性能。
translated by 谷歌翻译
我们建议在2D域中利用自我监督的技术来实现细粒度的3D形状分割任务。这是受到观察的启发:基于视图的表面表示比基于点云或体素占用率的3D对应物更有效地建模高分辨率表面细节和纹理。具体而言,给定3D形状,我们将其从多个视图中渲染,并在对比度学习框架内建立密集的对应学习任务。结果,与仅在2D或3D中使用自学的替代方案相比,学到的2D表示是视图不变和几何一致的,在对有限的标记形状进行培训时,可以更好地概括概括。对纹理(渲染peple)和未纹理(partnet)3D数据集的实验表明,我们的方法在细粒部分分割中优于最先进的替代方案。当仅一组稀疏的视图可供训练或形状纹理时,对基准的改进就会更大,这表明MVDecor受益于2D处理和3D几何推理。
translated by 谷歌翻译
昂贵注释的要求是培训良好的实例细分模型的重大负担。在本文中,我们提出了一个经济活跃的学习环境,称为主动监督实例细分(API),该实例分段(API)从框级注释开始,并迭代地在盒子内划分一个点,并询问它是否属于对象。API的关键是找到最大程度地提高分段准确性的最佳点,以有限的注释预算。我们制定此设置,并提出几种基于不确定性的抽样策略。与其他学习策略相比,使用这些策略开发的模型可以在具有挑战性的MS-Coco数据集上获得一致的性能增长。结果表明,API集成了主动学习和基于点的监督的优势,是标签有效实例分割的有效学习范式。
translated by 谷歌翻译
Reliable and automated 3D plant shoot segmentation is a core prerequisite for the extraction of plant phenotypic traits at the organ level. Combining deep learning and point clouds can provide effective ways to address the challenge. However, fully supervised deep learning methods require datasets to be point-wise annotated, which is extremely expensive and time-consuming. In our work, we proposed a novel weakly supervised framework, Eff-3DPSeg, for 3D plant shoot segmentation. First, high-resolution point clouds of soybean were reconstructed using a low-cost photogrammetry system, and the Meshlab-based Plant Annotator was developed for plant point cloud annotation. Second, a weakly-supervised deep learning method was proposed for plant organ segmentation. The method contained: (1) Pretraining a self-supervised network using Viewpoint Bottleneck loss to learn meaningful intrinsic structure representation from the raw point clouds; (2) Fine-tuning the pre-trained model with about only 0.5% points being annotated to implement plant organ segmentation. After, three phenotypic traits (stem diameter, leaf width, and leaf length) were extracted. To test the generality of the proposed method, the public dataset Pheno4D was included in this study. Experimental results showed that the weakly-supervised network obtained similar segmentation performance compared with the fully-supervised setting. Our method achieved 95.1%, 96.6%, 95.8% and 92.2% in the Precision, Recall, F1-score, and mIoU for stem leaf segmentation and 53%, 62.8% and 70.3% in the AP, AP@25, and AP@50 for leaf instance segmentation. This study provides an effective way for characterizing 3D plant architecture, which will become useful for plant breeders to enhance selection processes.
translated by 谷歌翻译
自我训练具有极大的促进域自适应语义分割,它迭代地在目标域上生成伪标签并删除网络。然而,由于现实分割数据集是高度不平衡的,因此目标伪标签通常偏置到多数类并且基本上嘈杂,导致出错和次优模型。为了解决这个问题,我们提出了一个基于区域的主动学习方法,用于在域移位下进行语义分割,旨在自动查询要标记的图像区域的小分区,同时最大化分割性能。我们的算法,通过区域杂质和预测不确定性(AL-RIPU)的主动学习,介绍了一种新的采集策略,其特征在于图像区域的空间邻接以及预测置信度。我们表明,所提出的基于地区的选择策略比基于图像或基于点的对应物更有效地使用有限预算。同时,我们在源图像上强制在像素和其最近邻居之间的局部预测一致性。此外,我们制定了负面学习损失,以提高目标领域的鉴别表现。广泛的实验表明,我们的方法只需要极少的注释几乎达到监督性能,并且大大优于最先进的方法。
translated by 谷歌翻译