弱监督的点云分段,即,由于在整个3D场景中只有几个标记点的点云,因此由于为模型训练收集丰富的密集注释的沉重负担,因此是非常可取的。但是,由于有限的注释数据可能导致标签传播的指导不足,因此现有方法仍然具有挑战性,无法准确细分3D点云。考虑到基于平滑度的方法已经取得了令人鼓舞的进步,在本文中,我们主张在各种扰动下应用一致性约束,以有效地正规化未标记的3D点。具体而言,我们提出了一个新颖的dat(\ textbf {d} ual \ textbf {a} dappive \ textbf {t} ransformations模型,用于弱监督点云进行分割,其中双重自适应转换是通过两种对敌方策略在点 - 级别和区域级别,旨在在3D点云上执行局部和结构平滑度约束。我们在大规模S3DIS和SCANNET-V2数据集上使用两个流行的骨干评估了我们提出的DAT模型。广泛的实验表明,我们的模型可以有效地利用未标记的3D点并在两个数据集上实现显着的性能增长,从而为弱监督的点云进行了新的最新性能。
translated by 谷歌翻译
点云的语义分割通常依赖于累累且昂贵的致密注释,因此它吸引了广泛的关注,以研究弱监督方案的解决方案,仅稀疏点注释。现有作品从给定的标签开始,并将其传播到高度相关但无标记的点,例如数据的指导,例如内部关系。但是,它遭受了(i)对数据信息的效率低下的利用,并且(ii)在给出更少的注释时,很容易抑制对标签的强烈依赖。因此,我们提出了一个新颖的框架,即DimpMatch,它通过将一致性正则化应用于数据本身的足够探测信息,并同时利用弱标签作为帮助,该框架具有数据和标签。通过这样做,可以从数据和标签中学习有意义的信息,以获得更好的表示,这也使模型可以在标签稀疏度的范围内更强大。简单而有效的是,提议的尖头竞赛在Scannet-V2和S3DIS数据集上都在各种弱监督的方案下实现了最先进的性能,尤其是在具有极为稀疏标签的设置上,例如。在0.01%和0.1%的扫描仪V2设置上,SQN超过21.2%和17.2%。
translated by 谷歌翻译
由于准备点云的标记数据用于训练语义分割网络是一个耗时的过程,因此已经引入了弱监督的方法,以从一小部分数据中学习。这些方法通常是基于对比损失的学习,同时自动从一组稀疏的用户注销标签中得出每个点伪标签。在本文中,我们的关键观察是,选择要注释的样品的选择与这些样品的使用方式一样重要。因此,我们介绍了一种对3D场景进行弱监督分割的方法,该方法将自我训练与主动学习结合在一起。主动学习选择注释点可能会导致训练有素的模型的性能改进,而自我培训则可以有效利用用户提供的标签来学习模型。我们证明我们的方法会导致一种有效的方法,该方法可改善场景细分对以前的作品和基线,同时仅需要少量的用户注释。
translated by 谷歌翻译
点云语义分割通常需要大型群体注释的培训数据,但清楚地,点明智的标签太乏味了。虽然最近的一些方法建议用小百分比点标签训练3D网络,但我们采取了一个极端的方法并提出“一件事点击”,这意味着注释只需要每对象标记一个点。为了利用这些极其稀疏的标签在网络培训中,我们设计了一种新颖的自我训练方法,其中我们迭代地进行培训和标签传播,通过图形传播模块促进。此外,我们采用关系网络来生成每个类别的原型,并明确地模拟图形节点之间的相似性,以产生伪标签以指导迭代培训。 Scannet-V2和S3DIS的实验结果表明,我们的自我训练方法具有极其稀疏的注释,优于大幅度的全部现有的3D语义细分的所有现有的弱监督方法,我们的结果也与完全监督的结果相媲美同行。
translated by 谷歌翻译
点云实例分割在深度学习的出现方面取得了巨大进展。然而,这些方法通常是具有昂贵且耗时的密度云注释的数据饥饿。为了减轻注释成本,在任务中仍申请未标记或弱标记的数据。在本文中,我们使用标记和未标记的边界框作为监控,介绍第一个半监控点云实例分段框架(SPIB)。具体而言,我们的SPIB架构涉及两级学习程序。对于阶段,在具有扰动一致性正则化(SPCR)的半监控设置下培训边界框提案生成网络。正规化通过强制执行对应用于输入点云的不同扰动的边界框预测的不变性,为网络学习提供自我监督。对于阶段,使用SPCR的边界框提案被分组为某些子集,并且使用新颖的语义传播模块和属性一致性图模块中的每个子集中挖掘实例掩码。此外,我们介绍了一种新型占用比导改进模块,以优化实例掩码。对挑战队的攻击v2数据集进行了广泛的实验,证明了我们的方法可以实现与最近的完全监督方法相比的竞争性能。
translated by 谷歌翻译
Existing methods for large-scale point cloud semantic segmentation require expensive, tedious and error-prone manual point-wise annotations. Intuitively, weakly supervised training is a direct solution to reduce the cost of labeling. However, for weakly supervised large-scale point cloud semantic segmentation, too few annotations will inevitably lead to ineffective learning of network. We propose an effective weakly supervised method containing two components to solve the above problem. Firstly, we construct a pretext task, \textit{i.e.,} point cloud colorization, with a self-supervised learning to transfer the learned prior knowledge from a large amount of unlabeled point cloud to a weakly supervised network. In this way, the representation capability of the weakly supervised network can be improved by the guidance from a heterogeneous task. Besides, to generate pseudo label for unlabeled data, a sparse label propagation mechanism is proposed with the help of generated class prototypes, which is used to measure the classification confidence of unlabeled point. Our method is evaluated on large-scale point cloud datasets with different scenarios including indoor and outdoor. The experimental results show the large gain against existing weakly supervised and comparable results to fully supervised methods\footnote{Code based on mindspore: https://github.com/dmcv-ecnu/MindSpore\_ModelZoo/tree/main/WS3\_MindSpore}.
translated by 谷歌翻译
从非结构化的3D点云学习密集点语义,虽然是一个逼真的问题,但在文献中探讨了逼真的问题。虽然现有的弱监督方法可以仅具有小数点的点级注释来有效地学习语义,但我们发现香草边界箱级注释也是大规模3D点云的语义分割信息。在本文中,我们介绍了一个神经结构,称为Box2Seg,以了解3D点云的点级语义,具有边界盒级监控。我们方法的关键是通过探索每个边界框内和外部的几何和拓扑结构来生成准确的伪标签。具体地,利用基于注意的自我训练(AST)技术和点类激活映射(PCAM)来估计伪标签。通过伪标签进行进一步培训并精制网络。在两个大型基准测试中的实验,包括S3DIS和Scannet,证明了该方法的竞争性能。特别是,所提出的网络可以培训,甚至是均匀的空缺边界箱级注释和子环级标签。
translated by 谷歌翻译
强大的语义细分面临的一个普遍挑战是昂贵的数据注释成本。现有的半监督解决方案显示出解决此问题的巨大潜力。他们的关键想法是通过未经监督的数据增加未标记的数据来构建一致性正则化,以进行模型培训。未标记数据的扰动使一致性训练损失使半监督的语义分割受益。但是,这些扰动破坏了图像上下文并引入了不自然的边界,这对语义分割是有害的。此外,广泛采用的半监督学习框架,即均值老师,遭受了绩效限制,因为学生模型最终会收敛于教师模型。在本文中,首先,我们提出了一个友好的可区分几何扭曲,以进行无监督的数据增强。其次,提出了一个新颖的对抗双重学生框架,以从以下两个方面从以下两个方面改善均等老师:(1)双重学生模型是独立学习的,除了稳定约束以鼓励利用模型多样性; (2)对对抗性训练计划适用于学生,并诉诸歧视者以区分无标记数据的可靠伪标签进行自我训练。通过对Pascal VOC2012和CityScapes进行的广泛实验来验证有效性。我们的解决方案可显着提高两个数据集的性能和最先进的结果。值得注意的是,与完全监督相比,我们的解决方案仅使用Pascal VOC2012上的12.5%注释数据获得了73.4%的可比MIOU。我们的代码和模型可在https://github.com/caocong/ads-semiseg上找到。
translated by 谷歌翻译
弱监督的点云语义分割方法需要1 \%或更少的标签,希望实现与完全监督的方法几乎相同的性能,这些方法最近引起了广泛的研究关注。该框架中的一个典型解决方案是使用自我训练或伪标记来从点云本身挖掘监督,但忽略了图像中的关键信息。实际上,在激光雷达场景中广泛存在相机,而这种互补信息对于3D应用似乎非常重要。在本文中,我们提出了一种用于3D分割的新型交叉模式弱监督的方法,并结合了来自未标记图像的互补信息。基本上,我们设计了一个配备有效标签策略的双分支网络,以最大程度地发挥标签的力量,并直接实现2D到3D知识转移。之后,我们以期望最大(EM)的视角建立了一个跨模式的自我训练框架,该框架在伪标签估计和更新参数之间进行了迭代。在M-Step中,我们提出了一个跨模式关联学习,通过增强3D点和2D超级像素之间的周期矛盾性,从图像中挖掘互补的监督。在E-Step中,伪标签的自我校准机制被得出过滤噪声标签,从而为网络提供了更准确的标签,以进行全面训练。广泛的实验结果表明,我们的方法甚至优于最先进的竞争对手,而少于1 \%的主动选择注释。
translated by 谷歌翻译
Deep learning has attained remarkable success in many 3D visual recognition tasks, including shape classification, object detection, and semantic segmentation. However, many of these results rely on manually collecting densely annotated real-world 3D data, which is highly time-consuming and expensive to obtain, limiting the scalability of 3D recognition tasks. Thus, we study unsupervised 3D recognition and propose a Self-supervised-Self-Labeled 3D Recognition (SL3D) framework. SL3D simultaneously solves two coupled objectives, i.e., clustering and learning feature representation to generate pseudo-labeled data for unsupervised 3D recognition. SL3D is a generic framework and can be applied to solve different 3D recognition tasks, including classification, object detection, and semantic segmentation. Extensive experiments demonstrate its effectiveness. Code is available at https://github.com/fcendra/sl3d.
translated by 谷歌翻译
由于其广泛的应用,尤其是在现场理解领域,因此在3D点云上进行的实例细分一直在吸引越来越多的关注。但是,大多数现有方法都需要完全注释培训数据。在点级的手动准备地面真相标签非常繁琐且劳动密集型。为了解决这个问题,我们提出了一种新颖的弱监督方法RWSEG,该方法仅需要用一个点标记一个对象。有了这些稀疏的标签,我们使用自我注意事项和随机步行引入了一个带有两个分支的统一框架,分别将语义和实例信息分别传播到未知区域。此外,我们提出了一个跨画竞争的随机步行(CGCRW)算法,该算法鼓励不同实例图之间的竞争以解决紧密放置对象中的歧义并改善实例分配的性能。 RWSEG可以生成定性实例级伪标签。 Scannet-V2和S3DIS数据集的实验结果表明,我们的方法通过完全监督的方法实现了可比的性能,并且通过大幅度优于先前的弱监督方法。这是弥合该地区弱和全面监督之间差距的第一项工作。
translated by 谷歌翻译
医学图像分割是许多临床方法的基本和关键步骤。半监督学习已被广​​泛应用于医学图像分割任务,因为它减轻了收购专家审查的注释的沉重负担,并利用了更容易获得的未标记数据的优势。虽然已被证明是通过实施不同分布下的预测的不变性的一致性学习,但现有方法无法充分利用来自未标记数据的区域级形状约束和边界级距离信息。在本文中,我们提出了一种新颖的不确定性引导的相互一致学习框架,通过将任务中的一致性学习与自组合和交叉任务一致性学习从任务级正则化的最新预测集成了任务内的一致性学习,从而有效地利用了未标记的数据利用几何形状信息。该框架是由模型的估计分割不确定性指导,以便为一致性学习选择相对某些预测,以便有效地利用来自未标记数据的更可靠的信息。我们在两个公开的基准数据集中广泛地验证了我们提出的方法:左心房分割(LA)数据集和大脑肿瘤分割(BRATS)数据集。实验结果表明,我们的方法通过利用未标记的数据和优于现有的半监督分段方法来实现性能增益。
translated by 谷歌翻译
大多数现有的点云实例和语义分割方法在很大程度上依赖于强大的监督信号,这需要场景中每个点的点级标签。但是,这种强大的监督遭受了巨大的注释成本,引起了研究有效注释的需求。在本文中,我们发现实例的位置对实例和语义3D场景细分都很重要。通过充分利用位置,我们设计了一种弱监督的点云分割算法,该算法仅需要单击每个实例以指示其注释的位置。通过进行预处理过度分割,我们将这些位置注释扩展到seg级标签中。我们通过将未标记的片段分组分组到相关的附近标签段中,进一步设计一个段分组网络(SEGGROUP),以在SEG级标签下生成点级伪标签,以便现有的点级监督的分段模型可以直接消耗这些PSEUDO标签为了训练。实验结果表明,我们的SEG级监督方法(SEGGROUP)通过完全注释的点级监督方法获得了可比的结果。此外,在固定注释预算的情况下,它的表现优于最近弱监督的方法。
translated by 谷歌翻译
半监督分割在医学成像中仍然具有挑战性,因为带注释的医学数据的量通常受到限制,并且在粘合边缘或低对比度区域附近有许多模糊的像素。为了解决这些问题,我们主张首先限制有或没有强大扰动的样品的一致性,以应用足够的平滑度正则化,并进一步鼓励班级分离以利用未标记的模棱两可的像素进行模型培训。特别是,在本文中,我们通过同时探索像素级平滑度和类间的分离,为半监督医学图像分割任务提出了SS-NET。像素级平滑度迫使模型在对抗扰动下产生不变结果。同时,阶层间的分离限制各个类特征应接近其相应的高质量原型,以使每个类别的分布紧凑和单独的不同类别。我们针对公共LA和ACDC数据集的五种最新方法评估了我们的SS-NET。在两个半监督的设置下的实验结果证明了我们提出的SS-NET的优势,在两个数据集上都实现了新的最先进(SOTA)性能。该代码可在https://github.com/ycwu1997/ss-net上找到。
translated by 谷歌翻译
在许多图像引导的临床方法中,医学图像分割是一个基本和关键的步骤。基于深度学习的细分方法的最新成功通常取决于大量标记的数据,这特别困难且昂贵,尤其是在医学成像领域中,只有专家才能提供可靠和准确的注释。半监督学习已成为一种吸引人的策略,并广泛应用于医学图像分割任务,以训练注释有限的深层模型。在本文中,我们对最近提议的半监督学习方法进行了全面综述,并总结了技术新颖性和经验结果。此外,我们分析和讨论现有方法的局限性和几个未解决的问题。我们希望这篇评论可以激发研究界探索解决这一挑战的解决方案,并进一步促进医学图像细分领域的发展。
translated by 谷歌翻译
密集的注释LiDAR点云是昂贵的,这限制了完全监督学习方法的可伸缩性。在这项工作中,我们研究了激光雷达分割中未充满激光的半监督学习(SSL)。我们的核心思想是利用激光点云的强烈空间提示来更好地利用未标记的数据。我们建议Lasermix混合不同激光扫描的激光束,然后鼓励模型在混合前后进行一致和自信的预测。我们的框架具有三个吸引人的属性:1)通用:Lasermix对LIDAR表示不可知(例如,范围视图和体素),因此可以普遍应用我们的SSL框架。 2)从统计上讲:我们提供详细的分析,以理论上解释所提出的框架的适用性。 3)有效:对流行激光雷达分割数据集(Nuscenes,Semantickitti和Scribblekitti)的全面实验分析证明了我们的有效性和优势。值得注意的是,我们在标签少2倍至5倍的同行中获得了竞争成果,并平均将仅监督的基线提高了10.8%。我们希望这个简洁而高性能的框架可以促进半监督的激光雷达细分的未来研究。代码将公开可用。
translated by 谷歌翻译
大规模点云的注释仍然耗时,并且对于许多真实世界任务不可用。点云预训练是用于获得快速适配的可扩展模型的一个潜在解决方案。因此,在本文中,我们调查了一种新的自我监督学习方法,称为混合和解除戒(MD),用于点云预培训。顾名思义,我们探索如何将原始点云与混合点云分开,并利用这一具有挑战的任务作为模型培训的借口优化目标。考虑到原始数据集中的有限培训数据,这远低于普遍的想象,混合过程可以有效地产生更高质量的样本。我们构建一个基线网络以验证我们的直觉,只包含两个模块,编码器和解码器。给定混合点云,首先预先训练编码器以提取语义嵌入。然后,利用实例 - 自适应解码器根据嵌入来解除点云。尽管简单,编码器本质上是能够在训练后捕获点云关键点,并且可以快速适应下游任务,包括预先训练和微调范例的分类和分割。在两个数据集上的广泛实验表明编码器+我们的(MD)显着超越了从头划痕培训的编码器和快速收敛的编码器。在消融研究中,我们进一步研究了每个部件的效果,并讨论了拟议的自我监督学习策略的优势。我们希望这种自我监督的学习尝试点云可以铺平了减少对大规模标记数据的深度学习模型依赖的方式,并在将来节省了大量的注释成本。
translated by 谷歌翻译
Semi-supervised object detection is important for 3D scene understanding because obtaining large-scale 3D bounding box annotations on point clouds is time-consuming and labor-intensive. Existing semi-supervised methods usually employ teacher-student knowledge distillation together with an augmentation strategy to leverage unlabeled point clouds. However, these methods adopt global augmentation with scene-level transformations and hence are sub-optimal for instance-level object detection. In this work, we propose an object-level point augmentor (OPA) that performs local transformations for semi-supervised 3D object detection. In this way, the resultant augmentor is derived to emphasize object instances rather than irrelevant backgrounds, making the augmented data more useful for object detector training. Extensive experiments on the ScanNet and SUN RGB-D datasets show that the proposed OPA performs favorably against the state-of-the-art methods under various experimental settings. The source code will be available at https://github.com/nomiaro/OPA.
translated by 谷歌翻译
在本文中,我们提出了一个新型的相互一致性网络(MC-NET+),以有效利用未标记的数据进行半监督的医学图像分割。 MC-NET+模型的动机是通过观察到的,即经过有限注释训练的深模型很容易输出不确定的,易于分类的预测,例如模棱两可的区域(例如,粘合边缘或薄分支)进行医学图像分割。利用这些具有挑战性的样品可以使半监督分割模型训练更有效。因此,我们提出的MC-NET+模型由两个新设计组成。首先,该模型包含一个共享的编码器和多个略有不同的解码器(即使用不同的上采样策略)。计算多个解码器输出的统计差异以表示模型的不确定性,这表明未标记的硬区域。其次,我们在一个解码器的概率输出和其他解码器的软伪标签之间应用了一种新颖的相互一致性约束。通过这种方式,我们最大程度地减少了训练过程中多个输出(即模型不确定性)的差异,并迫使模型在此类具有挑战性的区域中产生不变的结果,旨在使模型训练正规化。我们将MC-NET+模型的细分结果与三个公共医疗数据集中的五种最先进的半监督方法进行了比较。具有两个标准半监督设置的扩展实验证明了我们模型的优越性能,而不是其他方法,这为半监督医学图像分割设定了新的最新技术。我们的代码将在https://github.com/ycwu1997/mc-net上公开发布。
translated by 谷歌翻译
点云的Panoptic分割是一种重要的任务,使自动车辆能够使用高精度可靠的激光雷达传感器来理解其附近。现有的自上而下方法通过将独立的任务特定网络或转换方法从图像域转换为忽略激光雷达数据的复杂性,因此通常会导致次优性性能来解决这个问题。在本文中,我们提出了新的自上而下的高效激光乐光线分割(有效的LID)架构,该架构解决了分段激光雷达云中的多种挑战,包括距离依赖性稀疏性,严重的闭塞,大规模变化和重新投影误差。高效地板包括一种新型共享骨干,可以通过加强的几何变换建模容量进行编码,并聚合语义丰富的范围感知多尺度特征。它结合了新的不变语义和实例分段头以及由我们提出的Panoptic外围损耗功能监督的Panoptic Fusion模块。此外,我们制定了正则化的伪标签框架,通过对未标记数据的培训进行进一步提高高效性的性能。我们在两个大型LIDAR数据集中建议模型基准:NUSCENES,我们还提供了地面真相注释和Semantickitti。值得注意的是,高效地将在两个数据集上设置新的最先进状态。
translated by 谷歌翻译