自动伪标记是一种强大的工具,可以利用大量的连续未标记数据。在绩效要求非常大,数据集和手动标记的自动驾驶的关键安全应用中,它特别有吸引力。我们建议利用捕获的顺序性,通过培训多个教师在教师的设置中提高伪标记技术,每个教师都可以访问不同的时间信息。这套被称为一致性的教师比标准方法为学生培训提供了更高质量的伪标签。多个教师的输出通过新颖的伪标记信心引导的标准组合。我们的实验评估集中在城市驾驶场景中的3D点云域。我们显示了我们的方法的性能,应用于多个模型体系结构,其中包含3D语义分割任务和两个基准数据集上的3D对象检测。我们的方法仅使用20%的手动标签,优于某些完全监督的方法。对于培训数据,例如自行车和行人,很少出现在培训数据中的课程方面的特殊表现提升。我们的方法的实现可在https://github.com/ctu-vras/t-concord3d上公开获得。
translated by 谷歌翻译
在自主驾驶场景中,基于点云的主导云的3D对象检测器很大程度上依赖于大量准确标记的样品,但是,点云中的3D注释非常乏味,昂贵且耗时。为了减少对大量监督的依赖,已经提出了基于半监督的学习(SSL)方法。伪标记的方法通常用于SSL框架,但是,教师模型的低质量预测严重限制了其性能。在这项工作中,我们通过将教师模型增强到具有几种必要的设计的熟练培训模型,为半监督3D对象检测提出了一个新的伪标记框架。首先,为了改善伪标签的召回,提出了一个时空集合(Ste)模块来生成足够的种子盒。其次,为了提高召回框的精确度,基于群集的盒子投票(CBV)模块旨在从聚类的种子盒中获得汇总投票。这也消除了精致阈值选择伪标签的必要性。此外,为了减少训练期间错误的伪标记样本的负面影响,通过考虑智慧对比度学习(BCL)提出了软监督信号。在一次和Waymo数据集上验证了我们的模型的有效性。例如,一次,我们的方法将基线显着提高了9.51地图。此外,有了一半的注释,我们的模型在Waymo上的完整注释都优于Oracle模型。
translated by 谷歌翻译
Semi-supervised object detection is important for 3D scene understanding because obtaining large-scale 3D bounding box annotations on point clouds is time-consuming and labor-intensive. Existing semi-supervised methods usually employ teacher-student knowledge distillation together with an augmentation strategy to leverage unlabeled point clouds. However, these methods adopt global augmentation with scene-level transformations and hence are sub-optimal for instance-level object detection. In this work, we propose an object-level point augmentor (OPA) that performs local transformations for semi-supervised 3D object detection. In this way, the resultant augmentor is derived to emphasize object instances rather than irrelevant backgrounds, making the augmented data more useful for object detector training. Extensive experiments on the ScanNet and SUN RGB-D datasets show that the proposed OPA performs favorably against the state-of-the-art methods under various experimental settings. The source code will be available at https://github.com/nomiaro/OPA.
translated by 谷歌翻译
密集的注释LiDAR点云是昂贵的,这限制了完全监督学习方法的可伸缩性。在这项工作中,我们研究了激光雷达分割中未充满激光的半监督学习(SSL)。我们的核心思想是利用激光点云的强烈空间提示来更好地利用未标记的数据。我们建议Lasermix混合不同激光扫描的激光束,然后鼓励模型在混合前后进行一致和自信的预测。我们的框架具有三个吸引人的属性:1)通用:Lasermix对LIDAR表示不可知(例如,范围视图和体素),因此可以普遍应用我们的SSL框架。 2)从统计上讲:我们提供详细的分析,以理论上解释所提出的框架的适用性。 3)有效:对流行激光雷达分割数据集(Nuscenes,Semantickitti和Scribblekitti)的全面实验分析证明了我们的有效性和优势。值得注意的是,我们在标签少2倍至5倍的同行中获得了竞争成果,并平均将仅监督的基线提高了10.8%。我们希望这个简洁而高性能的框架可以促进半监督的激光雷达细分的未来研究。代码将公开可用。
translated by 谷歌翻译
点云的Panoptic分割是一种重要的任务,使自动车辆能够使用高精度可靠的激光雷达传感器来理解其附近。现有的自上而下方法通过将独立的任务特定网络或转换方法从图像域转换为忽略激光雷达数据的复杂性,因此通常会导致次优性性能来解决这个问题。在本文中,我们提出了新的自上而下的高效激光乐光线分割(有效的LID)架构,该架构解决了分段激光雷达云中的多种挑战,包括距离依赖性稀疏性,严重的闭塞,大规模变化和重新投影误差。高效地板包括一种新型共享骨干,可以通过加强的几何变换建模容量进行编码,并聚合语义丰富的范围感知多尺度特征。它结合了新的不变语义和实例分段头以及由我们提出的Panoptic外围损耗功能监督的Panoptic Fusion模块。此外,我们制定了正则化的伪标签框架,通过对未标记数据的培训进行进一步提高高效性的性能。我们在两个大型LIDAR数据集中建议模型基准:NUSCENES,我们还提供了地面真相注释和Semantickitti。值得注意的是,高效地将在两个数据集上设置新的最先进状态。
translated by 谷歌翻译
LIDAR传感器对于自动驾驶汽车和智能机器人的感知系统至关重要。为了满足现实世界应用程序中的实时要求,有必要有效地分割激光扫描。以前的大多数方法将3D点云直接投影到2D球形范围图像上,以便它们可以利用有效的2D卷积操作进行图像分割。尽管取得了令人鼓舞的结果,但在球形投影中,邻里信息尚未保存得很好。此外,在单个扫描分割任务中未考虑时间信息。为了解决这些问题,我们提出了一种新型的语义分割方法,用于元素rangeseg的激光雷达序列,其中引入了新的范围残差图像表示以捕获空间时间信息。具体而言,使用元内核来提取元特征,从而减少了2D范围图像坐标输入和3D笛卡尔坐标输出之间的不一致。有效的U-NET主链用于获得多尺度功能。此外,特征聚合模块(FAM)增强了范围通道的作用,并在不同级别上汇总特征。我们已经进行了广泛的实验,以评估semantickitti和semanticposs。有希望的结果表明,我们提出的元rangeseg方法比现有方法更有效。我们的完整实施可在https://github.com/songw-zju/meta-rangeseg上公开获得。
translated by 谷歌翻译
在最近的半监督语义分割方法中,一致性正则化已被广泛研究。从图像,功能和网络扰动中受益,已经实现了出色的性能。为了充分利用这些扰动,在这项工作中,我们提出了一个新的一致性正则化框架,称为相互知识蒸馏(MKD)。我们创新地基于一致性正则化方法,创新了两个辅助均值老师模型。更具体地说,我们使用一位卑鄙的老师生成的伪标签来监督另一个学生网络,以在两个分支之间进行相互知识蒸馏。除了使用图像级强和弱的增强外,我们还采用了特征增强,考虑隐性语义分布来增加对学生的进一步扰动。提出的框架大大增加了训练样本的多样性。公共基准测试的广泛实验表明,我们的框架在各种半监督设置下都优于先前的最先进方法(SOTA)方法。
translated by 谷歌翻译
当标签稀缺时,域的适应性是使学习能够学习的重要任务。尽管大多数作品仅着眼于图像模式,但有许多重要的多模式数据集。为了利用多模式的域适应性,我们提出了跨模式学习,在这种学习中,我们通过相互模仿在两种模式的预测之间执行一致性。我们限制了我们的网络,以对未标记的目标域数据进行正确预测,并在标记的数据和跨模式的一致预测中进行预测。在无监督和半监督的域适应设置中进行的实验证明了这种新型域适应策略的有效性。具体而言,我们评估了从2D图像,3D点云或两者都从3D语义分割的任务进行评估。我们利用最近的驾驶数据集生产各种域名适应场景,包括场景布局,照明,传感器设置和天气以及合成到现实的设置的变化。我们的方法在所有适应方案上都显着改善了以前的单模式适应基线。我们的代码可在https://github.com/valeoai/xmuda_journal上公开获取
translated by 谷歌翻译
了解场景是自主导航车辆的关键,以及在线将周围环境分段为移动和非移动物体的能力是这项任务的中央成分。通常,基于深度学习的方法用于执行移动对象分段(MOS)。然而,这些网络的性能强烈取决于标记培训数据的多样性和数量,可以获得昂贵的信息。在本文中,我们提出了一种自动数据标记管道,用于3D LIDAR数据,以节省广泛的手动标记工作,并通过自动生成标记的训练数据来提高现有的基于学习的MOS系统的性能。我们所提出的方法通过批量处理数据来实现数据。首先利用基于占用的动态对象拆除以粗略地检测可能的动态物体。其次,它提取了提案中的段,并使用卡尔曼滤波器跟踪它们。基于跟踪的轨迹,它标记了实际移动的物体,如驾驶汽车和行人。相反,非移动物体,例如,停放的汽车,灯,道路或建筑物被标记为静态。我们表明,这种方法允许我们高效地标记LIDAR数据,并将我们的结果与其他标签生成方法的结果进行比较。我们还使用自动生成的标签培训深度神经网络,并与在同一数据上的手动标签上接受过的手动标签的培训相比,实现了类似的性能,以及使用我们方法生成的标签的其他数据集时更好的性能。此外,我们使用不同的传感器评估我们在多个数据集上的方法,我们的实验表明我们的方法可以在各种环境中生成标签。
translated by 谷歌翻译
弱监督的点云语义分割方法需要1 \%或更少的标签,希望实现与完全监督的方法几乎相同的性能,这些方法最近引起了广泛的研究关注。该框架中的一个典型解决方案是使用自我训练或伪标记来从点云本身挖掘监督,但忽略了图像中的关键信息。实际上,在激光雷达场景中广泛存在相机,而这种互补信息对于3D应用似乎非常重要。在本文中,我们提出了一种用于3D分割的新型交叉模式弱监督的方法,并结合了来自未标记图像的互补信息。基本上,我们设计了一个配备有效标签策略的双分支网络,以最大程度地发挥标签的力量,并直接实现2D到3D知识转移。之后,我们以期望最大(EM)的视角建立了一个跨模式的自我训练框架,该框架在伪标签估计和更新参数之间进行了迭代。在M-Step中,我们提出了一个跨模式关联学习,通过增强3D点和2D超级像素之间的周期矛盾性,从图像中挖掘互补的监督。在E-Step中,伪标签的自我校准机制被得出过滤噪声标签,从而为网络提供了更准确的标签,以进行全面训练。广泛的实验结果表明,我们的方法甚至优于最先进的竞争对手,而少于1 \%的主动选择注释。
translated by 谷歌翻译
准确的移动对象细分是自动驾驶的重要任务。它可以为许多下游任务提供有效的信息,例如避免碰撞,路径计划和静态地图构建。如何有效利用时空信息是3D激光雷达移动对象分割(LIDAR-MOS)的关键问题。在这项工作中,我们提出了一个新型的深神经网络,利用了时空信息和不同的LiDAR扫描表示方式,以提高LIDAR-MOS性能。具体而言,我们首先使用基于图像图像的双分支结构来分别处理可以从顺序的LiDAR扫描获得的空间和时间信息,然后使用运动引导的注意模块组合它们。我们还通过3D稀疏卷积使用点完善模块来融合LIDAR范围图像和点云表示的信息,并减少对象边界上的伪像。我们验证了我们提出的方法对Semantickitti的LiDAR-MOS基准的有效性。我们的方法在LiDar-Mos IOU方面大大优于最先进的方法。从设计的粗到精细体系结构中受益,我们的方法以传感器框架速率在线运行。我们方法的实现可作为开源可用:https://github.com/haomo-ai/motionseg3d。
translated by 谷歌翻译
单眼3D对象检测是自动驾驶的重要感知任务。但是,对大型标记数据的高度依赖使其在模型优化过程中昂贵且耗时。为了减少对人类注释的过度依赖,我们提出了混合教学,这是一个有效的半监督学习框架,适用于在训练阶段采用标签和未标记的图像。教学首先通过自我训练生成用于未标记图像的伪标记。然后,通过将实例级图像贴片合并到空背景或标记的图像中,对学生模型进行了更密集和精确的标签的混合图像训练。这是第一个打破图像级限制并将高质量的伪标签从多帧放入一个图像进行半监督训练的图像。此外,由于置信度评分和本地化质量之间的错位,很难仅使用基于置信度的标准将高质量的伪标签与嘈杂的预测区分开。为此,我们进一步引入了一个基于不确定性的过滤器,以帮助选择可靠的伪框来进行上述混合操作。据我们所知,这是单眼3D对象检测的第一个统一SSL框架。在KITTI数据集上的各种标签比下,混合教学始终通过大幅度的边缘改善了单支持者和GUPNET。例如,我们的方法在仅使用10%标记的数据时,在验证集上对GUPNET基线的改进约为 +6.34%ap@0.7。此外,通过利用完整的训练套件和Kitti的另外48K RAW图像,它可以进一步提高单声道 +4.65%的ap@0.7,以提高汽车检测,达到18.54%ap@0.7基于Kitti测试排行榜的方法。代码和预估计的模型将在https://github.com/yanglei18/mix-teaching上发布。
translated by 谷歌翻译
本文提出了一个统一的神经网络结构,用于联合3D对象检测和点云分段。我们利用检测和分割标签的丰富监督,而不是使用其中一个。另外,基于广泛应用于3D场景和对象理解的隐式功能,提出了基于单级对象检测器的扩展。扩展分支从对象检测模块作为输入采用最终特征映射,并产生隐式功能,为其对应的体素中心产生每个点的语义分布。我们展示了我们在NUSCENES-LIDARSEG上的结构的表现,这是一个大型户外数据集。我们的解决方案在与对象检测解决方案相比,在3D对象检测和点云分割中实现了针对现有的方法的竞争结果。通过实验验证了所提出的方法的有效弱监管语义分割的能力。
translated by 谷歌翻译
微创手术中的手术工具检测是计算机辅助干预措施的重要组成部分。当前的方法主要是基于有监督的方法,这些方法需要大量的完全标记的数据来培训监督模型,并且由于阶级不平衡问题而患有伪标签偏见。但是,带有边界框注释的大图像数据集通常几乎无法使用。半监督学习(SSL)最近出现了仅使用适度的注释数据训练大型模型的一种手段。除了降低注释成本。 SSL还显示出希望产生更强大和可推广的模型。因此,在本文中,我们在手术工具检测范式中介绍了半监督学习(SSL)框架,该框架旨在通过知识蒸馏方法来减轻培训数据的稀缺和数据失衡。在拟议的工作中,我们培训了一个标有数据的模型,该模型启动了教师学生的联合学习,在该学习中,学生接受了来自未标记数据的教师生成的伪标签的培训。我们提出了一个多级距离,在检测器的利益区域头部具有基于保证金的分类损失函数,以有效地将前景类别与背景区域隔离。我们在M2CAI16-Tool-locations数据集上的结果表明,我们的方法在不同的监督数据设置(1%,2%,5%,注释数据的10%)上的优越性,其中我们的模型可实现8%,12%和27的总体改善在最先进的SSL方法和完全监督的基线上,MAP中的%(在1%标记的数据上)。该代码可在https://github.com/mansoor-at/semi-supervise-surgical-tool-det上获得
translated by 谷歌翻译
语义分割是开发医学图像诊断系统的重要任务。但是,构建注释的医疗数据集很昂贵。因此,在这种情况下,半监督方法很重要。在半监督学习中,标签的质量在模型性能中起着至关重要的作用。在这项工作中,我们提出了一种新的伪标签策略,可提高用于培训学生网络的伪标签的质量。我们遵循多阶段的半监督训练方法,该方法在标记的数据集上训练教师模型,然后使用训练有素的老师将伪标签渲染用于学生培训。通过这样做,伪标签将被更新,并且随着培训的进度更加精确。上一个和我们的方法之间的关键区别在于,我们在学生培训过程中更新教师模型。因此,在学生培训过程中,提高了伪标签的质量。我们还提出了一种简单但有效的策略,以使用动量模型来提高伪标签的质量 - 训练过程中原始模型的慢复制版本。通过应用动量模型与学生培训期间的重新渲染伪标签相结合,我们在五个数据集中平均达到了84.1%的骰子分数(即Kvarsir,CVC-ClinicdB,Etis-laribpolypdb,cvc-colondb,cvc-colondb,cvc-colondb和cvc-300)和CVC-300)只有20%的数据集用作标记数据。我们的结果超过了3%的共同实践,甚至在某些数据集中取得了完全监督的结果。我们的源代码和预培训模型可在https://github.com/sun-asterisk-research/online学习SSL上找到
translated by 谷歌翻译
Our dataset provides dense annotations for each scan of all sequences from the KITTI Odometry Benchmark [19]. Here, we show multiple scans aggregated using pose information estimated by a SLAM approach.
translated by 谷歌翻译
卷积神经网络可以在语义细分任务中实现出色的性能。但是,这种神经网络方法在很大程度上依赖于昂贵的像素级注释。半监督学习是解决这个问题的有前途的决议,但其表现仍然远远落后于完全受监督的对手。这项工作提出了一个带有三个模块的跨教师培训框架,可显着改善传统的半监督学习方法。核心是跨教师模块,可以同时减少同伴网络之间的耦合以及教师和学生网络之间的错误积累。此外,我们提出了两个互补的对比学习模块。高级模块可以将高质量的知识从标记的数据传输到未标记的数据,并在特征空间中促进类之间的分离。低级模块可以鼓励从同伴网络中的高质量功能学习的低质量功能。在实验中,跨教师模块显着提高了传统的学生教师方法的性能,而我们的框架在基准数据集上的表现优于现行方法。我们的CTT源代码将发布。
translated by 谷歌翻译
从非结构化的3D点云学习密集点语义,虽然是一个逼真的问题,但在文献中探讨了逼真的问题。虽然现有的弱监督方法可以仅具有小数点的点级注释来有效地学习语义,但我们发现香草边界箱级注释也是大规模3D点云的语义分割信息。在本文中,我们介绍了一个神经结构,称为Box2Seg,以了解3D点云的点级语义,具有边界盒级监控。我们方法的关键是通过探索每个边界框内和外部的几何和拓扑结构来生成准确的伪标签。具体地,利用基于注意的自我训练(AST)技术和点类激活映射(PCAM)来估计伪标签。通过伪标签进行进一步培训并精制网络。在两个大型基准测试中的实验,包括S3DIS和Scannet,证明了该方法的竞争性能。特别是,所提出的网络可以培训,甚至是均匀的空缺边界箱级注释和子环级标签。
translated by 谷歌翻译
自动驾驶汽车必须在3D中检测其他车辆和行人,以计划安全路线并避免碰撞。基于深度学习的最先进的3D对象探测器已显示出有希望的准确性,但容易过度拟合域特质,使它们在新环境中失败 - 如果自动驾驶汽车旨在自动操作,则是一个严重的问题。在本文中,我们提出了一种新颖的学习方法,该方法通过在目标域中的伪标记上微调检测器,从而大大减少这一差距,我们的方法在车辆停放时会根据先前记录的驾驶序列的重播而生成的差距。在这些重播中,随着时间的推移会跟踪对象,并且检测被插值和外推 - 至关重要的是利用未来的信息来捕获硬病例。我们在五个自动驾驶数据集上显示,对这些伪标签上的对象检测器进行微调大大减少了域间隙到新的驾驶环境,从而极大地提高了准确性和检测可靠性。
translated by 谷歌翻译
点云实例分割在深度学习的出现方面取得了巨大进展。然而,这些方法通常是具有昂贵且耗时的密度云注释的数据饥饿。为了减轻注释成本,在任务中仍申请未标记或弱标记的数据。在本文中,我们使用标记和未标记的边界框作为监控,介绍第一个半监控点云实例分段框架(SPIB)。具体而言,我们的SPIB架构涉及两级学习程序。对于阶段,在具有扰动一致性正则化(SPCR)的半监控设置下培训边界框提案生成网络。正规化通过强制执行对应用于输入点云的不同扰动的边界框预测的不变性,为网络学习提供自我监督。对于阶段,使用SPCR的边界框提案被分组为某些子集,并且使用新颖的语义传播模块和属性一致性图模块中的每个子集中挖掘实例掩码。此外,我们介绍了一种新型占用比导改进模块,以优化实例掩码。对挑战队的攻击v2数据集进行了广泛的实验,证明了我们的方法可以实现与最近的完全监督方法相比的竞争性能。
translated by 谷歌翻译