研究表明,当训练数据缺少注释时,对象检测器的性能下降,即稀疏注释数据。当代方法专注于缺少地面实话注释的代理,无论是伪标签的形式还是通过在训练期间重新称重梯度。在这项工作中,我们重新审视了稀疏注释物体检测的制定。我们观察到稀疏注释的物体检测可以被认为是区域级的半监督对象检测问题。在此洞察力上,我们提出了一种基于区域的半监督算法,它自动识别包含未标记的前景对象的区域。我们的算法然后以不同的方式处理标记和未标记的前景区域,在半监督方法中进行常见做法。为了评估所提出的方法的有效性,我们对普斯卡尔库尔和可可数据集的稀疏注释方法常用的五种分裂进行详尽的实验,并实现最先进的性能。除此之外,我们还表明,我们的方法在标准半监督设置上实现了竞争性能,证明了我们的方法的实力和广泛适用性。
translated by 谷歌翻译
半弱监督和监督的学习最近在对象检测文献中引起了很大的关注,因为它们可以减轻成功训练深度学习模型所需的注释成本。半监督学习的最先进方法依赖于使用多阶段过程训练的学生老师模型,并大量数据增强。为弱监督的设置开发了自定义网络,因此很难适应不同的检测器。在本文中,引入了一种弱半监督的训练方法,以减少这些训练挑战,但通过仅利用一小部分全标记的图像,并在弱标记图像中提供信息来实现最先进的性能。特别是,我们基于通用抽样的学习策略以在线方式产生伪基真实(GT)边界框注释,消除了对多阶段培训的需求和学生教师网络配置。这些伪GT框是根据通过得分传播过程累积的对象建议的分类得分从弱标记的图像中采样的。 PASCAL VOC数据集的经验结果表明,使用VOC 2007作为完全标记的拟议方法可提高性能5.0%,而VOC 2012作为弱标记数据。同样,有了5-10%的完全注释的图像,我们观察到MAP中的10%以上的改善,表明对图像级注释的适度投资可以大大改善检测性能。
translated by 谷歌翻译
迄今为止,最强大的半监督对象检测器(SS-OD)基于伪盒,该盒子需要一系列带有微调超参数的后处理。在这项工作中,我们建议用稀疏的伪盒子以伪造的伪标签形式取代稀疏的伪盒。与伪盒相比,我们的密集伪标签(DPL)不涉及任何后处理方法,因此保留了更丰富的信息。我们还引入了一种区域选择技术,以突出关键信息,同时抑制密集标签所携带的噪声。我们将利用DPL作为密集老师的拟议的SS-OD算法命名。在可可和VOC上,密集的老师在各种环境下与基于伪盒的方法相比表现出卓越的表现。
translated by 谷歌翻译
Semi-supervised object detection (SSOD) aims to boost detection performance by leveraging extra unlabeled data. The teacher-student framework has been shown to be promising for SSOD, in which a teacher network generates pseudo-labels for unlabeled data to assist the training of a student network. Since the pseudo-labels are noisy, filtering the pseudo-labels is crucial to exploit the potential of such framework. Unlike existing suboptimal methods, we propose a two-step pseudo-label filtering for the classification and regression heads in a teacher-student framework. For the classification head, OCL (Object-wise Contrastive Learning) regularizes the object representation learning that utilizes unlabeled data to improve pseudo-label filtering by enhancing the discriminativeness of the classification score. This is designed to pull together objects in the same class and push away objects from different classes. For the regression head, we further propose RUPL (Regression-Uncertainty-guided Pseudo-Labeling) to learn the aleatoric uncertainty of object localization for label filtering. By jointly filtering the pseudo-labels for the classification and regression heads, the student network receives better guidance from the teacher network for object detection task. Experimental results on Pascal VOC and MS-COCO datasets demonstrate the superiority of our proposed method with competitive performance compared to existing methods.
translated by 谷歌翻译
半监督对象检测(SSOD)的最新进展主要由基于一致性的伪标记方法驱动,用于图像分类任务,产生伪标签作为监控信号。然而,在使用伪标签时,缺乏考虑本地化精度和放大的类别不平衡,这两者都对于检测任务至关重要。在本文中,我们介绍了针对物体检测量身定制的确定性感知伪标签,可以有效地估计导出的伪标签的分类和定位质量。这是通过将传统定位转换为分类任务之后的传统定位来实现的。在分类和本地化质量分数上调节,我们动态调整用于为每个类别生成伪标签和重重损耗函数的阈值,以减轻类别不平衡问题。广泛的实验表明,我们的方法在Coco和Pascal VOC上的1-2%AP改善了最先进的SSOD性能,同时与大多数现有方法正交和互补。在有限的注释制度中,我们的方法可以通过从Coco标记的1-10%标记数据来改善监督基准。
translated by 谷歌翻译
Deep learning has emerged as an effective solution for solving the task of object detection in images but at the cost of requiring large labeled datasets. To mitigate this cost, semi-supervised object detection methods, which consist in leveraging abundant unlabeled data, have been proposed and have already shown impressive results. However, most of these methods require linking a pseudo-label to a ground-truth object by thresholding. In previous works, this threshold value is usually determined empirically, which is time consuming, and only done for a single data distribution. When the domain, and thus the data distribution, changes, a new and costly parameter search is necessary. In this work, we introduce our method Adaptive Self-Training for Object Detection (ASTOD), which is a simple yet effective teacher-student method. ASTOD determines without cost a threshold value based directly on the ground value of the score histogram. To improve the quality of the teacher predictions, we also propose a novel pseudo-labeling procedure. We use different views of the unlabeled images during the pseudo-labeling step to reduce the number of missed predictions and thus obtain better candidate labels. Our teacher and our student are trained separately, and our method can be used in an iterative fashion by replacing the teacher by the student. On the MS-COCO dataset, our method consistently performs favorably against state-of-the-art methods that do not require a threshold parameter, and shows competitive results with methods that require a parameter sweep search. Additional experiments with respect to a supervised baseline on the DIOR dataset containing satellite images lead to similar conclusions, and prove that it is possible to adapt the score threshold automatically in self-training, regardless of the data distribution.
translated by 谷歌翻译
最近,许多半监督的对象检测(SSOD)方法采用教师学生框架并取得了最新的结果。但是,教师网络与学生网络紧密相结合,因为教师是学生的指数移动平均值(EMA),这会导致表现瓶颈。为了解决耦合问题,我们为SSOD提出了一个周期自我训练(CST)框架,该框架由两个老师T1和T2,两个学生S1和S2组成。基于这些网络,构建了一个周期自我训练机制​​,即S1 $ {\ rightarrow} $ t1 $ {\ rightArow} $ s2 $ {\ rightArrow} $ t2 $ {\ rightArrow} $ s1。对于S $ {\ Rightarrow} $ T,我们还利用学生的EMA权重来更新老师。对于t $ {\ rightarrow} $ s,而不是直接为其学生S1(S2)提供监督,而是老师T1(T2)为学生S2(S1)生成伪标记,从而松散耦合效果。此外,由于EMA的财产,老师最有可能积累学生的偏见,并使错误变得不可逆转。为了减轻问题,我们还提出了分配一致性重新加权策略,在该策略中,根据教师T1和T2的分配一致性,将伪标记重新加权。通过该策略,可以使用嘈杂的伪标签对两个学生S2和S1进行训练,以避免确认偏见。广泛的实验证明了CST的优势,通过将AP比基线优于最先进的方法提高了2.1%的绝对AP改进,并具有稀缺的标记数据,而胜过了2.1%的绝对AP。
translated by 谷歌翻译
半监督的对象检测在平均教师驱动的自我训练的发展中取得了重大进展。尽管结果有令人鼓舞,但在先前的工作中尚未完全探索标签不匹配问题,从而导致自训练期间严重确认偏见。在本文中,我们从两个不同但互补的角度(即分布级别和实例级别)提出了一个简单而有效的标签框架。对于前者,根据Monte Carlo采样,可以合理地近似来自标记数据的未标记数据的类分布。在这种弱监督提示的指导下,我们引入了一个重新分配卑鄙的老师,该老师利用自适应标签 - 分布意识到的信心阈值来生成无偏见的伪标签来推动学生学习。对于后一个,存在着跨教师模型的被忽视的标签分配歧义问题。为了解决这个问题,我们提出了一种新的标签分配机制,用于自我训练框架,即提案自我分配,该机制将学生的建议注入教师,并生成准确的伪标签,以相应地匹配学生模型中的每个建议。 MS-Coco和Pascal-VOC数据集的实验证明了我们提出的框架与其他最先进的框架相当优越。代码将在https://github.com/hikvision-research/ssod上找到。
translated by 谷歌翻译
弱监督对象检测(WSOD)旨在仅训练需要图像级注释的对象检测器。最近,一些作品设法选择了从训练有素的WSOD网络生成的准确框,以监督半监督的检测框架以提高性能。但是,这些方法只需根据图像级标准将设置的训练分为标记和未标记的集合,从而选择了足够的错误标记或错误的局部盒子预测作为伪基真正的真实性,从而产生了次优的检测性能解决方案。为了克服这个问题,我们提出了一个新颖的WSOD框架,其新范式从弱监督到嘈杂的监督(W2N)。通常,通过训练有素的WSOD网络产生的给定的伪基真实性,我们提出了一种两模块迭代训练算法来完善伪标签并逐步监督更好的对象探测器。在定位适应模块中,我们提出正规化损失,以减少原始伪基真实性中判别零件的比例,从而获得更好的伪基真实性,以进行进一步的训练。在半监督的模块中,我们提出了两个任务实例级拆分方法,以选择用于训练半监督检测器的高质量标签。不同基准测试的实验结果验证了W2N的有效性,我们的W2N优于所有现有的纯WSOD方法和转移学习方法。我们的代码可在https://github.com/1170300714/w2n_wsod上公开获得。
translated by 谷歌翻译
用于对象检测的注释边界框很昂贵,耗时且容易出错。在这项工作中,我们提出了一个基于DITR的框架,该框架旨在在部分注释的密集场景数据集中明确完成丢失的注释。这减少了注释场景中的每个对象实例,从而降低注释成本。完成DETR解码器中的对象查询,并使用图像中对象的补丁信息。结合匹配损失,它可以有效地找到与输入补丁相似的对象并完成丢失的注释。我们表明,我们的框架优于最先进的方法,例如软采样和公正的老师,同时可以与这些方法一起使用以进一步提高其性能。我们的框架对下游对象探测器的选择也不可知。我们显示了多个流行探测器的性能改进,例如在多个密集的场景数据集中更快的R-CNN,CASCADE R-CNN,CENTERNET2和可变形的DETR。
translated by 谷歌翻译
利用伪标签(例如,类别和边界框)由教师探测器产生的未注释的对象,已经为半监督对象检测(SSOD)的最新进展提供了很多进展。但是,由于稀缺注释引起的教师探测器的概括能力有限,因此产生的伪标签通常偏离地面真理,尤其是那些具有相对较低分类信心的人,从而限制了SSOD的概括性能。为了减轻此问题,我们为SSOD提出了一个双伪标签抛光框架。我们没有直接利用教师探测器生成的伪标签,而是首次尝试使用双抛光学习来减少它们偏离地面真相的偏差,其中两个不同结构化的抛光网络是精心开发和培训的分别在给定注释对象上的类别和边界框的真相。通过这样做,两个抛光网络都可以通过基于最初产生的伪标签充分利用其上下文知识来推断未注释的对象的更准确的伪标签,从而提高了SSOD的概括性能。此外,可以将这种方案无缝地插入现有的SSOD框架中,以进行端到端学习。此外,我们建议将抛光的伪类别和未注释的对象的边界框,用于单独的类别分类和SSOD中的边界框回归,这使得在模型训练过程中可以引入更多未经许可的对象,从而进一步提高了性能。 Pascal VOC和MS Coco基准测试的实验证明了该方法比现有最新基准的优越性。
translated by 谷歌翻译
构建强大的通用对象检测框架需要扩展到更大的标签空间和更大的培训数据集。但是,大规模获取数千个类别的注释是高昂的成本。我们提出了一种新颖的方法,该方法利用了最近的视觉和语言模型中可用的丰富语义来将对象定位和分类在未标记的图像中,从而有效地生成了伪标签以进行对象检测。从通用和类别的区域建议机制开始,我们使用视觉和语言模型将图像的每个区域分类为下游任务所需的任何对象类别。我们在两个特定的任务(开放式摄影检测检测)中演示了生成的伪标签的值,其中模型需要概括为看不见的对象类别以及半监督对象检测,其中可以使用其他未标记的图像来改善模型。我们的经验评估显示了伪标签在这两个任务中的有效性,我们在其中优于竞争基准并实现了开放式摄制对象检测的新颖最新。我们的代码可在https://github.com/xiaofeng94/vl-plm上找到。
translated by 谷歌翻译
Open-World实例细分(OWIS)旨在从图像中分割类不足的实例,该图像具有广泛的现实应用程序,例如自主驾驶。大多数现有方法遵循两阶段的管道:首先执行类不足的检测,然后再进行特定于类的掩模分段。相比之下,本文提出了一个单阶段框架,以直接为每个实例生成掩码。另外,实例掩码注释在现有数据集中可能很吵。为了克服这个问题,我们引入了新的正规化损失。具体而言,我们首先训练一个额外的分支来执行预测前景区域的辅助任务(即属于任何对象实例的区域),然后鼓励辅助分支的预测与实例掩码的预测一致。关键的见解是,这种交叉任务一致性损失可以充当误差校正机制,以打击注释中的错误。此外,我们发现所提出的跨任务一致性损失可以应用于图像,而无需任何注释,将自己借给了半监督的学习方法。通过广泛的实验,我们证明了所提出的方法可以在完全监督和半监督的设置中获得令人印象深刻的结果。与SOTA方法相比,所提出的方法将$ ap_ {100} $得分提高了4.75 \%\%\%\ rightarrow $ uvo设置和4.05 \%\%\%\%\%\%\ rightarrow $ uvo设置。在半监督学习的情况下,我们的模型仅使用30 \%标记的数据学习,甚至超过了其完全监督的数据,并具有5​​0 \%标记的数据。该代码将很快发布。
translated by 谷歌翻译
微创手术中的手术工具检测是计算机辅助干预措施的重要组成部分。当前的方法主要是基于有监督的方法,这些方法需要大量的完全标记的数据来培训监督模型,并且由于阶级不平衡问题而患有伪标签偏见。但是,带有边界框注释的大图像数据集通常几乎无法使用。半监督学习(SSL)最近出现了仅使用适度的注释数据训练大型模型的一种手段。除了降低注释成本。 SSL还显示出希望产生更强大和可推广的模型。因此,在本文中,我们在手术工具检测范式中介绍了半监督学习(SSL)框架,该框架旨在通过知识蒸馏方法来减轻培训数据的稀缺和数据失衡。在拟议的工作中,我们培训了一个标有数据的模型,该模型启动了教师学生的联合学习,在该学习中,学生接受了来自未标记数据的教师生成的伪标签的培训。我们提出了一个多级距离,在检测器的利益区域头部具有基于保证金的分类损失函数,以有效地将前景类别与背景区域隔离。我们在M2CAI16-Tool-locations数据集上的结果表明,我们的方法在不同的监督数据设置(1%,2%,5%,注释数据的10%)上的优越性,其中我们的模型可实现8%,12%和27的总体改善在最先进的SSL方法和完全监督的基线上,MAP中的%(在1%标记的数据上)。该代码可在https://github.com/mansoor-at/semi-supervise-surgical-tool-det上获得
translated by 谷歌翻译
在本文中,我们在半监督对象检测(SSOD)中深入研究了两种关键技术,即伪标记和一致性训练。我们观察到,目前,这两种技术忽略了对象检测的一些重要特性,从而阻碍了对未标记数据的有效学习。具体而言,对于伪标记,现有作品仅关注分类得分,但不能保证伪框的本地化精度;为了保持一致性训练,广泛采用的随机训练只考虑了标签级的一致性,但错过了功能级别的训练,这在确保尺度不变性方面也起着重要作用。为了解决嘈杂的伪箱所产生的问题,我们设计了包括预测引导的标签分配(PLA)和正面验证一致性投票(PCV)的嘈杂伪盒学习(NPL)。 PLA依赖于模型预测来分配标签,并使甚至粗糙的伪框都具有鲁棒性。 PCV利用积极建议的回归一致性来反映伪盒的本地化质量。此外,在一致性训练中,我们提出了包括标签和特征水平一致性的机制的多视图尺度不变学习(MSL),其中通过将两个图像之间的移动特征金字塔对准具有相同内容但变化量表的变化来实现特征一致性。在可可基准测试上,我们的方法称为伪标签和一致性训练(PSECO),分别以2.0、1.8、2.0分的1%,5%和10%的标签比优于SOTA(软教师)。它还显着提高了SSOD的学习效率,例如,PSECO将SOTA方法的训练时间减半,但实现了更好的性能。代码可从https://github.com/ligang-cs/pseco获得。
translated by 谷歌翻译
随着半监督对象检测(SS-OD)技术的最新开发,可以使用有限的标记数据和丰富的未标记数据来改进对象检测器。但是,仍然有两个挑战未解决:(1)在无锚点检测器上没有先前的SS-OD作品,并且(2)当伪标记的边界框回归时,先前的工作是无效的。在本文中,我们提出了无偏见的教师V2,其中显示了SS-OD方法对无锚定检测器的概括,并引入了无监督回归损失的侦听机制。具体而言,我们首先提出了一项研究,研究了现有的SS-OD方法在无锚固探测器上的有效性,并发现在半监督的设置下它们的性能改善要较低。我们还观察到,在无锚点检测器中使用的中心度和基于本地化的标签的盒子选择不能在半监视的设置下正常工作。另一方面,我们的聆听机制明确地阻止了在边界框回归训练中误导伪标记。我们特别开发了一种基于教师和学生的相对不确定性的新型伪标记的选择机制。这个想法有助于半监督环境中回归分支的有利改善。我们的方法适用于无锚固方法和基于锚的方法,它始终如一地对VOC,可可标准和可可添加的最新方法表现出色。
translated by 谷歌翻译
在这项研究中,我们深入研究了半监督对象检测〜(SSOD)所面临的独特挑战。我们观察到当前的探测器通常遭受3个不一致问题。 1)分配不一致,传统的分配策略对标记噪声很敏感。 2)子任务不一致,其中分类和回归预测在同一特征点未对准。 3)时间不一致,伪Bbox在不同的训练步骤中差异很大。这些问题导致学生网络的优化目标不一致,从而恶化了性能并减慢模型收敛性。因此,我们提出了一个系统的解决方案,称为一致的老师,以补救上述挑战。首先,自适应锚分配代替了基于静态的策略,该策略使学生网络能够抵抗嘈杂的psudo bbox。然后,我们通过设计功能比对模块来校准子任务预测。最后,我们采用高斯混合模型(GMM)来动态调整伪盒阈值。一致的老师在各种SSOD评估上提供了新的强大基线。只有10%的带注释的MS-Coco数据,它可以使用Resnet-50骨干实现40.0 MAP,该数据仅使用伪标签,超过了4个地图。当对完全注释的MS-Coco进行其他未标记的数据进行培训时,性能将进一步增加到49.1 MAP。我们的代码将很快开源。
translated by 谷歌翻译
半监督学习旨在利用大量未标记的数据进行性能提升。现有工作主要关注图像分类。在本文中,我们深入了解对象检测的半监督学习,其中标记的数据更加劳动密集。目前的方法是由伪标签产生的嘈杂区域分散注意力。为了打击嘈杂的标签,我们通过量化区域不确定性提出抗噪声的半监督学习。我们首先调查与伪标签相关的不同形式的噪声带来的不利影响。然后,我们建议通过识别不同强度的区域的抗性特性来量化区域的不确定性。通过导入该地区不确定性量化和促进多跳概率分布输出,我们将不确定性引入训练和进一步实现抗噪声学习。 Pascal VOC和MS COCO两者的实验证明了我们的方法的特殊表现。
translated by 谷歌翻译
平均老师(MT)方案在半监督对象检测(SSOD)中被广泛采用。在MT中,通过手工制作的标签分配,采用了由教师的最终预测(例如,在无最大抑制(NMS)后处理之后)提供的稀疏伪标签(例如,在无最大抑制(NMS)后处理)。但是,稀疏到密集的范式使SSOD的管道复杂化,同时忽略了强大的直接,密集的教师监督。在本文中,我们试图直接利用教师的密集指导来监督学生培训,即密集至密集的范式。具体而言,我们建议逆NMS聚类(INC)和等级匹配(RM),以实例化密集的监督,而无需广泛使用的常规稀疏伪标签。 Inc带领学生像老师一样将候选箱子分组为NMS中的群集,这是通过学习在NMS过程中揭示的分组信息来实现的。在通过Inc获得了与教师相同的分组计划后,学生通过排名匹配进一步模仿了教师与聚类候选人的排名分配。借助拟议的Inc和RM,我们将密集的教师指导集成到半监督的对象检测(称为DTG-SSOD)中,成功地放弃了稀疏的伪标签,并在未标记的数据上提供了更有信息的学习。在可可基准上,我们的DTG-SSOD在各种标签率下实现了最先进的性能。例如,在10%的标签率下,DTG-SSOD将监督的基线从26.9提高到35.9地图,使以前的最佳方法软教师的表现优于1.9分。
translated by 谷歌翻译
最近对物体检测的自我监督预防方法在很大程度上专注于预先绘制物体探测器的骨干,忽略了检测架构的关键部分。相反,我们介绍了DetReg,这是一种新的自我监督方法,用于预先列出整个对象检测网络,包括对象本地化和嵌入组件。在预先绘制期间,DetReg预测对象本地化以与无监督区域提议生成器匹配本地化,并同时将相应的特征嵌入与自我监控图像编码器的嵌入式对齐。我们使用DETR系列探测器实施DetReg,并显示它在Coco,Pascal VOC和空中客车船基准上的Fineetuned时改善了竞争性基线。在低数据制度中,包括半监督和几秒钟学习设置,DetReg建立了许多最先进的结果,例如,在Coco上,我们看到10次检测和+3.5的AP改进A +6.0 AP改进当培训只有1%的标签时。对于代码和预用模型,请访问https://amirbar.net/detreg的项目页面
translated by 谷歌翻译