深度学习方法需要大量的注释数据以优化参数。例如,附加具有准确边界框注释的数据集对于现代对象检测任务至关重要。但是,具有这样的像素准确性的标签是费力且耗时的,并且精心制作的标记程序对于降低人造噪声是必不可少的,涉及注释审查和接受测试。在本文中,我们关注嘈杂的位置注释对对象检测方法的性能的影响,并旨在减少噪声的不利影响。首先,当将噪声引入边界框注释中时,一阶段和两阶段检测器都会在实验上观察到明显的性能降解。例如,我们的合成噪声导致可可测试分裂的FCO探测器的性能从38.9%的AP降低到33.6%的AP,对于更快的R-CNN而言,COCO检测器的性能从38.9%的AP下降到37.8%的AP和33.7%的AP。其次,提出了一种基于贝叶斯过滤器进行预测合奏的自我纠正技术,以更好地利用教师学习范式后的嘈杂位置注释。合成和现实世界情景的实验始终证明了我们方法的有效性,例如,我们的方法将FCOS检测器的降解性能从33.6%的AP提高到可可的35.6%AP。
translated by 谷歌翻译
在这项研究中,我们深入研究了半监督对象检测〜(SSOD)所面临的独特挑战。我们观察到当前的探测器通常遭受3个不一致问题。 1)分配不一致,传统的分配策略对标记噪声很敏感。 2)子任务不一致,其中分类和回归预测在同一特征点未对准。 3)时间不一致,伪Bbox在不同的训练步骤中差异很大。这些问题导致学生网络的优化目标不一致,从而恶化了性能并减慢模型收敛性。因此,我们提出了一个系统的解决方案,称为一致的老师,以补救上述挑战。首先,自适应锚分配代替了基于静态的策略,该策略使学生网络能够抵抗嘈杂的psudo bbox。然后,我们通过设计功能比对模块来校准子任务预测。最后,我们采用高斯混合模型(GMM)来动态调整伪盒阈值。一致的老师在各种SSOD评估上提供了新的强大基线。只有10%的带注释的MS-Coco数据,它可以使用Resnet-50骨干实现40.0 MAP,该数据仅使用伪标签,超过了4个地图。当对完全注释的MS-Coco进行其他未标记的数据进行培训时,性能将进一步增加到49.1 MAP。我们的代码将很快开源。
translated by 谷歌翻译
半监督对象检测(SSOD)的最新进展主要由基于一致性的伪标记方法驱动,用于图像分类任务,产生伪标签作为监控信号。然而,在使用伪标签时,缺乏考虑本地化精度和放大的类别不平衡,这两者都对于检测任务至关重要。在本文中,我们介绍了针对物体检测量身定制的确定性感知伪标签,可以有效地估计导出的伪标签的分类和定位质量。这是通过将传统定位转换为分类任务之后的传统定位来实现的。在分类和本地化质量分数上调节,我们动态调整用于为每个类别生成伪标签和重重损耗函数的阈值,以减轻类别不平衡问题。广泛的实验表明,我们的方法在Coco和Pascal VOC上的1-2%AP改善了最先进的SSOD性能,同时与大多数现有方法正交和互补。在有限的注释制度中,我们的方法可以通过从Coco标记的1-10%标记数据来改善监督基准。
translated by 谷歌翻译
迄今为止,最强大的半监督对象检测器(SS-OD)基于伪盒,该盒子需要一系列带有微调超参数的后处理。在这项工作中,我们建议用稀疏的伪盒子以伪造的伪标签形式取代稀疏的伪盒。与伪盒相比,我们的密集伪标签(DPL)不涉及任何后处理方法,因此保留了更丰富的信息。我们还引入了一种区域选择技术,以突出关键信息,同时抑制密集标签所携带的噪声。我们将利用DPL作为密集老师的拟议的SS-OD算法命名。在可可和VOC上,密集的老师在各种环境下与基于伪盒的方法相比表现出卓越的表现。
translated by 谷歌翻译
Previous knowledge distillation (KD) methods for object detection mostly focus on feature imitation instead of mimicking the prediction logits due to its inefficiency in distilling the localization information. In this paper, we investigate whether logit mimicking always lags behind feature imitation. Towards this goal, we first present a novel localization distillation (LD) method which can efficiently transfer the localization knowledge from the teacher to the student. Second, we introduce the concept of valuable localization region that can aid to selectively distill the classification and localization knowledge for a certain region. Combining these two new components, for the first time, we show that logit mimicking can outperform feature imitation and the absence of localization distillation is a critical reason for why logit mimicking underperforms for years. The thorough studies exhibit the great potential of logit mimicking that can significantly alleviate the localization ambiguity, learn robust feature representation, and ease the training difficulty in the early stage. We also provide the theoretical connection between the proposed LD and the classification KD, that they share the equivalent optimization effect. Our distillation scheme is simple as well as effective and can be easily applied to both dense horizontal object detectors and rotated object detectors. Extensive experiments on the MS COCO, PASCAL VOC, and DOTA benchmarks demonstrate that our method can achieve considerable AP improvement without any sacrifice on the inference speed. Our source code and pretrained models are publicly available at https://github.com/HikariTJU/LD.
translated by 谷歌翻译
现实世界中的对象检测模型应便宜且准确。知识蒸馏(KD)可以通过利用大型教师模型的有用信息来提高小型,廉价检测模型的准确性。但是,一个关键的挑战是确定老师进行蒸馏产生的最有用的功能。在这项工作中,我们表明,在地面边界框中只有一小部分功能才是老师的高检测性能。基于此,我们提出了预测引导的蒸馏(PGD),该蒸馏将蒸馏放在教师的这些关键预测区域上,并在许多现有的KD基准方面的性能取得了可观的增长。此外,我们建议对关键区域进行自适应加权方案,以平滑其影响力并取得更好的性能。我们提出的方法在各种高级一阶段检测体系中的当前最新KD基准都优于当前的最新KD基线。具体而言,在可可数据集上,我们的方法分别使用RESNET-101和RESNET-50作为教师和学生骨架,在 +3.1%和 +4.6%的AP改进之间达到了AP的改善。在CrowdHuman数据集上,我们还使用这些骨架,在MR和AP上取得了 +3.2%和 +2.0%的提高。我们的代码可在https://github.com/chenhongyiyang/pgd上找到。
translated by 谷歌翻译
随着半监督对象检测(SS-OD)技术的最新开发,可以使用有限的标记数据和丰富的未标记数据来改进对象检测器。但是,仍然有两个挑战未解决:(1)在无锚点检测器上没有先前的SS-OD作品,并且(2)当伪标记的边界框回归时,先前的工作是无效的。在本文中,我们提出了无偏见的教师V2,其中显示了SS-OD方法对无锚定检测器的概括,并引入了无监督回归损失的侦听机制。具体而言,我们首先提出了一项研究,研究了现有的SS-OD方法在无锚固探测器上的有效性,并发现在半监督的设置下它们的性能改善要较低。我们还观察到,在无锚点检测器中使用的中心度和基于本地化的标签的盒子选择不能在半监视的设置下正常工作。另一方面,我们的聆听机制明确地阻止了在边界框回归训练中误导伪标记。我们特别开发了一种基于教师和学生的相对不确定性的新型伪标记的选择机制。这个想法有助于半监督环境中回归分支的有利改善。我们的方法适用于无锚固方法和基于锚的方法,它始终如一地对VOC,可可标准和可可添加的最新方法表现出色。
translated by 谷歌翻译
知识蒸馏在分类中取得了巨大的成功,但是,仍然有挑战性。在用于检测的典型图像中,来自不同位置的表示可能对检测目标具有不同的贡献,使蒸馏难以平衡。在本文中,我们提出了一种有条件的蒸馏框架来蒸馏出所需的知识,即关于每个例子的分类和本地化有益的知识。该框架引入了一种可学习的条件解码模块,其将每个目标实例检索为查询的信息。具体而言,我们将条件信息编码为查询并使用教师的表示作为键。查询和键之间的注意用于测量不同特征的贡献,由本地化识别敏感辅助任务指导。广泛的实验表明了我们的方法的功效:我们在各种环境下观察到令人印象深刻的改进。值得注意的是,在1倍计划下,我们将通过37.4至40.7地图(+3.3)与Reset-50骨架的Restinetet提升。代码已在https://github.com/megvii-research/icd上发布。
translated by 谷歌翻译
知识蒸馏(KD)目睹了其在物体检测中学习紧凑型号的强大能力。以前的KD方法用于对象检测主要是侧重于模仿仿地区内的深度特征,而不是模仿分类登录,而不是蒸馏定位信息的低效率。在本文中,通过重新制定本地化的知识蒸馏过程,我们提出了一种新的本地化蒸馏(LD)方法,可以有效地将老师的本地化知识转移给学生。此外,我们还启发式介绍了有价值的本地化区域的概念,可以帮助选择性地蒸馏某个地区的语义和本地化知识。第一次结合这两个新组件,我们显示Logit Mimicing可以优于特征模仿和本地化知识蒸馏比蒸馏对象探测器的语义知识更为重要和有效。我们的蒸馏方案简单,有效,可以很容易地应用于不同的致密物体探测器。实验表明,我们的LD可以将GFOCal-Reset-50的AP得分提升,单一规模的1 $ \ Times $培训计划从Coco基准测试中的40.1到42.1,没有任何牺牲品推断速度。我们的源代码和培训的型号在https://github.com/hikaritju/ld公开提供
translated by 谷歌翻译
弱监督对象检测(WSOD)旨在仅训练需要图像级注释的对象检测器。最近,一些作品设法选择了从训练有素的WSOD网络生成的准确框,以监督半监督的检测框架以提高性能。但是,这些方法只需根据图像级标准将设置的训练分为标记和未标记的集合,从而选择了足够的错误标记或错误的局部盒子预测作为伪基真正的真实性,从而产生了次优的检测性能解决方案。为了克服这个问题,我们提出了一个新颖的WSOD框架,其新范式从弱监督到嘈杂的监督(W2N)。通常,通过训练有素的WSOD网络产生的给定的伪基真实性,我们提出了一种两模块迭代训练算法来完善伪标签并逐步监督更好的对象探测器。在定位适应模块中,我们提出正规化损失,以减少原始伪基真实性中判别零件的比例,从而获得更好的伪基真实性,以进行进一步的训练。在半监督的模块中,我们提出了两个任务实例级拆分方法,以选择用于训练半监督检测器的高质量标签。不同基准测试的实验结果验证了W2N的有效性,我们的W2N优于所有现有的纯WSOD方法和转移学习方法。我们的代码可在https://github.com/1170300714/w2n_wsod上公开获得。
translated by 谷歌翻译
航空图像中的微小对象检测(TOD)是具有挑战性的,因为一个小物体只包含几个像素。最先进的对象探测器由于缺乏判别特征的监督而无法为微小对象提供令人满意的结果。我们的主要观察结果是,联合度量(IOU)及其扩展的相交对微小物体的位置偏差非常敏感,这在基于锚固的探测器中使用时会大大恶化标签分配的质量。为了解决这个问题,我们提出了一种新的评估度量标准,称为标准化的Wasserstein距离(NWD)和一个新的基于排名的分配(RKA)策略,以进行微小对象检测。提出的NWD-RKA策略可以轻松地嵌入到各种基于锚的探测器中,以取代标准的基于阈值的检测器,从而大大改善了标签分配并为网络培训提供了足够的监督信息。在四个数据集中测试,NWD-RKA可以始终如一地提高微小的对象检测性能。此外,在空中图像(AI-TOD)数据集中观察到显着的嘈杂标签,我们有动力将其重新标记并释放AI-TOD-V2及其相应的基准。在AI-TOD-V2中,丢失的注释和位置错误问题得到了大大减轻,从而促进了更可靠的培训和验证过程。将NWD-RKA嵌入探测器中,检测性能比AI-TOD-V2上的最先进竞争对手提高了4.3个AP点。数据集,代码和更多可视化可在以下网址提供:https://chasel-tsui.g​​ithub.io/ai/ai-tod-v2/
translated by 谷歌翻译
Scaling object taxonomies is one of the important steps toward a robust real-world deployment of recognition systems. We have faced remarkable progress in images since the introduction of the LVIS benchmark. To continue this success in videos, a new video benchmark, TAO, was recently presented. Given the recent encouraging results from both detection and tracking communities, we are interested in marrying those two advances and building a strong large vocabulary video tracker. However, supervisions in LVIS and TAO are inherently sparse or even missing, posing two new challenges for training the large vocabulary trackers. First, no tracking supervisions are in LVIS, which leads to inconsistent learning of detection (with LVIS and TAO) and tracking (only with TAO). Second, the detection supervisions in TAO are partial, which results in catastrophic forgetting of absent LVIS categories during video fine-tuning. To resolve these challenges, we present a simple but effective learning framework that takes full advantage of all available training data to learn detection and tracking while not losing any LVIS categories to recognize. With this new learning scheme, we show that consistent improvements of various large vocabulary trackers are capable, setting strong baseline results on the challenging TAO benchmarks.
translated by 谷歌翻译
平均老师(MT)方案在半监督对象检测(SSOD)中被广泛采用。在MT中,通过手工制作的标签分配,采用了由教师的最终预测(例如,在无最大抑制(NMS)后处理之后)提供的稀疏伪标签(例如,在无最大抑制(NMS)后处理)。但是,稀疏到密集的范式使SSOD的管道复杂化,同时忽略了强大的直接,密集的教师监督。在本文中,我们试图直接利用教师的密集指导来监督学生培训,即密集至密集的范式。具体而言,我们建议逆NMS聚类(INC)和等级匹配(RM),以实例化密集的监督,而无需广泛使用的常规稀疏伪标签。 Inc带领学生像老师一样将候选箱子分组为NMS中的群集,这是通过学习在NMS过程中揭示的分组信息来实现的。在通过Inc获得了与教师相同的分组计划后,学生通过排名匹配进一步模仿了教师与聚类候选人的排名分配。借助拟议的Inc和RM,我们将密集的教师指导集成到半监督的对象检测(称为DTG-SSOD)中,成功地放弃了稀疏的伪标签,并在未标记的数据上提供了更有信息的学习。在可可基准上,我们的DTG-SSOD在各种标签率下实现了最先进的性能。例如,在10%的标签率下,DTG-SSOD将监督的基线从26.9提高到35.9地图,使以前的最佳方法软教师的表现优于1.9分。
translated by 谷歌翻译
在本文中,我们在半监督对象检测(SSOD)中深入研究了两种关键技术,即伪标记和一致性训练。我们观察到,目前,这两种技术忽略了对象检测的一些重要特性,从而阻碍了对未标记数据的有效学习。具体而言,对于伪标记,现有作品仅关注分类得分,但不能保证伪框的本地化精度;为了保持一致性训练,广泛采用的随机训练只考虑了标签级的一致性,但错过了功能级别的训练,这在确保尺度不变性方面也起着重要作用。为了解决嘈杂的伪箱所产生的问题,我们设计了包括预测引导的标签分配(PLA)和正面验证一致性投票(PCV)的嘈杂伪盒学习(NPL)。 PLA依赖于模型预测来分配标签,并使甚至粗糙的伪框都具有鲁棒性。 PCV利用积极建议的回归一致性来反映伪盒的本地化质量。此外,在一致性训练中,我们提出了包括标签和特征水平一致性的机制的多视图尺度不变学习(MSL),其中通过将两个图像之间的移动特征金字塔对准具有相同内容但变化量表的变化来实现特征一致性。在可可基准测试上,我们的方法称为伪标签和一致性训练(PSECO),分别以2.0、1.8、2.0分的1%,5%和10%的标签比优于SOTA(软教师)。它还显着提高了SSOD的学习效率,例如,PSECO将SOTA方法的训练时间减半,但实现了更好的性能。代码可从https://github.com/ligang-cs/pseco获得。
translated by 谷歌翻译
We propose a fully convolutional one-stage object detector (FCOS) to solve object detection in a per-pixel prediction fashion, analogue to semantic segmentation. Almost all state-of-the-art object detectors such as RetinaNet, SSD, YOLOv3, and Faster R-CNN rely on pre-defined anchor boxes. In contrast, our proposed detector FCOS is anchor box free, as well as proposal free. By eliminating the predefined set of anchor boxes, FCOS completely avoids the complicated computation related to anchor boxes such as calculating overlapping during training. More importantly, we also avoid all hyper-parameters related to anchor boxes, which are often very sensitive to the final detection performance. With the only post-processing non-maximum suppression (NMS), FCOS with ResNeXt-64x4d-101 achieves 44.7% in AP with single-model and single-scale testing, surpassing previous one-stage detectors with the advantage of being much simpler. For the first time, we demonstrate a much simpler and flexible detection framework achieving improved detection accuracy. We hope that the proposed FCOS framework can serve as a simple and strong alternative for many other instance-level tasks. Code is available at:tinyurl.com/FCOSv1
translated by 谷歌翻译
半监督的对象检测在平均教师驱动的自我训练的发展中取得了重大进展。尽管结果有令人鼓舞,但在先前的工作中尚未完全探索标签不匹配问题,从而导致自训练期间严重确认偏见。在本文中,我们从两个不同但互补的角度(即分布级别和实例级别)提出了一个简单而有效的标签框架。对于前者,根据Monte Carlo采样,可以合理地近似来自标记数据的未标记数据的类分布。在这种弱监督提示的指导下,我们引入了一个重新分配卑鄙的老师,该老师利用自适应标签 - 分布意识到的信心阈值来生成无偏见的伪标签来推动学生学习。对于后一个,存在着跨教师模型的被忽视的标签分配歧义问题。为了解决这个问题,我们提出了一种新的标签分配机制,用于自我训练框架,即提案自我分配,该机制将学生的建议注入教师,并生成准确的伪标签,以相应地匹配学生模型中的每个建议。 MS-Coco和Pascal-VOC数据集的实验证明了我们提出的框架与其他最先进的框架相当优越。代码将在https://github.com/hikvision-research/ssod上找到。
translated by 谷歌翻译
通常在具有固定预定义类别的完全注销的培训数据上学习对象探测器。但是,通常需要逐步增加类别。通常,在这种情况下,只有用旧课程注释的原始培训集和一些带有新课程的新培训数据。基于有限的数据集,强烈需要一个可以处理所有类别的统一检测器。我们提出了一个实用计划,以实现这项工作。无冲突的损失旨在避免标签歧义,从而在一次训练中导致可接受的探测器。为了进一步提高性能,我们提出了一个重新培训阶段,其中采用蒙特卡洛辍学术来计算定位置信度,以挖掘更准确的边界框,并提出了一种重叠的加权方法,以更好地利用在重新训练期间更好地利用伪注释。广泛的实验证明了我们方法的有效性。
translated by 谷歌翻译
学习准确的对象探测器通常需要具有精确对象边界框的大规模培训数据。但是,标记此类数据是昂贵且耗时的。随着众包标签过程和对象的歧义可能会引起嘈杂的边界盒注释,对象探测器将遭受退化的训练数据。在这项工作中,我们旨在应对使用不准确的边界框来学习健壮对象探测器的挑战。受到以下事实的启发:本地化精度在分类精度不准确的框中显着遭受不准确的框架的影响,我们建议将分类作为用于完善定位结果的指导信号。具体而言,通过将对象视为一袋实例,我们引入了一种对象感知的多个实例学习方法(OA-MIL),其中具有对象感知的实例选择和对象感知实例扩展。前者旨在选择准确的培训实例,而不是直接使用不准确的框注释。后者的重点是生成高质量的选择实例。关于合成嘈杂数据集的广泛实验(即嘈杂的Pascal VOC和MS-Coco)和真正的嘈杂小麦头数据集证明了我们OA-MIL的有效性。代码可从https://github.com/cxliu0/oa-mil获得。
translated by 谷歌翻译
对对象探测器的监督培训需要良好的注释大规模数据集,其生产昂贵。因此,已经努力以经济的方式获得注释,例如云采购。但是,通过这些方法获得的数据集倾向于含有嘈杂的注释,例如不准确的边界框和不正确的类标签。在这项研究中,我们提出了一个新的问题在数据集上训练对象探测器的训练对象探测器,其中包含类标签和边界框的注释的纠缠漏洞。我们所提出的方法有效地解耦了缠绕的噪声,纠正了嘈杂的注释,然后使用纠正的注释训练探测器。我们验证了我们提出的方法的有效性,并将其与具有不同噪声水平的噪声数据集的基线进行了比较。实验结果表明,我们所提出的方法显着优于基线。
translated by 谷歌翻译
Recent one-stage object detectors follow a per-pixel prediction approach that predicts both the object category scores and boundary positions from every single grid location. However, the most suitable positions for inferring different targets, i.e., the object category and boundaries, are generally different. Predicting all these targets from the same grid location thus may lead to sub-optimal results. In this paper, we analyze the suitable inference positions for object category and boundaries, and propose a prediction-target-decoupled detector named PDNet to establish a more flexible detection paradigm. Our PDNet with the prediction decoupling mechanism encodes different targets separately in different locations. A learnable prediction collection module is devised with two sets of dynamic points, i.e., dynamic boundary points and semantic points, to collect and aggregate the predictions from the favorable regions for localization and classification. We adopt a two-step strategy to learn these dynamic point positions, where the prior positions are estimated for different targets first, and the network further predicts residual offsets to the positions with better perceptions of the object properties. Extensive experiments on the MS COCO benchmark demonstrate the effectiveness and efficiency of our method. With a single ResNeXt-64x4d-101-DCN as the backbone, our detector achieves 50.1 AP with single-scale testing, which outperforms the state-of-the-art methods by an appreciable margin under the same experimental settings.Moreover, our detector is highly efficient as a one-stage framework. Our code is public at https://github.com/yangli18/PDNet.
translated by 谷歌翻译