学习准确的对象探测器通常需要具有精确对象边界框的大规模培训数据。但是,标记此类数据是昂贵且耗时的。随着众包标签过程和对象的歧义可能会引起嘈杂的边界盒注释,对象探测器将遭受退化的训练数据。在这项工作中,我们旨在应对使用不准确的边界框来学习健壮对象探测器的挑战。受到以下事实的启发:本地化精度在分类精度不准确的框中显着遭受不准确的框架的影响,我们建议将分类作为用于完善定位结果的指导信号。具体而言,通过将对象视为一袋实例,我们引入了一种对象感知的多个实例学习方法(OA-MIL),其中具有对象感知的实例选择和对象感知实例扩展。前者旨在选择准确的培训实例,而不是直接使用不准确的框注释。后者的重点是生成高质量的选择实例。关于合成嘈杂数据集的广泛实验(即嘈杂的Pascal VOC和MS-Coco)和真正的嘈杂小麦头数据集证明了我们OA-MIL的有效性。代码可从https://github.com/cxliu0/oa-mil获得。
translated by 谷歌翻译
弱监督对象检测(WSOD)旨在仅训练需要图像级注释的对象检测器。最近,一些作品设法选择了从训练有素的WSOD网络生成的准确框,以监督半监督的检测框架以提高性能。但是,这些方法只需根据图像级标准将设置的训练分为标记和未标记的集合,从而选择了足够的错误标记或错误的局部盒子预测作为伪基真正的真实性,从而产生了次优的检测性能解决方案。为了克服这个问题,我们提出了一个新颖的WSOD框架,其新范式从弱监督到嘈杂的监督(W2N)。通常,通过训练有素的WSOD网络产生的给定的伪基真实性,我们提出了一种两模块迭代训练算法来完善伪标签并逐步监督更好的对象探测器。在定位适应模块中,我们提出正规化损失,以减少原始伪基真实性中判别零件的比例,从而获得更好的伪基真实性,以进行进一步的训练。在半监督的模块中,我们提出了两个任务实例级拆分方法,以选择用于训练半监督检测器的高质量标签。不同基准测试的实验结果验证了W2N的有效性,我们的W2N优于所有现有的纯WSOD方法和转移学习方法。我们的代码可在https://github.com/1170300714/w2n_wsod上公开获得。
translated by 谷歌翻译
多年来,使用单点监督的对象检测受到了越来越多的关注。在本文中,我们将如此巨大的性能差距归因于产生高质量的提案袋的失败,这对于多个实例学习至关重要(MIL)。为了解决这个问题,我们引入了现成建议方法(OTSP)方法的轻量级替代方案,从而创建点对点网络(P2BNET),该网络可以通过在中生成建议袋来构建一个互平衡的提案袋一种锚点。通过充分研究准确的位置信息,P2BNET进一步构建了一个实例级袋,避免了多个物体的混合物。最后,以级联方式进行的粗到精细政策用于改善提案和地面真相(GT)之间的IOU。从这些策略中受益,P2BNET能够生产出高质量的实例级袋以进行对象检测。相对于MS可可数据集中的先前最佳PSOD方法,P2BNET将平均平均精度(AP)提高了50%以上。它还证明了弥合监督和边界盒监督检测器之间的性能差距的巨大潜力。该代码将在github.com/ucas-vg/p2bnet上发布。
translated by 谷歌翻译
In object detection, the intersection over union (IoU) threshold is frequently used to define positives/negatives. The threshold used to train a detector defines its quality. While the commonly used threshold of 0.5 leads to noisy (low-quality) detections, detection performance frequently degrades for larger thresholds. This paradox of high-quality detection has two causes: 1) overfitting, due to vanishing positive samples for large thresholds, and 2) inference-time quality mismatch between detector and test hypotheses. A multi-stage object detection architecture, the Cascade R-CNN, composed of a sequence of detectors trained with increasing IoU thresholds, is proposed to address these problems. The detectors are trained sequentially, using the output of a detector as training set for the next. This resampling progressively improves hypotheses quality, guaranteeing a positive training set of equivalent size for all detectors and minimizing overfitting. The same cascade is applied at inference, to eliminate quality mismatches between hypotheses and detectors. An implementation of the Cascade R-CNN without bells or whistles achieves state-of-the-art performance on the COCO dataset, and significantly improves high-quality detection on generic and specific object detection datasets, including VOC, KITTI, CityPerson, and WiderFace. Finally, the Cascade R-CNN is generalized to instance segmentation, with nontrivial improvements over the Mask R-CNN. To facilitate future research, two implementations are made available at https://github.com/zhaoweicai/cascade-rcnn (Caffe) and https://github.com/zhaoweicai/Detectron-Cascade-RCNN (Detectron).
translated by 谷歌翻译
利用伪标签(例如,类别和边界框)由教师探测器产生的未注释的对象,已经为半监督对象检测(SSOD)的最新进展提供了很多进展。但是,由于稀缺注释引起的教师探测器的概括能力有限,因此产生的伪标签通常偏离地面真理,尤其是那些具有相对较低分类信心的人,从而限制了SSOD的概括性能。为了减轻此问题,我们为SSOD提出了一个双伪标签抛光框架。我们没有直接利用教师探测器生成的伪标签,而是首次尝试使用双抛光学习来减少它们偏离地面真相的偏差,其中两个不同结构化的抛光网络是精心开发和培训的分别在给定注释对象上的类别和边界框的真相。通过这样做,两个抛光网络都可以通过基于最初产生的伪标签充分利用其上下文知识来推断未注释的对象的更准确的伪标签,从而提高了SSOD的概括性能。此外,可以将这种方案无缝地插入现有的SSOD框架中,以进行端到端学习。此外,我们建议将抛光的伪类别和未注释的对象的边界框,用于单独的类别分类和SSOD中的边界框回归,这使得在模型训练过程中可以引入更多未经许可的对象,从而进一步提高了性能。 Pascal VOC和MS Coco基准测试的实验证明了该方法比现有最新基准的优越性。
translated by 谷歌翻译
对对象探测器的监督培训需要良好的注释大规模数据集,其生产昂贵。因此,已经努力以经济的方式获得注释,例如云采购。但是,通过这些方法获得的数据集倾向于含有嘈杂的注释,例如不准确的边界框和不正确的类标签。在这项研究中,我们提出了一个新的问题在数据集上训练对象探测器的训练对象探测器,其中包含类标签和边界框的注释的纠缠漏洞。我们所提出的方法有效地解耦了缠绕的噪声,纠正了嘈杂的注释,然后使用纠正的注释训练探测器。我们验证了我们提出的方法的有效性,并将其与具有不同噪声水平的噪声数据集的基线进行了比较。实验结果表明,我们所提出的方法显着优于基线。
translated by 谷歌翻译
半监督学习旨在利用大量未标记的数据进行性能提升。现有工作主要关注图像分类。在本文中,我们深入了解对象检测的半监督学习,其中标记的数据更加劳动密集。目前的方法是由伪标签产生的嘈杂区域分散注意力。为了打击嘈杂的标签,我们通过量化区域不确定性提出抗噪声的半监督学习。我们首先调查与伪标签相关的不同形式的噪声带来的不利影响。然后,我们建议通过识别不同强度的区域的抗性特性来量化区域的不确定性。通过导入该地区不确定性量化和促进多跳概率分布输出,我们将不确定性引入训练和进一步实现抗噪声学习。 Pascal VOC和MS COCO两者的实验证明了我们的方法的特殊表现。
translated by 谷歌翻译
半弱监督和监督的学习最近在对象检测文献中引起了很大的关注,因为它们可以减轻成功训练深度学习模型所需的注释成本。半监督学习的最先进方法依赖于使用多阶段过程训练的学生老师模型,并大量数据增强。为弱监督的设置开发了自定义网络,因此很难适应不同的检测器。在本文中,引入了一种弱半监督的训练方法,以减少这些训练挑战,但通过仅利用一小部分全标记的图像,并在弱标记图像中提供信息来实现最先进的性能。特别是,我们基于通用抽样的学习策略以在线方式产生伪基真实(GT)边界框注释,消除了对多阶段培训的需求和学生教师网络配置。这些伪GT框是根据通过得分传播过程累积的对象建议的分类得分从弱标记的图像中采样的。 PASCAL VOC数据集的经验结果表明,使用VOC 2007作为完全标记的拟议方法可提高性能5.0%,而VOC 2012作为弱标记数据。同样,有了5-10%的完全注释的图像,我们观察到MAP中的10%以上的改善,表明对图像级注释的适度投资可以大大改善检测性能。
translated by 谷歌翻译
半监督对象检测(SSOD)的最新进展主要由基于一致性的伪标记方法驱动,用于图像分类任务,产生伪标签作为监控信号。然而,在使用伪标签时,缺乏考虑本地化精度和放大的类别不平衡,这两者都对于检测任务至关重要。在本文中,我们介绍了针对物体检测量身定制的确定性感知伪标签,可以有效地估计导出的伪标签的分类和定位质量。这是通过将传统定位转换为分类任务之后的传统定位来实现的。在分类和本地化质量分数上调节,我们动态调整用于为每个类别生成伪标签和重重损耗函数的阈值,以减轻类别不平衡问题。广泛的实验表明,我们的方法在Coco和Pascal VOC上的1-2%AP改善了最先进的SSOD性能,同时与大多数现有方法正交和互补。在有限的注释制度中,我们的方法可以通过从Coco标记的1-10%标记数据来改善监督基准。
translated by 谷歌翻译
研究表明,当训练数据缺少注释时,对象检测器的性能下降,即稀疏注释数据。当代方法专注于缺少地面实话注释的代理,无论是伪标签的形式还是通过在训练期间重新称重梯度。在这项工作中,我们重新审视了稀疏注释物体检测的制定。我们观察到稀疏注释的物体检测可以被认为是区域级的半监督对象检测问题。在此洞察力上,我们提出了一种基于区域的半监督算法,它自动识别包含未标记的前景对象的区域。我们的算法然后以不同的方式处理标记和未标记的前景区域,在半监督方法中进行常见做法。为了评估所提出的方法的有效性,我们对普斯卡尔库尔和可可数据集的稀疏注释方法常用的五种分裂进行详尽的实验,并实现最先进的性能。除此之外,我们还表明,我们的方法在标准半监督设置上实现了竞争性能,证明了我们的方法的实力和广泛适用性。
translated by 谷歌翻译
通常在具有固定预定义类别的完全注销的培训数据上学习对象探测器。但是,通常需要逐步增加类别。通常,在这种情况下,只有用旧课程注释的原始培训集和一些带有新课程的新培训数据。基于有限的数据集,强烈需要一个可以处理所有类别的统一检测器。我们提出了一个实用计划,以实现这项工作。无冲突的损失旨在避免标签歧义,从而在一次训练中导致可接受的探测器。为了进一步提高性能,我们提出了一个重新培训阶段,其中采用蒙特卡洛辍学术来计算定位置信度,以挖掘更准确的边界框,并提出了一种重叠的加权方法,以更好地利用在重新训练期间更好地利用伪注释。广泛的实验证明了我们方法的有效性。
translated by 谷歌翻译
我们提出对象盒,这是一种新颖的单阶段锚定且高度可推广的对象检测方法。与现有的基于锚固的探测器和无锚的探测器相反,它们更偏向于其标签分配中的特定对象量表,我们仅将对象中心位置用作正样本,并在不同的特征级别中平均处理所有对象,而不论对象'尺寸或形状。具体而言,我们的标签分配策略将对象中心位置视为形状和尺寸不足的锚定,并以无锚固的方式锚定,并允许学习每个对象的所有尺度。为了支持这一点,我们将新的回归目标定义为从中心单元位置的两个角到边界框的四个侧面的距离。此外,为了处理比例变化的对象,我们提出了一个量身定制的损失来处理不同尺寸的盒子。结果,我们提出的对象检测器不需要在数据集中调整任何依赖数据集的超参数。我们在MS-Coco 2017和Pascal VOC 2012数据集上评估了我们的方法,并将我们的结果与最先进的方法进行比较。我们观察到,与先前的作品相比,对象盒的性能优惠。此外,我们执行严格的消融实验来评估我们方法的不同组成部分。我们的代码可在以下网址提供:https://github.com/mohsenzand/objectbox。
translated by 谷歌翻译
Weakly-supervised object detection (WSOD) models attempt to leverage image-level annotations in lieu of accurate but costly-to-obtain object localization labels. This oftentimes leads to substandard object detection and localization at inference time. To tackle this issue, we propose D2DF2WOD, a Dual-Domain Fully-to-Weakly Supervised Object Detection framework that leverages synthetic data, annotated with precise object localization, to supplement a natural image target domain, where only image-level labels are available. In its warm-up domain adaptation stage, the model learns a fully-supervised object detector (FSOD) to improve the precision of the object proposals in the target domain, and at the same time learns target-domain-specific and detection-aware proposal features. In its main WSOD stage, a WSOD model is specifically tuned to the target domain. The feature extractor and the object proposal generator of the WSOD model are built upon the fine-tuned FSOD model. We test D2DF2WOD on five dual-domain image benchmarks. The results show that our method results in consistently improved object detection and localization compared with state-of-the-art methods.
translated by 谷歌翻译
在这项研究中,我们深入研究了半监督对象检测〜(SSOD)所面临的独特挑战。我们观察到当前的探测器通常遭受3个不一致问题。 1)分配不一致,传统的分配策略对标记噪声很敏感。 2)子任务不一致,其中分类和回归预测在同一特征点未对准。 3)时间不一致,伪Bbox在不同的训练步骤中差异很大。这些问题导致学生网络的优化目标不一致,从而恶化了性能并减慢模型收敛性。因此,我们提出了一个系统的解决方案,称为一致的老师,以补救上述挑战。首先,自适应锚分配代替了基于静态的策略,该策略使学生网络能够抵抗嘈杂的psudo bbox。然后,我们通过设计功能比对模块来校准子任务预测。最后,我们采用高斯混合模型(GMM)来动态调整伪盒阈值。一致的老师在各种SSOD评估上提供了新的强大基线。只有10%的带注释的MS-Coco数据,它可以使用Resnet-50骨干实现40.0 MAP,该数据仅使用伪标签,超过了4个地图。当对完全注释的MS-Coco进行其他未标记的数据进行培训时,性能将进一步增加到49.1 MAP。我们的代码将很快开源。
translated by 谷歌翻译
深度学习方法需要大量的注释数据以优化参数。例如,附加具有准确边界框注释的数据集对于现代对象检测任务至关重要。但是,具有这样的像素准确性的标签是费力且耗时的,并且精心制作的标记程序对于降低人造噪声是必不可少的,涉及注释审查和接受测试。在本文中,我们关注嘈杂的位置注释对对象检测方法的性能的影响,并旨在减少噪声的不利影响。首先,当将噪声引入边界框注释中时,一阶段和两阶段检测器都会在实验上观察到明显的性能降解。例如,我们的合成噪声导致可可测试分裂的FCO探测器的性能从38.9%的AP降低到33.6%的AP,对于更快的R-CNN而言,COCO检测器的性能从38.9%的AP下降到37.8%的AP和33.7%的AP。其次,提出了一种基于贝叶斯过滤器进行预测合奏的自我纠正技术,以更好地利用教师学习范式后的嘈杂位置注释。合成和现实世界情景的实验始终证明了我们方法的有效性,例如,我们的方法将FCOS检测器的降解性能从33.6%的AP提高到可可的35.6%AP。
translated by 谷歌翻译
这项工作的目的是使用零手动注释建立可扩展的管道,以将对象检测器扩展到新颖/看不见的类别。为此,我们做出以下四个贡献:(i)追求概括,我们提出了一个两阶段的开放式摄制对象检测器,其中类无形的对象建议与预先训练的视觉视觉训练的文本编码一起分类语言模型; (ii)要将视觉潜在空间(RPN框建议)与预训练的文本编码器配对,我们提出了区域提示的概念,以学习将文本嵌入空间与区域视觉对象特征相结合; (iii)为了扩展学习过程以检测更广泛的对象,我们通过新颖的自我训练框架利用可用的在线资源,该框架允许在嘈杂的未经图像的网络图像上训练所提出的检测器。最后,(iv)评估我们所提出的检测器,称为及时插图,我们对具有挑战性的LVI和MS-COCO数据集进行了广泛的实验。提示件表现出优于现有方法的卓越性能,而其他培训图像和零手动注释较少。带代码的项目页面:https://fcjian.github.io/promptdet。
translated by 谷歌翻译
接受注释较弱的对象探测器是全面监督者的负担得起的替代方案。但是,它们之间仍然存在显着的性能差距。我们建议通过微调预先训练的弱监督检测器来缩小这一差距,并使用``Box-In-box''(bib'(bib)自动从训练集中自动选择了一些完全注销的样品,这是一种新颖的活跃学习专门针对弱势监督探测器的据可查的失败模式而设计的策略。 VOC07和可可基准的实验表明,围嘴表现优于其他活跃的学习技术,并显着改善了基本的弱监督探测器的性能,而每个类别仅几个完全宣布的图像。围嘴达到了完全监督的快速RCNN的97%,在VOC07上仅10%的全已通量图像。在可可(COCO)上,平均每类使用10张全面通量的图像,或同等的训练集的1%,还减少了弱监督检测器和完全监督的快速RCN之间的性能差距(In AP)以上超过70% ,在性能和数据效率之间表现出良好的权衡。我们的代码可在https://github.com/huyvvo/bib上公开获取。
translated by 谷歌翻译
Non-maximum suppression is an integral part of the object detection pipeline. First, it sorts all detection boxes on the basis of their scores. The detection box M with the maximum score is selected and all other detection boxes with a significant overlap (using a pre-defined threshold) with M are suppressed. This process is recursively applied on the remaining boxes. As per the design of the algorithm, if an object lies within the predefined overlap threshold, it leads to a miss. To this end, we propose Soft-NMS, an algorithm which decays the detection scores of all other objects as a continuous function of their overlap with M. Hence, no object is eliminated in this process. Soft-NMS obtains consistent improvements for the coco-style mAP metric on standard datasets like PASCAL VOC 2007 (1.7% for both R-FCN and Faster-RCNN) and MS-COCO (1.3% for R-FCN and 1.1% for Faster-RCNN) by just changing the NMS algorithm without any additional hyper-parameters. UsingDeformable-RFCN, Soft-NMS improves state-of-the-art in object detection from 39.8% to 40.9% with a single model. Further, the computational complexity of Soft-NMS is the same as traditional NMS and hence it can be efficiently implemented. Since Soft-NMS does not require any extra training and is simple to implement, it can be easily integrated into any object detection pipeline. Code for Soft-NMS is publicly available on GitHub http://bit.ly/ 2nJLNMu.
translated by 谷歌翻译
In object detection, an intersection over union (IoU) threshold is required to define positives and negatives. An object detector, trained with low IoU threshold, e.g. 0.5, usually produces noisy detections. However, detection performance tends to degrade with increasing the IoU thresholds. Two main factors are responsible for this: 1) overfitting during training, due to exponentially vanishing positive samples, and 2) inference-time mismatch between the IoUs for which the detector is optimal and those of the input hypotheses. A multi-stage object detection architecture, the Cascade R-CNN, is proposed to address these problems. It consists of a sequence of detectors trained with increasing IoU thresholds, to be sequentially more selective against close false positives. The detectors are trained stage by stage, leveraging the observation that the output of a detector is a good distribution for training the next higher quality detector. The resampling of progressively improved hypotheses guarantees that all detectors have a positive set of examples of equivalent size, reducing the overfitting problem. The same cascade procedure is applied at inference, enabling a closer match between the hypotheses and the detector quality of each stage. A simple implementation of the Cascade R-CNN is shown to surpass all single-model object detectors on the challenging COCO dataset. Experiments also show that the Cascade R-CNN is widely applicable across detector architectures, achieving consistent gains independently of the baseline detector strength. The code will be made available at https://github.com/zhaoweicai/cascade-rcnn.
translated by 谷歌翻译
Semi-supervised object detection (SSOD) aims to boost detection performance by leveraging extra unlabeled data. The teacher-student framework has been shown to be promising for SSOD, in which a teacher network generates pseudo-labels for unlabeled data to assist the training of a student network. Since the pseudo-labels are noisy, filtering the pseudo-labels is crucial to exploit the potential of such framework. Unlike existing suboptimal methods, we propose a two-step pseudo-label filtering for the classification and regression heads in a teacher-student framework. For the classification head, OCL (Object-wise Contrastive Learning) regularizes the object representation learning that utilizes unlabeled data to improve pseudo-label filtering by enhancing the discriminativeness of the classification score. This is designed to pull together objects in the same class and push away objects from different classes. For the regression head, we further propose RUPL (Regression-Uncertainty-guided Pseudo-Labeling) to learn the aleatoric uncertainty of object localization for label filtering. By jointly filtering the pseudo-labels for the classification and regression heads, the student network receives better guidance from the teacher network for object detection task. Experimental results on Pascal VOC and MS-COCO datasets demonstrate the superiority of our proposed method with competitive performance compared to existing methods.
translated by 谷歌翻译