对象检测是典型的多任务学习应用程序,其同时优化分类和回归。但是,分类损失总是以基于锚的方法的多任务损失主导,妨碍了任务的一致和平衡优化。在本文中,我们发现转移边界盒可以在分类中改变正面和负样本的划分,意思是分类取决于回归。此外,考虑到不同的数据集,优化器和回归损耗功能,我们总结了关于微调损耗重量的三个重要结论。基于上述结论,我们提出了自适应损失重量调整(ALWA)以根据损失的统计特征来解决优化基于锚的方法的不平衡。通过将Alwa纳入以前的最先进的探测器,我们在Pascal VOC和MS Coco上实现了显着的性能增益,即使是L1,Smoothl1和Ciou丢失。代码可在https://github.com/ywx-hub/alwa获得。
translated by 谷歌翻译
Object detection has been dominated by anchor-based detectors for several years. Recently, anchor-free detectors have become popular due to the proposal of FPN and Focal Loss. In this paper, we first point out that the essential difference between anchor-based and anchor-free detection is actually how to define positive and negative training samples, which leads to the performance gap between them. If they adopt the same definition of positive and negative samples during training, there is no obvious difference in the final performance, no matter regressing from a box or a point. This shows that how to select positive and negative training samples is important for current object detectors. Then, we propose an Adaptive Training Sample Selection (ATSS) to automatically select positive and negative samples according to statistical characteristics of object. It significantly improves the performance of anchor-based and anchor-free detectors and bridges the gap between them. Finally, we discuss the necessity of tiling multiple anchors per location on the image to detect objects. Extensive experiments conducted on MS COCO support our aforementioned analysis and conclusions. With the newly introduced ATSS, we improve stateof-the-art detectors by a large margin to 50.7% AP without introducing any overhead. The code is available at https://github.com/sfzhang15/ATSS.
translated by 谷歌翻译
物体检测在计算机视觉中取得了巨大的进步。具有外观降级的小物体检测是一个突出的挑战,特别是对于鸟瞰观察。为了收集足够的阳性/阴性样本进行启发式训练,大多数物体探测器预设区域锚,以便将交叉联盟(iou)计算在地面判处符号数据上。在这种情况下,小物体经常被遗弃或误标定。在本文中,我们提出了一种有效的动态增强锚(DEA)网络,用于构建新颖的训练样本发生器。与其他最先进的技术不同,所提出的网络利用样品鉴别器来实现基于锚的单元和无锚单元之间的交互式样本筛选,以产生符合资格的样本。此外,通过基于保守的基于锚的推理方案的多任务联合训练增强了所提出的模型的性能,同时降低计算复杂性。所提出的方案支持定向和水平对象检测任务。对两个具有挑战性的空中基准(即,DotA和HRSC2016)的广泛实验表明,我们的方法以适度推理速度和用于训练的计算开销的准确性实现最先进的性能。在DotA上,我们的DEA-NET与ROI变压器的基线集成了0.40%平均平均精度(MAP)的先进方法,以便用较弱的骨干网(Resnet-101 VS Resnet-152)和3.08%平均 - 平均精度(MAP),具有相同骨干网的水平对象检测。此外,我们的DEA网与重新排列的基线一体化实现最先进的性能80.37%。在HRSC2016上,它仅使用3个水平锚点超过1.1%的最佳型号。
translated by 谷歌翻译
在这项研究中,我们深入研究了半监督对象检测〜(SSOD)所面临的独特挑战。我们观察到当前的探测器通常遭受3个不一致问题。 1)分配不一致,传统的分配策略对标记噪声很敏感。 2)子任务不一致,其中分类和回归预测在同一特征点未对准。 3)时间不一致,伪Bbox在不同的训练步骤中差异很大。这些问题导致学生网络的优化目标不一致,从而恶化了性能并减慢模型收敛性。因此,我们提出了一个系统的解决方案,称为一致的老师,以补救上述挑战。首先,自适应锚分配代替了基于静态的策略,该策略使学生网络能够抵抗嘈杂的psudo bbox。然后,我们通过设计功能比对模块来校准子任务预测。最后,我们采用高斯混合模型(GMM)来动态调整伪盒阈值。一致的老师在各种SSOD评估上提供了新的强大基线。只有10%的带注释的MS-Coco数据,它可以使用Resnet-50骨干实现40.0 MAP,该数据仅使用伪标签,超过了4个地图。当对完全注释的MS-Coco进行其他未标记的数据进行培训时,性能将进一步增加到49.1 MAP。我们的代码将很快开源。
translated by 谷歌翻译
复杂的水下环境为物体检测带来了新的挑战,例如未平衡的光条件,低对比度,阻塞和水生生物的模仿。在这种情况下,水下相机捕获的物体将变得模糊,并且通用探测器通常会在这些模糊的物体上失败。这项工作旨在从两个角度解决问题:不确定性建模和艰难的例子采矿。我们提出了一个名为Boosting R-CNN的两阶段水下检测器,该检测器包括三个关键组件。首先,提出了一个名为RetinArpn的新区域建议网络,该网络提供了高质量的建议,并考虑了对象和IOU预测,以确定对象事先概率的不确定性。其次,引入了概率推理管道,以结合第一阶段的先验不确定性和第二阶段分类评分,以模拟最终检测分数。最后,我们提出了一种名为Boosting Reweighting的新的硬示例挖掘方法。具体而言,当区域提案网络误认为样品的对象的事先概率时,提高重新加权将在训练过程中增加R-CNN头部样品的分类损失,同时减少具有准确估计的先验的简易样品丢失。因此,可以在第二阶段获得强大的检测头。在推理阶段,R-CNN具有纠正第一阶段的误差以提高性能的能力。在两个水下数据集和两个通用对象检测数据集上进行的全面实验证明了我们方法的有效性和鲁棒性。
translated by 谷歌翻译
样本分配在现代对象检测方法中起着重要的作用。但是,大多数现有的方法都依靠手动设计来分配正 /负样本,这些样本并未明确建立样本分配和对象检测性能之间的关系。在这项工作中,我们提出了一种基于高参数搜索的新型动态样本分配方案。我们首先将分配给每个地面真理的正样本的数量定义为超参数,并采用替代优化算法来得出最佳选择。然后,我们设计一个动态的样本分配过程,以动态选择每个训练迭代中的最佳阳性数量。实验表明,所得的HPS-DET在不同对象检测基线的基线上带来了改善的性能。此外,我们分析了在不同数据集之间和不同骨架之间转移的高参数可重复使用性,以进行对象检测,这表现出我们方法的优势和多功能性。
translated by 谷歌翻译
State-of-the-art object detection networks depend on region proposal algorithms to hypothesize object locations. Advances like SPPnet [1] and Fast R-CNN [2] have reduced the running time of these detection networks, exposing region proposal computation as a bottleneck. In this work, we introduce a Region Proposal Network (RPN) that shares full-image convolutional features with the detection network, thus enabling nearly cost-free region proposals. An RPN is a fully convolutional network that simultaneously predicts object bounds and objectness scores at each position. The RPN is trained end-to-end to generate high-quality region proposals, which are used by Fast R-CNN for detection. We further merge RPN and Fast R-CNN into a single network by sharing their convolutional features-using the recently popular terminology of neural networks with "attention" mechanisms, the RPN component tells the unified network where to look. For the very deep VGG-16 model [3], our detection system has a frame rate of 5fps (including all steps) on a GPU, while achieving state-of-the-art object detection accuracy on PASCAL VOC 2007, 2012, and MS COCO datasets with only 300 proposals per image. In ILSVRC and COCO 2015 competitions, Faster R-CNN and RPN are the foundations of the 1st-place winning entries in several tracks. Code has been made publicly available.
translated by 谷歌翻译
我们提出对象盒,这是一种新颖的单阶段锚定且高度可推广的对象检测方法。与现有的基于锚固的探测器和无锚的探测器相反,它们更偏向于其标签分配中的特定对象量表,我们仅将对象中心位置用作正样本,并在不同的特征级别中平均处理所有对象,而不论对象'尺寸或形状。具体而言,我们的标签分配策略将对象中心位置视为形状和尺寸不足的锚定,并以无锚固的方式锚定,并允许学习每个对象的所有尺度。为了支持这一点,我们将新的回归目标定义为从中心单元位置的两个角到边界框的四个侧面的距离。此外,为了处理比例变化的对象,我们提出了一个量身定制的损失来处理不同尺寸的盒子。结果,我们提出的对象检测器不需要在数据集中调整任何依赖数据集的超参数。我们在MS-Coco 2017和Pascal VOC 2012数据集上评估了我们的方法,并将我们的结果与最先进的方法进行比较。我们观察到,与先前的作品相比,对象盒的性能优惠。此外,我们执行严格的消融实验来评估我们方法的不同组成部分。我们的代码可在以下网址提供:https://github.com/mohsenzand/objectbox。
translated by 谷歌翻译
Compared with model architectures, the training process, which is also crucial to the success of detectors, has received relatively less attention in object detection. In this work, we carefully revisit the standard training practice of detectors, and find that the detection performance is often limited by the imbalance during the training process, which generally consists in three levels -sample level, feature level, and objective level. To mitigate the adverse effects caused thereby, we propose Libra R-CNN, a simple but effective framework towards balanced learning for object detection. It integrates three novel components: IoU-balanced sampling, balanced feature pyramid, and balanced L1 loss, respectively for reducing the imbalance at sample, feature, and objective level. Benefitted from the overall balanced design, Libra R-CNN significantly improves the detection performance. Without bells and whistles, it achieves 2.5 points and 2.0 points higher Average Precision (AP) than FPN Faster R-CNN and RetinaNet respectively on MSCOCO. 1
translated by 谷歌翻译
在对象检测中,边界框回归(BBR)是决定对象定位性能的关键步骤。但是,我们发现BBR的大多数先前的损失功能都有两个主要缺点:(i)$ \ ell_n $ -norm和IOU基于IOU的损失功能都无法效率地描述BBR的目标,这会导致收敛速度缓慢和不准确的回归结果。 。 (ii)大多数损失函数都忽略了BBR中的不平衡问题,即与目标盒有较小重叠的大量锚盒对BBR的优化有最大的影响。为了减轻造成的不利影响,我们进行了彻底的研究,以利用本文中BBR损失的潜力。首先,提出了有关联合(EIOU)损失的有效交集,该交集明确测量了BBR中三个几何因素的差异,即重叠面积,中心点和侧面长度。之后,我们说明有效的示例挖掘(EEM)问题,并提出了焦点损失的回归版本,以使回归过程集中在高质量的锚点上。最后,将上述两个部分组合在一起以获得新的损失函数,即焦点损失。对合成数据集和真实数据集进行了广泛的实验。与其他BBR损失相比,在收敛速度和定位精度上都可以显着优势。
translated by 谷歌翻译
In object detection, the intersection over union (IoU) threshold is frequently used to define positives/negatives. The threshold used to train a detector defines its quality. While the commonly used threshold of 0.5 leads to noisy (low-quality) detections, detection performance frequently degrades for larger thresholds. This paradox of high-quality detection has two causes: 1) overfitting, due to vanishing positive samples for large thresholds, and 2) inference-time quality mismatch between detector and test hypotheses. A multi-stage object detection architecture, the Cascade R-CNN, composed of a sequence of detectors trained with increasing IoU thresholds, is proposed to address these problems. The detectors are trained sequentially, using the output of a detector as training set for the next. This resampling progressively improves hypotheses quality, guaranteeing a positive training set of equivalent size for all detectors and minimizing overfitting. The same cascade is applied at inference, to eliminate quality mismatches between hypotheses and detectors. An implementation of the Cascade R-CNN without bells or whistles achieves state-of-the-art performance on the COCO dataset, and significantly improves high-quality detection on generic and specific object detection datasets, including VOC, KITTI, CityPerson, and WiderFace. Finally, the Cascade R-CNN is generalized to instance segmentation, with nontrivial improvements over the Mask R-CNN. To facilitate future research, two implementations are made available at https://github.com/zhaoweicai/cascade-rcnn (Caffe) and https://github.com/zhaoweicai/Detectron-Cascade-RCNN (Detectron).
translated by 谷歌翻译
检测微小的物体是一个非常具有挑战性的问题,因为一个小物体只包含几个像素的大小。我们证明,由于缺乏外观信息,最新的检测器不会对微小物体产生令人满意的结果。我们的主要观察结果是,基于联合(IOU)的相交(例如IOU本身及其扩展)对微小物体的位置偏差非常敏感,并且在基于锚固的检测器中使用时会大大恶化检测性能。为了减轻这一点,我们提出了使用Wasserstein距离进行微小对象检测的新评估度量。具体而言,我们首先将边界框建模为2D高斯分布,然后提出一个新的公制称为标准化的瓦斯汀距离(NWD),以通过相应的高斯分布来计算它们之间的相似性。提出的NWD度量可以轻松地嵌入分配中,非最大抑制作用以及任何基于锚固的检测器的损耗函数,以替换常用的IOU度量。我们在新的数据集上评估了我们的度量,以用于微小对象检测(AI-TOD),其中平均对象大小比现有对象检测数据集小得多。广泛的实验表明,在配备NWD指标时,我们的方法的性能比标准的微调基线高6.7 AP点,并且比最先进的竞争对手高6.0 AP点。代码可在以下网址提供:https://github.com/jwwangchn/nwd。
translated by 谷歌翻译
航空图像中的微小对象检测(TOD)是具有挑战性的,因为一个小物体只包含几个像素。最先进的对象探测器由于缺乏判别特征的监督而无法为微小对象提供令人满意的结果。我们的主要观察结果是,联合度量(IOU)及其扩展的相交对微小物体的位置偏差非常敏感,这在基于锚固的探测器中使用时会大大恶化标签分配的质量。为了解决这个问题,我们提出了一种新的评估度量标准,称为标准化的Wasserstein距离(NWD)和一个新的基于排名的分配(RKA)策略,以进行微小对象检测。提出的NWD-RKA策略可以轻松地嵌入到各种基于锚的探测器中,以取代标准的基于阈值的检测器,从而大大改善了标签分配并为网络培训提供了足够的监督信息。在四个数据集中测试,NWD-RKA可以始终如一地提高微小的对象检测性能。此外,在空中图像(AI-TOD)数据集中观察到显着的嘈杂标签,我们有动力将其重新标记并释放AI-TOD-V2及其相应的基准。在AI-TOD-V2中,丢失的注释和位置错误问题得到了大大减轻,从而促进了更可靠的培训和验证过程。将NWD-RKA嵌入探测器中,检测性能比AI-TOD-V2上的最先进竞争对手提高了4.3个AP点。数据集,代码和更多可视化可在以下网址提供:https://chasel-tsui.g​​ithub.io/ai/ai-tod-v2/
translated by 谷歌翻译
弱监督对象检测(WSOD)旨在仅训练需要图像级注释的对象检测器。最近,一些作品设法选择了从训练有素的WSOD网络生成的准确框,以监督半监督的检测框架以提高性能。但是,这些方法只需根据图像级标准将设置的训练分为标记和未标记的集合,从而选择了足够的错误标记或错误的局部盒子预测作为伪基真正的真实性,从而产生了次优的检测性能解决方案。为了克服这个问题,我们提出了一个新颖的WSOD框架,其新范式从弱监督到嘈杂的监督(W2N)。通常,通过训练有素的WSOD网络产生的给定的伪基真实性,我们提出了一种两模块迭代训练算法来完善伪标签并逐步监督更好的对象探测器。在定位适应模块中,我们提出正规化损失,以减少原始伪基真实性中判别零件的比例,从而获得更好的伪基真实性,以进行进一步的训练。在半监督的模块中,我们提出了两个任务实例级拆分方法,以选择用于训练半监督检测器的高质量标签。不同基准测试的实验结果验证了W2N的有效性,我们的W2N优于所有现有的纯WSOD方法和转移学习方法。我们的代码可在https://github.com/1170300714/w2n_wsod上公开获得。
translated by 谷歌翻译
在现代探测器中,默认使用四变独立回归定位损耗,如平滑 - $ \ ell_1 $丢失。然而,这种损失超薄了,使其与联盟(iou)的最终评估度量,交叉口不一致。直接采用标准IOU也不是不可行的,因为在非重叠盒的情况下的恒定零高原和最小值的非零梯度可能使其不可培养。因此,我们提出了一种解决这些问题的系统方法。首先,我们提出了一个新的公制,延伸的iou(eiou),当两个盒子没有重叠时,它是良好的定义,当重叠时,它是不重叠的并且减少到标准iou。其次,我们介绍了凸化技术(CT)以在EIOU的基础上构建损失,这可以保证梯度最小为零。第三,我们提出了一种稳定的优化技术(SOT),使分数欧盟损失更加稳定,平稳地接近最低。第四,为了充分利用基于EIOO的损失的能力,我们引入了一个相互关联的iou预测头,以进一步提升本地化准确性。通过拟议的贡献,新方法与Reset50 + FPN的备用R-CNN掺入,作为骨干收益率\ TextBF {4.2 Map} Gain on Voc2007和Coco2017上的基准下滑 - $ \ ell_1 $损失,几乎\ textbf {没有培训和推理计算成本}。具体而言,度量标准更长的是,增益越令人显着,在Coco2017上的VOC2007和\ TextBF {5.4 MAP}上越突出,可以在Coco2017上以公式$ AP_ {90} $。
translated by 谷歌翻译
无锚的检测器基本上将对象检测作为密集的分类和回归。对于流行的无锚检测器,通常是引入单个预测分支来估计本地化的质量。当我们深入研究分类和质量估计的实践时,会观察到以下不一致之处。首先,对于某些分配了完全不同标签的相邻样品,训练有素的模型将产生相似的分类分数。这违反了训练目标并导致绩效退化。其次,发现检测到具有较高信心的边界框与相应的地面真相具有较小的重叠。准确的局部边界框将被非最大抑制(NMS)过程中的精确量抑制。为了解决不一致问题,提出了动态平滑标签分配(DSLA)方法。基于最初在FCO中开发的中心概念,提出了平稳的分配策略。在[0,1]中将标签平滑至连续值,以在正样品和负样品之间稳定过渡。联合(IOU)在训练过程中会动态预测,并与平滑标签结合。分配动态平滑标签以监督分类分支。在这样的监督下,质量估计分支自然合并为分类分支,这简化了无锚探测器的体系结构。全面的实验是在MS Coco基准上进行的。已经证明,DSLA可以通过减轻上述无锚固探测器的不一致来显着提高检测准确性。我们的代码在https://github.com/yonghaohe/dsla上发布。
translated by 谷歌翻译
面向边界框回归对于定向对象检测至关重要。但是,基于回归的方法通常会遭受边界问题以及损失和评估指标之间的不一致性。在本文中,提出了一个调制的卡尔曼·伊奥(Kalman iou)损失,命名为Mkiou。为了避免边界问题,我们将定向边界框转换为高斯分布,然后使用卡尔曼过滤器近似交叉区域。但是,计算的交叉区域和实际交叉区域之间存在显着差异。因此,我们提出了一个调制因子,以调节角度偏差和宽度高度偏移对损失变化的敏感性,从而使损失与评估度量更一致。此外,高斯建模方法避免了边界问题,但同时引起方形对象的角度混乱。因此,提出了高斯角损失(GA损耗),以通过添加平方目标的校正损失来解决此问题。提出的GA损失可以很容易地扩展到其他基于高斯的方法。在三个公开可用的空中图像数据集(DOTA,UCAS-AOD和HRSC2016)上进行了实验,显示了该方法的有效性。
translated by 谷歌翻译
标签分配在现代对象检测模型中起着重要作用。检测模型可能会通过不同的标签分配策略产生完全不同的性能。对于基于锚的检测模型,锚点及其相应的地面真实边界框之间的IO(与联合的交点)是关键要素,因为正面样品和负样品除以IOU阈值。早期对象探测器仅利用所有训练样本的固定阈值,而最近的检测算法则基于基于IOUS到地面真相框的分布而着重于自适应阈值。在本文中,我们介绍了一种简单的同时有效的方法,可以根据预测的培训状态动态执行标签分配。通过在标签分配中引入预测,选择了更高的地面真相对象的高质量样本作为正样本,这可以减少分类得分和IOU分数之间的差异,并生成更高质量的边界框。我们的方法显示了使用自适应标签分配算法和这些正面样本的下限框损失的检测模型的性能的改进,这表明将更多具有较高质量预测盒的样品选择为阳性。
translated by 谷歌翻译
多年来,使用单点监督的对象检测受到了越来越多的关注。在本文中,我们将如此巨大的性能差距归因于产生高质量的提案袋的失败,这对于多个实例学习至关重要(MIL)。为了解决这个问题,我们引入了现成建议方法(OTSP)方法的轻量级替代方案,从而创建点对点网络(P2BNET),该网络可以通过在中生成建议袋来构建一个互平衡的提案袋一种锚点。通过充分研究准确的位置信息,P2BNET进一步构建了一个实例级袋,避免了多个物体的混合物。最后,以级联方式进行的粗到精细政策用于改善提案和地面真相(GT)之间的IOU。从这些策略中受益,P2BNET能够生产出高质量的实例级袋以进行对象检测。相对于MS可可数据集中的先前最佳PSOD方法,P2BNET将平均平均精度(AP)提高了50%以上。它还证明了弥合监督和边界盒监督检测器之间的性能差距的巨大潜力。该代码将在github.com/ucas-vg/p2bnet上发布。
translated by 谷歌翻译
在真实世界的环境中,可以通过对象检测器连续遇到来自新类的对象实例。当现有的对象探测器应用于这种情况时,它们在旧课程上的性能显着恶化。据报道,一些努力解决了这个限制,所有这些限制适用于知识蒸馏的变体,以避免灾难性的遗忘。我们注意到虽然蒸馏有助于保留以前的学习,但它阻碍了对新任务的快速适应性,这是增量学习的关键要求。在这种追求中,我们提出了一种学习方法,可以学习重塑模型梯度,使得跨增量任务的信息是最佳的共享。这可通过META学习梯度预处理来确保无缝信息传输,可最大限度地减少遗忘并最大化知识传输。与现有的元学习方法相比,我们的方法是任务不可知,允许将新类的增量添加到对象检测的高容量模型中。我们在Pascal-VOC和MS Coco Datasets上定义的各种增量学习设置中评估了我们的方法,我们的方法对最先进的方法进行了好评。
translated by 谷歌翻译