常见的对象检测模型由分类和回归分支组成,由于不同的任务驱动程序,这两个分支对来自相同比例级别和相同空间位置的特征具有不同的灵敏度。基于点的预测方法,基于高分类置信点具有高回归质量的假设,导致未对准问题。我们的分析显示,问题进一步由规模未对准和空间未对准组成。我们的目标是以最低成本解决现象:头部网络的小调整和更换刚性的新标签分配方法。我们的实验表明,与基线FCO,一个单级和无锚对象检测模型相比,我们的模型始终如一地达到不同的骨架,展示了我们方法的简单性和效率。
translated by 谷歌翻译
无锚的检测器基本上将对象检测作为密集的分类和回归。对于流行的无锚检测器,通常是引入单个预测分支来估计本地化的质量。当我们深入研究分类和质量估计的实践时,会观察到以下不一致之处。首先,对于某些分配了完全不同标签的相邻样品,训练有素的模型将产生相似的分类分数。这违反了训练目标并导致绩效退化。其次,发现检测到具有较高信心的边界框与相应的地面真相具有较小的重叠。准确的局部边界框将被非最大抑制(NMS)过程中的精确量抑制。为了解决不一致问题,提出了动态平滑标签分配(DSLA)方法。基于最初在FCO中开发的中心概念,提出了平稳的分配策略。在[0,1]中将标签平滑至连续值,以在正样品和负样品之间稳定过渡。联合(IOU)在训练过程中会动态预测,并与平滑标签结合。分配动态平滑标签以监督分类分支。在这样的监督下,质量估计分支自然合并为分类分支,这简化了无锚探测器的体系结构。全面的实验是在MS Coco基准上进行的。已经证明,DSLA可以通过减轻上述无锚固探测器的不一致来显着提高检测准确性。我们的代码在https://github.com/yonghaohe/dsla上发布。
translated by 谷歌翻译
复杂的水下环境为物体检测带来了新的挑战,例如未平衡的光条件,低对比度,阻塞和水生生物的模仿。在这种情况下,水下相机捕获的物体将变得模糊,并且通用探测器通常会在这些模糊的物体上失败。这项工作旨在从两个角度解决问题:不确定性建模和艰难的例子采矿。我们提出了一个名为Boosting R-CNN的两阶段水下检测器,该检测器包括三个关键组件。首先,提出了一个名为RetinArpn的新区域建议网络,该网络提供了高质量的建议,并考虑了对象和IOU预测,以确定对象事先概率的不确定性。其次,引入了概率推理管道,以结合第一阶段的先验不确定性和第二阶段分类评分,以模拟最终检测分数。最后,我们提出了一种名为Boosting Reweighting的新的硬示例挖掘方法。具体而言,当区域提案网络误认为样品的对象的事先概率时,提高重新加权将在训练过程中增加R-CNN头部样品的分类损失,同时减少具有准确估计的先验的简易样品丢失。因此,可以在第二阶段获得强大的检测头。在推理阶段,R-CNN具有纠正第一阶段的误差以提高性能的能力。在两个水下数据集和两个通用对象检测数据集上进行的全面实验证明了我们方法的有效性和鲁棒性。
translated by 谷歌翻译
Recent one-stage object detectors follow a per-pixel prediction approach that predicts both the object category scores and boundary positions from every single grid location. However, the most suitable positions for inferring different targets, i.e., the object category and boundaries, are generally different. Predicting all these targets from the same grid location thus may lead to sub-optimal results. In this paper, we analyze the suitable inference positions for object category and boundaries, and propose a prediction-target-decoupled detector named PDNet to establish a more flexible detection paradigm. Our PDNet with the prediction decoupling mechanism encodes different targets separately in different locations. A learnable prediction collection module is devised with two sets of dynamic points, i.e., dynamic boundary points and semantic points, to collect and aggregate the predictions from the favorable regions for localization and classification. We adopt a two-step strategy to learn these dynamic point positions, where the prior positions are estimated for different targets first, and the network further predicts residual offsets to the positions with better perceptions of the object properties. Extensive experiments on the MS COCO benchmark demonstrate the effectiveness and efficiency of our method. With a single ResNeXt-64x4d-101-DCN as the backbone, our detector achieves 50.1 AP with single-scale testing, which outperforms the state-of-the-art methods by an appreciable margin under the same experimental settings.Moreover, our detector is highly efficient as a one-stage framework. Our code is public at https://github.com/yangli18/PDNet.
translated by 谷歌翻译
现有的实例分割方法已经达到了令人印象深刻的表现,但仍遭受了共同的困境:一个实例推断出冗余表示(例如,多个框,网格和锚点),这导致了多个重复的预测。因此,主流方法通常依赖于手工设计的非最大抑制(NMS)后处理步骤来选择最佳预测结果,这会阻碍端到端训练。为了解决此问题,我们建议一个称为Uniinst的无盒和无端机实例分割框架,该框架仅对每个实例产生一个唯一的表示。具体而言,我们设计了一种实例意识到的一对一分配方案,即仅产生一个表示(Oyor),该方案根据预测和地面真相之间的匹配质量,动态地为每个实例动态分配一个独特的表示。然后,一种新颖的预测重新排列策略被优雅地集成到框架中,以解决分类评分和掩盖质量之间的错位,从而使学习的表示形式更具歧视性。借助这些技术,我们的Uniinst,第一个基于FCN的盒子和无NMS实例分段框架,实现竞争性能,例如,使用Resnet-50-FPN和40.2 mask AP使用Resnet-101-FPN,使用Resnet-50-FPN和40.2 mask AP,使用Resnet-101-FPN,对抗AP可可测试-DEV的主流方法。此外,提出的实例感知方法对于遮挡场景是可靠的,在重锁定的ochuman基准上,通过杰出的掩码AP优于公共基线。我们的代码将在出版后提供。
translated by 谷歌翻译
In object detection, the intersection over union (IoU) threshold is frequently used to define positives/negatives. The threshold used to train a detector defines its quality. While the commonly used threshold of 0.5 leads to noisy (low-quality) detections, detection performance frequently degrades for larger thresholds. This paradox of high-quality detection has two causes: 1) overfitting, due to vanishing positive samples for large thresholds, and 2) inference-time quality mismatch between detector and test hypotheses. A multi-stage object detection architecture, the Cascade R-CNN, composed of a sequence of detectors trained with increasing IoU thresholds, is proposed to address these problems. The detectors are trained sequentially, using the output of a detector as training set for the next. This resampling progressively improves hypotheses quality, guaranteeing a positive training set of equivalent size for all detectors and minimizing overfitting. The same cascade is applied at inference, to eliminate quality mismatches between hypotheses and detectors. An implementation of the Cascade R-CNN without bells or whistles achieves state-of-the-art performance on the COCO dataset, and significantly improves high-quality detection on generic and specific object detection datasets, including VOC, KITTI, CityPerson, and WiderFace. Finally, the Cascade R-CNN is generalized to instance segmentation, with nontrivial improvements over the Mask R-CNN. To facilitate future research, two implementations are made available at https://github.com/zhaoweicai/cascade-rcnn (Caffe) and https://github.com/zhaoweicai/Detectron-Cascade-RCNN (Detectron).
translated by 谷歌翻译
在这项研究中,我们深入研究了半监督对象检测〜(SSOD)所面临的独特挑战。我们观察到当前的探测器通常遭受3个不一致问题。 1)分配不一致,传统的分配策略对标记噪声很敏感。 2)子任务不一致,其中分类和回归预测在同一特征点未对准。 3)时间不一致,伪Bbox在不同的训练步骤中差异很大。这些问题导致学生网络的优化目标不一致,从而恶化了性能并减慢模型收敛性。因此,我们提出了一个系统的解决方案,称为一致的老师,以补救上述挑战。首先,自适应锚分配代替了基于静态的策略,该策略使学生网络能够抵抗嘈杂的psudo bbox。然后,我们通过设计功能比对模块来校准子任务预测。最后,我们采用高斯混合模型(GMM)来动态调整伪盒阈值。一致的老师在各种SSOD评估上提供了新的强大基线。只有10%的带注释的MS-Coco数据,它可以使用Resnet-50骨干实现40.0 MAP,该数据仅使用伪标签,超过了4个地图。当对完全注释的MS-Coco进行其他未标记的数据进行培训时,性能将进一步增加到49.1 MAP。我们的代码将很快开源。
translated by 谷歌翻译
Modern object detectors rely heavily on rectangular bounding boxes, such as anchors, proposals and the final predictions, to represent objects at various recognition stages. The bounding box is convenient to use but provides only a coarse localization of objects and leads to a correspondingly coarse extraction of object features. In this paper, we present RepPoints (representative points), a new finer representation of objects as a set of sample points useful for both localization and recognition. Given ground truth localization and recognition targets for training, RepPoints learn to automatically arrange themselves in a manner that bounds the spatial extent of an object and indicates semantically significant local areas. They furthermore do not require the use of anchors to sample a space of bounding boxes. We show that an anchor-free object detector based on RepPoints can be as effective as the state-of-the-art anchor-based detection methods, with 46.5 AP and 67.4 AP 50 on the COCO test-dev detection benchmark, using ResNet-101 model. Code is available at https://github.com/microsoft/RepPoints.
translated by 谷歌翻译
多年来,使用单点监督的对象检测受到了越来越多的关注。在本文中,我们将如此巨大的性能差距归因于产生高质量的提案袋的失败,这对于多个实例学习至关重要(MIL)。为了解决这个问题,我们引入了现成建议方法(OTSP)方法的轻量级替代方案,从而创建点对点网络(P2BNET),该网络可以通过在中生成建议袋来构建一个互平衡的提案袋一种锚点。通过充分研究准确的位置信息,P2BNET进一步构建了一个实例级袋,避免了多个物体的混合物。最后,以级联方式进行的粗到精细政策用于改善提案和地面真相(GT)之间的IOU。从这些策略中受益,P2BNET能够生产出高质量的实例级袋以进行对象检测。相对于MS可可数据集中的先前最佳PSOD方法,P2BNET将平均平均精度(AP)提高了50%以上。它还证明了弥合监督和边界盒监督检测器之间的性能差距的巨大潜力。该代码将在github.com/ucas-vg/p2bnet上发布。
translated by 谷歌翻译
检测小物体是阻碍对象检测开发的主要障碍之一。通用对象检测器的性能在微小的对象检测任务上往往会大大恶化。在本文中,我们指出的是,基于锚的检测器中的先验盒或无锚检测器中的点是微小对象的优化。我们的主要观察结果是,当前基于锚的或无锚的标签分配范例将引起许多离群的微小地面真实样本,从而导致检测器对小物体的关注较少。为此,我们提出了一个基于高斯接受场的标签分配(RFLA)策略,以进行微小的对象检测。具体而言,RFLA首先利用了特征接受场遵循高斯分布的先前信息。然后,提出了一个新的接受场距离(RFD),而不是通过IOU或中心采样策略分配样品,以直接测量高斯接受场和地面真相之间的相似性。考虑到基于阈值的和中心的采样策略偏向大物体,我们进一步设计了基于RFD的层次标签分配(HLA)模块,以实现微小对象的平衡学习。四个数据集上的广泛实验证明了所提出的方法的有效性。尤其是,我们的方法在AI-TOD数据集上以4.0 AP点优于最先进的竞争对手。代码可从https://github.com/chasel-tsui/mmdet-rfla获得
translated by 谷歌翻译
We propose a fully convolutional one-stage object detector (FCOS) to solve object detection in a per-pixel prediction fashion, analogue to semantic segmentation. Almost all state-of-the-art object detectors such as RetinaNet, SSD, YOLOv3, and Faster R-CNN rely on pre-defined anchor boxes. In contrast, our proposed detector FCOS is anchor box free, as well as proposal free. By eliminating the predefined set of anchor boxes, FCOS completely avoids the complicated computation related to anchor boxes such as calculating overlapping during training. More importantly, we also avoid all hyper-parameters related to anchor boxes, which are often very sensitive to the final detection performance. With the only post-processing non-maximum suppression (NMS), FCOS with ResNeXt-64x4d-101 achieves 44.7% in AP with single-model and single-scale testing, surpassing previous one-stage detectors with the advantage of being much simpler. For the first time, we demonstrate a much simpler and flexible detection framework achieving improved detection accuracy. We hope that the proposed FCOS framework can serve as a simple and strong alternative for many other instance-level tasks. Code is available at:tinyurl.com/FCOSv1
translated by 谷歌翻译
我们提出对象盒,这是一种新颖的单阶段锚定且高度可推广的对象检测方法。与现有的基于锚固的探测器和无锚的探测器相反,它们更偏向于其标签分配中的特定对象量表,我们仅将对象中心位置用作正样本,并在不同的特征级别中平均处理所有对象,而不论对象'尺寸或形状。具体而言,我们的标签分配策略将对象中心位置视为形状和尺寸不足的锚定,并以无锚固的方式锚定,并允许学习每个对象的所有尺度。为了支持这一点,我们将新的回归目标定义为从中心单元位置的两个角到边界框的四个侧面的距离。此外,为了处理比例变化的对象,我们提出了一个量身定制的损失来处理不同尺寸的盒子。结果,我们提出的对象检测器不需要在数据集中调整任何依赖数据集的超参数。我们在MS-Coco 2017和Pascal VOC 2012数据集上评估了我们的方法,并将我们的结果与最先进的方法进行比较。我们观察到,与先前的作品相比,对象盒的性能优惠。此外,我们执行严格的消融实验来评估我们方法的不同组成部分。我们的代码可在以下网址提供:https://github.com/mohsenzand/objectbox。
translated by 谷歌翻译
平均精度(AP)损失最近在密集的对象检测任务上显示出有希望的性能。但是,尚未开发出对AP损失如何影响检测器的深刻了解。在这项工作中,我们重新审视平均精度(AP)损失,并揭示了关键元素是选择排名对的关键元素基于该观察结果,我们提出了两种改善AP损失的策略。其中的第一个是一种新型的自适应成对误差(APE)损失,该损失集中在正面和负样本中的排名对。此外,我们通过使用聚类算法利用归一化排名得分和本地化得分来选择更准确的排名对。在MSCOCO数据集上进行的实验支持我们的分析,并证明了我们提出的方法的优越性与当前分类和排名损失相比。该代码可从https://github.com/xudangliatiger/ape-loss获得。
translated by 谷歌翻译
特征金字塔网络(FPN)是对象检测器的关键组件之一。但是,对于研究人员来说,长期存在的难题是,引入FPN后通常会抑制大规模物体的检测性能。为此,本文首先在检测框架中重新审视FPN,并从优化的角度揭示了FPN成功的性质。然后,我们指出,大规模对象的性能退化是由于集成FPN后出现不当后传播路径所致。它使每个骨干网络的每个级别都只能查看一定尺度范围内的对象。基于这些分析,提出了两种可行的策略,以使每个级别的级别能够查看基于FPN的检测框架中的所有对象。具体而言,一个是引入辅助目标功能,以使每个骨干级在训练过程中直接接收各种尺度对象的后传播信号。另一个是以更合理的方式构建特征金字塔,以避免非理性的背部传播路径。对可可基准测试的广泛实验验证了我们的分析的健全性和方法的有效性。没有铃铛和口哨,我们证明了我们的方法在各种检测框架上实现了可靠的改进(超过2%):一阶段,两阶段,基于锚的,无锚和变压器的检测器。
translated by 谷歌翻译
DETR方法中引入的查询机制正在改变对象检测的范例,最近有许多基于查询的方法获得了强对象检测性能。但是,当前基于查询的检测管道遇到了以下两个问题。首先,需要多阶段解码器来优化随机初始化的对象查询,从而产生较大的计算负担。其次,训练后的查询是固定的,导致不满意的概括能力。为了纠正上述问题,我们在较快的R-CNN框架中提出了通过查询生成网络预测的特征对象查询,并开发了一个功能性的查询R-CNN。可可数据集的广泛实验表明,我们的特征查询R-CNN获得了所有R-CNN探测器的最佳速度准确性权衡,包括最近的最新稀疏R-CNN检测器。该代码可在\ url {https://github.com/hustvl/featurized-queryrcnn}中获得。
translated by 谷歌翻译
样本分配在现代对象检测方法中起着重要的作用。但是,大多数现有的方法都依靠手动设计来分配正 /负样本,这些样本并未明确建立样本分配和对象检测性能之间的关系。在这项工作中,我们提出了一种基于高参数搜索的新型动态样本分配方案。我们首先将分配给每个地面真理的正样本的数量定义为超参数,并采用替代优化算法来得出最佳选择。然后,我们设计一个动态的样本分配过程,以动态选择每个训练迭代中的最佳阳性数量。实验表明,所得的HPS-DET在不同对象检测基线的基线上带来了改善的性能。此外,我们分析了在不同数据集之间和不同骨架之间转移的高参数可重复使用性,以进行对象检测,这表现出我们方法的优势和多功能性。
translated by 谷歌翻译
由于卷积在提取物体的局部上下文中,在过去十年中,对象检测在过去十年中取得了重大进展。但是,对象的尺度是多样的,当前卷积只能处理单尺度输入。因此,传统卷积具有固定接收场在处理这种规模差异问题方面的能力受到限制。多尺度功能表示已被证明是缓解规模差异问题的有效方法。最近的研究主要与某些量表或各个尺度的总体特征采用部分联系,并专注于整个量表的全球信息。但是,跨空间和深度维度的信息被忽略了。受此启发,我们提出了多尺度卷积(MSCONV)来解决此问题。同时考虑到量表,空间和深度信息,MSCONV能够更全面地处理多尺度输入。 MSCONV是有效的,并且在计算上是有效的,只有少量计算成本增加。对于大多数单阶段对象探测器,在检测头中用MSCONV代替传统的卷积可以带来AP的2.5 \%改进(在Coco 2017数据集上),只有3 \%的拖鞋增加了。 MSCONV对于两阶段对象探测器也具有灵活性和有效性。当扩展到主流两阶段对象检测器时,MSCONV的AP可以提高3.0 \%。我们在单尺度测试下的最佳模型在Coco 2017上实现了48.9 \%AP,\ textit {test-dev} Split,它超过了许多最新方法。
translated by 谷歌翻译
标签分配在现代对象检测模型中起着重要作用。检测模型可能会通过不同的标签分配策略产生完全不同的性能。对于基于锚的检测模型,锚点及其相应的地面真实边界框之间的IO(与联合的交点)是关键要素,因为正面样品和负样品除以IOU阈值。早期对象探测器仅利用所有训练样本的固定阈值,而最近的检测算法则基于基于IOUS到地面真相框的分布而着重于自适应阈值。在本文中,我们介绍了一种简单的同时有效的方法,可以根据预测的培训状态动态执行标签分配。通过在标签分配中引入预测,选择了更高的地面真相对象的高质量样本作为正样本,这可以减少分类得分和IOU分数之间的差异,并生成更高质量的边界框。我们的方法显示了使用自适应标签分配算法和这些正面样本的下限框损失的检测模型的性能的改进,这表明将更多具有较高质量预测盒的样品选择为阳性。
translated by 谷歌翻译
Single-frame InfraRed Small Target (SIRST) detection has been a challenging task due to a lack of inherent characteristics, imprecise bounding box regression, a scarcity of real-world datasets, and sensitive localization evaluation. In this paper, we propose a comprehensive solution to these challenges. First, we find that the existing anchor-free label assignment method is prone to mislabeling small targets as background, leading to their omission by detectors. To overcome this issue, we propose an all-scale pseudo-box-based label assignment scheme that relaxes the constraints on scale and decouples the spatial assignment from the size of the ground-truth target. Second, motivated by the structured prior of feature pyramids, we introduce the one-stage cascade refinement network (OSCAR), which uses the high-level head as soft proposals for the low-level refinement head. This allows OSCAR to process the same target in a cascade coarse-to-fine manner. Finally, we present a new research benchmark for infrared small target detection, consisting of the SIRST-V2 dataset of real-world, high-resolution single-frame targets, the normalized contrast evaluation metric, and the DeepInfrared toolkit for detection. We conduct extensive ablation studies to evaluate the components of OSCAR and compare its performance to state-of-the-art model-driven and data-driven methods on the SIRST-V2 benchmark. Our results demonstrate that a top-down cascade refinement framework can improve the accuracy of infrared small target detection without sacrificing efficiency. The DeepInfrared toolkit, dataset, and trained models are available at https://github.com/YimianDai/open-deepinfrared to advance further research in this field.
translated by 谷歌翻译