打开世界对象检测(OWOD),模拟知识持续增长的真正动态世界,试图检测已知和未知的类别,并逐步学习所识别的未知组。我们发现,尽管以前的欧瓦德工作建设性地提出了OWOD定义,但实验设置与不合逻辑的基准,令人困惑的度量计算和不当方法是不合理的。在本文中,我们重新思考OWOD实验环境,并提出了五项基本基准原则,以指导OWOD基准建设。此外,我们设计了两个特定于OWOD问题的公平评估协议,从未知课程的角度填充了评估的空白。此外,我们介绍了一个新颖且有效的OWOD框架,其中包含辅助提案顾问(PAD)和特定于类驱逐分类器(CEC)。非参数垫可以帮助RPN识别无需监控的准确未知提案,而CEC通过特定于类的驱逐函数校准过自信的激活边界并滤除令人困惑的预测。在我们的公平基准上进行的综合实验表明,我们的方法在现有的和我们的新指标方面表明了其他最先进的对象检测方法。\脚注{我们的基准和代码可在https://github.com提供/重新驱动/重新驱动。
translated by 谷歌翻译
开放世界对象检测(OWOD)是一个具有挑战性的计算机视觉问题,需要检测未知对象并逐渐学习已确定的未知类别。但是,它不能将未知实例区分为多个未知类。在这项工作中,我们提出了一个新颖的OWOD问题,称为未知分类的开放世界对象检测(UC-OWOD)。 UC-OWOD旨在检测未知实例并将其分类为不同的未知类别。此外,我们制定问题并设计一个两阶段的对象检测器来解决UC-OWOD。首先,使用未知的标签意见建议和未知歧视性分类头用于检测已知和未知对象。然后,构建基于相似性的未知分类和未知聚类改进模块,以区分多个未知类别。此外,设计了两个新颖的评估方案,以评估未知类别的检测。丰富的实验和可视化证明了该方法的有效性。代码可在https://github.com/johnwuzh/uc-owod上找到。
translated by 谷歌翻译
由于新型神经网络体系结构的设计和大规模数据集的可用性,对象检测方法在过去几年中取得了令人印象深刻的改进。但是,当前的方法有一个重要的限制:他们只能检测到在训练时间内观察到的类,这只是检测器在现实世界中可能遇到的所有类的子集。此外,在训练时间通常不考虑未知类别的存在,从而导致方法甚至无法检测到图像中存在未知对象。在这项工作中,我们解决了检测未知对象的问题,称为开放集对象检测。我们提出了一种名为Unkad的新颖培训策略,能够预测未知的对象,而无需对其进行任何注释,利用训练图像背景中已经存在的非注释对象。特别是,unkad首先利用更快的R-CNN的四步训练策略,识别和伪标签未知对象,然后使用伪通量来训练其他未知类。尽管UNKAD可以直接检测未知的对象,但我们将其与以前未知的检测技术相结合,表明它不成本就可以提高其性能。
translated by 谷歌翻译
Open world object detection aims at detecting objects that are absent in the object classes of the training data as unknown objects without explicit supervision. Furthermore, the exact classes of the unknown objects must be identified without catastrophic forgetting of the previous known classes when the corresponding annotations of unknown objects are given incrementally. In this paper, we propose a two-stage training approach named Open World DETR for open world object detection based on Deformable DETR. In the first stage, we pre-train a model on the current annotated data to detect objects from the current known classes, and concurrently train an additional binary classifier to classify predictions into foreground or background classes. This helps the model to build an unbiased feature representations that can facilitate the detection of unknown classes in subsequent process. In the second stage, we fine-tune the class-specific components of the model with a multi-view self-labeling strategy and a consistency constraint. Furthermore, we alleviate catastrophic forgetting when the annotations of the unknown classes becomes available incrementally by using knowledge distillation and exemplar replay. Experimental results on PASCAL VOC and MS-COCO show that our proposed method outperforms other state-of-the-art open world object detection methods by a large margin.
translated by 谷歌翻译
通常在具有固定预定义类别的完全注销的培训数据上学习对象探测器。但是,通常需要逐步增加类别。通常,在这种情况下,只有用旧课程注释的原始培训集和一些带有新课程的新培训数据。基于有限的数据集,强烈需要一个可以处理所有类别的统一检测器。我们提出了一个实用计划,以实现这项工作。无冲突的损失旨在避免标签歧义,从而在一次训练中导致可接受的探测器。为了进一步提高性能,我们提出了一个重新培训阶段,其中采用蒙特卡洛辍学术来计算定位置信度,以挖掘更准确的边界框,并提出了一种重叠的加权方法,以更好地利用在重新训练期间更好地利用伪注释。广泛的实验证明了我们方法的有效性。
translated by 谷歌翻译
零拍摄对象检测(ZSD),将传统检测模型扩展到检测来自Unseen类别的对象的任务,已成为计算机视觉中的新挑战。大多数现有方法通过严格的映射传输策略来解决ZSD任务,这可能导致次优ZSD结果:1)这些模型的学习过程忽略了可用的看不见的类信息,因此可以轻松地偏向所看到的类别; 2)原始视觉特征空间并不合适,缺乏歧视信息。为解决这些问题,我们开发了一种用于ZSD的新型语义引导的对比网络,命名为Contrastzsd,一种检测框架首先将对比学习机制带入零拍摄检测的领域。特别地,对比度包括两个语义导向的对比学学习子网,其分别与区域类别和区域区域对之间形成对比。成对对比度任务利用从地面真理标签和预定义的类相似性分布派生的附加监督信号。在那些明确的语义监督的指导下,模型可以了解更多关于看不见的类别的知识,以避免看到概念的偏见问题,同时优化视觉功能的数据结构,以更好地辨别更好的视觉语义对齐。广泛的实验是在ZSD,即Pascal VOC和MS Coco的两个流行基准上进行的。结果表明,我们的方法优于ZSD和广义ZSD任务的先前最先进的。
translated by 谷歌翻译
开放式对象检测(OSOD)最近引起了广泛的关注。它是在正确检测/分类已知对象的同时检测未知对象。我们首先指出,最近的研究中考虑的OSOD方案,该方案考虑了类似于开放式识别(OSR)的无限种类的未知物体,这是一个基本问题。也就是说,我们无法确定要检测到的内容,而对于这种无限的未知对象,这是检测任务所必需的。这个问题导致了对未知对象检测方法的性能的评估困难。然后,我们介绍了OSOD的新颖方案,该方案仅处理与已知对象共享超级类别的未知对象。它具有许多真实的应用程序,例如检测越来越多的细粒对象。这个新环境摆脱了上述问题和评估困难。此外,由于已知和未知对象之间的视觉相似性,它使检测到未知对象更加现实。我们通过实验结果表明,基于标准检测器类别预测的不确定性的简单方法优于先前设置中测试的当前最新OSOD方法。
translated by 谷歌翻译
开放世界对象检测(OWOD)是一个具有挑战性的计算机视觉问题,其中任务是检测一组已知的对象类别,同时识别未知对象。此外,该模型必须逐步学习在下一个培训集中所知的新类。不同于标准对象检测,OWOD设置会对在潜在的未知物体上生成质量候选建议的质量挑战,将未知物体与背景中的未知物体分开并检测不同的未知物体。在这里,我们介绍了一种新的基于端到端的变换器的框架OW-DETR,用于开放世界对象检测。建议的OW-DETR包括三个专用组成部分,即注意力驱动的伪标签,新颖性分类和对象评分,以明确地解决上述OWOD挑战。我们的OW-DETR明确地编码了多尺度上下文信息,具有较少的归纳偏差,使得从已知类传输到未知类,并且可以更好地区分未知对象和背景之间。综合实验是对两个基准进行的:MS-Coco和Pascal VOC。广泛的消融揭示了我们拟议的贡献的优点。此外,我们的模型优于最近引入的OWOD方法矿石,绝对增益在MS-Coco基准测试中的未知召回方面的1.8%至3.3%。在增量对象检测的情况下,OW-DETR以Pascal VOC基准上的所有设置优于最先进的。我们的代码和模型将公开发布。
translated by 谷歌翻译
航空图像中的微小对象检测(TOD)是具有挑战性的,因为一个小物体只包含几个像素。最先进的对象探测器由于缺乏判别特征的监督而无法为微小对象提供令人满意的结果。我们的主要观察结果是,联合度量(IOU)及其扩展的相交对微小物体的位置偏差非常敏感,这在基于锚固的探测器中使用时会大大恶化标签分配的质量。为了解决这个问题,我们提出了一种新的评估度量标准,称为标准化的Wasserstein距离(NWD)和一个新的基于排名的分配(RKA)策略,以进行微小对象检测。提出的NWD-RKA策略可以轻松地嵌入到各种基于锚的探测器中,以取代标准的基于阈值的检测器,从而大大改善了标签分配并为网络培训提供了足够的监督信息。在四个数据集中测试,NWD-RKA可以始终如一地提高微小的对象检测性能。此外,在空中图像(AI-TOD)数据集中观察到显着的嘈杂标签,我们有动力将其重新标记并释放AI-TOD-V2及其相应的基准。在AI-TOD-V2中,丢失的注释和位置错误问题得到了大大减轻,从而促进了更可靠的培训和验证过程。将NWD-RKA嵌入探测器中,检测性能比AI-TOD-V2上的最先进竞争对手提高了4.3个AP点。数据集,代码和更多可视化可在以下网址提供:https://chasel-tsui.g​​ithub.io/ai/ai-tod-v2/
translated by 谷歌翻译
Open World Object Detection (OWOD) is a new and challenging computer vision task that bridges the gap between classic object detection (OD) benchmarks and object detection in the real world. In addition to detecting and classifying seen/labeled objects, OWOD algorithms are expected to detect novel/unknown objects - which can be classified and incrementally learned. In standard OD, object proposals not overlapping with a labeled object are automatically classified as background. Therefore, simply applying OD methods to OWOD fails as unknown objects would be predicted as background. The challenge of detecting unknown objects stems from the lack of supervision in distinguishing unknown objects and background object proposals. Previous OWOD methods have attempted to overcome this issue by generating supervision using pseudo-labeling - however, unknown object detection has remained low. Probabilistic/generative models may provide a solution for this challenge. Herein, we introduce a novel probabilistic framework for objectness estimation, where we alternate between probability distribution estimation and objectness likelihood maximization of known objects in the embedded feature space - ultimately allowing us to estimate the objectness probability of different proposals. The resulting Probabilistic Objectness transformer-based open-world detector, PROB, integrates our framework into traditional object detection models, adapting them for the open-world setting. Comprehensive experiments on OWOD benchmarks show that PROB outperforms all existing OWOD methods in both unknown object detection ($\sim 2\times$ unknown recall) and known object detection ($\sim 10\%$ mAP). Our code will be made available upon publication at https://github.com/orrzohar/PROB.
translated by 谷歌翻译
Single-frame InfraRed Small Target (SIRST) detection has been a challenging task due to a lack of inherent characteristics, imprecise bounding box regression, a scarcity of real-world datasets, and sensitive localization evaluation. In this paper, we propose a comprehensive solution to these challenges. First, we find that the existing anchor-free label assignment method is prone to mislabeling small targets as background, leading to their omission by detectors. To overcome this issue, we propose an all-scale pseudo-box-based label assignment scheme that relaxes the constraints on scale and decouples the spatial assignment from the size of the ground-truth target. Second, motivated by the structured prior of feature pyramids, we introduce the one-stage cascade refinement network (OSCAR), which uses the high-level head as soft proposals for the low-level refinement head. This allows OSCAR to process the same target in a cascade coarse-to-fine manner. Finally, we present a new research benchmark for infrared small target detection, consisting of the SIRST-V2 dataset of real-world, high-resolution single-frame targets, the normalized contrast evaluation metric, and the DeepInfrared toolkit for detection. We conduct extensive ablation studies to evaluate the components of OSCAR and compare its performance to state-of-the-art model-driven and data-driven methods on the SIRST-V2 benchmark. Our results demonstrate that a top-down cascade refinement framework can improve the accuracy of infrared small target detection without sacrificing efficiency. The DeepInfrared toolkit, dataset, and trained models are available at https://github.com/YimianDai/open-deepinfrared to advance further research in this field.
translated by 谷歌翻译
基于深度学习的对象建议方法已在许多计算机视觉管道中取得了重大进展。但是,当前的最新提案网络使用封闭世界的假设,这意味着它们仅接受培训以检测培训课程的实例,同时将每个其他区域视为背景。这种解决方案的样式无法对分发对象进行高度召回,因此可以在可以观察到新颖的对象类别类别的现实开放世界应用程序中使用它。为了更好地检测所有对象,我们提出了一个无分类的自我训练的建议网络(STPN),该提案网络(STPN)利用了一种新型的自我训练优化策略,并结合了动态加权损失功能,以解决诸如类不平衡和伪标签的不确定性之类的挑战。我们的模型不仅旨在在现有的乐观开放世界基准中表现出色,而且在具有重大标签偏见的具有挑战性的操作环境中。为了展示这一点,当培训数据包含(1)标记类中的多样性较小,并且(2)标记实例较少时,我们就设计了两个挑战来测试建议模型的概括。我们的结果表明,STPN在所有任务上都实现了最新的对象概括。
translated by 谷歌翻译
弱监督对象检测(WSOD)旨在仅训练需要图像级注释的对象检测器。最近,一些作品设法选择了从训练有素的WSOD网络生成的准确框,以监督半监督的检测框架以提高性能。但是,这些方法只需根据图像级标准将设置的训练分为标记和未标记的集合,从而选择了足够的错误标记或错误的局部盒子预测作为伪基真正的真实性,从而产生了次优的检测性能解决方案。为了克服这个问题,我们提出了一个新颖的WSOD框架,其新范式从弱监督到嘈杂的监督(W2N)。通常,通过训练有素的WSOD网络产生的给定的伪基真实性,我们提出了一种两模块迭代训练算法来完善伪标签并逐步监督更好的对象探测器。在定位适应模块中,我们提出正规化损失,以减少原始伪基真实性中判别零件的比例,从而获得更好的伪基真实性,以进行进一步的训练。在半监督的模块中,我们提出了两个任务实例级拆分方法,以选择用于训练半监督检测器的高质量标签。不同基准测试的实验结果验证了W2N的有效性,我们的W2N优于所有现有的纯WSOD方法和转移学习方法。我们的代码可在https://github.com/1170300714/w2n_wsod上公开获得。
translated by 谷歌翻译
当前的多类多类别对象跟踪(MOT)指标使用类标签来分组跟踪结果以进行每类评估。同样,MOT方法通常仅将对象与相同的类预测相关联。这两种MOT中的普遍策略隐含地假设分类性能几乎完美。但是,这远非最近的大型MOT数据集中的情况,这些数据集包含许多罕见或语义上类似类别的类别。因此,所得的不正确分类导致跟踪器的基准跟踪和基准不足。我们通过将分类与跟踪无关,以解决这些问题。我们引入了一个新的指标,跟踪所有准确性(TETA),将跟踪测量测量分为三个子因素:本地化,关联和分类,即使在不准确的分类下,也可以全面地跟踪性能的基准测试。 TETA还处理了大规模跟踪数据集中具有挑战性的不完整注释问题。我们进一步介绍了使用类示例匹配(CEM)执行关联的每件事跟踪器(TETER)。我们的实验表明,TETA对跟踪器进行更全面的评估,并且与最先进的ART相比,TETE对挑战性的大规模数据集BDD100K和TAO进行了重大改进。
translated by 谷歌翻译
学习准确的对象探测器通常需要具有精确对象边界框的大规模培训数据。但是,标记此类数据是昂贵且耗时的。随着众包标签过程和对象的歧义可能会引起嘈杂的边界盒注释,对象探测器将遭受退化的训练数据。在这项工作中,我们旨在应对使用不准确的边界框来学习健壮对象探测器的挑战。受到以下事实的启发:本地化精度在分类精度不准确的框中显着遭受不准确的框架的影响,我们建议将分类作为用于完善定位结果的指导信号。具体而言,通过将对象视为一袋实例,我们引入了一种对象感知的多个实例学习方法(OA-MIL),其中具有对象感知的实例选择和对象感知实例扩展。前者旨在选择准确的培训实例,而不是直接使用不准确的框注释。后者的重点是生成高质量的选择实例。关于合成嘈杂数据集的广泛实验(即嘈杂的Pascal VOC和MS-Coco)和真正的嘈杂小麦头数据集证明了我们OA-MIL的有效性。代码可从https://github.com/cxliu0/oa-mil获得。
translated by 谷歌翻译
We address the task of open-world class-agnostic object detection, i.e., detecting every object in an image by learning from a limited number of base object classes. State-of-the-art RGB-based models suffer from overfitting the training classes and often fail at detecting novel-looking objects. This is because RGB-based models primarily rely on appearance similarity to detect novel objects and are also prone to overfitting short-cut cues such as textures and discriminative parts. To address these shortcomings of RGB-based object detectors, we propose incorporating geometric cues such as depth and normals, predicted by general-purpose monocular estimators. Specifically, we use the geometric cues to train an object proposal network for pseudo-labeling unannotated novel objects in the training set. Our resulting Geometry-guided Open-world Object Detector (GOOD) significantly improves detection recall for novel object categories and already performs well with only a few training classes. Using a single "person" class for training on the COCO dataset, GOOD surpasses SOTA methods by 5.0% AR@100, a relative improvement of 24%.
translated by 谷歌翻译
半弱监督和监督的学习最近在对象检测文献中引起了很大的关注,因为它们可以减轻成功训练深度学习模型所需的注释成本。半监督学习的最先进方法依赖于使用多阶段过程训练的学生老师模型,并大量数据增强。为弱监督的设置开发了自定义网络,因此很难适应不同的检测器。在本文中,引入了一种弱半监督的训练方法,以减少这些训练挑战,但通过仅利用一小部分全标记的图像,并在弱标记图像中提供信息来实现最先进的性能。特别是,我们基于通用抽样的学习策略以在线方式产生伪基真实(GT)边界框注释,消除了对多阶段培训的需求和学生教师网络配置。这些伪GT框是根据通过得分传播过程累积的对象建议的分类得分从弱标记的图像中采样的。 PASCAL VOC数据集的经验结果表明,使用VOC 2007作为完全标记的拟议方法可提高性能5.0%,而VOC 2012作为弱标记数据。同样,有了5-10%的完全注释的图像,我们观察到MAP中的10%以上的改善,表明对图像级注释的适度投资可以大大改善检测性能。
translated by 谷歌翻译
在对象检测中,当检测器未能检测到目标对象时,会出现假阴性。为了了解为什么对象检测产生假阴性,我们确定了五个“假负机制”,其中每个机制都描述了检测器体系结构内部的特定组件如何失败。着眼于两阶段和一阶段锚点对象检测器体系结构,我们引入了一个框架,用于量化这些虚假的负面机制。使用此框架,我们调查了为什么更快的R-CNN和视网膜无法检测基准视觉数据集和机器人数据集中的对象。我们表明,检测器的假负机制在计算机视觉基准数据集和机器人部署方案之间存在显着差异。这对为机器人应用程序开发的对象检测器的翻译具有影响。
translated by 谷歌翻译
Conventional training of a deep CNN based object detector demands a large number of bounding box annotations, which may be unavailable for rare categories. In this work we develop a few-shot object detector that can learn to detect novel objects from only a few annotated examples. Our proposed model leverages fully labeled base classes and quickly adapts to novel classes, using a meta feature learner and a reweighting module within a one-stage detection architecture. The feature learner extracts meta features that are generalizable to detect novel object classes, using training data from base classes with sufficient samples. The reweighting module transforms a few support examples from the novel classes to a global vector that indicates the importance or relevance of meta features for detecting the corresponding objects. These two modules, together with a detection prediction module, are trained end-to-end based on an episodic few-shot learning scheme and a carefully designed loss function. Through extensive experiments we demonstrate that our model outperforms well-established baselines by a large margin for few-shot object detection, on multiple datasets and settings. We also present analysis on various aspects of our proposed model, aiming to provide some inspiration for future few-shot detection works.
translated by 谷歌翻译
物体检测在计算机视觉中取得了巨大的进步。具有外观降级的小物体检测是一个突出的挑战,特别是对于鸟瞰观察。为了收集足够的阳性/阴性样本进行启发式训练,大多数物体探测器预设区域锚,以便将交叉联盟(iou)计算在地面判处符号数据上。在这种情况下,小物体经常被遗弃或误标定。在本文中,我们提出了一种有效的动态增强锚(DEA)网络,用于构建新颖的训练样本发生器。与其他最先进的技术不同,所提出的网络利用样品鉴别器来实现基于锚的单元和无锚单元之间的交互式样本筛选,以产生符合资格的样本。此外,通过基于保守的基于锚的推理方案的多任务联合训练增强了所提出的模型的性能,同时降低计算复杂性。所提出的方案支持定向和水平对象检测任务。对两个具有挑战性的空中基准(即,DotA和HRSC2016)的广泛实验表明,我们的方法以适度推理速度和用于训练的计算开销的准确性实现最先进的性能。在DotA上,我们的DEA-NET与ROI变压器的基线集成了0.40%平均平均精度(MAP)的先进方法,以便用较弱的骨干网(Resnet-101 VS Resnet-152)和3.08%平均 - 平均精度(MAP),具有相同骨干网的水平对象检测。此外,我们的DEA网与重新排列的基线一体化实现最先进的性能80.37%。在HRSC2016上,它仅使用3个水平锚点超过1.1%的最佳型号。
translated by 谷歌翻译