虽然基于微调对象检测的基于微调的方法已经取得了显着的进步,但尚未得到很好的解决的关键挑战是基本类别的潜在特定于类别的过度拟合,并且针对新颖的类别的样本特异性过度拟合。在这项工作中,我们设计了一个新颖的知识蒸馏框架,以指导对象探测器的学习,从而抑制基础类别的前训练阶段的过度拟合,并在小型课程上进行微调阶段。要具体而言,我们首先提出了一种新颖的位置感知的视觉袋模型,用于从有限尺寸的图像集中学习代表性的视觉袋(BOVW),该模型用于基于相似性来编码常规图像在学习的视觉单词和图像之间。然后,我们基于以下事实执行知识蒸馏,即图像应在两个不同的特征空间中具有一致的BOVW表示。为此,我们独立于对象检测的特征空间预先学习特征空间,并在此空间中使用BOVW编码图像。可以将图像的BOVW表示形式视为指导对象探测器的学习:对象检测器的提取特征对同一图像的提取特征有望通过蒸馏知识得出一致的BOVW表示。广泛的实验验证了我们方法的有效性,并证明了优于其他最先进方法的优势。
translated by 谷歌翻译
几次射击对象检测的大多数现有方法都遵循微调范式,该范式可能假设可以通过众多样本的基本类别学习并将其隐式转移到具有限量样本的新颖类中,从而将类别的概括性知识隐含地转移到有限的类别中。舞台培训策略。但是,这不一定是正确的,因为对象检测器几乎无法在没有明确的建模的情况下自动区分类别不合时宜的知识和特定于类的知识。在这项工作中,我们建议在基础和新颖类之间学习三种类型的类不足的共同点:与识别相关的语义共同点,与定位相关的语义共同点和分布共同点。我们基于内存库设计了一个统一的蒸馏框架,该框架能够共同有效地进行所有三种类型的共同点。广泛的实验表明,我们的方法可以很容易地集成到大多数现有的基于微调的方法中,并始终如一地通过大幅度提高性能。
translated by 谷歌翻译
零拍摄对象检测(ZSD),将传统检测模型扩展到检测来自Unseen类别的对象的任务,已成为计算机视觉中的新挑战。大多数现有方法通过严格的映射传输策略来解决ZSD任务,这可能导致次优ZSD结果:1)这些模型的学习过程忽略了可用的看不见的类信息,因此可以轻松地偏向所看到的类别; 2)原始视觉特征空间并不合适,缺乏歧视信息。为解决这些问题,我们开发了一种用于ZSD的新型语义引导的对比网络,命名为Contrastzsd,一种检测框架首先将对比学习机制带入零拍摄检测的领域。特别地,对比度包括两个语义导向的对比学学习子网,其分别与区域类别和区域区域对之间形成对比。成对对比度任务利用从地面真理标签和预定义的类相似性分布派生的附加监督信号。在那些明确的语义监督的指导下,模型可以了解更多关于看不见的类别的知识,以避免看到概念的偏见问题,同时优化视觉功能的数据结构,以更好地辨别更好的视觉语义对齐。广泛的实验是在ZSD,即Pascal VOC和MS Coco的两个流行基准上进行的。结果表明,我们的方法优于ZSD和广义ZSD任务的先前最先进的。
translated by 谷歌翻译
标记数据通常昂贵且耗时,特别是对于诸如对象检测和实例分割之类的任务,这需要对图像的密集标签进行密集的标签。虽然几张拍摄对象检测是关于培训小说中的模型(看不见的)对象类具有很少的数据,但它仍然需要在许多标记的基础(见)类的课程上进行训练。另一方面,自我监督的方法旨在从未标记数据学习的学习表示,该数据转移到诸如物体检测的下游任务。结合几次射击和自我监督的物体检测是一个有前途的研究方向。在本调查中,我们审查并表征了几次射击和自我监督对象检测的最新方法。然后,我们给我们的主要外卖,并讨论未来的研究方向。https://gabrielhuang.github.io/fsod-survey/的项目页面
translated by 谷歌翻译
对象检测是计算机视觉和图像处理中的基本任务。基于深度学习的对象探测器非常成功,具有丰富的标记数据。但在现实生活中,它不保证每个对象类别都有足够的标记样本进行培训。当训练数据有限时,这些大型物体探测器易于过度装备。因此,有必要将几次拍摄的学习和零射击学习引入对象检测,这可以将低镜头对象检测命名在一起。低曝光对象检测(LSOD)旨在检测来自少数甚至零标记数据的对象,其分别可以分为几次对象检测(FSOD)和零拍摄对象检测(ZSD)。本文对基于深度学习的FSOD和ZSD进行了全面的调查。首先,本调查将FSOD和ZSD的方法分类为不同的类别,并讨论了它们的利弊。其次,本调查审查了数据集设置和FSOD和ZSD的评估指标,然后分析了在这些基准上的不同方法的性能。最后,本调查讨论了FSOD和ZSD的未来挑战和有希望的方向。
translated by 谷歌翻译
对象检测在过去十年中取得了实质性进展。然而,只有少量样品检测新颖类仍然有挑战性,因为低数据制度下的深度学习通常会导致降级的特征空间。现有的作品采用整体微调范例来解决这个问题,其中模型首先在具有丰富样本的所有基类上进行预培训,然后它用于雕刻新颖的类特征空间。尽管如此,这个范例仍然不完美。微调,一个小型类可以隐含地利用多个基类的知识来构造其特征空间,它引起分散的特征空间,因此违反了级别的可分离性。为了克服这些障碍,我们提出了一系列两步的微调框架,通过关联和歧视(FADI),为每个新颖类带来了一个具有两个积分步骤的判别特征空间。 1)在关联步骤中,与隐式利用多个基类相反,我们通过显式模仿特定的基类特征空间来构造一个紧凑的新颖类别特征空间。具体地,我们根据其语义相似性将每个小组与基类联系起来。之后,新类的特征空间可以容易地模仿相关基类的良好训练的特征空间。 2)在歧视步骤中,为了确保新型类和相关基类之间的可分离性,我们解除了基础和新类的分类分支。为了进一步放大所有类之间的阶级间可分性,施加了专用的专用边缘损失。对Pascal VOC和MS-Coco Datasets的广泛实验表明FADI实现了新的SOTA性能,显着改善了任何拍摄/分裂的基线+18.7。值得注意的是,优势在极其镜头方案上最为宣布。
translated by 谷歌翻译
Conventional training of a deep CNN based object detector demands a large number of bounding box annotations, which may be unavailable for rare categories. In this work we develop a few-shot object detector that can learn to detect novel objects from only a few annotated examples. Our proposed model leverages fully labeled base classes and quickly adapts to novel classes, using a meta feature learner and a reweighting module within a one-stage detection architecture. The feature learner extracts meta features that are generalizable to detect novel object classes, using training data from base classes with sufficient samples. The reweighting module transforms a few support examples from the novel classes to a global vector that indicates the importance or relevance of meta features for detecting the corresponding objects. These two modules, together with a detection prediction module, are trained end-to-end based on an episodic few-shot learning scheme and a carefully designed loss function. Through extensive experiments we demonstrate that our model outperforms well-established baselines by a large margin for few-shot object detection, on multiple datasets and settings. We also present analysis on various aspects of our proposed model, aiming to provide some inspiration for future few-shot detection works.
translated by 谷歌翻译
通过将元学习纳入基于区域的检测框架中,很少有射击对象检测经过广泛的研究。尽管取得了成功,但所述范式仍然受到几个因素的限制,例如(i)新型类别的低质量区域建议以及(ii)不同类别之间的类间相关性的过失。这种限制阻碍了基础知识的概括,以检测新型级别对象。在这项工作中,我们设计了元数据,(i)是第一个图像级的少量检测器,(ii)引入了一种新颖的类间相关元学习策略,以捕获和利用不同类别之间的相关性的相关性稳健而准确的几个射击对象检测。 meta-detr完全在图像级别工作,没有任何区域建议,这规避了普遍的几杆检测框架中不准确的建议的约束。此外,引入的相关元学习使元数据能够同时参加单个进料中的多个支持类别,从而可以捕获不同类别之间的类间相关性,从而大大降低了相似类别的错误分类并增强知识概括性参加新颖的课程。对多个射击对象检测基准进行的实验表明,所提出的元元删除优于大幅度的最先进方法。实施代码可在https://github.com/zhanggongjie/meta-detr上获得。
translated by 谷歌翻译
表面缺陷检测是工业质量检查最重要的过程之一。基于深度学习的表面缺陷检测方法已显示出巨大的潜力。但是,表现出色的模型通常需要大量的训练数据,并且只能检测出在训练阶段出现的缺陷。当面对少量数据数据时,缺陷检测模型不可避免地会遭受灾难性遗忘和错误分类问题的困扰。为了解决这些问题,本文提出了一个新的知识蒸馏网络,称为双知识对齐网络(DKAN)。提出的DKAN方法遵循预处理的转移学习范式,并设计了用于微调的知识蒸馏框架。具体而言,提出了增量RCNN以实现不同类别的分离稳定特征表示。在此框架下,设计特征知识对齐(FKA)的损失是在类不足的特征图之间设计的,以解决灾难性的遗忘问题,而logit知识对准(LKA)损失在logit分布之间部署以解决错误分类问题。实验已经在递增的几个neu-det数据集上进行,结果表明,DKAN在各种几个场景上的其他方法都优于其他方法,对平均平均精度度量指标最高可达6.65%,这证明了该方法的有效性。
translated by 谷歌翻译
Adapting object detectors learned with sufficient supervision to novel classes under low data regimes is charming yet challenging. In few-shot object detection (FSOD), the two-step training paradigm is widely adopted to mitigate the severe sample imbalance, i.e., holistic pre-training on base classes, then partial fine-tuning in a balanced setting with all classes. Since unlabeled instances are suppressed as backgrounds in the base training phase, the learned RPN is prone to produce biased proposals for novel instances, resulting in dramatic performance degradation. Unfortunately, the extreme data scarcity aggravates the proposal distribution bias, hindering the RoI head from evolving toward novel classes. In this paper, we introduce a simple yet effective proposal distribution calibration (PDC) approach to neatly enhance the localization and classification abilities of the RoI head by recycling its localization ability endowed in base training and enriching high-quality positive samples for semantic fine-tuning. Specifically, we sample proposals based on the base proposal statistics to calibrate the distribution bias and impose additional localization and classification losses upon the sampled proposals for fast expanding the base detector to novel classes. Experiments on the commonly used Pascal VOC and MS COCO datasets with explicit state-of-the-art performances justify the efficacy of our PDC for FSOD. Code is available at github.com/Bohao-Lee/PDC.
translated by 谷歌翻译
Few-shot object detection (FSOD), which aims at learning a generic detector that can adapt to unseen tasks with scarce training samples, has witnessed consistent improvement recently. However, most existing methods ignore the efficiency issues, e.g., high computational complexity and slow adaptation speed. Notably, efficiency has become an increasingly important evaluation metric for few-shot techniques due to an emerging trend toward embedded AI. To this end, we present an efficient pretrain-transfer framework (PTF) baseline with no computational increment, which achieves comparable results with previous state-of-the-art (SOTA) methods. Upon this baseline, we devise an initializer named knowledge inheritance (KI) to reliably initialize the novel weights for the box classifier, which effectively facilitates the knowledge transfer process and boosts the adaptation speed. Within the KI initializer, we propose an adaptive length re-scaling (ALR) strategy to alleviate the vector length inconsistency between the predicted novel weights and the pretrained base weights. Finally, our approach not only achieves the SOTA results across three public benchmarks, i.e., PASCAL VOC, COCO and LVIS, but also exhibits high efficiency with 1.8-100x faster adaptation speed against the other methods on COCO/LVIS benchmark during few-shot transfer. To our best knowledge, this is the first work to consider the efficiency problem in FSOD. We hope to motivate a trend toward powerful yet efficient few-shot technique development. The codes are publicly available at https://github.com/Ze-Yang/Efficient-FSOD.
translated by 谷歌翻译
Despite the remarkable success of existing methods for few-shot segmentation, there remain two crucial challenges. First, the feature learning for novel classes is suppressed during the training on base classes in that the novel classes are always treated as background. Thus, the semantics of novel classes are not well learned. Second, most of existing methods fail to consider the underlying semantic gap between the support and the query resulting from the representative bias by the scarce support samples. To circumvent these two challenges, we propose to activate the discriminability of novel classes explicitly in both the feature encoding stage and the prediction stage for segmentation. In the feature encoding stage, we design the Semantic-Preserving Feature Learning module (SPFL) to first exploit and then retain the latent semantics contained in the whole input image, especially those in the background that belong to novel classes. In the prediction stage for segmentation, we learn an Self-Refined Online Foreground-Background classifier (SROFB), which is able to refine itself using the high-confidence pixels of query image to facilitate its adaptation to the query image and bridge the support-query semantic gap. Extensive experiments on PASCAL-5$^i$ and COCO-20$^i$ datasets demonstrates the advantages of these two novel designs both quantitatively and qualitatively.
translated by 谷歌翻译
即使在几个例子中,人类能够学会识别新物品。相比之下,培训基于深度学习的对象探测器需要大量的注释数据。为避免需求获取和注释这些大量数据,但很少拍摄的对象检测旨在从目标域中的新类别的少数对象实例中学习。在本调查中,我们在几次拍摄对象检测中概述了本领域的状态。我们根据培训方案和建筑布局分类方法。对于每种类型的方法,我们描述了一般的实现以及提高新型类别性能的概念。在适当的情况下,我们在这些概念上给出短暂的外卖,以突出最好的想法。最终,我们介绍了常用的数据集及其评估协议,并分析了报告的基准结果。因此,我们强调了评估中的共同挑战,并确定了这种新兴对象检测领域中最有前景的电流趋势。
translated by 谷歌翻译
知识蒸馏(KD)是一个有效的框架,旨在将有意义的信息从大型老师转移到较小的学生。通常,KD通常涉及如何定义和转移知识。以前的KD方法通常着重于挖掘各种形式的知识,例如功能地图和精致信息。但是,知识源自主要监督任务,因此是高度特定于任务的。在自我监督的代表学习的最新成功中,我们提出了一项辅助自我实施的增强任务,以指导网络学习更多有意义的功能。因此,我们可以从KD的这项任务中得出软性自我实施的增强分布作为更丰富的黑暗知识。与以前的知识不同,此分布编码从监督和自我监督的特征学习中编码联合知识。除了知识探索之外,我们建议在各个隐藏层上附加几个辅助分支,以充分利用分层特征图。每个辅助分支都被指导学习自学的增强任务,并将这种分布从教师到学生提炼。总体而言,我们称我们的KD方法为等级自我实施的增强知识蒸馏(HSSAKD)。标准图像分类的实验表明,离线和在线HSSAKD都在KD领域达到了最先进的表现。对象检测的进一步转移实验进一步验证了HSSAKD可以指导网络学习更好的功能。该代码可在https://github.com/winycg/hsakd上找到。
translated by 谷歌翻译
少量对象检测(FSOD)旨在仅使用几个例子来检测对象。如何将最先进的对象探测器适应几个拍摄域保持挑战性。对象提案是现代物体探测器中的关键成分。然而,使用现有方法对于几张拍摄类生成的提案质量远远差,而不是许多拍摄类,例如,由于错误分类或不准确的空间位置而导致的少量拍摄类丢失的框。为了解决嘈杂的提案问题,我们通过联合优化几次提案生成和细粒度的少量提案分类,提出了一种新的Meta学习的FSOD模型。为了提高几张拍摄类的提议生成,我们建议学习基于轻量级的公制学习的原型匹配网络,而不是传统的简单线性对象/非目标分类器,例如,在RPN中使用。我们具有特征融合网络的非线性分类器可以提高鉴别性原型匹配和少拍摄类的提案回忆。为了提高细粒度的少量提案分类,我们提出了一种新的细节特征对准方法,以解决嘈杂的提案和少量拍摄类之间的空间未对准,从而提高了几次对象检测的性能。同时,我们学习一个单独的R-CNN检测头,用于多射击基础类,并表现出维护基础课程知识的强大性能。我们的模型在大多数射击和指标上实现了多个FSOD基准的最先进的性能。
translated by 谷歌翻译
在真实世界的环境中,可以通过对象检测器连续遇到来自新类的对象实例。当现有的对象探测器应用于这种情况时,它们在旧课程上的性能显着恶化。据报道,一些努力解决了这个限制,所有这些限制适用于知识蒸馏的变体,以避免灾难性的遗忘。我们注意到虽然蒸馏有助于保留以前的学习,但它阻碍了对新任务的快速适应性,这是增量学习的关键要求。在这种追求中,我们提出了一种学习方法,可以学习重塑模型梯度,使得跨增量任务的信息是最佳的共享。这可通过META学习梯度预处理来确保无缝信息传输,可最大限度地减少遗忘并最大化知识传输。与现有的元学习方法相比,我们的方法是任务不可知,允许将新类的增量添加到对象检测的高容量模型中。我们在Pascal-VOC和MS Coco Datasets上定义的各种增量学习设置中评估了我们的方法,我们的方法对最先进的方法进行了好评。
translated by 谷歌翻译
Open world object detection aims at detecting objects that are absent in the object classes of the training data as unknown objects without explicit supervision. Furthermore, the exact classes of the unknown objects must be identified without catastrophic forgetting of the previous known classes when the corresponding annotations of unknown objects are given incrementally. In this paper, we propose a two-stage training approach named Open World DETR for open world object detection based on Deformable DETR. In the first stage, we pre-train a model on the current annotated data to detect objects from the current known classes, and concurrently train an additional binary classifier to classify predictions into foreground or background classes. This helps the model to build an unbiased feature representations that can facilitate the detection of unknown classes in subsequent process. In the second stage, we fine-tune the class-specific components of the model with a multi-view self-labeling strategy and a consistency constraint. Furthermore, we alleviate catastrophic forgetting when the annotations of the unknown classes becomes available incrementally by using knowledge distillation and exemplar replay. Experimental results on PASCAL VOC and MS-COCO show that our proposed method outperforms other state-of-the-art open world object detection methods by a large margin.
translated by 谷歌翻译
少量对象检测(FSOD)旨在使用少数示例来检测从未见过的对象。通过学习如何在查询图像和少量拍摄类示例之间进行匹配,因此可以通过学习如何匹配来实现最近的改进,使得学习模型可以概括为几滴新颖的类。然而,目前,大多数基于元学习的方法分别在查询图像区域(通常是提议)和新颖类之间执行成对匹配,因此无法考虑它们之间的多个关系。在本文中,我们使用异构图卷积网络提出了一种新颖的FSOD模型。通过具有三种不同类型的边缘的所有提议和类节点之间的有效消息,我们可以获得每个类的上下文感知提案功能和查询 - 自适应,多包子增强型原型表示,这可能有助于促进成对匹配和改进的最终决赛FSOD精度。广泛的实验结果表明,我们所提出的模型表示为QA的Qa-Netwet,优于不同拍摄和评估指标下的Pascal VOC和MSCOCO FSOD基准测试的当前最先进的方法。
translated by 谷歌翻译
几次拍摄对象检测(FSOD)仅定位并在图像中分类对象仅给出一些数据样本。最近的FSOD研究趋势显示了公制和元学习技术的采用,这易于灾难性的遗忘和课堂混乱。为了克服基于度量学习的FSOD技术的这些陷阱,我们介绍了引入引导的余弦余量(AGCM),这有助于在对象检测器的分类头中创建更严格和良好的分离类特征群集。我们的新型专注提案融合(APF)模块通过降低共同发生的课程中的阶级差异来最大限度地减少灾难性遗忘。与此同时,拟议的余弦保证金交叉熵损失增加了混淆课程之间的角度裕度,以克服已经学习(基地)和新添加(新)类的课堂混淆的挑战。我们对挑战印度驾驶数据集(IDD)进行了实验,这呈现了一个现实世界类别 - 不平衡的环境,与流行的FSOD基准Pascal-VOC相同。我们的方法优于最先进的(SOTA)在IDD-OS上最多可达6.4个地图点,并且在IDD-10上的2.0次映射点为10次拍摄设置。在Pascal-Voc数据集上,我们优先于现有的SOTA方法,最多可达4.9个地图点。
translated by 谷歌翻译
传统的检测网络通常需要丰富的标记训练样本,而人类可以只有几个例子逐步学习新概念。本文侧重于更具挑战性,而是逼真的类渐进的少量对象检测问题(IFSD)。它旨在逐渐逐渐地将新型对象的模型转移到几个注释的样本中,而不会灾难性地忘记先前学识的样本。为了解决这个问题,我们提出了一种新的方法,最小的方法可以减少遗忘,更少的培训资源和更强的转移能力。具体而言,我们首先介绍转移策略,以减少不必要的重量适应并改善IFSD的传输能力。在此基础上,我们使用较少的资源消耗方法整合知识蒸馏技术来缓解遗忘,并提出基于新的基于聚类的示例选择过程,以保持先前学习的更多辨别特征。作为通用且有效的方法,最多可以在很大程度上提高各种基准测试的IFSD性能。
translated by 谷歌翻译