知识蒸馏(KD)是一种广泛使用的技术,用于训练对象检测中的紧凑模型。但是,仍然缺乏关于如何在异质探测器之间提炼的研究。在本文中,我们从经验上发现,尽管他们的探测头和标签分配不同,但异构教师探测器的更好的FPN功能可以帮助学生。但是,将特征图直接对齐以提炼探测器有两个问题。首先,老师和学生之间的功能幅度差异可能会对学生实施过度严格的限制。其次,来自教师模型的FPN阶段和具有较大特征大小的通道可能会主导蒸馏损失的梯度,这将压倒KD中其他功能的影响并引入大量噪音。为了解决上述问题,我们建议模仿Pearson相关系数的功能,以专注于教师的关系信息,并放宽对功能大小的约束。我们的方法始终优于现有检测方法,并适用于同质和异类的学生教师对。此外,它的收敛速度更快。基于Resnet-50的视网膜和FCO的强大MaskRCNN-SWIN检测器作为教师,在COCO2017上获得了41.5%和43.9%的地图,分别比基线高4.1 \%和4.8%。
translated by 谷歌翻译
知识蒸馏已成功应用于图像分类。然而,物体检测更复杂,大多数知识蒸馏方法都失败了。在本文中,我们指出,在物体检测中,教师和学生的特征在不同的区域变化,特别是在前景和背景中。如果我们同样蒸馏它们,则特征图之间的不均匀差异会对蒸馏产生负面影响。因此,我们提出了焦点和全球蒸馏(FGD)。焦蒸馏分离前景和背景,强迫学生专注于教师的临界像素和渠道。全球蒸馏重建了不同像素之间的关系,并将其从教师转移给学生,弥补了局灶性蒸馏中缺失的全球信息。由于我们的方法仅需要计算特征图上的损失,因此FGD可以应用于各种探测器。我们在不同骨干网上进行各种探测器,结果表明,学生探测器实现了优异的地图改进。例如,基于Reset-50基于RecinAnet,更快的RCNN,Reppoints和Mask RCNN,Coco2017上达到40.7%,42.0%,42.0%和42.1%地图,3.3,3.6,3.4和2.9高于基线,分别。我们的代码可在https://github.com/yzd-v/fgd获得。
translated by 谷歌翻译
近年来,大规模的深层模型取得了巨大的成功,但巨大的计算复杂性和大规模的存储要求使其在资源限制设备中部署它们是一个巨大的挑战。作为模型压缩和加速度方法,知识蒸馏通过从教师探测器转移黑暗知识有效提高了小型模型的性能。然而,大多数基于蒸馏的检测方法主要模仿近边界盒附近的特征,这遭受了两个限制。首先,它们忽略边界盒外面的有益特征。其次,这些方法模仿一些特征,这些特征被教师探测器被错误地被视为背景。为了解决上述问题,我们提出了一种新颖的特征性 - 丰富的评分(FRS)方法,可以选择改善蒸馏过程中的广义可检测性的重要特征。所提出的方法有效地检索边界盒外面的重要特征,并消除边界盒内的有害特征。广泛的实验表明,我们的方法在基于锚和无锚探测器上实现了出色的性能。例如,具有Reset-50的RetinAnet在Coco2017数据集上达到39.7%,甚至超过基于Reset-101的教师检测器38.9%甚至超过0.8%。
translated by 谷歌翻译
知识蒸馏(KD)是一种广泛使用的技术,将繁琐的教师模型继承到紧凑的学生模型,从而实现模型压缩和加速度。与图像分类相比,对象检测是一个更复杂的任务,设计特定的KD方法用于对象检测是非微小的。在这项工作中,我们精心研究教师和学生检测模型之间的行为差​​异,并获得了两个有趣的观察:首先,教师和学生对其检测到的候选盒子相得益彰,这导致了它们的精确差异。其次,教师和学生之间的特征响应差异和预测差异之间存在相当大的差距,表明同样模仿老师的所有特征映射是提高学生准确性的次优选。基于这两个观察,我们提出了用于分别蒸馏单级探测器的测量模拟(RM)和预测引导的特征模仿(PFI)。 RM从教师那里夺取候选人盒的等级作为一种新的知识形式,蒸馏,这始终如一地优于传统的软标签蒸馏。 PFI试图将特征差异与预测差异相关,使特征模仿直接有助于提高学生的准确性。在MS Coco和Pascal VOC基准测试中,广泛的实验在不同骨干的各种探测器上进行,以验证我们方法的有效性。具体而言,具有Reset50的RetinAnet在MS Coco中实现了40.4%的图,比其基线高3.5%,并且还优于先前的KD方法。
translated by 谷歌翻译
知识蒸馏已成功地应用于各种任务。当前的蒸馏算法通常通过模仿教师的产出来改善学生的表现。本文表明,教师还可以通过指导学生的功能恢复来提高学生的代表权。从这个角度来看,我们提出了掩盖的生成蒸馏(MGD),这很简单:我们掩盖了学生功能的随机像素,并强迫它通过简单的块生成教师的完整功能。 MGD是一种真正的基于特征的蒸馏方法,可用于各种任务,包括图像分类,对象检测,语义分割和实例分割。我们在具有广泛数据集的不同模型上进行了实验,结果表明所有学生都取得了出色的改进。值得注意的是,我们将RESNET-18从69.90%提高到71.69%的Imagenet Top-1精度,带有Resnet-50骨架的视网膜从37.4到41.0界盒映射,基于Resnet-50的独奏从33.1到33.1至36.2 Mask Map和DeepLabV3, 18从73.20到76.02 miou。我们的代码可在https://github.com/yzd-v/mgd上找到。
translated by 谷歌翻译
知识蒸馏(KD)在将学习表征从大型模型(教师)转移到小型模型(学生)方面表现出非常有希望的能力。但是,随着学生和教师之间的容量差距变得更大,现有的KD方法无法获得更好的结果。我们的工作表明,“先验知识”对KD至关重要,尤其是在应用大型老师时。特别是,我们提出了动态的先验知识(DPK),该知识将教师特征的一部分作为特征蒸馏之前的先验知识。这意味着我们的方法还将教师的功能视为“输入”,而不仅仅是``目标''。此外,我们根据特征差距动态调整训练阶段的先验知识比率,从而引导学生在适当的困难中。为了评估所提出的方法,我们对两个图像分类基准(即CIFAR100和Imagenet)和一个对象检测基准(即MS Coco)进行了广泛的实验。结果表明,在不同的设置下,我们方法在性能方面具有优势。更重要的是,我们的DPK使学生模型的表现与教师模型的表现呈正相关,这意味着我们可以通过应用更大的教师进一步提高学生的准确性。我们的代码将公开用于可重复性。
translated by 谷歌翻译
用于对象检测的常规知识蒸馏(KD)方法主要集中于同质的教师学生探测器。但是,用于部署的轻质检测器的设计通常与高容量探测器显着不同。因此,我们研究了异构教师对之间的KD,以进行广泛的应用。我们观察到,异质KD(异核KD)的核心难度是由于不同优化的方式而导致异质探测器的主链特征之间的显着语义差距。常规的同质KD(HOMO-KD)方法遭受了这种差距的影响,并且很难直接获得异性KD的令人满意的性能。在本文中,我们提出了异助剂蒸馏(Head)框架,利用异质检测头作为助手来指导学生探测器的优化以减少此间隙。在头上,助手是一个额外的探测头,其建筑与学生骨干的老师负责人同质。因此,将异源KD转变为同性恋,从而可以从老师到学生的有效知识转移。此外,当训练有素的教师探测器不可用时,我们将头部扩展到一个无教师的头(TF-Head)框架。与当前检测KD方法相比,我们的方法已取得了显着改善。例如,在MS-COCO数据集上,TF-Head帮助R18视网膜实现33.9 MAP(+2.2),而Head将极限进一步推到36.2 MAP(+4.5)。
translated by 谷歌翻译
知识蒸馏(KD)目睹了其在物体检测中学习紧凑型号的强大能力。以前的KD方法用于对象检测主要是侧重于模仿仿地区内的深度特征,而不是模仿分类登录,而不是蒸馏定位信息的低效率。在本文中,通过重新制定本地化的知识蒸馏过程,我们提出了一种新的本地化蒸馏(LD)方法,可以有效地将老师的本地化知识转移给学生。此外,我们还启发式介绍了有价值的本地化区域的概念,可以帮助选择性地蒸馏某个地区的语义和本地化知识。第一次结合这两个新组件,我们显示Logit Mimicing可以优于特征模仿和本地化知识蒸馏比蒸馏对象探测器的语义知识更为重要和有效。我们的蒸馏方案简单,有效,可以很容易地应用于不同的致密物体探测器。实验表明,我们的LD可以将GFOCal-Reset-50的AP得分提升,单一规模的1 $ \ Times $培训计划从Coco基准测试中的40.1到42.1,没有任何牺牲品推断速度。我们的源代码和培训的型号在https://github.com/hikaritju/ld公开提供
translated by 谷歌翻译
现实世界中的对象检测模型应便宜且准确。知识蒸馏(KD)可以通过利用大型教师模型的有用信息来提高小型,廉价检测模型的准确性。但是,一个关键的挑战是确定老师进行蒸馏产生的最有用的功能。在这项工作中,我们表明,在地面边界框中只有一小部分功能才是老师的高检测性能。基于此,我们提出了预测引导的蒸馏(PGD),该蒸馏将蒸馏放在教师的这些关键预测区域上,并在许多现有的KD基准方面的性能取得了可观的增长。此外,我们建议对关键区域进行自适应加权方案,以平滑其影响力并取得更好的性能。我们提出的方法在各种高级一阶段检测体系中的当前最新KD基准都优于当前的最新KD基线。具体而言,在可可数据集上,我们的方法分别使用RESNET-101和RESNET-50作为教师和学生骨架,在 +3.1%和 +4.6%的AP改进之间达到了AP的改善。在CrowdHuman数据集上,我们还使用这些骨架,在MR和AP上取得了 +3.2%和 +2.0%的提高。我们的代码可在https://github.com/chenhongyiyang/pgd上找到。
translated by 谷歌翻译
Previous knowledge distillation (KD) methods for object detection mostly focus on feature imitation instead of mimicking the prediction logits due to its inefficiency in distilling the localization information. In this paper, we investigate whether logit mimicking always lags behind feature imitation. Towards this goal, we first present a novel localization distillation (LD) method which can efficiently transfer the localization knowledge from the teacher to the student. Second, we introduce the concept of valuable localization region that can aid to selectively distill the classification and localization knowledge for a certain region. Combining these two new components, for the first time, we show that logit mimicking can outperform feature imitation and the absence of localization distillation is a critical reason for why logit mimicking underperforms for years. The thorough studies exhibit the great potential of logit mimicking that can significantly alleviate the localization ambiguity, learn robust feature representation, and ease the training difficulty in the early stage. We also provide the theoretical connection between the proposed LD and the classification KD, that they share the equivalent optimization effect. Our distillation scheme is simple as well as effective and can be easily applied to both dense horizontal object detectors and rotated object detectors. Extensive experiments on the MS COCO, PASCAL VOC, and DOTA benchmarks demonstrate that our method can achieve considerable AP improvement without any sacrifice on the inference speed. Our source code and pretrained models are publicly available at https://github.com/HikariTJU/LD.
translated by 谷歌翻译
知识蒸馏在分类中取得了巨大的成功,但是,仍然有挑战性。在用于检测的典型图像中,来自不同位置的表示可能对检测目标具有不同的贡献,使蒸馏难以平衡。在本文中,我们提出了一种有条件的蒸馏框架来蒸馏出所需的知识,即关于每个例子的分类和本地化有益的知识。该框架引入了一种可学习的条件解码模块,其将每个目标实例检索为查询的信息。具体而言,我们将条件信息编码为查询并使用教师的表示作为键。查询和键之间的注意用于测量不同特征的贡献,由本地化识别敏感辅助任务指导。广泛的实验表明了我们的方法的功效:我们在各种环境下观察到令人印象深刻的改进。值得注意的是,在1倍计划下,我们将通过37.4至40.7地图(+3.3)与Reset-50骨架的Restinetet提升。代码已在https://github.com/megvii-research/icd上发布。
translated by 谷歌翻译
主流对象检测器通常由两个子任务组成,包括由两个并行头部实现的分类和回归任务。这种经典的设计范式不可避免地会导致分类得分和本地化质量(IOU)之间的空间分布不一致。因此,本文从知识蒸馏的角度来减轻这种错位。首先,我们观察到,与轻量级学生相比,庞大的老师获得的和谐预测比例更高。基于这个有趣的观察,设计了一种新颖的和谐评分(HS),以估计分类和回归质量的一致性。 HS对两个子任务之间的关系进行建模,并被视为先验知识,以促进学生的和谐预测。其次,这种空间未对准将在提炼特征时会导致选择性区域的选择。为了减轻这个问题,通过灵活平衡分类和回归任务的贡献,提出了一种新颖的任务功能蒸馏(TFD)。最终,HD和TFD构成了所提出的方法,称为任务均衡蒸馏(TBD)。广泛的实验证明了该方法的巨大潜力和概括。具体而言,当配备TBD时,带有Resnet-50的视网膜在可可基准下获得41.0地图,表现优于最近的FGD和FRS。
translated by 谷歌翻译
在本文中,我们提出了一种用于一般物体检测的第一自蒸馏框架,称为LGD(标签引导自蒸馏)。以前的研究依赖于强大的预酝酿教师,以提供在现实世界方案中可能无法使用的指导知识。相反,我们通过对象之间的关系间和帧间关系建模来生成一个有效的知识,只需要学生表示和常规标签。具体而言,我们的框架涉及稀疏的标签外观编码,对象间关系适应和对象内的知识映射,以获得指导知识。他们在培训阶段共同形成隐式教师,动态依赖标签和不断发展的学生表示。 LGD中的模块与学生检测器的端到端训练,并在推理中丢弃。实验上,LGD在各种探测器,数据集和广泛的任务上获得了体面的结果,如实例分段。例如,在MS-Coco DataSet中,LGD将Reset-50下的REDINENT改善2倍单尺度培训,从36.2%到39.0%地图(+ 2.8%)。它在2倍多尺度培训下使用Resnext-101 DCN V2等FCO的探测器增加了更强大的探测器,从46.1%到47.9%(+ 1.8%)。与古典教师的方法FGFI相比,LGD不仅在不需要佩金的教师而且还可以降低固有的学生学习超出51%的培训成本。
translated by 谷歌翻译
In this report, we present a fast and accurate object detection method dubbed DAMO-YOLO, which achieves higher performance than the state-of-the-art YOLO series. DAMO-YOLO is extended from YOLO with some new technologies, including Neural Architecture Search (NAS), efficient Reparameterized Generalized-FPN (RepGFPN), a lightweight head with AlignedOTA label assignment, and distillation enhancement. In particular, we use MAE-NAS, a method guided by the principle of maximum entropy, to search our detection backbone under the constraints of low latency and high performance, producing ResNet-like / CSP-like structures with spatial pyramid pooling and focus modules. In the design of necks and heads, we follow the rule of "large neck, small head". We import Generalized-FPN with accelerated queen-fusion to build the detector neck and upgrade its CSPNet with efficient layer aggregation networks (ELAN) and reparameterization. Then we investigate how detector head size affects detection performance and find that a heavy neck with only one task projection layer would yield better results. In addition, AlignedOTA is proposed to solve the misalignment problem in label assignment. And a distillation schema is introduced to improve performance to a higher level. Based on these new techs, we build a suite of models at various scales to meet the needs of different scenarios, i.e., DAMO-YOLO-Tiny/Small/Medium. They can achieve 43.0/46.8/50.0 mAPs on COCO with the latency of 2.78/3.83/5.62 ms on T4 GPUs respectively. The code is available at https://github.com/tinyvision/damo-yolo.
translated by 谷歌翻译
特征金字塔网络(FPN)是对象检测器的关键组件之一。但是,对于研究人员来说,长期存在的难题是,引入FPN后通常会抑制大规模物体的检测性能。为此,本文首先在检测框架中重新审视FPN,并从优化的角度揭示了FPN成功的性质。然后,我们指出,大规模对象的性能退化是由于集成FPN后出现不当后传播路径所致。它使每个骨干网络的每个级别都只能查看一定尺度范围内的对象。基于这些分析,提出了两种可行的策略,以使每个级别的级别能够查看基于FPN的检测框架中的所有对象。具体而言,一个是引入辅助目标功能,以使每个骨干级在训练过程中直接接收各种尺度对象的后传播信号。另一个是以更合理的方式构建特征金字塔,以避免非理性的背部传播路径。对可可基准测试的广泛实验验证了我们的分析的健全性和方法的有效性。没有铃铛和口哨,我们证明了我们的方法在各种检测框架上实现了可靠的改进(超过2%):一阶段,两阶段,基于锚的,无锚和变压器的检测器。
translated by 谷歌翻译
最先进的蒸馏方法主要基于中间层的深层特征,而logit蒸馏的重要性被极大地忽略了。为了提供研究逻辑蒸馏的新观点,我们将经典的KD损失重新分为两个部分,即目标类知识蒸馏(TCKD)和非目标类知识蒸馏(NCKD)。我们凭经验研究并证明了这两个部分的影响:TCKD转移有关训练样本“难度”的知识,而NCKD是Logit蒸馏起作用的重要原因。更重要的是,我们揭示了经典的KD损失是一种耦合的配方,该配方抑制了NCKD的有效性,并且(2)限制了平衡这两个部分的灵活性。为了解决这些问题,我们提出了脱钩的知识蒸馏(DKD),使TCKD和NCKD能够更有效,更灵活地发挥其角色。与基于功能的复杂方法相比,我们的DKD可相当甚至更好的结果,并且在CIFAR-100,ImageNet和MS-Coco数据集上具有更好的培训效率,用于图像分类和对象检测任务。本文证明了Logit蒸馏的巨大潜力,我们希望它对未来的研究有所帮助。该代码可从https://github.com/megvii-research/mdistiller获得。
translated by 谷歌翻译
Adder神经网络(Addernets)在图像分类上表现出令人印象深刻的性能,只有加法操作,比使用乘法建立的传统卷积神经网络更节能。与分类相比,对通过Addernets降低现代对象探测器的能耗的强烈需求,例如自主驾驶和面部检测。在本文中,我们提出了对物体检测的addernets的实证研究。我们首先揭示了预先训练的加法器骨架中的批量归一化统计,不应冻结,因为Addernets的相对较大的特征方差。此外,我们在颈部中插入更多的快捷方式连接,并设计一个新的特征融合架构,以避免加法器层的稀疏功能。我们展示了广泛的消融研究,探讨了加法器探测器的几种设计选择。与最先进的比较在Coco和Pascal VOC基准上进行。具体而言,所提出的加法器FCOS在Coco Val集上实现了37.8 \%AP,展示了卷积对应物的相当性能,具有约1.4倍的能量减少。
translated by 谷歌翻译
知识蒸馏(KD)显示了其对象检测的有效性,在AI知识(教师检测器)和人类知识(人类专家)的监督下,它在该物体检测中训练紧凑的对象检测器。但是,现有研究一致地对待AI知识和人类知识,并在学习过程中采用统一的数据增强策略,这将导致对多尺度对象的学习有偏见,并且对教师探测器的学习不足,从而导致不满意的蒸馏性能。为了解决这些问题,我们提出了特定于样本的数据增强和对抗性功能增强。首先,为了减轻多尺度对象产生的影响,我们根据傅立叶角度的观察结果提出了自适应数据增强。其次,我们提出了一种基于对抗性示例的功能增强方法,以更好地模仿AI知识以弥补教师探测器的信息不足。此外,我们提出的方法是统一的,并且很容易扩展到其他KD方法。广泛的实验证明了我们的框架的有效性,并在一阶段和两阶段探测器中提高了最先进方法的性能,最多可以带来0.5 MAP的增长。
translated by 谷歌翻译
Object detection has been dominated by anchor-based detectors for several years. Recently, anchor-free detectors have become popular due to the proposal of FPN and Focal Loss. In this paper, we first point out that the essential difference between anchor-based and anchor-free detection is actually how to define positive and negative training samples, which leads to the performance gap between them. If they adopt the same definition of positive and negative samples during training, there is no obvious difference in the final performance, no matter regressing from a box or a point. This shows that how to select positive and negative training samples is important for current object detectors. Then, we propose an Adaptive Training Sample Selection (ATSS) to automatically select positive and negative samples according to statistical characteristics of object. It significantly improves the performance of anchor-based and anchor-free detectors and bridges the gap between them. Finally, we discuss the necessity of tiling multiple anchors per location on the image to detect objects. Extensive experiments conducted on MS COCO support our aforementioned analysis and conclusions. With the newly introduced ATSS, we improve stateof-the-art detectors by a large margin to 50.7% AP without introducing any overhead. The code is available at https://github.com/sfzhang15/ATSS.
translated by 谷歌翻译