对象检测在清洁数据集上取得了有希望的性能,但仍然探讨了如何在对抗性鲁棒性和清洁精度之间实现更好的权衡。对抗性培训是提高稳健性的主流方法,但大多数作品将牺牲清洁精度,以获得比标准训练的坚固性。在本文中,我们提出了统一的解耦特征对准(UDFA),一种新型微调范例,通过完全探索对象检测的自我知识蒸馏和对抗训练之间的组合来实现比现有方法更好的性能。我们首先使用分离的前/后地特征来构建自我知识蒸馏分支,从预磨牙探测器(作为教师)和来自学生探测器的对抗特征表示之间的清洁特征表示之间。然后我们通过将原始分支解耦为自我监督的学习分支和新的自我知识蒸馏分支来探索自我知识蒸馏。通过对Pascal-VOC和MS-Coco基准测试的广泛实验,评估结果表明,UDFA可以超越标准培训和最先进的对抗对象培训方法进行对象检测。例如,与教师探测器相比,我们在GFLV2与RESET-50的方法通过Pascal-Voc上的2.2 AP提高了干净精度;与SOTA对抗性培训方法相比,我们的方法通过1​​.6 AP改善了干净的精度,同时通过0.5 AP改善对抗性鲁棒性。我们的代码将在https://github.com/grispeut/udfa提供。
translated by 谷歌翻译
作为一项基本的计算机视觉任务,对象检测在深度神经网络的出现中取得了显着的进步。然而,很少有作品探索对象探测器的对抗性鲁棒性,以抵制在各种现实世界中实用应用的对抗性攻击。探测器受到了不明显的扰动的挑战,在干净的图像上的性能下降,并且在对抗图像上的性能极差。在这项工作中,我们从经验上探索了对象检测中对抗性鲁棒性的模型培训,这极大地归因于学习清洁图像和对抗图像之间的冲突。为了减轻此问题,我们提出了一个基于对抗感知的卷积的稳健检测器(鲁棒),以解开对清洁和对抗性图像的模型学习的梯度。 RubustDet还采用了对抗图像判别器(AID)和重建(CFR)的一致特征,以确保可靠的鲁棒性。对Pascal VOC和MS-Coco的广泛实验表明,我们的模型有效地脱离了梯度,并显着增强了检测鲁棒性,从而保持了清洁图像上的检测能力。
translated by 谷歌翻译
知识蒸馏(KD)显示了其对象检测的有效性,在AI知识(教师检测器)和人类知识(人类专家)的监督下,它在该物体检测中训练紧凑的对象检测器。但是,现有研究一致地对待AI知识和人类知识,并在学习过程中采用统一的数据增强策略,这将导致对多尺度对象的学习有偏见,并且对教师探测器的学习不足,从而导致不满意的蒸馏性能。为了解决这些问题,我们提出了特定于样本的数据增强和对抗性功能增强。首先,为了减轻多尺度对象产生的影响,我们根据傅立叶角度的观察结果提出了自适应数据增强。其次,我们提出了一种基于对抗性示例的功能增强方法,以更好地模仿AI知识以弥补教师探测器的信息不足。此外,我们提出的方法是统一的,并且很容易扩展到其他KD方法。广泛的实验证明了我们的框架的有效性,并在一阶段和两阶段探测器中提高了最先进方法的性能,最多可以带来0.5 MAP的增长。
translated by 谷歌翻译
主流对象检测器通常由两个子任务组成,包括由两个并行头部实现的分类和回归任务。这种经典的设计范式不可避免地会导致分类得分和本地化质量(IOU)之间的空间分布不一致。因此,本文从知识蒸馏的角度来减轻这种错位。首先,我们观察到,与轻量级学生相比,庞大的老师获得的和谐预测比例更高。基于这个有趣的观察,设计了一种新颖的和谐评分(HS),以估计分类和回归质量的一致性。 HS对两个子任务之间的关系进行建模,并被视为先验知识,以促进学生的和谐预测。其次,这种空间未对准将在提炼特征时会导致选择性区域的选择。为了减轻这个问题,通过灵活平衡分类和回归任务的贡献,提出了一种新颖的任务功能蒸馏(TFD)。最终,HD和TFD构成了所提出的方法,称为任务均衡蒸馏(TBD)。广泛的实验证明了该方法的巨大潜力和概括。具体而言,当配备TBD时,带有Resnet-50的视网膜在可可基准下获得41.0地图,表现优于最近的FGD和FRS。
translated by 谷歌翻译
视觉检测是自动驾驶的关键任务,它是自动驾驶计划和控制的关键基础。深度神经网络在各种视觉任务中取得了令人鼓舞的结果,但众所周知,它们容易受到对抗性攻击的影响。在人们改善其稳健性之前,需要对深层视觉探测器的脆弱性进行全面的了解。但是,只有少数对抗性攻击/防御工程集中在对象检测上,其中大多数仅采用分类和/或本地化损失,而忽略了目的方面。在本文中,我们确定了Yolo探测器中与物体相关的严重相关对抗性脆弱性,并提出了针对自动驾驶汽车视觉检测物质方面的有效攻击策略。此外,为了解决这种脆弱性,我们提出了一种新的客观性训练方法,以进行视觉检测。实验表明,针对目标方面的拟议攻击比分别在KITTI和COCO流量数据集中分类和/或本地化损失产生的攻击效率高45.17%和43.50%。此外,拟议的对抗防御方法可以分别在Kitti和Coco交通方面提高检测器对目标攻击的鲁棒性高达21%和12%的地图。
translated by 谷歌翻译
几次射击对象检测的大多数现有方法都遵循微调范式,该范式可能假设可以通过众多样本的基本类别学习并将其隐式转移到具有限量样本的新颖类中,从而将类别的概括性知识隐含地转移到有限的类别中。舞台培训策略。但是,这不一定是正确的,因为对象检测器几乎无法在没有明确的建模的情况下自动区分类别不合时宜的知识和特定于类的知识。在这项工作中,我们建议在基础和新颖类之间学习三种类型的类不足的共同点:与识别相关的语义共同点,与定位相关的语义共同点和分布共同点。我们基于内存库设计了一个统一的蒸馏框架,该框架能够共同有效地进行所有三种类型的共同点。广泛的实验表明,我们的方法可以很容易地集成到大多数现有的基于微调的方法中,并始终如一地通过大幅度提高性能。
translated by 谷歌翻译
在真实世界的环境中,可以通过对象检测器连续遇到来自新类的对象实例。当现有的对象探测器应用于这种情况时,它们在旧课程上的性能显着恶化。据报道,一些努力解决了这个限制,所有这些限制适用于知识蒸馏的变体,以避免灾难性的遗忘。我们注意到虽然蒸馏有助于保留以前的学习,但它阻碍了对新任务的快速适应性,这是增量学习的关键要求。在这种追求中,我们提出了一种学习方法,可以学习重塑模型梯度,使得跨增量任务的信息是最佳的共享。这可通过META学习梯度预处理来确保无缝信息传输,可最大限度地减少遗忘并最大化知识传输。与现有的元学习方法相比,我们的方法是任务不可知,允许将新类的增量添加到对象检测的高容量模型中。我们在Pascal-VOC和MS Coco Datasets上定义的各种增量学习设置中评估了我们的方法,我们的方法对最先进的方法进行了好评。
translated by 谷歌翻译
知识蒸馏已成功应用于图像分类。然而,物体检测更复杂,大多数知识蒸馏方法都失败了。在本文中,我们指出,在物体检测中,教师和学生的特征在不同的区域变化,特别是在前景和背景中。如果我们同样蒸馏它们,则特征图之间的不均匀差异会对蒸馏产生负面影响。因此,我们提出了焦点和全球蒸馏(FGD)。焦蒸馏分离前景和背景,强迫学生专注于教师的临界像素和渠道。全球蒸馏重建了不同像素之间的关系,并将其从教师转移给学生,弥补了局灶性蒸馏中缺失的全球信息。由于我们的方法仅需要计算特征图上的损失,因此FGD可以应用于各种探测器。我们在不同骨干网上进行各种探测器,结果表明,学生探测器实现了优异的地图改进。例如,基于Reset-50基于RecinAnet,更快的RCNN,Reppoints和Mask RCNN,Coco2017上达到40.7%,42.0%,42.0%和42.1%地图,3.3,3.6,3.4和2.9高于基线,分别。我们的代码可在https://github.com/yzd-v/fgd获得。
translated by 谷歌翻译
虽然基于微调对象检测的基于微调的方法已经取得了显着的进步,但尚未得到很好的解决的关键挑战是基本类别的潜在特定于类别的过度拟合,并且针对新颖的类别的样本特异性过度拟合。在这项工作中,我们设计了一个新颖的知识蒸馏框架,以指导对象探测器的学习,从而抑制基础类别的前训练阶段的过度拟合,并在小型课程上进行微调阶段。要具体而言,我们首先提出了一种新颖的位置感知的视觉袋模型,用于从有限尺寸的图像集中学习代表性的视觉袋(BOVW),该模型用于基于相似性来编码常规图像在学习的视觉单词和图像之间。然后,我们基于以下事实执行知识蒸馏,即图像应在两个不同的特征空间中具有一致的BOVW表示。为此,我们独立于对象检测的特征空间预先学习特征空间,并在此空间中使用BOVW编码图像。可以将图像的BOVW表示形式视为指导对象探测器的学习:对象检测器的提取特征对同一图像的提取特征有望通过蒸馏知识得出一致的BOVW表示。广泛的实验验证了我们方法的有效性,并证明了优于其他最先进方法的优势。
translated by 谷歌翻译
知识蒸馏(KD)是一种广泛使用的技术,将繁琐的教师模型继承到紧凑的学生模型,从而实现模型压缩和加速度。与图像分类相比,对象检测是一个更复杂的任务,设计特定的KD方法用于对象检测是非微小的。在这项工作中,我们精心研究教师和学生检测模型之间的行为差​​异,并获得了两个有趣的观察:首先,教师和学生对其检测到的候选盒子相得益彰,这导致了它们的精确差异。其次,教师和学生之间的特征响应差异和预测差异之间存在相当大的差距,表明同样模仿老师的所有特征映射是提高学生准确性的次优选。基于这两个观察,我们提出了用于分别蒸馏单级探测器的测量模拟(RM)和预测引导的特征模仿(PFI)。 RM从教师那里夺取候选人盒的等级作为一种新的知识形式,蒸馏,这始终如一地优于传统的软标签蒸馏。 PFI试图将特征差异与预测差异相关,使特征模仿直接有助于提高学生的准确性。在MS Coco和Pascal VOC基准测试中,广泛的实验在不同骨干的各种探测器上进行,以验证我们方法的有效性。具体而言,具有Reset50的RetinAnet在MS Coco中实现了40.4%的图,比其基线高3.5%,并且还优于先前的KD方法。
translated by 谷歌翻译
在本文中,我们提出了一种用于一般物体检测的第一自蒸馏框架,称为LGD(标签引导自蒸馏)。以前的研究依赖于强大的预酝酿教师,以提供在现实世界方案中可能无法使用的指导知识。相反,我们通过对象之间的关系间和帧间关系建模来生成一个有效的知识,只需要学生表示和常规标签。具体而言,我们的框架涉及稀疏的标签外观编码,对象间关系适应和对象内的知识映射,以获得指导知识。他们在培训阶段共同形成隐式教师,动态依赖标签和不断发展的学生表示。 LGD中的模块与学生检测器的端到端训练,并在推理中丢弃。实验上,LGD在各种探测器,数据集和广泛的任务上获得了体面的结果,如实例分段。例如,在MS-Coco DataSet中,LGD将Reset-50下的REDINENT改善2倍单尺度培训,从36.2%到39.0%地图(+ 2.8%)。它在2倍多尺度培训下使用Resnext-101 DCN V2等FCO的探测器增加了更强大的探测器,从46.1%到47.9%(+ 1.8%)。与古典教师的方法FGFI相比,LGD不仅在不需要佩金的教师而且还可以降低固有的学生学习超出51%的培训成本。
translated by 谷歌翻译
知识蒸馏在分类中取得了巨大的成功,但是,仍然有挑战性。在用于检测的典型图像中,来自不同位置的表示可能对检测目标具有不同的贡献,使蒸馏难以平衡。在本文中,我们提出了一种有条件的蒸馏框架来蒸馏出所需的知识,即关于每个例子的分类和本地化有益的知识。该框架引入了一种可学习的条件解码模块,其将每个目标实例检索为查询的信息。具体而言,我们将条件信息编码为查询并使用教师的表示作为键。查询和键之间的注意用于测量不同特征的贡献,由本地化识别敏感辅助任务指导。广泛的实验表明了我们的方法的功效:我们在各种环境下观察到令人印象深刻的改进。值得注意的是,在1倍计划下,我们将通过37.4至40.7地图(+3.3)与Reset-50骨架的Restinetet提升。代码已在https://github.com/megvii-research/icd上发布。
translated by 谷歌翻译
涉及将知识从富含标签的源域传送到未标记的目标域的无监督域适应,可用于大大降低对象检测领域的注释成本。在这项研究中,我们证明了源域的对抗训练可以作为无监督域适应的新方法。具体地,我们建立了普遍训练的探测器在源极域中显着移位的目标域中实现了改进的检测性能。这种现象归因于普遍训练的探测器可用于提取与人类感知的鲁棒特征提取鲁棒特征,并在丢弃特定于域的非鲁棒特征的同时在域中传输域。此外,我们提出了一种结合对抗性训练和特征对准的方法,以确保具有目标域的鲁棒特征的改进对准。我们对四个基准数据集进行实验,并确认我们在大型域转移到艺术图像的大域移位的有效性。与基线模型相比,普遍训练的探测器在结合特征对准时将平均平均精度提高至7.7%,进一步高达11.8%。虽然我们的方法降低了对小型域移位的性能,但基于Frechet距离的域移位的量化允许我们确定是否应该进行抗逆性培训。
translated by 谷歌翻译
通过回顾他们之前看到的类似未腐败的图像,人类的注意力可以直观地适应图像的损坏区域。这种观察结果激发了我们通过考虑清洁的对应物来提高对抗性图像的注意。为了实现这一目标,我们将联想的对抗性学习(aal)介绍进入对抗的学习,以指导选择性攻击。我们为引人注目和攻击(扰动)之间的内在关系作为提高其互动的耦合优化问题。这导致注意反向触发算法,可以有效提高注意力的对抗鲁棒性。我们的方法是通用的,可用于通过简单选择不同的核来解决各种任务,以便为特定攻击选择其他区域的关联注意。实验结果表明,选择性攻击提高了模型的性能。我们表明,与基线相比,我们的方法提高了8.32%对想象成的识别准确性。它还将Pascalvoc的物体检测图提高了2.02%,并在MiniimAgenet上的几次学习识别准确性为1.63%。
translated by 谷歌翻译
We present DetCo, a simple yet effective self-supervised approach for object detection. Unsupervised pre-training methods have been recently designed for object detection, but they are usually deficient in image classification, or the opposite. Unlike them, DetCo transfers well on downstream instance-level dense prediction tasks, while maintaining competitive image-level classification accuracy. The advantages are derived from (1) multi-level supervision to intermediate representations, (2) contrastive learning between global image and local patches. These two designs facilitate discriminative and consistent global and local representation at each level of feature pyramid, improving detection and classification, simultaneously.Extensive experiments on VOC, COCO, Cityscapes, and ImageNet demonstrate that DetCo not only outperforms recent methods on a series of 2D and 3D instance-level detection tasks, but also competitive on image classification. For example, on ImageNet classification, DetCo is 6.9% and 5.0% top-1 accuracy better than InsLoc and DenseCL, which are two contemporary works designed for object detection. Moreover, on COCO detection, DetCo is 6.9 AP better than SwAV with Mask R-CNN C4. Notably, DetCo largely boosts up Sparse R-CNN, a recent strong detector, from 45.0 AP to 46.5 AP (+1.5 AP), establishing a new SOTA on COCO. Code is available.
translated by 谷歌翻译
Despite significant accuracy improvement in convolutional neural networks (CNN) based object detectors, they often require prohibitive runtimes to process an image for real-time applications. State-of-the-art models often use very deep networks with a large number of floating point operations. Efforts such as model compression learn compact models with fewer number of parameters, but with much reduced accuracy. In this work, we propose a new framework to learn compact and fast object detection networks with improved accuracy using knowledge distillation [20] and hint learning [34]. Although knowledge distillation has demonstrated excellent improvements for simpler classification setups, the complexity of detection poses new challenges in the form of regression, region proposals and less voluminous labels. We address this through several innovations such as a weighted cross-entropy loss to address class imbalance, a teacher bounded loss to handle the regression component and adaptation layers to better learn from intermediate teacher distributions. We conduct comprehensive empirical evaluation with different distillation configurations over multiple datasets including PASCAL, KITTI, ILSVRC and MS-COCO. Our results show consistent improvement in accuracy-speed trade-offs for modern multi-class detection models.
translated by 谷歌翻译
对抗斑块攻击通过在指定的局部区域中注入对抗像素来误导神经网络。补丁攻击可以在各种任务中非常有效,并且可以通过附件(例如贴纸)在现实世界对象上实现。尽管攻击模式的多样性,但对抗斑块往往具有高质感,并且外观与自然图像不同。我们利用此属性,并在patchzero上进行patchzero,这是一种针对白色框对面补丁的任务不合时宜的防御。具体而言,我们的防御通过用平均像素值重新粉刷来检测对抗性像素和“零”斑块区域。我们将补丁检测问题作为语义分割任务提出,以便我们的模型可以推广到任何大小和形状的贴片。我们进一步设计了一个两阶段的对抗训练计划,以防止更强烈的适应性攻击。我们在图像分类(ImageNet,resisc45),对象检测(Pascal VOC)和视频分类(UCF101)数据集上彻底评估PatchZero。我们的方法可实现SOTA的稳健精度,而不会在良性表现中降解。
translated by 谷歌翻译
知识蒸馏已成功地应用于各种任务。当前的蒸馏算法通常通过模仿教师的产出来改善学生的表现。本文表明,教师还可以通过指导学生的功能恢复来提高学生的代表权。从这个角度来看,我们提出了掩盖的生成蒸馏(MGD),这很简单:我们掩盖了学生功能的随机像素,并强迫它通过简单的块生成教师的完整功能。 MGD是一种真正的基于特征的蒸馏方法,可用于各种任务,包括图像分类,对象检测,语义分割和实例分割。我们在具有广泛数据集的不同模型上进行了实验,结果表明所有学生都取得了出色的改进。值得注意的是,我们将RESNET-18从69.90%提高到71.69%的Imagenet Top-1精度,带有Resnet-50骨架的视网膜从37.4到41.0界盒映射,基于Resnet-50的独奏从33.1到33.1至36.2 Mask Map和DeepLabV3, 18从73.20到76.02 miou。我们的代码可在https://github.com/yzd-v/mgd上找到。
translated by 谷歌翻译
深度神经网络的图像分类容易受到对抗性扰动的影响。图像分类可以通过在输入图像中添加人造小且不可察觉的扰动来轻松愚弄。作为最有效的防御策略之一,提出了对抗性训练,以解决分类模型的脆弱性,其中创建了对抗性示例并在培训期间注入培训数据中。在过去的几年中,对分类模型的攻击和防御进行了深入研究。语义细分作为分类的扩展,最近也受到了极大的关注。最近的工作表明,需要大量的攻击迭代来创建有效的对抗性示例来欺骗分割模型。该观察结果既可以使鲁棒性评估和对分割模型的对抗性培训具有挑战性。在这项工作中,我们提出了一种称为SEGPGD的有效有效的分割攻击方法。此外,我们提供了收敛分析,以表明在相同数量的攻击迭代下,提出的SEGPGD可以创建比PGD更有效的对抗示例。此外,我们建议将SEGPGD应用于分割对抗训练的基础攻击方法。由于SEGPGD可以创建更有效的对抗性示例,因此使用SEGPGD的对抗训练可以提高分割模型的鲁棒性。我们的建议还通过对流行分割模型体系结构和标准分段数据集进行了验证。
translated by 谷歌翻译
半监督对象检测(SSOD)的最新进展主要由基于一致性的伪标记方法驱动,用于图像分类任务,产生伪标签作为监控信号。然而,在使用伪标签时,缺乏考虑本地化精度和放大的类别不平衡,这两者都对于检测任务至关重要。在本文中,我们介绍了针对物体检测量身定制的确定性感知伪标签,可以有效地估计导出的伪标签的分类和定位质量。这是通过将传统定位转换为分类任务之后的传统定位来实现的。在分类和本地化质量分数上调节,我们动态调整用于为每个类别生成伪标签和重重损耗函数的阈值,以减轻类别不平衡问题。广泛的实验表明,我们的方法在Coco和Pascal VOC上的1-2%AP改善了最先进的SSOD性能,同时与大多数现有方法正交和互补。在有限的注释制度中,我们的方法可以通过从Coco标记的1-10%标记数据来改善监督基准。
translated by 谷歌翻译