Recent researches show that the deep learning based object detection is vulnerable to adversarial examples. Generally, the adversarial attack for object detection contains targeted attack and untargeted attack. According to our detailed investigations, the research on the former is relatively fewer than the latter and all the existing methods for the targeted attack follow the same mode, i.e., the object-mislabeling mode that misleads detectors to mislabel the detected object as a specific wrong label. However, this mode has limited attack success rate, universal and generalization performances. In this paper, we propose a new object-fabrication targeted attack mode which can mislead detectors to `fabricate' extra false objects with specific target labels. Furthermore, we design a dual attention based targeted feature space attack method to implement the proposed targeted attack mode. The attack performances of the proposed mode and method are evaluated on MS COCO and BDD100K datasets using FasterRCNN and YOLOv5. Evaluation results demonstrate that, the proposed object-fabrication targeted attack mode and the corresponding targeted feature space attack method show significant improvements in terms of image-specific attack, universal performance and generalization capability, compared with the previous targeted attack for object detection. Code will be made available.
translated by 谷歌翻译
Visual place recognition (VPR) is usually considered as a specific image retrieval problem. Limited by existing training frameworks, most deep learning-based works cannot extract sufficiently stable global features from RGB images and rely on a time-consuming re-ranking step to exploit spatial structural information for better performance. In this paper, we propose StructVPR, a novel training architecture for VPR, to enhance structural knowledge in RGB global features and thus improve feature stability in a constantly changing environment. Specifically, StructVPR uses segmentation images as a more definitive source of structural knowledge input into a CNN network and applies knowledge distillation to avoid online segmentation and inference of seg-branch in testing. Considering that not all samples contain high-quality and helpful knowledge, and some even hurt the performance of distillation, we partition samples and weigh each sample's distillation loss to enhance the expected knowledge precisely. Finally, StructVPR achieves impressive performance on several benchmarks using only global retrieval and even outperforms many two-stage approaches by a large margin. After adding additional re-ranking, ours achieves state-of-the-art performance while maintaining a low computational cost.
translated by 谷歌翻译
Frozen pretrained models have become a viable alternative to the pretraining-then-finetuning paradigm for transfer learning. However, with frozen models there are relatively few parameters available for adapting to downstream tasks, which is problematic in computer vision where tasks vary significantly in input/output format and the type of information that is of value. In this paper, we present a study of frozen pretrained models when applied to diverse and representative computer vision tasks, including object detection, semantic segmentation and video action recognition. From this empirical analysis, our work answers the questions of what pretraining task fits best with this frozen setting, how to make the frozen setting more flexible to various downstream tasks, and the effect of larger model sizes. We additionally examine the upper bound of performance using a giant frozen pretrained model with 3 billion parameters (SwinV2-G) and find that it reaches competitive performance on a varied set of major benchmarks with only one shared frozen base network: 60.0 box mAP and 52.2 mask mAP on COCO object detection test-dev, 57.6 val mIoU on ADE20K semantic segmentation, and 81.7 top-1 accuracy on Kinetics-400 action recognition. With this work, we hope to bring greater attention to this promising path of freezing pretrained image models.
translated by 谷歌翻译
受益于大规模预处理的视觉语言模型(VL-PMS),视觉问答的性能(VQA)已开始接近人类的甲骨文表现。但是,对VQA数据有限的大规模VL-PM的固定通常面临过度拟合和泛化问题,从而导致缺乏健壮性。在本文中,我们旨在提高VQA系统的鲁棒性(即,当系统对VQA的VL-PMS进行验证时,从信息瓶颈的角度来看,系统能够防御投入变化和人类对抗攻击的能力)。通常,通过VL-PMS获得的内部表示不可避免地包含有关下游VQA任务的无关和冗余信息,从而导致统计上的虚假相关性和对输入变化的不敏感性。为了鼓励表示形式收敛到视觉学习中的足够统计量,我们提出了相关信息瓶颈(CIB)原则,该原则通过最大程度地减少投入和内部表示之间的相互信息(MI)来寻求表示压缩和冗余之间的权衡。同时最大化输出和表示之间的MI。同时,CIB通过对称的关节MI估计来测量视觉和语言输入和表示之间的内部相关性。对五个VQA的投入鲁棒性和两个VQA基准的大量实验证明了拟议CIB在改善VQA系统鲁棒性方面的有效性和优越性。
translated by 谷歌翻译
许多基于点的3D检测器采用点功能采样策略来提出一些分数以提高推断。这些策略通常基于固定和手工制作的规则,因此难以处理复杂的场景。与它们不同的是,我们提出了一个动态球查询(DBQ)网络,以根据输入特征自适应地选择输入点的子集,并为每个选定的点分配特征转换,并具有合适的接受场。它可以嵌入到一些最新的3D检测器中,并以端到端的方式进行训练,从而大大降低计算成本。广泛的实验表明,我们的方法可以在Kitti和Waymo数据集中将延迟降低30%-60%。具体而言,我们的检测器的推理速度分别可以在Kitti和Waymo数据集上具有可忽略的性能降解,可以达到162 fps和30 fps。
translated by 谷歌翻译
时间动作本地化的主要挑战是在未修剪的视频中从各种共同出现的成分(例如上下文和背景)中获取细微的人类行为。尽管先前的方法通过设计高级动作探测器取得了重大进展,但它们仍然遭受这些共发生的成分,这些成分通常占据视频中实际动作内容。在本文中,我们探讨了视频片段的两个正交但互补的方面,即动作功能和共存功能。尤其是,我们通过在视频片段中解开这两种功能并重新组合它们来生成具有更明显的动作信息以进行准确的动作本地化的新功能表示形式,从而开发了一项新颖的辅助任务。我们称我们的方法重新处理,该方法首先显式将动作内容分解并正规化其共发生的特征,然后合成新的动作主导的视频表示形式。对Thumos14和ActivityNet V1.3的广泛实验结果和消融研究表明,我们的新表示形式与简单的动作检测器相结合可以显着改善动作定位性能。
translated by 谷歌翻译
视频问题应答(VideoQA),旨在基于了解多模态视频内容正确回答给定的问题,由于视频内容丰富,这是具有挑战性的。从视频理解的角度来看,良好的视频仪框架需要了解不同语义级别的视频内容,并灵活地将不同的视频内容集成到蒸馏问题相关内容。为此,我们提出了一个名为Livlr的轻量级视觉语言推理框架。具体地,Livlr首先利用基于图形的视觉和语言编码器来获得多粒度的视觉和语言表示。随后,所获得的表示与设计的分集感知视觉语言推理模块(DAVL)集成。 DAVL考虑不同类型的表示之间的差异,并且在生成问题相关的联合表示时可以灵活地调整不同类型表示的重要性,这是一种有效和一般的表示集成方法。拟议的LIVLR轻量级,并在两个VideoQ基准,MRSVTT-QA和了解VQA上显示了其性能优势。广泛的消融研究证明了LIVLR关键部件的有效性。
translated by 谷歌翻译
骨架数据具有低维度。然而,存在使用非常深刻和复杂的前馈神经网络来模拟骨架序列的趋势,而不考虑近年的复杂性。本文提出了一种简单但有效的多尺度语义引导的神经网络(MS-SGN),用于基于骨架的动作识别。我们明确地将关节(关节类型和帧指数)的高级语义引入网络,以增强关节的特征表示能力。此外,提出了一种多尺度策略对时间尺度变化具有鲁棒。此外,我们通过两个模块分层地利用了关节的关系,即,联合级模块,用于建模同一帧中的关节的相关性和帧级模块,用于建模帧的时间依赖性。 MSSGN在NTU60,NTU120和Sysu数据集上实现了比大多数方法更小的模型尺寸。
translated by 谷歌翻译
知识蒸馏在分类中取得了巨大的成功,但是,仍然有挑战性。在用于检测的典型图像中,来自不同位置的表示可能对检测目标具有不同的贡献,使蒸馏难以平衡。在本文中,我们提出了一种有条件的蒸馏框架来蒸馏出所需的知识,即关于每个例子的分类和本地化有益的知识。该框架引入了一种可学习的条件解码模块,其将每个目标实例检索为查询的信息。具体而言,我们将条件信息编码为查询并使用教师的表示作为键。查询和键之间的注意用于测量不同特征的贡献,由本地化识别敏感辅助任务指导。广泛的实验表明了我们的方法的功效:我们在各种环境下观察到令人印象深刻的改进。值得注意的是,在1倍计划下,我们将通过37.4至40.7地图(+3.3)与Reset-50骨架的Restinetet提升。代码已在https://github.com/megvii-research/icd上发布。
translated by 谷歌翻译
在本文中,我们提出了一种用于一般物体检测的第一自蒸馏框架,称为LGD(标签引导自蒸馏)。以前的研究依赖于强大的预酝酿教师,以提供在现实世界方案中可能无法使用的指导知识。相反,我们通过对象之间的关系间和帧间关系建模来生成一个有效的知识,只需要学生表示和常规标签。具体而言,我们的框架涉及稀疏的标签外观编码,对象间关系适应和对象内的知识映射,以获得指导知识。他们在培训阶段共同形成隐式教师,动态依赖标签和不断发展的学生表示。 LGD中的模块与学生检测器的端到端训练,并在推理中丢弃。实验上,LGD在各种探测器,数据集和广泛的任务上获得了体面的结果,如实例分段。例如,在MS-Coco DataSet中,LGD将Reset-50下的REDINENT改善2倍单尺度培训,从36.2%到39.0%地图(+ 2.8%)。它在2倍多尺度培训下使用Resnext-101 DCN V2等FCO的探测器增加了更强大的探测器,从46.1%到47.9%(+ 1.8%)。与古典教师的方法FGFI相比,LGD不仅在不需要佩金的教师而且还可以降低固有的学生学习超出51%的培训成本。
translated by 谷歌翻译