Out-of-distribution (OOD) detection has attracted a large amount of attention from the machine learning research community in recent years due to its importance in deployed systems. Most of the previous studies focused on the detection of OOD samples in the multi-class classification task. However, OOD detection in the multi-label classification task remains an underexplored domain. In this research, we propose YolOOD - a method that utilizes concepts from the object detection domain to perform OOD detection in the multi-label classification task. Object detection models have an inherent ability to distinguish between objects of interest (in-distribution) and irrelevant objects (e.g., OOD objects) on images that contain multiple objects from different categories. These abilities allow us to convert a regular object detection model into an image classifier with inherent OOD detection capabilities with just minor changes. We compare our approach to state-of-the-art OOD detection methods and demonstrate YolOOD's ability to outperform these methods on a comprehensive suite of in-distribution and OOD benchmark datasets.
translated by 谷歌翻译
由于新型神经网络体系结构的设计和大规模数据集的可用性,对象检测方法在过去几年中取得了令人印象深刻的改进。但是,当前的方法有一个重要的限制:他们只能检测到在训练时间内观察到的类,这只是检测器在现实世界中可能遇到的所有类的子集。此外,在训练时间通常不考虑未知类别的存在,从而导致方法甚至无法检测到图像中存在未知对象。在这项工作中,我们解决了检测未知对象的问题,称为开放集对象检测。我们提出了一种名为Unkad的新颖培训策略,能够预测未知的对象,而无需对其进行任何注释,利用训练图像背景中已经存在的非注释对象。特别是,unkad首先利用更快的R-CNN的四步训练策略,识别和伪标签未知对象,然后使用伪通量来训练其他未知类。尽管UNKAD可以直接检测未知的对象,但我们将其与以前未知的检测技术相结合,表明它不成本就可以提高其性能。
translated by 谷歌翻译
现代领先的物体探测器是从深层CNN的骨干分类器网络重新批准的两阶段或一级网络。YOLOV3是一种这样的非常熟知的最新状态单次检测器,其采用输入图像并将其划分为相等大小的网格矩阵。具有物体中心的网格单元是负责检测特定对象的电池。本文介绍了一种新的数学方法,为准确紧密绑定函数预测分配每个对象的多个网格。我们还提出了一个有效的离线拷贝粘贴数据增强,用于对象检测。我们提出的方法显着优于一些现有的对象探测器,具有进一步更好的性能的前景。
translated by 谷歌翻译
半监督对象检测(SSOD)的最新发展显示了利用未标记数据改善对象检测器的希望。但是,到目前为止,这些方法已经假设未标记的数据不包含分布(OOD)类,这对于较大规模的未标记数据集是不现实的。在本文中,我们考虑了一个更实用但具有挑战性的问题,开放式半监督对象检测(OSSOD)。我们首先发现现有的SSOD方法在开放式条件下获得了较低的性能增长,这是由语义扩展引起的,在该语义扩展中,分散注意力的OOD对象​​被错误预测为半监督训练的分布伪标签。为了解决此问题,我们考虑与SSOD方法集成的在线和离线OOD检测模块。通过广泛的研究,我们发现,基于自我监视的视觉变压器的脱机OOD检测器对在线OOD探测器的表现良好,因为它稳健地对伪标记的干扰。在实验中,我们提出的框架有效地解决了语义扩展问题,并在许多OSSOD基准(包括大规模的可可开放图)上显示出一致的改进。我们还在不同的OSSOD条件下验证框架的有效性,包括不同数量的分布类别,不同程度的监督和不同标记集的组合。
translated by 谷歌翻译
在过去的几年中,对针对基于学习的对象探测器的对抗性攻击进行了广泛的研究。提出的大多数攻击都针对模型的完整性(即导致模型做出了错误的预测),而针对模型可用性的对抗性攻击,这是安全关键领域(例如自动驾驶)的关键方面,尚未探索。机器学习研究社区。在本文中,我们提出了一种新颖的攻击,对端到端对象检测管道的决策潜伏期产生负面影响。我们制作了一种通用的对抗扰动(UAP),该扰动(UAP)针对了许多对象检测器管道中的广泛使用的技术 - 非最大抑制(NMS)。我们的实验证明了拟议的UAP通过添加“幻影”对象来增加单个帧的处理时间的能力,该对象在保留原始对象的检测时(允许攻击时间更长的时间内未检测到)。
translated by 谷歌翻译
深神网络的对象探测器正在不断发展,并用于多种应用程序,每个应用程序都有自己的要求集。尽管关键安全应用需要高准确性和可靠性,但低延迟任务需要资源和节能网络。不断提出了实时探测器,在高影响现实世界中是必需的,但是它们过分强调了准确性和速度的提高,而其他功能(例如多功能性,鲁棒性,资源和能源效率)则被省略。现有网络的参考基准不存在,设计新网络的标准评估指南也不存在,从而导致比较模棱两可和不一致的比较。因此,我们对广泛的数据集进行了多个实时探测器(基于锚点,关键器和变压器)的全面研究,并报告了一系列广泛指标的结果。我们还研究了变量,例如图像大小,锚固尺寸,置信阈值和架构层对整体性能的影响。我们分析了检测网络的鲁棒性,以防止分配变化,自然腐败和对抗性攻击。此外,我们提供了校准分析来评估预测的可靠性。最后,为了强调现实世界的影响,我们对自动驾驶和医疗保健应用进行了两个独特的案例研究。为了进一步衡量关键实时应用程序中网络的能力,我们报告了在Edge设备上部署检测网络后的性能。我们广泛的实证研究可以作为工业界对现有网络做出明智选择的指南。我们还希望激发研究社区的设计和评估网络的新方向,该网络着重于更大而整体的概述,以实现深远的影响。
translated by 谷歌翻译
3D对象检测是自动驾驶的重要组成部分,深层神经网络(DNNS)已达到此任务的最新性能。但是,深层模型臭名昭著,因为将高置信度得分分配给分布(OOD)输入,即未从训练分布中得出的输入。检测OOD输入是具有挑战性的,对于模型的安全部署至关重要。已经针对分类任务进行了广泛研究OOD检测,但是它尚未对对象检测任务,特别是基于激光雷达的3D对象检测的注意力。在本文中,我们关注基于激光雷达的3D对象检测的OOD输入的检测。我们制定了OOD输入对于对象检测的含义,并提议适应几种OOD检测方法进行对象检测。我们通过提出的特征提取方法来实现这一目标。为了评估OOD检测方法,我们开发了一种简单但有效的技术,用于为给定的对象检测模型生成OOD对象​​。我们基于KITTI数据集的评估表明,不同的OOD检测方法具有检测特定OOD对象​​的偏差。它强调了联合OOD检测方法的重要性以及在这个方向上进行更多研究。
translated by 谷歌翻译
许多高性能作品在分布外(OOD)检测方面使用真实或合成生成的异常数据来正式化模型置信度;但是,它们通常需要重新培训基本网络或专门的模型体系结构。我们的作品表明,嘈杂的嵌入式在OOD对象​​检测的挑战领域中使异常值(Nimgo)成为了很大的异常值。我们假设合成异常值只需要最小化分布(ID)数据的扰动变体即可训练一个歧视器以识别OOD样本 - 而无需昂贵的基本网络重新培训。为了检验我们的假设,我们通过在图像或边界盒级别上应用添加剂噪声扰动来生成一个合成的离群值。然后,对辅助功能监视多层感知器(MLP)进行训练,以使用扰动的ID样品作为代理来检测OOD特征表示。在测试过程中,我们证明辅助MLP将ID样品与最新水平的OOD样品区分开在OpenImages数据集中。广泛的额外消融提供了支持我们假设的经验证据。
translated by 谷歌翻译
我们提出对象盒,这是一种新颖的单阶段锚定且高度可推广的对象检测方法。与现有的基于锚固的探测器和无锚的探测器相反,它们更偏向于其标签分配中的特定对象量表,我们仅将对象中心位置用作正样本,并在不同的特征级别中平均处理所有对象,而不论对象'尺寸或形状。具体而言,我们的标签分配策略将对象中心位置视为形状和尺寸不足的锚定,并以无锚固的方式锚定,并允许学习每个对象的所有尺度。为了支持这一点,我们将新的回归目标定义为从中心单元位置的两个角到边界框的四个侧面的距离。此外,为了处理比例变化的对象,我们提出了一个量身定制的损失来处理不同尺寸的盒子。结果,我们提出的对象检测器不需要在数据集中调整任何依赖数据集的超参数。我们在MS-Coco 2017和Pascal VOC 2012数据集上评估了我们的方法,并将我们的结果与最先进的方法进行比较。我们观察到,与先前的作品相比,对象盒的性能优惠。此外,我们执行严格的消融实验来评估我们方法的不同组成部分。我们的代码可在以下网址提供:https://github.com/mohsenzand/objectbox。
translated by 谷歌翻译
在现实世界中的视觉应用中检测分布(OOD)样本(例如分类或对象检测)已成为当今深度学习系统部署的必要前提。已经提出了许多技术,其中已证明基于能量的OOD方法是有希望和令人印象深刻的性能。我们提出了基于语义驱动的能量方法,这是一种端到端的可训练系统,易于优化。我们将分布样品与能量评分和表示分数结合的外部分布样品区分开。我们通过最大程度地降低分布样品的能量来实现这一目标,并同时学习各自的类表征,这些类别更接近和最大化能量以供外分发样品,并将其从已知的类表征进一步推出。此外,我们提出了一种新颖的损失功能,我们称之为群集局灶性损失(CFL),事实证明这很简单,但在学习更好的班级群集中心表示方面非常有效。我们发现,我们的新方法可以增强异常检测,并在共同基准上获得基于能量的模型。与现有基于能量的方法相比,在CIFAR-10和CIFAR-100训练的WideSnet上,我们的模型分别将相对平均假正(以95%的真实正率为95%)降低67.2%和57.4%。此外,我们扩展了对象检测的框架并提高了性能。
translated by 谷歌翻译
Deep neural networks have attained remarkable performance when applied to data that comes from the same distribution as that of the training set, but can significantly degrade otherwise. Therefore, detecting whether an example is out-of-distribution (OoD) is crucial to enable a system that can reject such samples or alert users. Recent works have made significant progress on OoD benchmarks consisting of small image datasets. However, many recent methods based on neural networks rely on training or tuning with both in-distribution and out-of-distribution data. The latter is generally hard to define a-priori, and its selection can easily bias the learning. We base our work on a popular method ODIN 1 [21], proposing two strategies for freeing it from the needs of tuning with OoD data, while improving its OoD detection performance. We specifically propose to decompose confidence scoring as well as a modified input pre-processing method. We show that both of these significantly help in detection performance. Our further analysis on a larger scale image dataset shows that the two types of distribution shifts, specifically semantic shift and non-semantic shift, present a significant difference in the difficulty of the problem, providing an analysis of when ODIN-like strategies do or do not work.
translated by 谷歌翻译
基于深度学习的对象建议方法已在许多计算机视觉管道中取得了重大进展。但是,当前的最新提案网络使用封闭世界的假设,这意味着它们仅接受培训以检测培训课程的实例,同时将每个其他区域视为背景。这种解决方案的样式无法对分发对象进行高度召回,因此可以在可以观察到新颖的对象类别类别的现实开放世界应用程序中使用它。为了更好地检测所有对象,我们提出了一个无分类的自我训练的建议网络(STPN),该提案网络(STPN)利用了一种新型的自我训练优化策略,并结合了动态加权损失功能,以解决诸如类不平衡和伪标签的不确定性之类的挑战。我们的模型不仅旨在在现有的乐观开放世界基准中表现出色,而且在具有重大标签偏见的具有挑战性的操作环境中。为了展示这一点,当培训数据包含(1)标记类中的多样性较小,并且(2)标记实例较少时,我们就设计了两个挑战来测试建议模型的概括。我们的结果表明,STPN在所有任务上都实现了最新的对象概括。
translated by 谷歌翻译
We propose a fully convolutional one-stage object detector (FCOS) to solve object detection in a per-pixel prediction fashion, analogue to semantic segmentation. Almost all state-of-the-art object detectors such as RetinaNet, SSD, YOLOv3, and Faster R-CNN rely on pre-defined anchor boxes. In contrast, our proposed detector FCOS is anchor box free, as well as proposal free. By eliminating the predefined set of anchor boxes, FCOS completely avoids the complicated computation related to anchor boxes such as calculating overlapping during training. More importantly, we also avoid all hyper-parameters related to anchor boxes, which are often very sensitive to the final detection performance. With the only post-processing non-maximum suppression (NMS), FCOS with ResNeXt-64x4d-101 achieves 44.7% in AP with single-model and single-scale testing, surpassing previous one-stage detectors with the advantage of being much simpler. For the first time, we demonstrate a much simpler and flexible detection framework achieving improved detection accuracy. We hope that the proposed FCOS framework can serve as a simple and strong alternative for many other instance-level tasks. Code is available at:tinyurl.com/FCOSv1
translated by 谷歌翻译
标记数据通常昂贵且耗时,特别是对于诸如对象检测和实例分割之类的任务,这需要对图像的密集标签进行密集的标签。虽然几张拍摄对象检测是关于培训小说中的模型(看不见的)对象类具有很少的数据,但它仍然需要在许多标记的基础(见)类的课程上进行训练。另一方面,自我监督的方法旨在从未标记数据学习的学习表示,该数据转移到诸如物体检测的下游任务。结合几次射击和自我监督的物体检测是一个有前途的研究方向。在本调查中,我们审查并表征了几次射击和自我监督对象检测的最新方法。然后,我们给我们的主要外卖,并讨论未来的研究方向。https://gabrielhuang.github.io/fsod-survey/的项目页面
translated by 谷歌翻译
如今,卷积神经网络(CNN)经常用于基于视觉的感知堆栈,用于安全关键的应用,例如自动驾驶或无人驾驶汽车(无人机)。由于这些用例的安全要求,重要的是要知道CNN的局限性,因此要检测到分布外(OOD)样本。在这项工作中,我们提出了一种方法,可以通过利用保证金熵(ME)损失来启用2D对象检测。提出的方法易于实现,可以应用于大多数现有的对象检测体系结构。此外,我们将分离性作为用于检测对象检测中的OOD样品的度量。我们表明,使用标准置信度得分,接受ME损失训练的CNN明显优于OOD检测。同时,基础对象检测框架的运行时间保持不变,使ME损失成为启用OOD检测的强大工具。
translated by 谷歌翻译
Due to object detection's close relationship with video analysis and image understanding, it has attracted much research attention in recent years. Traditional object detection methods are built on handcrafted features and shallow trainable architectures. Their performance easily stagnates by constructing complex ensembles which combine multiple low-level image features with high-level context from object detectors and scene classifiers. With the rapid development in deep learning, more powerful tools, which are able to learn semantic, high-level, deeper features, are introduced to address the problems existing in traditional architectures. These models behave differently in network architecture, training strategy and optimization function, etc. In this paper, we provide a review on deep learning based object detection frameworks. Our review begins with a brief introduction on the history of deep learning and its representative tool, namely Convolutional Neural Network (CNN). Then we focus on typical generic object detection architectures along with some modifications and useful tricks to improve detection performance further. As distinct specific detection tasks exhibit different characteristics, we also briefly survey several specific tasks, including salient object detection, face detection and pedestrian detection. Experimental analyses are also provided to compare various methods and draw some meaningful conclusions. Finally, several promising directions and tasks are provided to serve as guidelines for future work in both object detection and relevant neural network based learning systems.
translated by 谷歌翻译
Single-frame InfraRed Small Target (SIRST) detection has been a challenging task due to a lack of inherent characteristics, imprecise bounding box regression, a scarcity of real-world datasets, and sensitive localization evaluation. In this paper, we propose a comprehensive solution to these challenges. First, we find that the existing anchor-free label assignment method is prone to mislabeling small targets as background, leading to their omission by detectors. To overcome this issue, we propose an all-scale pseudo-box-based label assignment scheme that relaxes the constraints on scale and decouples the spatial assignment from the size of the ground-truth target. Second, motivated by the structured prior of feature pyramids, we introduce the one-stage cascade refinement network (OSCAR), which uses the high-level head as soft proposals for the low-level refinement head. This allows OSCAR to process the same target in a cascade coarse-to-fine manner. Finally, we present a new research benchmark for infrared small target detection, consisting of the SIRST-V2 dataset of real-world, high-resolution single-frame targets, the normalized contrast evaluation metric, and the DeepInfrared toolkit for detection. We conduct extensive ablation studies to evaluate the components of OSCAR and compare its performance to state-of-the-art model-driven and data-driven methods on the SIRST-V2 benchmark. Our results demonstrate that a top-down cascade refinement framework can improve the accuracy of infrared small target detection without sacrificing efficiency. The DeepInfrared toolkit, dataset, and trained models are available at https://github.com/YimianDai/open-deepinfrared to advance further research in this field.
translated by 谷歌翻译
无锚的检测器基本上将对象检测作为密集的分类和回归。对于流行的无锚检测器,通常是引入单个预测分支来估计本地化的质量。当我们深入研究分类和质量估计的实践时,会观察到以下不一致之处。首先,对于某些分配了完全不同标签的相邻样品,训练有素的模型将产生相似的分类分数。这违反了训练目标并导致绩效退化。其次,发现检测到具有较高信心的边界框与相应的地面真相具有较小的重叠。准确的局部边界框将被非最大抑制(NMS)过程中的精确量抑制。为了解决不一致问题,提出了动态平滑标签分配(DSLA)方法。基于最初在FCO中开发的中心概念,提出了平稳的分配策略。在[0,1]中将标签平滑至连续值,以在正样品和负样品之间稳定过渡。联合(IOU)在训练过程中会动态预测,并与平滑标签结合。分配动态平滑标签以监督分类分支。在这样的监督下,质量估计分支自然合并为分类分支,这简化了无锚探测器的体系结构。全面的实验是在MS Coco基准上进行的。已经证明,DSLA可以通过减轻上述无锚固探测器的不一致来显着提高检测准确性。我们的代码在https://github.com/yonghaohe/dsla上发布。
translated by 谷歌翻译
神经网络在分布中的数据中取得了令人印象深刻的性能,该数据与训练集相同,但可以为这些网络从未见过的数据产生过分自信的结果。因此,至关重要的是要检测输入是否来自分布(OOD),以确保现实世界中部署的神经网络的安全性。在本文中,我们提出了一种简单有效的事后技术Weshort,以减少神经网络对OOD数据的过度自信。我们的方法灵感来自对内部残留结构的观察,该结构显示了捷径层中OOD和分布(ID)数据的分离。我们的方法与不同的OOD检测分数兼容,并且可以很好地推广到网络的不同体系结构。我们在各种OOD数据集上演示了我们的方法,以展示其竞争性能,并提供合理的假设,以解释我们的方法为何起作用。在Imagenet基准测试上,Weshort在假阳性率(FPR95)和接收器操作特征(AUROC)下实现了最先进的性能(在事后方法)上。
translated by 谷歌翻译
深度神经网络对各种任务取得了出色的性能,但它们具有重要问题:即使对于完全未知的样本,也有过度自信的预测。已经提出了许多研究来成功过滤出这些未知的样本,但它们仅考虑狭窄和特定的任务,称为错误分类检测,开放式识别或分布外检测。在这项工作中,我们认为这些任务应该被视为根本存在相同的问题,因为理想的模型应该具有所有这些任务的检测能力。因此,我们介绍了未知的检测任务,以先前的单独任务的整合,用于严格检查深度神经网络对广谱的广泛未知样品的检测能力。为此,构建了不同尺度上的统一基准数据集,并且存在现有流行方法的未知检测能力进行比较。我们发现深度集合始终如一地优于检测未知的其他方法;但是,所有方法只针对特定类型的未知方式成功。可重复的代码和基准数据集可在https://github.com/daintlab/unknown-detection-benchmarks上获得。
translated by 谷歌翻译