部署到开放世界中,对象探测器容易出现开放式错误,训练数据集中不存在的对象类的假阳性检测。我们提出了GMM-DET,一种用于从对象探测器中提取认知不确定性的实时方法,以识别和拒绝开放式错误。 GMM-DID列达探测器以产生与特定于类高斯混合模型建模的结构化的Logit空间。在测试时间时,通过所有高斯混合模型下的低对数概率识别开放式错误。我们测试了两个常见的探测器架构,更快的R-CNN和RETINANET,跨越了三种不同的数据集,跨越机器人和计算机视觉。我们的结果表明,GMM-DET始终如一地优于识别和拒绝开放式检测的现有不确定性技术,特别是在安全关键应用程序所需的低差错率操作点。 GMM-DET保持对象检测性能,并仅引入最小的计算开销。我们还介绍一种用于将现有对象检测数据集转换为特定的开放式数据集的方法,以评估对象检测中的开放式性能。
translated by 谷歌翻译
在对象检测中,当检测器未能检测到目标对象时,会出现假阴性。为了了解为什么对象检测产生假阴性,我们确定了五个“假负机制”,其中每个机制都描述了检测器体系结构内部的特定组件如何失败。着眼于两阶段和一阶段锚点对象检测器体系结构,我们引入了一个框架,用于量化这些虚假的负面机制。使用此框架,我们调查了为什么更快的R-CNN和视网膜无法检测基准视觉数据集和机器人数据集中的对象。我们表明,检测器的假负机制在计算机视觉基准数据集和机器人部署方案之间存在显着差异。这对为机器人应用程序开发的对象检测器的翻译具有影响。
translated by 谷歌翻译
由于新型神经网络体系结构的设计和大规模数据集的可用性,对象检测方法在过去几年中取得了令人印象深刻的改进。但是,当前的方法有一个重要的限制:他们只能检测到在训练时间内观察到的类,这只是检测器在现实世界中可能遇到的所有类的子集。此外,在训练时间通常不考虑未知类别的存在,从而导致方法甚至无法检测到图像中存在未知对象。在这项工作中,我们解决了检测未知对象的问题,称为开放集对象检测。我们提出了一种名为Unkad的新颖培训策略,能够预测未知的对象,而无需对其进行任何注释,利用训练图像背景中已经存在的非注释对象。特别是,unkad首先利用更快的R-CNN的四步训练策略,识别和伪标签未知对象,然后使用伪通量来训练其他未知类。尽管UNKAD可以直接检测未知的对象,但我们将其与以前未知的检测技术相结合,表明它不成本就可以提高其性能。
translated by 谷歌翻译
3D对象检测是自动驾驶的重要组成部分,深层神经网络(DNNS)已达到此任务的最新性能。但是,深层模型臭名昭著,因为将高置信度得分分配给分布(OOD)输入,即未从训练分布中得出的输入。检测OOD输入是具有挑战性的,对于模型的安全部署至关重要。已经针对分类任务进行了广泛研究OOD检测,但是它尚未对对象检测任务,特别是基于激光雷达的3D对象检测的注意力。在本文中,我们关注基于激光雷达的3D对象检测的OOD输入的检测。我们制定了OOD输入对于对象检测的含义,并提议适应几种OOD检测方法进行对象检测。我们通过提出的特征提取方法来实现这一目标。为了评估OOD检测方法,我们开发了一种简单但有效的技术,用于为给定的对象检测模型生成OOD对象​​。我们基于KITTI数据集的评估表明,不同的OOD检测方法具有检测特定OOD对象​​的偏差。它强调了联合OOD检测方法的重要性以及在这个方向上进行更多研究。
translated by 谷歌翻译
探讨了将数据驱动对象检测器的不确定性结合到对象跟踪算法中的不确定性的方法。对象跟踪方法依赖于测量误差模型,通常以测量噪声,假阳性率和错过检测速率的形式。通常,这些数量通常可以取决于物体或测量位置。然而,对于从神经网络处理的摄像机输入产生的检测,这些测量误差统计不足以表示主要错误源,即运行时传感器输入与检测器训练的训练数据之间的不相似性。为此,我们调查将数据不确定性纳入物体跟踪方法,例如提高跟踪物体的能力,特别是那些超出的能力。培训数据。所提出的方法在对象跟踪基准上验证以及具有真正自治飞机的实验。
translated by 谷歌翻译
由于许多安全性系统(例如手术机器人和自动驾驶汽车)在不稳定的环境中运行,具有传感器噪声和不完整的数据,因此希望对象探测器将本地化不确定性考虑在内。但是,基于锚的对象检测的现有不确定性估计方法存在几个局限性。 1)它们对具有不同特征和尺度的异质对象性质的不确定性进行建模,例如位置(中心点)和尺度(宽度,高度),这可能很难估算。 2)它们将框偏移型为高斯分布,这与遵循Dirac Delta分布的地面真相边界框不兼容。 3)由于基于锚的方法对锚定超参数敏感,因此它们的定位不确定性也可能对选择超参数的选择高度敏感。为了应对这些局限性,我们提出了一种称为UAD的新定位不确定性估计方法,用于无锚对象检测。我们的方法捕获了均匀的四个方向(左,右,顶部,底部)的四个方向的不确定性,因此它可以判断哪个方向不确定,并在[0,1]中提供不确定性的定量值。为了实现这种不确定性估计,我们设计了一种新的不确定性损失,负功率对数可能性损失,以通过加权其IOU加权可能性损失来衡量本地化不确定性,从而减轻了模型错误指定问题。此外,我们提出了反映分类评分的估计不确定性的不确定性感知局灶性损失。可可数据集的实验结果表明,我们的方法在不牺牲计算效率的情况下显着提高了最高1.8点的FCO。
translated by 谷歌翻译
在安全至关重要的应用中,深度神经网络的使用越来越多,就需要训练有素的模型。当前大多数校准技术解决了分类问题,同时着重于改善对内域预测的校准。在许多决策系统中占据相似的空间和重要性的视觉对象探测器的校准几乎没有关注。在本文中,我们研究了当前对象检测模型的校准,尤其是在域移位下。为此,我们首先引入了插件的火车时间校准损失以进行对象检测。它可以用作辅助损失函数,以改善检测器的校准。其次,我们设计了一种新的不确定性量化机制来进行对象检测,该机制可以隐式校准常用的基于自我训练的域自适应检测器。我们在研究中包括单阶段和两阶段对象探测器。我们证明,我们的损失改善了具有明显边缘的内域和室外检测的校准。最后,我们展示了我们技术在校准不同域移动方案中的域自适应对象探测器方面的实用性。
translated by 谷歌翻译
估计神经网络的不确定性在安全关键环境中起着基本作用。在对自主驾驶的感知中,测量不确定性意味着向下游任务提供额外的校准信息,例如路径规划,可以将其用于安全导航。在这项工作中,我们提出了一种用于对象检测的新型采样的不确定性估计方法。我们称之为特定网络,它是第一个为每个输出信号提供单独的不确定性:Objectness,类,位置和大小。为实现这一点,我们提出了一种不确定性感知的热图,并利用检测器提供的相邻边界框在推理时间。我们分别评估了不同不确定性估计的检测性能和质量,也具有具有挑战性的域名样本:BDD100K和肾上腺素训练在基蒂培训。此外,我们提出了一种新的指标来评估位置和大小的不确定性。当转移到看不见的数据集时,某些基本上概括了比以前的方法和集合更好,同时是实时和提供高质量和全面的不确定性估计。
translated by 谷歌翻译
在本文中,我们评估了域转移对训练集外部数据外的数据的培训的人类检测模型的影响领域。具体而言,我们使用Robotti平台在农业机器人应用程序的背景下收集的现场数据集中介绍了Opendr人类,从而可以定量测量此类应用程序中域移动的影响。此外,我们通过评估有关训练数据的三种不同的情况来研究手动注释的重要性:a)仅消极样本,即没有描绘的人,b)仅阳性样本,即仅包含人类的图像,而c)既负面c)。和阳性样品。我们的结果表明,即使仅使用负样本,即使对训练过程进行了额外的考虑,也可以达到良好的性能。我们还发现,阳性样品会提高性能,尤其是在更好的本地化方面。该数据集可在https://github.com/opendr-eu/datasets上公开下载。
translated by 谷歌翻译
如今,卷积神经网络(CNN)经常用于基于视觉的感知堆栈,用于安全关键的应用,例如自动驾驶或无人驾驶汽车(无人机)。由于这些用例的安全要求,重要的是要知道CNN的局限性,因此要检测到分布外(OOD)样本。在这项工作中,我们提出了一种方法,可以通过利用保证金熵(ME)损失来启用2D对象检测。提出的方法易于实现,可以应用于大多数现有的对象检测体系结构。此外,我们将分离性作为用于检测对象检测中的OOD样品的度量。我们表明,使用标准置信度得分,接受ME损失训练的CNN明显优于OOD检测。同时,基础对象检测框架的运行时间保持不变,使ME损失成为启用OOD检测的强大工具。
translated by 谷歌翻译
Open-set object detection (OSOD) aims to detect the known categories and identify unknown objects in a dynamic world, which has achieved significant attentions. However, previous approaches only consider this problem in data-abundant conditions, while neglecting the few-shot scenes. In this paper, we seek a solution for the few-shot open-set object detection (FSOSOD), which aims to quickly train a detector based on few samples while detecting all known classes and identifying unknown classes. The main challenge for this task is that few training samples induce the model to overfit on the known classes, resulting in a poor open-set performance. We propose a new FSOSOD algorithm to tackle this issue, named Few-shOt Open-set Detector (FOOD), which contains a novel class weight sparsification classifier (CWSC) and a novel unknown decoupling learner (UDL). To prevent over-fitting, CWSC randomly sparses parts of the normalized weights for the logit prediction of all classes, and then decreases the co-adaptability between the class and its neighbors. Alongside, UDL decouples training the unknown class and enables the model to form a compact unknown decision boundary. Thus, the unknown objects can be identified with a confidence probability without any pseudo-unknown samples for training. We compare our method with several state-of-the-art OSOD methods in few-shot scenes and observe that our method improves the recall of unknown classes by 5%-9% across all shots in VOC-COCO dataset setting.
translated by 谷歌翻译
Out-of-distribution (OOD) detection has attracted a large amount of attention from the machine learning research community in recent years due to its importance in deployed systems. Most of the previous studies focused on the detection of OOD samples in the multi-class classification task. However, OOD detection in the multi-label classification task remains an underexplored domain. In this research, we propose YolOOD - a method that utilizes concepts from the object detection domain to perform OOD detection in the multi-label classification task. Object detection models have an inherent ability to distinguish between objects of interest (in-distribution) and irrelevant objects (e.g., OOD objects) on images that contain multiple objects from different categories. These abilities allow us to convert a regular object detection model into an image classifier with inherent OOD detection capabilities with just minor changes. We compare our approach to state-of-the-art OOD detection methods and demonstrate YolOOD's ability to outperform these methods on a comprehensive suite of in-distribution and OOD benchmark datasets.
translated by 谷歌翻译
自主驾驶应用中的对象检测意味着语义对象的检测和跟踪通常是城市驾驶环境的原产,作为行人和车辆。最先进的基于深度学习的物体检测中的主要挑战之一是假阳性,其出现过于自信得分。由于安全问题,这在自动驾驶和其他关键机器人感知域中是非常不可取的。本文提出了一种通过将新的概率层引入测试中的深度对象检测网络来缓解过度自信预测问题的方法。建议的方法避免了传统的乙状结肠或Softmax预测层,其通常产生过度自信预测。证明所提出的技术在不降低真实阳性上的性能的情况下降低了误报的过度频率。通过yolov4和第二(基于LiDar的探测器)对2D-Kitti异点检测验证了该方法。该方法使得能够实现可解释的概率预测,而无需重新培训网络,因此非常实用。
translated by 谷歌翻译
开放式对象检测(OSOD)最近引起了广泛的关注。它是在正确检测/分类已知对象的同时检测未知对象。我们首先指出,最近的研究中考虑的OSOD方案,该方案考虑了类似于开放式识别(OSR)的无限种类的未知物体,这是一个基本问题。也就是说,我们无法确定要检测到的内容,而对于这种无限的未知对象,这是检测任务所必需的。这个问题导致了对未知对象检测方法的性能的评估困难。然后,我们介绍了OSOD的新颖方案,该方案仅处理与已知对象共享超级类别的未知对象。它具有许多真实的应用程序,例如检测越来越多的细粒对象。这个新环境摆脱了上述问题和评估困难。此外,由于已知和未知对象之间的视觉相似性,它使检测到未知对象更加现实。我们通过实验结果表明,基于标准检测器类别预测的不确定性的简单方法优于先前设置中测试的当前最新OSOD方法。
translated by 谷歌翻译
通过查找图像可能不满意的图像来捕获对象检测器的错误行为,这一兴趣很长。在实际应用(例如自动驾驶)中,对于表征除了简单的检测性能要求之外的潜在失败也至关重要。例如,与远处未遗漏的汽车检测相比,错过对靠近自我车辆的行人的侦查通常需要更仔细的检查。在测试时间预测这种潜在失败的问题在文献和基于检测不确定性的传统方法中被忽略了,因为它们对这种错误的细粒度表征不可知。在这项工作中,我们建议将查找“硬”图像作为基于查询的硬图像检索任务的问题进行重新制定,其中查询是“硬度”的特定定义,并提供了一种简单而直观的方法,可以解决此任务大型查询家庭。我们的方法完全是事后的,不需要地面真相注释,独立于检测器的选择,并且依赖于有效的蒙特卡洛估计,该估计使用简单的随机模型代替地面真相。我们通过实验表明,它可以成功地应用于各种查询中,它可以可靠地识别给定检测器的硬图像,而无需任何标记的数据。我们使用广泛使用的视网膜,更快的RCNN,Mask-RCNN和CASCADE MASK-RCNN对象检测器提供有关排名和分类任务的结果。
translated by 谷歌翻译
打开世界对象检测(OWOD),模拟知识持续增长的真正动态世界,试图检测已知和未知的类别,并逐步学习所识别的未知组。我们发现,尽管以前的欧瓦德工作建设性地提出了OWOD定义,但实验设置与不合逻辑的基准,令人困惑的度量计算和不当方法是不合理的。在本文中,我们重新思考OWOD实验环境,并提出了五项基本基准原则,以指导OWOD基准建设。此外,我们设计了两个特定于OWOD问题的公平评估协议,从未知课程的角度填充了评估的空白。此外,我们介绍了一个新颖且有效的OWOD框架,其中包含辅助提案顾问(PAD)和特定于类驱逐分类器(CEC)。非参数垫可以帮助RPN识别无需监控的准确未知提案,而CEC通过特定于类的驱逐函数校准过自信的激活边界并滤除令人困惑的预测。在我们的公平基准上进行的综合实验表明,我们的方法在现有的和我们的新指标方面表明了其他最先进的对象检测方法。\脚注{我们的基准和代码可在https://github.com提供/重新驱动/重新驱动。
translated by 谷歌翻译
本文的目的是几次拍摄对象检测(FSOD) - 仅为新类别扩展对象探测器的任务仅给出了一些培训实例。我们介绍了一种简单的伪标签方法来源从训练集提供高质量的伪注释,因为每个新类别,大大增加培训实例的数量和减少类别的不平衡;我们的方法找到了先前未标记的实例。 NA \“IVELY培训使用模型预测产生了次优性能;我们提出了两种提高伪标签过程的精度的新方法:首先,我们引入了一种验证技术,以删除候选人检测,不正确的类标签;第二,我们训练一个专门的模型,可以纠正差的质量边界箱。在这两种新颖步骤之后,我们获得了一大集的高质量伪注释,允许我们的最终探测器培训结束到底。另外,我们展示了我们的方法维护基础类性能,以及FSOD中简单增强的实用性。在Pascal VOC和MS-Coco基准测试的同时,我们的方法与所有射击镜头的现有方法相比,实现了最先进的或第二个最佳性能。
translated by 谷歌翻译
尽管广泛用作可视检测任务的性能措施,但平均精度(AP)In(i)的限制在反映了本地化质量,(ii)对其计算的设计选择的鲁棒性以及其对输出的适用性没有信心分数。 Panoptic质量(PQ),提出评估Panoptic Seationation(Kirillov等,2019)的措施,不会遭受这些限制,而是限于Panoptic Seationation。在本文中,我们提出了基于其本地化和分类质量的视觉检测器的平均匹配误差,提出了定位召回精度(LRP)误差。 LRP错误,最初仅为Oksuz等人进行对象检测。 (2018),不遭受上述限制,适用于所有视觉检测任务。我们还介绍了最佳LRP(OLRP)错误,因为通过置信区获得的最小LRP错误以评估视觉检测器并获得部署的最佳阈值。我们提供对AP和PQ的LRP误差的详细比较分析,并使用七个可视检测任务(即对象检测,关键点检测,实例分割,Panoptic分段,视觉关系检测,使用近100个最先进的视觉检测器零拍摄检测和广义零拍摄检测)使用10个数据集来统一地显示LRP误差提供比其对应物更丰富和更辨别的信息。可用的代码:https://github.com/kemaloksuz/lrp-error
translated by 谷歌翻译
Open World Object Detection (OWOD) is a new and challenging computer vision task that bridges the gap between classic object detection (OD) benchmarks and object detection in the real world. In addition to detecting and classifying seen/labeled objects, OWOD algorithms are expected to detect novel/unknown objects - which can be classified and incrementally learned. In standard OD, object proposals not overlapping with a labeled object are automatically classified as background. Therefore, simply applying OD methods to OWOD fails as unknown objects would be predicted as background. The challenge of detecting unknown objects stems from the lack of supervision in distinguishing unknown objects and background object proposals. Previous OWOD methods have attempted to overcome this issue by generating supervision using pseudo-labeling - however, unknown object detection has remained low. Probabilistic/generative models may provide a solution for this challenge. Herein, we introduce a novel probabilistic framework for objectness estimation, where we alternate between probability distribution estimation and objectness likelihood maximization of known objects in the embedded feature space - ultimately allowing us to estimate the objectness probability of different proposals. The resulting Probabilistic Objectness transformer-based open-world detector, PROB, integrates our framework into traditional object detection models, adapting them for the open-world setting. Comprehensive experiments on OWOD benchmarks show that PROB outperforms all existing OWOD methods in both unknown object detection ($\sim 2\times$ unknown recall) and known object detection ($\sim 10\%$ mAP). Our code will be made available upon publication at https://github.com/orrzohar/PROB.
translated by 谷歌翻译
Active learning as a paradigm in deep learning is especially important in applications involving intricate perception tasks such as object detection where labels are difficult and expensive to acquire. Development of active learning methods in such fields is highly computationally expensive and time consuming which obstructs the progression of research and leads to a lack of comparability between methods. In this work, we propose and investigate a sandbox setup for rapid development and transparent evaluation of active learning in deep object detection. Our experiments with commonly used configurations of datasets and detection architectures found in the literature show that results obtained in our sandbox environment are representative of results on standard configurations. The total compute time to obtain results and assess the learning behavior can thereby be reduced by factors of up to 14 when comparing with Pascal VOC and up to 32 when comparing with BDD100k. This allows for testing and evaluating data acquisition and labeling strategies in under half a day and contributes to the transparency and development speed in the field of active learning for object detection.
translated by 谷歌翻译