在本文中,我们评估了域转移对训练集外部数据外的数据的培训的人类检测模型的影响领域。具体而言,我们使用Robotti平台在农业机器人应用程序的背景下收集的现场数据集中介绍了Opendr人类,从而可以定量测量此类应用程序中域移动的影响。此外,我们通过评估有关训练数据的三种不同的情况来研究手动注释的重要性:a)仅消极样本,即没有描绘的人,b)仅阳性样本,即仅包含人类的图像,而c)既负面c)。和阳性样品。我们的结果表明,即使仅使用负样本,即使对训练过程进行了额外的考虑,也可以达到良好的性能。我们还发现,阳性样品会提高性能,尤其是在更好的本地化方面。该数据集可在https://github.com/opendr-eu/datasets上公开下载。
translated by 谷歌翻译
通常在具有固定预定义类别的完全注销的培训数据上学习对象探测器。但是,通常需要逐步增加类别。通常,在这种情况下,只有用旧课程注释的原始培训集和一些带有新课程的新培训数据。基于有限的数据集,强烈需要一个可以处理所有类别的统一检测器。我们提出了一个实用计划,以实现这项工作。无冲突的损失旨在避免标签歧义,从而在一次训练中导致可接受的探测器。为了进一步提高性能,我们提出了一个重新培训阶段,其中采用蒙特卡洛辍学术来计算定位置信度,以挖掘更准确的边界框,并提出了一种重叠的加权方法,以更好地利用在重新训练期间更好地利用伪注释。广泛的实验证明了我们方法的有效性。
translated by 谷歌翻译
域的适应区域对解决许多应用程序遇到的域移位问题发挥了重要作用。由于与现实测试方案中使用的目标数据相比,用于培训的源数据的分布之间的差异是由于培训源数据之间的差异而产生的。在本文中,我们引入了一种新型的多尺度域自适应Yolo(MS-Dayolo)框架,该框架在最近引入的Yolov4对象检测器的不同尺度上采用了多个域自适应路径和相应的域分类器。在我们的基线多尺度Dayolo框架的基础上,我们为域名适应网络(DAN)介绍了三个新颖的深度学习体系结构,它们生成了域,不变性功能。特别是,我们提出了渐进式功能减少(PFR),统一分类器(UC)和集成体系结构。我们使用流行的数据集训练和测试我们提出的DAN体系结构。当使用拟议的MS-Dayolo架构训练Yolov4时,我们的实验显示了对象检测性能的显着改善,并在对目标数据进行自动驾驶应用程序中进行测试时。此外,MS-Dayolo框架相对于更快的R-CNN解决方案,在提供可比的对象检测性能的同时,实现了实时速度的数量级改进。
translated by 谷歌翻译
近年来,很少有射击对象检测(FSOD)蓬勃发展,通过转移丰富的基本类别获得知识来学习具有有限数据的新颖对象类。 FSOD方法通常假定两者几乎没有提供新的类别的示例,并且测试时间数据属于同一域。但是,此假设在各种工业和机器人技术应用中都不存在,在这种应用程序中,模型可以从源域中学习新颖的类别,同时从目标域中推断类。在这项工作中,我们解决了FSOD的零击域适应性(也称为域的概括)的任务。具体而言,我们假设目标域中新颖类的图像和标签都无法在训练过程中获得。我们解决域间隙的方法是两个方面。首先,我们利用元训练范式,在该范式上学习基本类别的域转移,然后将域知识转移到新颖的类别中。其次,我们在新型类别的几镜头上提出了各种数据增强技术,以说明所有可能的领域特定信息。为了将网络仅限于编码域 - 不可思议的类特异性表示,提出了对比损失,以最大程度地提高前景建议和类嵌入之间的相互信息,并将网络的偏见减少到目标域中的背景信息。我们对无T,Pascal-VOC和Exdark数据集进行的实验表明,所提出的方法成功地减轻了域间隙,而无需利用目标域中的标签或新型类别的图像。
translated by 谷歌翻译
在对象检测中,当检测器未能检测到目标对象时,会出现假阴性。为了了解为什么对象检测产生假阴性,我们确定了五个“假负机制”,其中每个机制都描述了检测器体系结构内部的特定组件如何失败。着眼于两阶段和一阶段锚点对象检测器体系结构,我们引入了一个框架,用于量化这些虚假的负面机制。使用此框架,我们调查了为什么更快的R-CNN和视网膜无法检测基准视觉数据集和机器人数据集中的对象。我们表明,检测器的假负机制在计算机视觉基准数据集和机器人部署方案之间存在显着差异。这对为机器人应用程序开发的对象检测器的翻译具有影响。
translated by 谷歌翻译
Non-maximum suppression is an integral part of the object detection pipeline. First, it sorts all detection boxes on the basis of their scores. The detection box M with the maximum score is selected and all other detection boxes with a significant overlap (using a pre-defined threshold) with M are suppressed. This process is recursively applied on the remaining boxes. As per the design of the algorithm, if an object lies within the predefined overlap threshold, it leads to a miss. To this end, we propose Soft-NMS, an algorithm which decays the detection scores of all other objects as a continuous function of their overlap with M. Hence, no object is eliminated in this process. Soft-NMS obtains consistent improvements for the coco-style mAP metric on standard datasets like PASCAL VOC 2007 (1.7% for both R-FCN and Faster-RCNN) and MS-COCO (1.3% for R-FCN and 1.1% for Faster-RCNN) by just changing the NMS algorithm without any additional hyper-parameters. UsingDeformable-RFCN, Soft-NMS improves state-of-the-art in object detection from 39.8% to 40.9% with a single model. Further, the computational complexity of Soft-NMS is the same as traditional NMS and hence it can be efficiently implemented. Since Soft-NMS does not require any extra training and is simple to implement, it can be easily integrated into any object detection pipeline. Code for Soft-NMS is publicly available on GitHub http://bit.ly/ 2nJLNMu.
translated by 谷歌翻译
Single-frame InfraRed Small Target (SIRST) detection has been a challenging task due to a lack of inherent characteristics, imprecise bounding box regression, a scarcity of real-world datasets, and sensitive localization evaluation. In this paper, we propose a comprehensive solution to these challenges. First, we find that the existing anchor-free label assignment method is prone to mislabeling small targets as background, leading to their omission by detectors. To overcome this issue, we propose an all-scale pseudo-box-based label assignment scheme that relaxes the constraints on scale and decouples the spatial assignment from the size of the ground-truth target. Second, motivated by the structured prior of feature pyramids, we introduce the one-stage cascade refinement network (OSCAR), which uses the high-level head as soft proposals for the low-level refinement head. This allows OSCAR to process the same target in a cascade coarse-to-fine manner. Finally, we present a new research benchmark for infrared small target detection, consisting of the SIRST-V2 dataset of real-world, high-resolution single-frame targets, the normalized contrast evaluation metric, and the DeepInfrared toolkit for detection. We conduct extensive ablation studies to evaluate the components of OSCAR and compare its performance to state-of-the-art model-driven and data-driven methods on the SIRST-V2 benchmark. Our results demonstrate that a top-down cascade refinement framework can improve the accuracy of infrared small target detection without sacrificing efficiency. The DeepInfrared toolkit, dataset, and trained models are available at https://github.com/YimianDai/open-deepinfrared to advance further research in this field.
translated by 谷歌翻译
在本文中,我们通过将无线电信息结合到最先进的检测方法中提出了一种无线电辅助人类检测框架,包括基于锚的oneStage检测器和两级检测器。我们从无线电信号中提取无线电定位和标识符信息以帮助人类检测,由于哪种错误阳性和假否定的问题可能会大大缓解。对于两个探测器,我们使用基于无线电定位的置信度评分修订来提高检测性能。对于两级检测方法,我们建议利用无线电定位产生的区域提案,而不是依赖于区域提案网络(RPN)。此外,利用无线电标识符信息,还提出了具有无线电定位约束的非最大抑制方法,以进一步抑制假检测并减少错过的检测。模拟Microsoft Coco DataSet和CALTECH步行数据集的实验表明,借助无线电信息可以改善平均平均精度(地图)和最先进的检测方法的错过率。最后,我们在现实世界的情况下进行实验,以展示我们在实践中的提出方法的可行性。
translated by 谷歌翻译
The rapidly evolving industry demands high accuracy of the models without the need for time-consuming and computationally expensive experiments required for fine-tuning. Moreover, a model and training pipeline, which was once carefully optimized for a specific dataset, rarely generalizes well to training on a different dataset. This makes it unrealistic to have carefully fine-tuned models for each use case. To solve this, we propose an alternative approach that also forms a backbone of Intel Geti platform: a dataset-agnostic template for object detection trainings, consisting of carefully chosen and pre-trained models together with a robust training pipeline for further training. Our solution works out-of-the-box and provides a strong baseline on a wide range of datasets. It can be used on its own or as a starting point for further fine-tuning for specific use cases when needed. We obtained dataset-agnostic templates by performing parallel training on a corpus of datasets and optimizing the choice of architectures and training tricks with respect to the average results on the whole corpora. We examined a number of architectures, taking into account the performance-accuracy trade-off. Consequently, we propose 3 finalists, VFNet, ATSS, and SSD, that can be deployed on CPU using the OpenVINO toolkit. The source code is available as a part of the OpenVINO Training Extensions (https://github.com/openvinotoolkit/training_extensions}
translated by 谷歌翻译
现代领先的物体探测器是从深层CNN的骨干分类器网络重新批准的两阶段或一级网络。YOLOV3是一种这样的非常熟知的最新状态单次检测器,其采用输入图像并将其划分为相等大小的网格矩阵。具有物体中心的网格单元是负责检测特定对象的电池。本文介绍了一种新的数学方法,为准确紧密绑定函数预测分配每个对象的多个网格。我们还提出了一个有效的离线拷贝粘贴数据增强,用于对象检测。我们提出的方法显着优于一些现有的对象探测器,具有进一步更好的性能的前景。
translated by 谷歌翻译
本文的目的是几次拍摄对象检测(FSOD) - 仅为新类别扩展对象探测器的任务仅给出了一些培训实例。我们介绍了一种简单的伪标签方法来源从训练集提供高质量的伪注释,因为每个新类别,大大增加培训实例的数量和减少类别的不平衡;我们的方法找到了先前未标记的实例。 NA \“IVELY培训使用模型预测产生了次优性能;我们提出了两种提高伪标签过程的精度的新方法:首先,我们引入了一种验证技术,以删除候选人检测,不正确的类标签;第二,我们训练一个专门的模型,可以纠正差的质量边界箱。在这两种新颖步骤之后,我们获得了一大集的高质量伪注释,允许我们的最终探测器培训结束到底。另外,我们展示了我们的方法维护基础类性能,以及FSOD中简单增强的实用性。在Pascal VOC和MS-Coco基准测试的同时,我们的方法与所有射击镜头的现有方法相比,实现了最先进的或第二个最佳性能。
translated by 谷歌翻译
涉及将知识从富含标签的源域传送到未标记的目标域的无监督域适应,可用于大大降低对象检测领域的注释成本。在这项研究中,我们证明了源域的对抗训练可以作为无监督域适应的新方法。具体地,我们建立了普遍训练的探测器在源极域中显着移位的目标域中实现了改进的检测性能。这种现象归因于普遍训练的探测器可用于提取与人类感知的鲁棒特征提取鲁棒特征,并在丢弃特定于域的非鲁棒特征的同时在域中传输域。此外,我们提出了一种结合对抗性训练和特征对准的方法,以确保具有目标域的鲁棒特征的改进对准。我们对四个基准数据集进行实验,并确认我们在大型域转移到艺术图像的大域移位的有效性。与基线模型相比,普遍训练的探测器在结合特征对准时将平均平均精度提高至7.7%,进一步高达11.8%。虽然我们的方法降低了对小型域移位的性能,但基于Frechet距离的域移位的量化允许我们确定是否应该进行抗逆性培训。
translated by 谷歌翻译
标记数据通常昂贵且耗时,特别是对于诸如对象检测和实例分割之类的任务,这需要对图像的密集标签进行密集的标签。虽然几张拍摄对象检测是关于培训小说中的模型(看不见的)对象类具有很少的数据,但它仍然需要在许多标记的基础(见)类的课程上进行训练。另一方面,自我监督的方法旨在从未标记数据学习的学习表示,该数据转移到诸如物体检测的下游任务。结合几次射击和自我监督的物体检测是一个有前途的研究方向。在本调查中,我们审查并表征了几次射击和自我监督对象检测的最新方法。然后,我们给我们的主要外卖,并讨论未来的研究方向。https://gabrielhuang.github.io/fsod-survey/的项目页面
translated by 谷歌翻译
空中无人机镜头的视觉检查是当今土地搜索和救援(SAR)运营的一个组成部分。由于此检查是对人类的缓慢而繁琐,令人疑惑的工作,我们提出了一种新颖的深入学习算法来自动化该航空人员检测(APD)任务。我们试验模型架构选择,在线数据增强,转移学习,图像平铺和其他几种技术,以提高我们方法的测试性能。我们将新型航空检验视网膜(空气)算法呈现为这些贡献的结合。空中探测器在精度(〜21个百分点增加)和速度方面,在常用的SAR测试数据上表现出最先进的性能。此外,我们为SAR任务中的APD问题提供了新的正式定义。也就是说,我们提出了一种新的评估方案,在现实世界SAR本地化要求方面排名探测器。最后,我们提出了一种用于稳健的新型后处理方法,近似对象定位:重叠边界框(MOB)算法的合并。在空中检测器中使用的最终处理阶段在真实的空中SAR任务面前显着提高了其性能和可用性。
translated by 谷歌翻译
The 1$^{\text{st}}$ Workshop on Maritime Computer Vision (MaCVi) 2023 focused on maritime computer vision for Unmanned Aerial Vehicles (UAV) and Unmanned Surface Vehicle (USV), and organized several subchallenges in this domain: (i) UAV-based Maritime Object Detection, (ii) UAV-based Maritime Object Tracking, (iii) USV-based Maritime Obstacle Segmentation and (iv) USV-based Maritime Obstacle Detection. The subchallenges were based on the SeaDronesSee and MODS benchmarks. This report summarizes the main findings of the individual subchallenges and introduces a new benchmark, called SeaDronesSee Object Detection v2, which extends the previous benchmark by including more classes and footage. We provide statistical and qualitative analyses, and assess trends in the best-performing methodologies of over 130 submissions. The methods are summarized in the appendix. The datasets, evaluation code and the leaderboard are publicly available at https://seadronessee.cs.uni-tuebingen.de/macvi.
translated by 谷歌翻译
流行的对象检测度量平均精度(3D AP)依赖于预测的边界框和地面真相边界框之间的结合。但是,基于摄像机的深度估计的精度有限,这可能会导致其他合理的预测,这些预测遭受了如此纵向定位错误,被视为假阳性和假阴性。因此,我们提出了流行的3D AP指标的变体,这些变体旨在在深度估计误差方面更具允许性。具体而言,我们新颖的纵向误差耐受度指标,Let-3D-AP和Let-3D-APL,允许预测的边界框的纵向定位误差,最高为给定的公差。所提出的指标已在Waymo Open DataSet 3D摄像头仅检测挑战中使用。我们认为,它们将通过提供更有信息的性能信号来促进仅相机3D检测领域的进步。
translated by 谷歌翻译
Object detection has been dominated by anchor-based detectors for several years. Recently, anchor-free detectors have become popular due to the proposal of FPN and Focal Loss. In this paper, we first point out that the essential difference between anchor-based and anchor-free detection is actually how to define positive and negative training samples, which leads to the performance gap between them. If they adopt the same definition of positive and negative samples during training, there is no obvious difference in the final performance, no matter regressing from a box or a point. This shows that how to select positive and negative training samples is important for current object detectors. Then, we propose an Adaptive Training Sample Selection (ATSS) to automatically select positive and negative samples according to statistical characteristics of object. It significantly improves the performance of anchor-based and anchor-free detectors and bridges the gap between them. Finally, we discuss the necessity of tiling multiple anchors per location on the image to detect objects. Extensive experiments conducted on MS COCO support our aforementioned analysis and conclusions. With the newly introduced ATSS, we improve stateof-the-art detectors by a large margin to 50.7% AP without introducing any overhead. The code is available at https://github.com/sfzhang15/ATSS.
translated by 谷歌翻译
我们提出对象盒,这是一种新颖的单阶段锚定且高度可推广的对象检测方法。与现有的基于锚固的探测器和无锚的探测器相反,它们更偏向于其标签分配中的特定对象量表,我们仅将对象中心位置用作正样本,并在不同的特征级别中平均处理所有对象,而不论对象'尺寸或形状。具体而言,我们的标签分配策略将对象中心位置视为形状和尺寸不足的锚定,并以无锚固的方式锚定,并允许学习每个对象的所有尺度。为了支持这一点,我们将新的回归目标定义为从中心单元位置的两个角到边界框的四个侧面的距离。此外,为了处理比例变化的对象,我们提出了一个量身定制的损失来处理不同尺寸的盒子。结果,我们提出的对象检测器不需要在数据集中调整任何依赖数据集的超参数。我们在MS-Coco 2017和Pascal VOC 2012数据集上评估了我们的方法,并将我们的结果与最先进的方法进行比较。我们观察到,与先前的作品相比,对象盒的性能优惠。此外,我们执行严格的消融实验来评估我们方法的不同组成部分。我们的代码可在以下网址提供:https://github.com/mohsenzand/objectbox。
translated by 谷歌翻译
每年,AEDESAEGYPTI蚊子都感染了数百万人,如登录,ZIKA,Chikungunya和城市黄热病等疾病。战斗这些疾病的主要形式是通过寻找和消除潜在的蚊虫养殖场来避免蚊子繁殖。在这项工作中,我们介绍了一个全面的空中视频数据集,获得了无人驾驶飞行器,含有可能的蚊帐。使用识别所有感兴趣对象的边界框手动注释视频数据集的所有帧。该数据集被用于开发基于深度卷积网络的这些对象的自动检测系统。我们提出了通过在可以注册检测到的对象的时空检测管道的对象检测流水线中的融合来利用视频中包含的时间信息,这些时间是可以注册检测到的对象的,最大限度地减少最伪正和假阴性的出现。此外,我们通过实验表明使用视频比仅使用框架对马赛克组成马赛克更有利。使用Reset-50-FPN作为骨干,我们可以分别实现0.65和0.77的F $ _1 $ -70分别对“轮胎”和“水箱”的对象级别检测,说明了正确定位潜在蚊子的系统能力育种对象。
translated by 谷歌翻译
部署到开放世界中,对象探测器容易出现开放式错误,训练数据集中不存在的对象类的假阳性检测。我们提出了GMM-DET,一种用于从对象探测器中提取认知不确定性的实时方法,以识别和拒绝开放式错误。 GMM-DID列达探测器以产生与特定于类高斯混合模型建模的结构化的Logit空间。在测试时间时,通过所有高斯混合模型下的低对数概率识别开放式错误。我们测试了两个常见的探测器架构,更快的R-CNN和RETINANET,跨越了三种不同的数据集,跨越机器人和计算机视觉。我们的结果表明,GMM-DET始终如一地优于识别和拒绝开放式检测的现有不确定性技术,特别是在安全关键应用程序所需的低差错率操作点。 GMM-DET保持对象检测性能,并仅引入最小的计算开销。我们还介绍一种用于将现有对象检测数据集转换为特定的开放式数据集的方法,以评估对象检测中的开放式性能。
translated by 谷歌翻译