Soft labels in image classification are vector representations of an image's true classification. In this paper, we investigate soft labels in the context of satellite object detection. We propose using detections as the basis for a new dataset of soft labels. Much of the effort in creating a high-quality model is gathering and annotating the training data. If we could use a model to generate a dataset for us, we could not only rapidly create datasets, but also supplement existing open-source datasets. Using a subset of the xView dataset, we train a YOLOv5 model to detect cars, planes, and ships. We then use that model to generate soft labels for the second training set which we then train and compare to the original model. We show that soft labels can be used to train a model that is almost as accurate as a model trained on the original data.
translated by 谷歌翻译
如今,半监督对象检测(SSOD)是一个热门话题,因为虽然收集用于创建新数据集的图像相当容易,但标记它们仍然是一项昂贵且耗时的任务。在半监督学习(SSL)设置上利用原始图像的成功方法之一是卑鄙的教师技术,在其中,老师的伪标记的运作以及从学生到教师的知识转移到教师的情况下进行。但是,通过阈值进行伪标记并不是最好的解决方案,因为置信值与预测不确定性无关,不允许安全过滤预测。在本文中,我们介绍了一个附加的分类任务,以进行边界框定位,以改善预测边界框的过滤并获得更高的学生培训质量。此外,我们从经验上证明,无监督部分上的边界框回归可以同样有助于培训与类别分类一样多。我们的实验表明,我们的IL-NET(改善本地化网)在限量注册方案中可可数据集中的SSOD性能提高了1.14%的AP。该代码可从https://github.com/implabunipr/unbiased-teacher/tree/ilnet获得
translated by 谷歌翻译
Deep learning has emerged as an effective solution for solving the task of object detection in images but at the cost of requiring large labeled datasets. To mitigate this cost, semi-supervised object detection methods, which consist in leveraging abundant unlabeled data, have been proposed and have already shown impressive results. However, most of these methods require linking a pseudo-label to a ground-truth object by thresholding. In previous works, this threshold value is usually determined empirically, which is time consuming, and only done for a single data distribution. When the domain, and thus the data distribution, changes, a new and costly parameter search is necessary. In this work, we introduce our method Adaptive Self-Training for Object Detection (ASTOD), which is a simple yet effective teacher-student method. ASTOD determines without cost a threshold value based directly on the ground value of the score histogram. To improve the quality of the teacher predictions, we also propose a novel pseudo-labeling procedure. We use different views of the unlabeled images during the pseudo-labeling step to reduce the number of missed predictions and thus obtain better candidate labels. Our teacher and our student are trained separately, and our method can be used in an iterative fashion by replacing the teacher by the student. On the MS-COCO dataset, our method consistently performs favorably against state-of-the-art methods that do not require a threshold parameter, and shows competitive results with methods that require a parameter sweep search. Additional experiments with respect to a supervised baseline on the DIOR dataset containing satellite images lead to similar conclusions, and prove that it is possible to adapt the score threshold automatically in self-training, regardless of the data distribution.
translated by 谷歌翻译
半监督对象检测(SSOD)的最新进展主要由基于一致性的伪标记方法驱动,用于图像分类任务,产生伪标签作为监控信号。然而,在使用伪标签时,缺乏考虑本地化精度和放大的类别不平衡,这两者都对于检测任务至关重要。在本文中,我们介绍了针对物体检测量身定制的确定性感知伪标签,可以有效地估计导出的伪标签的分类和定位质量。这是通过将传统定位转换为分类任务之后的传统定位来实现的。在分类和本地化质量分数上调节,我们动态调整用于为每个类别生成伪标签和重重损耗函数的阈值,以减轻类别不平衡问题。广泛的实验表明,我们的方法在Coco和Pascal VOC上的1-2%AP改善了最先进的SSOD性能,同时与大多数现有方法正交和互补。在有限的注释制度中,我们的方法可以通过从Coco标记的1-10%标记数据来改善监督基准。
translated by 谷歌翻译
研究表明,当训练数据缺少注释时,对象检测器的性能下降,即稀疏注释数据。当代方法专注于缺少地面实话注释的代理,无论是伪标签的形式还是通过在训练期间重新称重梯度。在这项工作中,我们重新审视了稀疏注释物体检测的制定。我们观察到稀疏注释的物体检测可以被认为是区域级的半监督对象检测问题。在此洞察力上,我们提出了一种基于区域的半监督算法,它自动识别包含未标记的前景对象的区域。我们的算法然后以不同的方式处理标记和未标记的前景区域,在半监督方法中进行常见做法。为了评估所提出的方法的有效性,我们对普斯卡尔库尔和可可数据集的稀疏注释方法常用的五种分裂进行详尽的实验,并实现最先进的性能。除此之外,我们还表明,我们的方法在标准半监督设置上实现了竞争性能,证明了我们的方法的实力和广泛适用性。
translated by 谷歌翻译
用于对象检测的注释边界框很昂贵,耗时且容易出错。在这项工作中,我们提出了一个基于DITR的框架,该框架旨在在部分注释的密集场景数据集中明确完成丢失的注释。这减少了注释场景中的每个对象实例,从而降低注释成本。完成DETR解码器中的对象查询,并使用图像中对象的补丁信息。结合匹配损失,它可以有效地找到与输入补丁相似的对象并完成丢失的注释。我们表明,我们的框架优于最先进的方法,例如软采样和公正的老师,同时可以与这些方法一起使用以进一步提高其性能。我们的框架对下游对象探测器的选择也不可知。我们显示了多个流行探测器的性能改进,例如在多个密集的场景数据集中更快的R-CNN,CASCADE R-CNN,CENTERNET2和可变形的DETR。
translated by 谷歌翻译
随着半监督对象检测(SS-OD)技术的最新开发,可以使用有限的标记数据和丰富的未标记数据来改进对象检测器。但是,仍然有两个挑战未解决:(1)在无锚点检测器上没有先前的SS-OD作品,并且(2)当伪标记的边界框回归时,先前的工作是无效的。在本文中,我们提出了无偏见的教师V2,其中显示了SS-OD方法对无锚定检测器的概括,并引入了无监督回归损失的侦听机制。具体而言,我们首先提出了一项研究,研究了现有的SS-OD方法在无锚固探测器上的有效性,并发现在半监督的设置下它们的性能改善要较低。我们还观察到,在无锚点检测器中使用的中心度和基于本地化的标签的盒子选择不能在半监视的设置下正常工作。另一方面,我们的聆听机制明确地阻止了在边界框回归训练中误导伪标记。我们特别开发了一种基于教师和学生的相对不确定性的新型伪标记的选择机制。这个想法有助于半监督环境中回归分支的有利改善。我们的方法适用于无锚固方法和基于锚的方法,它始终如一地对VOC,可可标准和可可添加的最新方法表现出色。
translated by 谷歌翻译
半监督对象检测(SSOD)的最新发展显示了利用未标记数据改善对象检测器的希望。但是,到目前为止,这些方法已经假设未标记的数据不包含分布(OOD)类,这对于较大规模的未标记数据集是不现实的。在本文中,我们考虑了一个更实用但具有挑战性的问题,开放式半监督对象检测(OSSOD)。我们首先发现现有的SSOD方法在开放式条件下获得了较低的性能增长,这是由语义扩展引起的,在该语义扩展中,分散注意力的OOD对象​​被错误预测为半监督训练的分布伪标签。为了解决此问题,我们考虑与SSOD方法集成的在线和离线OOD检测模块。通过广泛的研究,我们发现,基于自我监视的视觉变压器的脱机OOD检测器对在线OOD探测器的表现良好,因为它稳健地对伪标记的干扰。在实验中,我们提出的框架有效地解决了语义扩展问题,并在许多OSSOD基准(包括大规模的可可开放图)上显示出一致的改进。我们还在不同的OSSOD条件下验证框架的有效性,包括不同数量的分布类别,不同程度的监督和不同标记集的组合。
translated by 谷歌翻译
微创手术中的手术工具检测是计算机辅助干预措施的重要组成部分。当前的方法主要是基于有监督的方法,这些方法需要大量的完全标记的数据来培训监督模型,并且由于阶级不平衡问题而患有伪标签偏见。但是,带有边界框注释的大图像数据集通常几乎无法使用。半监督学习(SSL)最近出现了仅使用适度的注释数据训练大型模型的一种手段。除了降低注释成本。 SSL还显示出希望产生更强大和可推广的模型。因此,在本文中,我们在手术工具检测范式中介绍了半监督学习(SSL)框架,该框架旨在通过知识蒸馏方法来减轻培训数据的稀缺和数据失衡。在拟议的工作中,我们培训了一个标有数据的模型,该模型启动了教师学生的联合学习,在该学习中,学生接受了来自未标记数据的教师生成的伪标签的培训。我们提出了一个多级距离,在检测器的利益区域头部具有基于保证金的分类损失函数,以有效地将前景类别与背景区域隔离。我们在M2CAI16-Tool-locations数据集上的结果表明,我们的方法在不同的监督数据设置(1%,2%,5%,注释数据的10%)上的优越性,其中我们的模型可实现8%,12%和27的总体改善在最先进的SSL方法和完全监督的基线上,MAP中的%(在1%标记的数据上)。该代码可在https://github.com/mansoor-at/semi-supervise-surgical-tool-det上获得
translated by 谷歌翻译
We propose a novel end-to-end curriculum learning approach for sparsely labelled animal datasets leveraging large volumes of unlabelled data to improve supervised species detectors. We exemplify the method in detail on the task of finding great apes in camera trap footage taken in challenging real-world jungle environments. In contrast to previous semi-supervised methods, our approach adjusts learning parameters dynamically over time and gradually improves detection quality by steering training towards virtuous self-reinforcement. To achieve this, we propose integrating pseudo-labelling with curriculum learning policies and show how learning collapse can be avoided. We discuss theoretical arguments, ablations, and significant performance improvements against various state-of-the-art systems when evaluating on the Extended PanAfrican Dataset holding approx. 1.8M frames. We also demonstrate our method can outperform supervised baselines with significant margins on sparse label versions of other animal datasets such as Bees and Snapshot Serengeti. We note that performance advantages are strongest for smaller labelled ratios common in ecological applications. Finally, we show that our approach achieves competitive benchmarks for generic object detection in MS-COCO and PASCAL-VOC indicating wider applicability of the dynamic learning concepts introduced. We publish all relevant source code, network weights, and data access details for full reproducibility. The code is available at https://github.com/youshyee/DCL-Detection.
translated by 谷歌翻译
Semi-supervised object detection is important for 3D scene understanding because obtaining large-scale 3D bounding box annotations on point clouds is time-consuming and labor-intensive. Existing semi-supervised methods usually employ teacher-student knowledge distillation together with an augmentation strategy to leverage unlabeled point clouds. However, these methods adopt global augmentation with scene-level transformations and hence are sub-optimal for instance-level object detection. In this work, we propose an object-level point augmentor (OPA) that performs local transformations for semi-supervised 3D object detection. In this way, the resultant augmentor is derived to emphasize object instances rather than irrelevant backgrounds, making the augmented data more useful for object detector training. Extensive experiments on the ScanNet and SUN RGB-D datasets show that the proposed OPA performs favorably against the state-of-the-art methods under various experimental settings. The source code will be available at https://github.com/nomiaro/OPA.
translated by 谷歌翻译
迄今为止,最强大的半监督对象检测器(SS-OD)基于伪盒,该盒子需要一系列带有微调超参数的后处理。在这项工作中,我们建议用稀疏的伪盒子以伪造的伪标签形式取代稀疏的伪盒。与伪盒相比,我们的密集伪标签(DPL)不涉及任何后处理方法,因此保留了更丰富的信息。我们还引入了一种区域选择技术,以突出关键信息,同时抑制密集标签所携带的噪声。我们将利用DPL作为密集老师的拟议的SS-OD算法命名。在可可和VOC上,密集的老师在各种环境下与基于伪盒的方法相比表现出卓越的表现。
translated by 谷歌翻译
为计算机视觉标记大型示例数据集的挑战继续限制图像存储库的可用性和范围。这项研究为自动数据收集,策展,标签和迭代培训提供了一种新的方法,对螺头卫星图像和对象检测的情况进行最少的人为干预。新的操作量表有效地扫描了整个城市(68平方英里)的网格搜索,并通过太空观测得出了汽车颜色的预测。经过部分训练的Yolov5模型是一种初始推理种子,以进一步输出迭代循环中更精致的模型预测。这里的软标签是指接受标签噪声作为潜在的有价值的增强,以减少过度拟合并增强对以前看不见的测试数据的广义预测。该方法利用了一个现实世界的实例,其中汽车的裁剪图像可以自动从像素值中自动接收白色或彩色信息,从而完成端到端管道,而不会过度依赖人类劳动。
translated by 谷歌翻译
弱监督对象检测(WSOD)旨在仅训练需要图像级注释的对象检测器。最近,一些作品设法选择了从训练有素的WSOD网络生成的准确框,以监督半监督的检测框架以提高性能。但是,这些方法只需根据图像级标准将设置的训练分为标记和未标记的集合,从而选择了足够的错误标记或错误的局部盒子预测作为伪基真正的真实性,从而产生了次优的检测性能解决方案。为了克服这个问题,我们提出了一个新颖的WSOD框架,其新范式从弱监督到嘈杂的监督(W2N)。通常,通过训练有素的WSOD网络产生的给定的伪基真实性,我们提出了一种两模块迭代训练算法来完善伪标签并逐步监督更好的对象探测器。在定位适应模块中,我们提出正规化损失,以减少原始伪基真实性中判别零件的比例,从而获得更好的伪基真实性,以进行进一步的训练。在半监督的模块中,我们提出了两个任务实例级拆分方法,以选择用于训练半监督检测器的高质量标签。不同基准测试的实验结果验证了W2N的有效性,我们的W2N优于所有现有的纯WSOD方法和转移学习方法。我们的代码可在https://github.com/1170300714/w2n_wsod上公开获得。
translated by 谷歌翻译
在这项研究中,我们深入研究了半监督对象检测〜(SSOD)所面临的独特挑战。我们观察到当前的探测器通常遭受3个不一致问题。 1)分配不一致,传统的分配策略对标记噪声很敏感。 2)子任务不一致,其中分类和回归预测在同一特征点未对准。 3)时间不一致,伪Bbox在不同的训练步骤中差异很大。这些问题导致学生网络的优化目标不一致,从而恶化了性能并减慢模型收敛性。因此,我们提出了一个系统的解决方案,称为一致的老师,以补救上述挑战。首先,自适应锚分配代替了基于静态的策略,该策略使学生网络能够抵抗嘈杂的psudo bbox。然后,我们通过设计功能比对模块来校准子任务预测。最后,我们采用高斯混合模型(GMM)来动态调整伪盒阈值。一致的老师在各种SSOD评估上提供了新的强大基线。只有10%的带注释的MS-Coco数据,它可以使用Resnet-50骨干实现40.0 MAP,该数据仅使用伪标签,超过了4个地图。当对完全注释的MS-Coco进行其他未标记的数据进行培训时,性能将进一步增加到49.1 MAP。我们的代码将很快开源。
translated by 谷歌翻译
在本文中,我们提出了一种与渔业相关数据的方法,该方法使我们能够通过多个可以利用众包接口的培训和生产循环在数据集上迭代标记的图像数据集。我们将算法及其结果介绍在使用海底自动水下车辆收集的两组单独的图像数据上。第一个数据集由2,026个完全未标记的图像组成,而第二个数据集由21,968张图像组成,这些图像由专家注释。我们的结果表明,使用小子集进行培训,并迭代以构建较大的标记数据,从而使我们能够收敛到带有少量迭代的完全注释数据集。即使在专家标记的数据集的情况下,该方法论的单个迭代也通过发现与鱼层相关的鱼类相关标签的其他复杂示例,也很小,或者被与水下图像相关的对比度限制所掩盖,从而改善了标签。
translated by 谷歌翻译
在本文中,我们在半监督对象检测(SSOD)中深入研究了两种关键技术,即伪标记和一致性训练。我们观察到,目前,这两种技术忽略了对象检测的一些重要特性,从而阻碍了对未标记数据的有效学习。具体而言,对于伪标记,现有作品仅关注分类得分,但不能保证伪框的本地化精度;为了保持一致性训练,广泛采用的随机训练只考虑了标签级的一致性,但错过了功能级别的训练,这在确保尺度不变性方面也起着重要作用。为了解决嘈杂的伪箱所产生的问题,我们设计了包括预测引导的标签分配(PLA)和正面验证一致性投票(PCV)的嘈杂伪盒学习(NPL)。 PLA依赖于模型预测来分配标签,并使甚至粗糙的伪框都具有鲁棒性。 PCV利用积极建议的回归一致性来反映伪盒的本地化质量。此外,在一致性训练中,我们提出了包括标签和特征水平一致性的机制的多视图尺度不变学习(MSL),其中通过将两个图像之间的移动特征金字塔对准具有相同内容但变化量表的变化来实现特征一致性。在可可基准测试上,我们的方法称为伪标签和一致性训练(PSECO),分别以2.0、1.8、2.0分的1%,5%和10%的标签比优于SOTA(软教师)。它还显着提高了SSOD的学习效率,例如,PSECO将SOTA方法的训练时间减半,但实现了更好的性能。代码可从https://github.com/ligang-cs/pseco获得。
translated by 谷歌翻译
标记数据通常昂贵且耗时,特别是对于诸如对象检测和实例分割之类的任务,这需要对图像的密集标签进行密集的标签。虽然几张拍摄对象检测是关于培训小说中的模型(看不见的)对象类具有很少的数据,但它仍然需要在许多标记的基础(见)类的课程上进行训练。另一方面,自我监督的方法旨在从未标记数据学习的学习表示,该数据转移到诸如物体检测的下游任务。结合几次射击和自我监督的物体检测是一个有前途的研究方向。在本调查中,我们审查并表征了几次射击和自我监督对象检测的最新方法。然后,我们给我们的主要外卖,并讨论未来的研究方向。https://gabrielhuang.github.io/fsod-survey/的项目页面
translated by 谷歌翻译
Despite significant accuracy improvement in convolutional neural networks (CNN) based object detectors, they often require prohibitive runtimes to process an image for real-time applications. State-of-the-art models often use very deep networks with a large number of floating point operations. Efforts such as model compression learn compact models with fewer number of parameters, but with much reduced accuracy. In this work, we propose a new framework to learn compact and fast object detection networks with improved accuracy using knowledge distillation [20] and hint learning [34]. Although knowledge distillation has demonstrated excellent improvements for simpler classification setups, the complexity of detection poses new challenges in the form of regression, region proposals and less voluminous labels. We address this through several innovations such as a weighted cross-entropy loss to address class imbalance, a teacher bounded loss to handle the regression component and adaptation layers to better learn from intermediate teacher distributions. We conduct comprehensive empirical evaluation with different distillation configurations over multiple datasets including PASCAL, KITTI, ILSVRC and MS-COCO. Our results show consistent improvement in accuracy-speed trade-offs for modern multi-class detection models.
translated by 谷歌翻译
基于深度学习的对象建议方法已在许多计算机视觉管道中取得了重大进展。但是,当前的最新提案网络使用封闭世界的假设,这意味着它们仅接受培训以检测培训课程的实例,同时将每个其他区域视为背景。这种解决方案的样式无法对分发对象进行高度召回,因此可以在可以观察到新颖的对象类别类别的现实开放世界应用程序中使用它。为了更好地检测所有对象,我们提出了一个无分类的自我训练的建议网络(STPN),该提案网络(STPN)利用了一种新型的自我训练优化策略,并结合了动态加权损失功能,以解决诸如类不平衡和伪标签的不确定性之类的挑战。我们的模型不仅旨在在现有的乐观开放世界基准中表现出色,而且在具有重大标签偏见的具有挑战性的操作环境中。为了展示这一点,当培训数据包含(1)标记类中的多样性较小,并且(2)标记实例较少时,我们就设计了两个挑战来测试建议模型的概括。我们的结果表明,STPN在所有任务上都实现了最新的对象概括。
translated by 谷歌翻译