宫颈异常细胞检测是一项具有挑战性的任务,因为异常细胞和正常细胞之间的形态差异通常是微妙的。为了确定宫颈细胞是正常还是异常,细胞病理学家总是将周围细胞作为参考,并进行仔细比较以鉴定其异常。为了模仿这些临床行为,我们建议探索上下文关系,以提高宫颈异常细胞检测的性能。具体而言,利用细胞和细胞到全球图像之间的上下文关系,以增强每个感兴趣区域(ROI)建议的特征。因此,开发了两个模块,称为ROI关系注意模块(RRAM)和全球ROI注意模块(GRAM),还研究了它们的组合策略。我们通过使用特征金字塔网络(FPN)使用单头或双头更快的R-CNN来设置强基础,并将我们的RRAM和革兰氏集整合到它们中以验证提出的模块的有效性。由40,000个细胞学图像组成的大宫颈细胞检测数据集进行的实验表明,RRAM和GRAM的引入都比基线方法获得了更好的平均精度(AP)。此外,当级联RRAM和GRAM时,我们的方法优于最先进的方法(SOTA)方法。此外,我们还显示了提出的功能增强方案可以促进图像级别和涂片级别的分类。代码和训练有素的模型可在https://github.com/cviu-csu/cr4cacd上公开获得。
translated by 谷歌翻译
DETR方法中引入的查询机制正在改变对象检测的范例,最近有许多基于查询的方法获得了强对象检测性能。但是,当前基于查询的检测管道遇到了以下两个问题。首先,需要多阶段解码器来优化随机初始化的对象查询,从而产生较大的计算负担。其次,训练后的查询是固定的,导致不满意的概括能力。为了纠正上述问题,我们在较快的R-CNN框架中提出了通过查询生成网络预测的特征对象查询,并开发了一个功能性的查询R-CNN。可可数据集的广泛实验表明,我们的特征查询R-CNN获得了所有R-CNN探测器的最佳速度准确性权衡,包括最近的最新稀疏R-CNN检测器。该代码可在\ url {https://github.com/hustvl/featurized-queryrcnn}中获得。
translated by 谷歌翻译
Due to object detection's close relationship with video analysis and image understanding, it has attracted much research attention in recent years. Traditional object detection methods are built on handcrafted features and shallow trainable architectures. Their performance easily stagnates by constructing complex ensembles which combine multiple low-level image features with high-level context from object detectors and scene classifiers. With the rapid development in deep learning, more powerful tools, which are able to learn semantic, high-level, deeper features, are introduced to address the problems existing in traditional architectures. These models behave differently in network architecture, training strategy and optimization function, etc. In this paper, we provide a review on deep learning based object detection frameworks. Our review begins with a brief introduction on the history of deep learning and its representative tool, namely Convolutional Neural Network (CNN). Then we focus on typical generic object detection architectures along with some modifications and useful tricks to improve detection performance further. As distinct specific detection tasks exhibit different characteristics, we also briefly survey several specific tasks, including salient object detection, face detection and pedestrian detection. Experimental analyses are also provided to compare various methods and draw some meaningful conclusions. Finally, several promising directions and tasks are provided to serve as guidelines for future work in both object detection and relevant neural network based learning systems.
translated by 谷歌翻译
颈腺细胞(GC)检测是计算机辅助诊断宫颈腺癌筛查的关键步骤。精确识别宫颈涂片中的GC是挑战的,其中鳞状细胞是主要的。在整个涂片线索中,广泛存在的分布(OOD)数据可降低机器学习系统用于GC检测的可靠性。尽管,最新的(SOTA)深度学习模型可以胜过感兴趣的预选区域中的病理学家,但是当面对这样的吉吉像素整个滑动图像时,质量假阳性(FP)预测仍无法解决。本文提出了一种基于GC的形态学知识,试图通过八邻居中的自我发项机制来解决FP问题的新极性知识。它估计了GC核的极性方向。作为插件模块,Polarnet可以指导一般对象检测模型的深度功能和预测的置信度。在实验中,我们发现基于四个不同框架的通用模型可以在小图像集中拒绝fp,并将平均精度(地图)的平均值增加$ \ text {0.007} \ sim \ sim \ text {0.015} $,其中平均最高超过了最近的宫颈细胞检测模型0.037。通过插入极地,部署的C ++程序在从外部WSI的前20个GC检测准确性上提高了8.8%,同时牺牲了14.4 s的计算时间。代码可在https://github.com/chrisa142857/polarnet-gcdet中找到
translated by 谷歌翻译
大多数最先进的实例级人类解析模型都采用了两阶段的基于锚的探测器,因此无法避免启发式锚盒设计和像素级别缺乏分析。为了解决这两个问题,我们设计了一个实例级人类解析网络,该网络在像素级别上无锚固且可解决。它由两个简单的子网络组成:一个用于边界框预测的无锚检测头和一个用于人体分割的边缘引导解析头。无锚探测器的头继承了像素样的优点,并有效地避免了对象检测应用中证明的超参数的敏感性。通过引入部分感知的边界线索,边缘引导的解析头能够将相邻的人类部分与彼此区分开,最多可在一个人类实例中,甚至重叠的实例。同时,利用了精炼的头部整合盒子级别的分数和部分分析质量,以提高解析结果的质量。在两个多个人类解析数据集(即CIHP和LV-MHP-V2.0)和一个视频实例级人类解析数据集(即VIP)上进行实验,表明我们的方法实现了超过全球级别和实例级别的性能最新的一阶段自上而下的替代方案。
translated by 谷歌翻译
由于卷积在提取物体的局部上下文中,在过去十年中,对象检测在过去十年中取得了重大进展。但是,对象的尺度是多样的,当前卷积只能处理单尺度输入。因此,传统卷积具有固定接收场在处理这种规模差异问题方面的能力受到限制。多尺度功能表示已被证明是缓解规模差异问题的有效方法。最近的研究主要与某些量表或各个尺度的总体特征采用部分联系,并专注于整个量表的全球信息。但是,跨空间和深度维度的信息被忽略了。受此启发,我们提出了多尺度卷积(MSCONV)来解决此问题。同时考虑到量表,空间和深度信息,MSCONV能够更全面地处理多尺度输入。 MSCONV是有效的,并且在计算上是有效的,只有少量计算成本增加。对于大多数单阶段对象探测器,在检测头中用MSCONV代替传统的卷积可以带来AP的2.5 \%改进(在Coco 2017数据集上),只有3 \%的拖鞋增加了。 MSCONV对于两阶段对象探测器也具有灵活性和有效性。当扩展到主流两阶段对象检测器时,MSCONV的AP可以提高3.0 \%。我们在单尺度测试下的最佳模型在Coco 2017上实现了48.9 \%AP,\ textit {test-dev} Split,它超过了许多最新方法。
translated by 谷歌翻译
Cascade is a classic yet powerful architecture that has boosted performance on various tasks. However, how to introduce cascade to instance segmentation remains an open question. A simple combination of Cascade R-CNN and Mask R-CNN only brings limited gain. In exploring a more effective approach, we find that the key to a successful instance segmentation cascade is to fully leverage the reciprocal relationship between detection and segmentation. In this work, we propose a new framework, Hybrid Task Cascade (HTC), which differs in two important aspects: (1) instead of performing cascaded refinement on these two tasks separately, it interweaves them for a joint multi-stage processing; (2) it adopts a fully convolutional branch to provide spatial context, which can help distinguishing hard foreground from cluttered background. Overall, this framework can learn more discriminative features progressively while integrating complementary features together in each stage. Without bells and whistles, a single HTC obtains 38.4% and 1.5% improvement over a strong Cascade Mask R-CNN baseline on MSCOCO dataset. Moreover, our overall system achieves 48.6 mask AP on the test-challenge split, ranking 1st in the COCO 2018 Challenge Object Detection Task. Code is available at: https://github.com/ open-mmlab/mmdetection.
translated by 谷歌翻译
DETR has been recently proposed to eliminate the need for many hand-designed components in object detection while demonstrating good performance. However, it suffers from slow convergence and limited feature spatial resolution, due to the limitation of Transformer attention modules in processing image feature maps. To mitigate these issues, we proposed Deformable DETR, whose attention modules only attend to a small set of key sampling points around a reference. Deformable DETR can achieve better performance than DETR (especially on small objects) with 10× less training epochs. Extensive experiments on the COCO benchmark demonstrate the effectiveness of our approach. Code is released at https:// github.com/fundamentalvision/Deformable-DETR.
translated by 谷歌翻译
虽然用变压器(DETR)的检测越来越受欢迎,但其全球注意力建模需要极其长的培训期,以优化和实现有前途的检测性能。现有研究的替代方案主要开发先进的特征或嵌入设计来解决培训问题,指出,基于地区的兴趣区域(ROI)的检测细化可以很容易地帮助减轻DETR方法培训的难度。基于此,我们在本文中介绍了一种新型的经常性闪闪发光的解码器(Rego)。特别是,REGO采用多级复发处理结构,以帮助更准确地逐渐关注前景物体。在每个处理阶段,从ROI的闪烁特征提取视觉特征,其中来自上阶段的检测结果的放大边界框区域。然后,引入了基于一瞥的解码器,以提供基于前一级的瞥见特征和注意力建模输出的精细检测结果。在实践中,Refo可以很容易地嵌入代表性的DETR变体,同时保持其完全端到端的训练和推理管道。特别地,Refo帮助可变形的DETR在MSCOCO数据集上实现44.8AP,只有36个训练时期,与需要500和50时期的第一DETR和可变形的DETR相比,分别可以分别实现相当的性能。实验还表明,Rego始终如一地提升不同DETR探测器的性能高达7%的相对增益,在相同的50次训练时期。代码可通过https://github.com/zhechen/deformable-detr-rego获得。
translated by 谷歌翻译
视觉变压器(VIT)正在改变对象检测方法的景观。 VIT的自然使用方法是用基于变压器的骨干替换基于CNN的骨干,该主链很简单有效,其价格为推理带来了可观的计算负担。更微妙的用法是DEDR家族,它消除了对物体检测中许多手工设计的组件的需求,但引入了一个解码器,要求超长时间进行融合。结果,基于变压器的对象检测不能在大规模应用中占上风。为了克服这些问题,我们提出了一种新型的无解码器基于完全变压器(DFFT)对象检测器,这是第一次在训练和推理阶段达到高效率。我们通过居中两个切入点来简化反对检测到仅编码单级锚点的密集预测问题:1)消除训练感知的解码器,并利用两个强的编码器来保留单层特征映射预测的准确性; 2)探索具有有限的计算资源的检测任务的低级语义特征。特别是,我们设计了一种新型的轻巧的面向检测的变压器主链,该主链有效地捕获了基于良好的消融研究的丰富语义的低级特征。 MS Coco基准测试的广泛实验表明,DFFT_SMALL的表现优于2.5%AP,计算成本降低28%,$ 10 \ $ 10 \乘以$ 10 \乘以$较少的培训时期。与尖端的基于锚的探测器视网膜相比,DFFT_SMALL获得了超过5.5%的AP增益,同时降低了70%的计算成本。
translated by 谷歌翻译
特征金字塔已在图像理解任务中被证明是强大的,需要多尺度功能。用于多尺度特征学习的最先进方法,专注于使用具有固定拓扑的神经网络执行空间和尺度的特征交互。在本文中,我们提出了能够将它们的拓扑结构调整为不同的内在图像结构并支持所有尺度的同时特征交互的金字塔网络。我们首先为每个输入图像定义特定于图像特定的SuperPixel层次结构以表示其内在图像结构。图表特征金字塔网络继承了其结构从该超像素层次结构。上下文和分层层旨在实现相同规模和不同尺度内的功能交互。为了使这些层更强大,我们通过概括卷积神经网络的全球渠道注意力来推出图形神经网络的两种类型的本地通道注意。所提出的图表特征金字塔网络可以增强来自卷积特征金字塔网络的多尺度功能。我们通过将其集成到更快的R-CNN算法中,在对象检测任务中评估我们的图表特征金字塔网络。修改算法不仅优于以前的最先进的基于金字塔的方法,具有清晰的余量,而且还具有关于MS-Coco 2017验证和测试数据集的其他流行检测方法。
translated by 谷歌翻译
两阶段和基于查询的实例分段方法取得了显着的结果。然而,他们的分段面具仍然非常粗糙。在本文中,我们呈现了用于高质量高效的实例分割的掩模转发器。我们的掩模转发器代替常规密集的张量,而不是在常规密集的张量上进行分解,并表示作为Quadtree的图像区域。我们基于变换器的方法仅处理检测到的错误易于树节点,并并行自我纠正其错误。虽然这些稀疏的像素仅构成总数的小比例,但它们对最终掩模质量至关重要。这允许掩模转换器以低计算成本预测高精度的实例掩模。广泛的实验表明,掩模转发器在三个流行的基准上优于当前实例分段方法,显着改善了COCO和BDD100K上的大型+3.0掩模AP的+3.0掩模AP的大余量和CityScapes上的+6.6边界AP。我们的代码和培训的型号将在http://vis.xyz/pub/transfiner提供。
translated by 谷歌翻译
Single-frame InfraRed Small Target (SIRST) detection has been a challenging task due to a lack of inherent characteristics, imprecise bounding box regression, a scarcity of real-world datasets, and sensitive localization evaluation. In this paper, we propose a comprehensive solution to these challenges. First, we find that the existing anchor-free label assignment method is prone to mislabeling small targets as background, leading to their omission by detectors. To overcome this issue, we propose an all-scale pseudo-box-based label assignment scheme that relaxes the constraints on scale and decouples the spatial assignment from the size of the ground-truth target. Second, motivated by the structured prior of feature pyramids, we introduce the one-stage cascade refinement network (OSCAR), which uses the high-level head as soft proposals for the low-level refinement head. This allows OSCAR to process the same target in a cascade coarse-to-fine manner. Finally, we present a new research benchmark for infrared small target detection, consisting of the SIRST-V2 dataset of real-world, high-resolution single-frame targets, the normalized contrast evaluation metric, and the DeepInfrared toolkit for detection. We conduct extensive ablation studies to evaluate the components of OSCAR and compare its performance to state-of-the-art model-driven and data-driven methods on the SIRST-V2 benchmark. Our results demonstrate that a top-down cascade refinement framework can improve the accuracy of infrared small target detection without sacrificing efficiency. The DeepInfrared toolkit, dataset, and trained models are available at https://github.com/YimianDai/open-deepinfrared to advance further research in this field.
translated by 谷歌翻译
本文介绍了端到端的实例分段框架,称为SOIT,该段具有实例感知变压器的段对象。灵感来自Detr〜\ Cite {carion2020end},我们的方法视图实例分段为直接设置预测问题,有效地消除了对ROI裁剪,一对多标签分配等许多手工制作组件的需求,以及非最大抑制( nms)。在SOIT中,通过在全局图像上下文下直接地将多个查询直接理解语义类别,边界框位置和像素 - WISE掩码的一组对象嵌入。类和边界盒可以通过固定长度的向量轻松嵌入。尤其是由一组参数嵌入像素方面的掩模以构建轻量级实例感知变压器。之后,实例感知变压器产生全分辨率掩码,而不涉及基于ROI的任何操作。总的来说,SOIT介绍了一个简单的单级实例分段框架,它是无乐和NMS的。 MS Coco DataSet上的实验结果表明,优于最先进的实例分割显着的优势。此外,在统一查询嵌入中的多个任务的联合学习还可以大大提高检测性能。代码可用于\ url {https://github.com/yuxiaodonghri/soit}。
translated by 谷歌翻译
我们为变体视觉任务提供了一个概念上简单,灵活和通用的视觉感知头,例如分类,对象检测,实例分割和姿势估计以及不同的框架,例如单阶段或两个阶段的管道。我们的方法有效地标识了图像中的对象,同时同时生成高质量的边界框或基于轮廓的分割掩码或一组关键点。该方法称为Unihead,将不同的视觉感知任务视为通过变压器编码器体系结构学习的可分配点。给定固定的空间坐标,Unihead将其自适应地分散到了不同的空间点和有关它们的关系的原因。它以多个点的形式直接输出最终预测集,使我们能够在具有相同头部设计的不同框架中执行不同的视觉任务。我们展示了对成像网分类的广泛评估以及可可套件的所有三个曲目,包括对象检测,实例分割和姿势估计。如果没有铃铛和口哨声,Unihead可以通过单个视觉头设计统一这些视觉任务,并与为每个任务开发的专家模型相比,实现可比的性能。我们希望我们的简单和通用的Unihead能够成为可靠的基线,并有助于促进通用的视觉感知研究。代码和型号可在https://github.com/sense-x/unihead上找到。
translated by 谷歌翻译
即使在几个例子中,人类能够学会识别新物品。相比之下,培训基于深度学习的对象探测器需要大量的注释数据。为避免需求获取和注释这些大量数据,但很少拍摄的对象检测旨在从目标域中的新类别的少数对象实例中学习。在本调查中,我们在几次拍摄对象检测中概述了本领域的状态。我们根据培训方案和建筑布局分类方法。对于每种类型的方法,我们描述了一般的实现以及提高新型类别性能的概念。在适当的情况下,我们在这些概念上给出短暂的外卖,以突出最好的想法。最终,我们介绍了常用的数据集及其评估协议,并分析了报告的基准结果。因此,我们强调了评估中的共同挑战,并确定了这种新兴对象检测领域中最有前景的电流趋势。
translated by 谷歌翻译
Passive millimeter-wave (PMMW) is a significant potential technique for human security screening. Several popular object detection networks have been used for PMMW images. However, restricted by the low resolution and high noise of PMMW images, PMMW hidden object detection based on deep learning usually suffers from low accuracy and low classification confidence. To tackle the above problems, this paper proposes a Task-Aligned Detection Transformer network, named PMMW-DETR. In the first stage, a Denoising Coarse-to-Fine Transformer (DCFT) backbone is designed to extract long- and short-range features in the different scales. In the second stage, we propose the Query Selection module to introduce learned spatial features into the network as prior knowledge, which enhances the semantic perception capability of the network. In the third stage, aiming to improve the classification performance, we perform a Task-Aligned Dual-Head block to decouple the classification and regression tasks. Based on our self-developed PMMW security screening dataset, experimental results including comparison with State-Of-The-Art (SOTA) methods and ablation study demonstrate that the PMMW-DETR obtains higher accuracy and classification confidence than previous works, and exhibits robustness to the PMMW images of low quality.
translated by 谷歌翻译
卷积神经网络(CNN)在许多计算机视觉任务(例如图像分类和对象检测)中取得了巨大的成功。但是,他们的性能在更艰巨的任务上迅速降低,因为图像是低分辨率或物体很小的。在本文中,我们指出,这根源于现有CNN体系结构中的有缺陷但常见的设计,即使用稳固的卷积和/或汇总层,这导致丢失细粒度的信息和学习较低有效的功能表示形式。为此,我们提出了一个新的CNN构建块,称为SPD-CONV,代替每个稳定的卷积层和每个池层(从而完全消除它们)。 SPD-CONV由一个对深度(SPD)层的组成,然后是非构造卷积(CORV)层,并且可以在大多数(如果不是全部)CNN体系结构中应用。我们在两个最具代表性的计算机视觉任务下解释了这种新设计:对象检测和图像分类。然后,我们通过将SPD-CONV应用于Yolov5和Resnet来创建新的CNN体​​系结构,并从经验上表明,我们的方法显着优于最先进的深度学习模型,尤其是在具有低分辨率图像和小物体的更艰巨的任务上。我们已经在https://github.com/labsaint/spd-conv上开源代码。
translated by 谷歌翻译
对象检测是一项基本的计算机视觉任务,用于在给定图像中loccal和分类对象。大多数最先进的检测方法都利用固定数量的建议作为对象候选物的中间表示,在推理过程中无法适应不同的计算约束。在本文中,我们提出了一种简单而有效的方法,该方法通过生成动态提案以进行对象检测来适应不同的计算资源。我们首先设计一个模块来制作一个基于查询的模型,以便能够使用不同数量的建议进行推断。此外,我们将其扩展到动态模型,以根据输入图像选择建议数量,从而大大降低了计算成本。我们的方法在广泛的检测模型中实现了显着的加速,包括两阶段和基于查询的模型,同时获得相似甚至更好的准确性。
translated by 谷歌翻译