在传统的对象检测框架中,从图像识别模型继承的骨干体提取了深层特征,然后颈部模块融合了这些潜在特征,以在不同的尺度上捕获信息。由于对象检测的分辨率比图像识别大得多,因此骨干的计算成本通常主导了总推断成本。这种沉重的背部设计范式主要是由于历史遗产将图像识别模型传输到对象检测时,而不是端到端的优化设计以进行对象检测。在这项工作中,我们表明这种范式确实导致了亚最佳对象检测模型。为此,我们提出了一种新型的重颈范式,长颈鹿,这是一个类似长颈鹿的网络,用于有效的对象检测。长颈鹿使用极轻的骨干和非常深的颈部模块,可同时同时在不同的空间尺度以及不同级别的潜在语义之间进行密集的信息交换。该设计范式允许检测器即使在网络的早期阶段,也可以在相同的优先级处理高级语义信息和低级空间信息,从而使其在检测任务中更有效。对多个流行对象检测基准的数值评估表明,长颈鹿在广泛的资源约束中始终优于先前的SOTA模型。源代码可在https://github.com/jyqi/giraffedet上获得。
translated by 谷歌翻译
本文提出了平行残留的双融合特征金字塔网络(PRB-FPN),以快速准确地单光对象检测。特征金字塔(FP)在最近的视觉检测中被广泛使用,但是由于汇总转换,FP的自上而下的途径无法保留准确的定位。随着使用更多层的更深骨干,FP的优势被削弱了。此外,它不能同时准确地检测到小物体。为了解决这些问题,我们提出了一种新的并行FP结构,具有双向(自上而下和自下而上)的融合以及相关的改进,以保留高质量的特征以进行准确定位。我们提供以下设计改进:(1)具有自下而上的融合模块(BFM)的平行分歧FP结构,以高精度立即检测小物体和大对象。 (2)串联和重组(CORE)模块为特征融合提供了自下而上的途径,该途径导致双向融合FP,可以从低层特征图中恢复丢失的信息。 (3)进一步纯化核心功能以保留更丰富的上下文信息。自上而下和自下而上的途径中的这种核心净化只能在几次迭代中完成。 (4)将残留设计添加到核心中,导致了一个新的重核模块,该模块可以轻松训练和集成,并具有更深入或更轻的骨架。所提出的网络可在UAVDT17和MS COCO数据集上实现最新性能。代码可在https://github.com/pingyang1117/prbnet_pytorch上找到。
translated by 谷歌翻译
由于卷积在提取物体的局部上下文中,在过去十年中,对象检测在过去十年中取得了重大进展。但是,对象的尺度是多样的,当前卷积只能处理单尺度输入。因此,传统卷积具有固定接收场在处理这种规模差异问题方面的能力受到限制。多尺度功能表示已被证明是缓解规模差异问题的有效方法。最近的研究主要与某些量表或各个尺度的总体特征采用部分联系,并专注于整个量表的全球信息。但是,跨空间和深度维度的信息被忽略了。受此启发,我们提出了多尺度卷积(MSCONV)来解决此问题。同时考虑到量表,空间和深度信息,MSCONV能够更全面地处理多尺度输入。 MSCONV是有效的,并且在计算上是有效的,只有少量计算成本增加。对于大多数单阶段对象探测器,在检测头中用MSCONV代替传统的卷积可以带来AP的2.5 \%改进(在Coco 2017数据集上),只有3 \%的拖鞋增加了。 MSCONV对于两阶段对象探测器也具有灵活性和有效性。当扩展到主流两阶段对象检测器时,MSCONV的AP可以提高3.0 \%。我们在单尺度测试下的最佳模型在Coco 2017上实现了48.9 \%AP,\ textit {test-dev} Split,它超过了许多最新方法。
translated by 谷歌翻译
In this report, we present a fast and accurate object detection method dubbed DAMO-YOLO, which achieves higher performance than the state-of-the-art YOLO series. DAMO-YOLO is extended from YOLO with some new technologies, including Neural Architecture Search (NAS), efficient Reparameterized Generalized-FPN (RepGFPN), a lightweight head with AlignedOTA label assignment, and distillation enhancement. In particular, we use MAE-NAS, a method guided by the principle of maximum entropy, to search our detection backbone under the constraints of low latency and high performance, producing ResNet-like / CSP-like structures with spatial pyramid pooling and focus modules. In the design of necks and heads, we follow the rule of "large neck, small head". We import Generalized-FPN with accelerated queen-fusion to build the detector neck and upgrade its CSPNet with efficient layer aggregation networks (ELAN) and reparameterization. Then we investigate how detector head size affects detection performance and find that a heavy neck with only one task projection layer would yield better results. In addition, AlignedOTA is proposed to solve the misalignment problem in label assignment. And a distillation schema is introduced to improve performance to a higher level. Based on these new techs, we build a suite of models at various scales to meet the needs of different scenarios, i.e., DAMO-YOLO-Tiny/Small/Medium. They can achieve 43.0/46.8/50.0 mAPs on COCO with the latency of 2.78/3.83/5.62 ms on T4 GPUs respectively. The code is available at https://github.com/tinyvision/damo-yolo.
translated by 谷歌翻译
Model efficiency has become increasingly important in computer vision. In this paper, we systematically study neural network architecture design choices for object detection and propose several key optimizations to improve efficiency. First, we propose a weighted bi-directional feature pyramid network (BiFPN), which allows easy and fast multiscale feature fusion; Second, we propose a compound scaling method that uniformly scales the resolution, depth, and width for all backbone, feature network, and box/class prediction networks at the same time. Based on these optimizations and better backbones, we have developed a new family of object detectors, called EfficientDet, which consistently achieve much better efficiency than prior art across a wide spectrum of resource constraints. In particular, with singlemodel and single-scale, our EfficientDet-D7 achieves stateof-the-art 55.1 AP on COCO test-dev with 77M parameters and 410B FLOPs 1 , being 4x -9x smaller and using 13x -42x fewer FLOPs than previous detectors. Code is available at https://github.com/google/automl/tree/ master/efficientdet.
translated by 谷歌翻译
锥体网络是多尺度对象检测的标准方法。当前对特征金字塔网络的研究通常采用层连接来从特征层次结构的某些级别收集特征,并且不考虑它们之间的显着差异。我们提出了一个更好的特征金字塔网络的体系结构,称为选择性多尺度学习(SMSL),以解决此问题。SMSL高效且泛滥,可以将其集成到单阶段和两阶段检测器中以提高检测性能,几乎没有额外的推理成本。视网膜与SMSL的结合获得了可可数据集的AP(从39.1 \%到40.9 \%)的1.8 \%改进。与SMSL集成时,两阶段探测器的AP可以提高1.0 \%。
translated by 谷歌翻译
特征金字塔网络(FPN)已成为对象检测模型考虑对象的各种尺度的重要模块。但是,小物体上的平均精度(AP)相对低于中和大物体上的AP。原因是CNN较深层导致信息丢失作为特征提取水平的原因。我们提出了一个新的比例顺序(S^2)特征FPN的特征提取,以增强小物体的特征信息。我们将FPN结构视为尺度空间和提取尺度序列(s^2)特征,该特征是在FPN的水平轴上通过3D卷积。它基本上是扩展不变的功能,并建立在小物体的高分辨率金字塔功能图上。此外,建议的S^2功能可以扩展到基于FPN的大多数对象检测模型。我们证明所提出的S2功能可以提高COCO数据集中一阶段和两阶段探测器的性能。根据提出的S2功能,我们分别为Yolov4-P5和Yolov4-P6获得了高达1.3%和1.1%的AP改善。对于更快的RCNN和Mask R-CNN,我们分别观察到AP改进的2.0%和1.6%,分别具有建议的S^2功能。
translated by 谷歌翻译
视觉变压器(VIT)正在改变对象检测方法的景观。 VIT的自然使用方法是用基于变压器的骨干替换基于CNN的骨干,该主链很简单有效,其价格为推理带来了可观的计算负担。更微妙的用法是DEDR家族,它消除了对物体检测中许多手工设计的组件的需求,但引入了一个解码器,要求超长时间进行融合。结果,基于变压器的对象检测不能在大规模应用中占上风。为了克服这些问题,我们提出了一种新型的无解码器基于完全变压器(DFFT)对象检测器,这是第一次在训练和推理阶段达到高效率。我们通过居中两个切入点来简化反对检测到仅编码单级锚点的密集预测问题:1)消除训练感知的解码器,并利用两个强的编码器来保留单层特征映射预测的准确性; 2)探索具有有限的计算资源的检测任务的低级语义特征。特别是,我们设计了一种新型的轻巧的面向检测的变压器主链,该主链有效地捕获了基于良好的消融研究的丰富语义的低级特征。 MS Coco基准测试的广泛实验表明,DFFT_SMALL的表现优于2.5%AP,计算成本降低28%,$ 10 \ $ 10 \乘以$ 10 \乘以$较少的培训时期。与尖端的基于锚的探测器视网膜相比,DFFT_SMALL获得了超过5.5%的AP增益,同时降低了70%的计算成本。
translated by 谷歌翻译
Adder神经网络(Addernets)在图像分类上表现出令人印象深刻的性能,只有加法操作,比使用乘法建立的传统卷积神经网络更节能。与分类相比,对通过Addernets降低现代对象探测器的能耗的强烈需求,例如自主驾驶和面部检测。在本文中,我们提出了对物体检测的addernets的实证研究。我们首先揭示了预先训练的加法器骨架中的批量归一化统计,不应冻结,因为Addernets的相对较大的特征方差。此外,我们在颈部中插入更多的快捷方式连接,并设计一个新的特征融合架构,以避免加法器层的稀疏功能。我们展示了广泛的消融研究,探讨了加法器探测器的几种设计选择。与最先进的比较在Coco和Pascal VOC基准上进行。具体而言,所提出的加法器FCOS在Coco Val集上实现了37.8 \%AP,展示了卷积对应物的相当性能,具有约1.4倍的能量减少。
translated by 谷歌翻译
The way that information propagates in neural networks is of great importance. In this paper, we propose Path Aggregation Network (PANet) aiming at boosting information flow in proposal-based instance segmentation framework. Specifically, we enhance the entire feature hierarchy with accurate localization signals in lower layers by bottom-up path augmentation, which shortens the information path between lower layers and topmost feature. We present adaptive feature pooling, which links feature grid and all feature levels to make useful information in each feature level propagate directly to following proposal subnetworks. A complementary branch capturing different views for each proposal is created to further improve mask prediction.These improvements are simple to implement, with subtle extra computational overhead. Our PANet reaches the 1 st place in the COCO 2017 Challenge Instance Segmentation task and the 2 nd place in Object Detection task without large-batch training. It is also state-of-the-art on MVD and Cityscapes. Code is available at https://github. com/ShuLiu1993/PANet.
translated by 谷歌翻译
Feature pyramids are a basic component in recognition systems for detecting objects at different scales. But recent deep learning object detectors have avoided pyramid representations, in part because they are compute and memory intensive. In this paper, we exploit the inherent multi-scale, pyramidal hierarchy of deep convolutional networks to construct feature pyramids with marginal extra cost. A topdown architecture with lateral connections is developed for building high-level semantic feature maps at all scales. This architecture, called a Feature Pyramid Network (FPN), shows significant improvement as a generic feature extractor in several applications. Using FPN in a basic Faster R-CNN system, our method achieves state-of-the-art singlemodel results on the COCO detection benchmark without bells and whistles, surpassing all existing single-model entries including those from the COCO 2016 challenge winners. In addition, our method can run at 6 FPS on a GPU and thus is a practical and accurate solution to multi-scale object detection. Code will be made publicly available.
translated by 谷歌翻译
在对象检测模型中,检测骨干机消耗超过一半的整体推理成本。最近的研究试图通过在神经结构搜索(NAS)的帮助下优化骨干架构来降低这一成本。然而,对象检测的现有NAS方法需要数百至数千个GPU小时的搜索,使它们在快节奏的研究和开发中不切实际。在这项工作中,我们提出了一种新的零射NAS方法来解决这个问题。所提出的方法,命名为Zendet,在不训练网络参数的情况下自动设计有效的检测骨干网,从而降低了架构设计成本,几乎归零但提供了最先进的(SOTA)性能。在引擎盖下,Zendet最大化了检测骨干的差分熵,导致对象检测的更好的特征提取器,在相同的计算预算下。在仅为全自动设计的一个GPU日之后,Zendet在多个检测基准数据集上创新了SOTA检测骨干,具有很少的人为干预。与Reset-50个骨干相比,Zendet在Map中使用相同数量的拖波/参数时更好地+ 2.0%,并且在同一地图上的NVIDIA V100速度快1.54倍。稍后将发布代码和预先训练的型号。
translated by 谷歌翻译
特征金字塔网络(FPN)是对象检测器的关键组件之一。但是,对于研究人员来说,长期存在的难题是,引入FPN后通常会抑制大规模物体的检测性能。为此,本文首先在检测框架中重新审视FPN,并从优化的角度揭示了FPN成功的性质。然后,我们指出,大规模对象的性能退化是由于集成FPN后出现不当后传播路径所致。它使每个骨干网络的每个级别都只能查看一定尺度范围内的对象。基于这些分析,提出了两种可行的策略,以使每个级别的级别能够查看基于FPN的检测框架中的所有对象。具体而言,一个是引入辅助目标功能,以使每个骨干级在训练过程中直接接收各种尺度对象的后传播信号。另一个是以更合理的方式构建特征金字塔,以避免非理性的背部传播路径。对可可基准测试的广泛实验验证了我们的分析的健全性和方法的有效性。没有铃铛和口哨,我们证明了我们的方法在各种检测框架上实现了可靠的改进(超过2%):一阶段,两阶段,基于锚的,无锚和变压器的检测器。
translated by 谷歌翻译
压缩高准确性卷积神经网络(CNN)的最新进展已经见证了实时对象检测的显着进步。为了加速检测速度,轻质检测器总是使用单路主链几乎没有卷积层。但是,单路径架构涉及连续的合并和下采样操作,始终导致粗糙和不准确的特征图,这些图形不利,无法找到对象。另一方面,由于网络容量有限,最近的轻质网络在表示大规模的视觉数据方面通常很弱。为了解决这些问题,本文提出了一个名为DPNET的双路径网络,并采用了实时对象检测的轻巧注意方案。双路径体系结构使我们能够与提取物相对于高级语义特征和低级对象详细信息。尽管DPNET相对于单路检测器几乎具有重复的形状,但计算成本和模型大小并未显着增加。为了增强表示能力,轻巧的自相关模块(LSCM)旨在捕获全局交互,只有很少的计算开销和网络参数。在颈部,LSCM扩展到轻质互相关模块(LCCM),从而捕获相邻尺度特征之间的相互依赖性。我们已经对Coco和Pascal VOC 2007数据集进行了详尽的实验。实验结果表明,DPNET在检测准确性和实施效率之间实现了最新的权衡。具体而言,DPNET在MS COCO Test-DEV上可实现30.5%的AP,Pascal VOC 2007测试集上的81.5%地图,MWITH近250万型号,1.04 GFLOPS,1.04 GFLOPS和164 fps和196 fps和196 fps,320 x 320输入图像的320 x 320输入图像。
translated by 谷歌翻译
现代物体检测网络追求一般物体检测数据集的更高精度,同时计算负担也随着精度的提高而越来越多。然而,推理时间和精度对于需要是实时的对象检测系统至关重要。没有额外的计算成本,有必要研究精度改进。在这项工作中,提出了两种模块以提高零成本的检测精度,这是一般对象检测网络的FPN和检测头改进。我们采用规模注意机制,以有效地保险熔断多级功能映射,参数较少,称为SA-FPN模块。考虑到分类头和回归头的相关性,我们使用顺序头取代广泛使用的并联头部,称为SEQ-Head模块。为了评估有效性,我们将这两个模块应用于一些现代最先进的对象检测网络,包括基于锚和无锚。 Coco DataSet上的实验结果表明,具有两个模块的网络可以将原始网络超越1.1 AP和0.8 AP,分别为锚的锚和无锚网络的零成本。代码将在https://git.io/jtfgl提供。
translated by 谷歌翻译
ous vision tasks without convolutions, where it can be used as a direct replacement for CNN backbones. (3) We validate PVT through extensive experiments, showing that it boosts the performance of many downstream tasks, including object detection, instance and semantic segmentation. For example, with a comparable number of parameters, PVT+RetinaNet achieves 40.4 AP on the COCO dataset, surpassing ResNet50+RetinNet (36.3 AP) by 4.1 absolute AP (see Figure 2). We hope that PVT could serve as an alternative and useful backbone for pixel-level predictions and facilitate future research.
translated by 谷歌翻译
现代的高性能语义分割方法采用沉重的主链和扩张的卷积来提取相关特征。尽管使用上下文和语义信息提取功能对于分割任务至关重要,但它为实时应用程序带来了内存足迹和高计算成本。本文提出了一种新模型,以实现实时道路场景语义细分的准确性/速度之间的权衡。具体来说,我们提出了一个名为“比例吸引的条带引导特征金字塔网络”(s \ textsuperscript {2} -fpn)的轻巧模型。我们的网络由三个主要模块组成:注意金字塔融合(APF)模块,比例吸引条带注意模块(SSAM)和全局特征Upsample(GFU)模块。 APF采用了注意力机制来学习判别性多尺度特征,并有助于缩小不同级别之间的语义差距。 APF使用量表感知的关注来用垂直剥离操作编码全局上下文,并建模长期依赖性,这有助于将像素与类似的语义标签相关联。此外,APF还采用频道重新加权块(CRB)来强调频道功能。最后,S \ TextSuperScript {2} -fpn的解码器然后采用GFU,该GFU用于融合APF和编码器的功能。已经对两个具有挑战性的语义分割基准进行了广泛的实验,这表明我们的方法通过不同的模型设置实现了更好的准确性/速度权衡。提出的模型已在CityScapes Dataset上实现了76.2 \%miou/87.3fps,77.4 \%miou/67fps和77.8 \%miou/30.5fps,以及69.6 \%miou,71.0 miou,71.0 \%miou,和74.2 \%\%\%\%\%\%。 miou在Camvid数据集上。这项工作的代码将在\ url {https://github.com/mohamedac29/s2-fpn提供。
translated by 谷歌翻译
现有的多尺度解决方案会导致仅增加接受场大小的风险,同时忽略小型接受场。因此,有效构建自适应神经网络以识别各种空间尺度对象是一个具有挑战性的问题。为了解决这个问题,我们首先引入一个新的注意力维度,即除了现有的注意力维度(例如渠道,空间和分支)之外,并提出了一个新颖的选择性深度注意网络,以对称地处理各种视觉中的多尺度对象任务。具体而言,在给定神经网络的每个阶段内的块,即重新连接,输出层次功能映射共享相同的分辨率但具有不同的接收场大小。基于此结构属性,我们设计了一个舞台建筑模块,即SDA,其中包括树干分支和类似SE的注意力分支。躯干分支的块输出融合在一起,以通过注意力分支指导其深度注意力分配。根据提出的注意机制,我们可以动态选择不同的深度特征,这有助于自适应调整可变大小输入对象的接收场大小。这样,跨块信息相互作用会导致沿深度方向的远距离依赖关系。与其他多尺度方法相比,我们的SDA方法结合了从以前的块到舞台输出的多个接受场,从而提供了更广泛,更丰富的有效接收场。此外,我们的方法可以用作其他多尺度网络以及注意力网络的可插入模块,并创造为SDA- $ x $ net。它们的组合进一步扩展了有效的接受场的范围,可以实现可解释的神经网络。我们的源代码可在\ url {https://github.com/qingbeiguo/sda-xnet.git}中获得。
translated by 谷歌翻译
由于存储器和计算资源有限,部署在移动设备上的卷积神经网络(CNNS)是困难的。我们的目标是通过利用特征图中的冗余来设计包括CPU和GPU的异构设备的高效神经网络,这很少在神经结构设计中进行了研究。对于类似CPU的设备,我们提出了一种新颖的CPU高效的Ghost(C-Ghost)模块,以生成从廉价操作的更多特征映射。基于一组内在的特征映射,我们使用廉价的成本应用一系列线性变换,以生成许多幽灵特征图,可以完全揭示内在特征的信息。所提出的C-Ghost模块可以作为即插即用组件,以升级现有的卷积神经网络。 C-Ghost瓶颈旨在堆叠C-Ghost模块,然后可以轻松建立轻量级的C-Ghostnet。我们进一步考虑GPU设备的有效网络。在建筑阶段的情况下,不涉及太多的GPU效率(例如,深度明智的卷积),我们建议利用阶段明智的特征冗余来制定GPU高效的幽灵(G-GHOST)阶段结构。舞台中的特征被分成两个部分,其中使用具有较少输出通道的原始块处理第一部分,用于生成内在特征,另一个通过利用阶段明智的冗余来生成廉价的操作。在基准测试上进行的实验证明了所提出的C-Ghost模块和G-Ghost阶段的有效性。 C-Ghostnet和G-Ghostnet分别可以分别实现CPU和GPU的准确性和延迟的最佳权衡。代码可在https://github.com/huawei-noah/cv-backbones获得。
translated by 谷歌翻译
Current state-of-the-art convolutional architectures for object detection are manually designed. Here we aim to learn a better architecture of feature pyramid network for object detection. We adopt Neural Architecture Search and discover a new feature pyramid architecture in a novel scalable search space covering all cross-scale connections. The discovered architecture, named NAS-FPN, consists of a combination of top-down and bottom-up connections to fuse features across scales. NAS-FPN, combined with various backbone models in the RetinaNet framework, achieves better accuracy and latency tradeoff compared to state-ofthe-art object detection models. NAS-FPN improves mobile detection accuracy by 2 AP compared to state-of-the-art SS-DLite with MobileNetV2 model in [32] and achieves 48.3 AP which surpasses Mask R-CNN [10] detection accuracy with less computation time.
translated by 谷歌翻译