遥控传感器图像对象检测是地球观察的重要技术,可用于各种任务,例如森林火灾监测和海洋监测。尽管有很大的发展,但图像对象检测技术尽管有很大的发展,但由于小对象的像素有限,因此仍在努力处理遥控传感器图像和小规模对象。许多现有的研究表明,促进小物体检测的有效方法是引入空间环境。同时,最近对图像分类的研究表明,光谱卷积操作比空间域更有效地感知频域中的长期空间依赖性。受到这一观察的启发,我们提出了用于遥感对象检测的频率感知功能金字塔框架(FFPF),该框架由新型的频率感知重新NET(F-RESNET)和双侧光谱感知特征特征网络(BS-FPN(BS-FPN)组成(BS-FPN)(BS-FPN) )。具体而言,提出了F-Resnet通过将频域卷积插入主链的每个阶段,从而提取了小物体的更丰富特征来感知光谱上下文信息。据我们所知,这是第一项将频域卷积引入遥感对象检测任务的工作。此外,BSFPN旨在使用双边采样策略和跳过连接,以更好地对象在不同尺度上的对象特征的关联进行建模,以从F-Resnet中释放光谱上下文信息的潜力。进行了广泛的实验,以在光学遥感图像数据集(DIOR和DOTA)中进行对象检测。实验结果证明了我们方法的出色性能。它可以达到平均准确性(地图),没有任何技巧。
translated by 谷歌翻译
遥感图像中的实例分段的任务,旨在在实例级别执行对象的每像素标记,对于各种民用应用非常重要。尽管以前的成功,但大多数现有的实例分割方法设计用于自然图像时,可以在直接应用于顶视图遥感图像时遇到清晰的性能下降。通过仔细分析,我们观察到由于严重的规模变化,低对比度和聚类分布,挑战主要来自歧视性对象特征。为了解决这些问题,提出了一种新颖的上下文聚合网络(CATNET)来改善特征提取过程。所提出的模型利用了三个轻量级的即插即用模块,即密度特征金字塔网络(Densfpn),空间上下文金字塔(SCP)和兴趣提取器(Hroie)的分层区域,以聚合在功能,空间和的全局视觉上下文实例域分别。 DenseFPN是一种多尺度特征传播模块,通过采用级别的残差连接,交叉级密度连接和具有重新加权策略来建立更灵活的信息流。利用注意力机制,SCP进一步通过将全局空间上下文聚合到当地区域来增强特征。对于每个实例,Hroie自适应地为不同的下游任务生成ROI功能。我们对挑战ISAID,DIOR,NWPU VHR-10和HRSID数据集进行了广泛的评估。评估结果表明,所提出的方法优于具有类似的计算成本的最先进。代码可在https://github.com/yeliudev/catnet上获得。
translated by 谷歌翻译
现代物体检测网络追求一般物体检测数据集的更高精度,同时计算负担也随着精度的提高而越来越多。然而,推理时间和精度对于需要是实时的对象检测系统至关重要。没有额外的计算成本,有必要研究精度改进。在这项工作中,提出了两种模块以提高零成本的检测精度,这是一般对象检测网络的FPN和检测头改进。我们采用规模注意机制,以有效地保险熔断多级功能映射,参数较少,称为SA-FPN模块。考虑到分类头和回归头的相关性,我们使用顺序头取代广泛使用的并联头部,称为SEQ-Head模块。为了评估有效性,我们将这两个模块应用于一些现代最先进的对象检测网络,包括基于锚和无锚。 Coco DataSet上的实验结果表明,具有两个模块的网络可以将原始网络超越1.1 AP和0.8 AP,分别为锚的锚和无锚网络的零成本。代码将在https://git.io/jtfgl提供。
translated by 谷歌翻译
最近已经设计了一些轻巧的卷积神经网络(CNN)模型,用于遥感对象检测(RSOD)。但是,他们中的大多数只是用可分离的卷积代替了香草卷积,这可能是由于很多精确损失而无法有效的,并且可能无法检测到方向的边界框(OBB)。同样,现有的OBB检测方法很难准确限制CNN预测的对象的形状。在本文中,我们提出了一个有效的面向轻质对象检测器(LO-DET)。具体而言,通道分离聚集(CSA)结构旨在简化可分开的卷积的复杂性,并开发了动态的接收场(DRF)机制,以通过自定义卷积内核及其感知范围来保持高精度,以保持高精度。网络复杂性。 CSA-DRF组件在保持高精度的同时优化了效率。然后,对角支撑约束头(DSC-Head)组件旨在检测OBB,并更准确,更稳定地限制其形状。公共数据集上的广泛实验表明,即使在嵌入式设备上,拟议的LO-DET也可以非常快地运行,具有检测方向对象的竞争精度。
translated by 谷歌翻译
本文提出了平行残留的双融合特征金字塔网络(PRB-FPN),以快速准确地单光对象检测。特征金字塔(FP)在最近的视觉检测中被广泛使用,但是由于汇总转换,FP的自上而下的途径无法保留准确的定位。随着使用更多层的更深骨干,FP的优势被削弱了。此外,它不能同时准确地检测到小物体。为了解决这些问题,我们提出了一种新的并行FP结构,具有双向(自上而下和自下而上)的融合以及相关的改进,以保留高质量的特征以进行准确定位。我们提供以下设计改进:(1)具有自下而上的融合模块(BFM)的平行分歧FP结构,以高精度立即检测小物体和大对象。 (2)串联和重组(CORE)模块为特征融合提供了自下而上的途径,该途径导致双向融合FP,可以从低层特征图中恢复丢失的信息。 (3)进一步纯化核心功能以保留更丰富的上下文信息。自上而下和自下而上的途径中的这种核心净化只能在几次迭代中完成。 (4)将残留设计添加到核心中,导致了一个新的重核模块,该模块可以轻松训练和集成,并具有更深入或更轻的骨架。所提出的网络可在UAVDT17和MS COCO数据集上实现最新性能。代码可在https://github.com/pingyang1117/prbnet_pytorch上找到。
translated by 谷歌翻译
由于规模和形状的极端复杂性以及预测位置的不确定性,光学遥感图像(RSI-SOD)中的显着对象检测是一项非常困难的任务。现有的SOD方法可以满足自然场景图像的检测性能,但是由于遥感图像中上述图像特性,它们不能很好地适应RSI-SOD。在本文中,我们为光学RSIS中的SOD提出了一个新颖的注意力指导网络(AGNET),包括位置增强阶段和细节细节阶段。具体而言,位置增强阶段由语义注意模块和上下文注意模块组成,以准确描述显着对象的大致位置。细节完善阶段使用提出的自我注册模块在注意力的指导下逐步完善预测结果并逆转注意力。此外,混合损失用于监督网络的培训,这可以从像素,区域和统计数据的三个角度来改善模型的性能。在两个流行的基准上进行的广泛实验表明,与其他最先进的方法相比,AGNET可以达到竞争性能。该代码将在https://github.com/nuaayh/agnet上找到。
translated by 谷歌翻译
X射线图像在制造业的质量保证中起着重要作用,因为它可以反映焊接区域的内部条件。然而,不同缺陷类型的形状和规模大大变化,这使得模型检测焊接缺陷的挑战性。在本文中,我们提出了一种基于卷积神经网络的焊接缺陷检测方法,即打火机和更快的YOLO(LF-YOLO)。具体地,增强的多尺度特征(RMF)模块旨在实现基于参数和无参数的多尺度信息提取操作。 RMF使得提取的特征映射能够代表更丰富的信息,该信息是通过卓越的层级融合结构实现的。为了提高检测网络的性能,我们提出了一个有效的特征提取(EFE)模块。 EFE处理具有极低消耗量的输入数据,并提高了实际行业中整个网络的实用性。实验结果表明,我们的焊接缺陷检测网络在性能和消耗之间实现了令人满意的平衡,达到92.9平均平均精度MAP50,每秒61.5帧(FPS)。为了进一步证明我们方法的能力,我们在公共数据集MS Coco上测试它,结果表明我们的LF-YOLO具有出色的多功能性检测性能。代码可在https://github.com/lmomoy/lf-yolo上获得。
translated by 谷歌翻译
空中图像中的对象检测是地球科学和遥感领域的基本研究任务。但是,该主题的先进进展主要集中在设计渐进式骨干架构或头部网络上,但忽略了颈部网络。在这封信中,我们首先从信息瓶颈的角度分析了颈部网络在对象检测中的重要性。然后,为了减轻当前颈部网络中的信息缺乏问题,我们提出了一个全球语义网络(GSNET),该网络充当双向全球模式的桥梁。与现有的颈部网络相比,我们的模型可以捕获具有较少计算成本的丰富和详细图像功能。此外,我们进一步提出了一个特征融合细化模块(FRM),用于不同级别的特征地图,这些图形遇到了较大的信息差距。为了证明我们方法的有效性和效率,在两个具有挑战性的数据集(即DOTA和HRSC2016)上进行了实验。在识别精度和计算复杂性方面的实验结果验证了我们方法的优越性。该代码已在GSNET开源。
translated by 谷歌翻译
现有的多尺度解决方案会导致仅增加接受场大小的风险,同时忽略小型接受场。因此,有效构建自适应神经网络以识别各种空间尺度对象是一个具有挑战性的问题。为了解决这个问题,我们首先引入一个新的注意力维度,即除了现有的注意力维度(例如渠道,空间和分支)之外,并提出了一个新颖的选择性深度注意网络,以对称地处理各种视觉中的多尺度对象任务。具体而言,在给定神经网络的每个阶段内的块,即重新连接,输出层次功能映射共享相同的分辨率但具有不同的接收场大小。基于此结构属性,我们设计了一个舞台建筑模块,即SDA,其中包括树干分支和类似SE的注意力分支。躯干分支的块输出融合在一起,以通过注意力分支指导其深度注意力分配。根据提出的注意机制,我们可以动态选择不同的深度特征,这有助于自适应调整可变大小输入对象的接收场大小。这样,跨块信息相互作用会导致沿深度方向的远距离依赖关系。与其他多尺度方法相比,我们的SDA方法结合了从以前的块到舞台输出的多个接受场,从而提供了更广泛,更丰富的有效接收场。此外,我们的方法可以用作其他多尺度网络以及注意力网络的可插入模块,并创造为SDA- $ x $ net。它们的组合进一步扩展了有效的接受场的范围,可以实现可解释的神经网络。我们的源代码可在\ url {https://github.com/qingbeiguo/sda-xnet.git}中获得。
translated by 谷歌翻译
现代的高性能语义分割方法采用沉重的主链和扩张的卷积来提取相关特征。尽管使用上下文和语义信息提取功能对于分割任务至关重要,但它为实时应用程序带来了内存足迹和高计算成本。本文提出了一种新模型,以实现实时道路场景语义细分的准确性/速度之间的权衡。具体来说,我们提出了一个名为“比例吸引的条带引导特征金字塔网络”(s \ textsuperscript {2} -fpn)的轻巧模型。我们的网络由三个主要模块组成:注意金字塔融合(APF)模块,比例吸引条带注意模块(SSAM)和全局特征Upsample(GFU)模块。 APF采用了注意力机制来学习判别性多尺度特征,并有助于缩小不同级别之间的语义差距。 APF使用量表感知的关注来用垂直剥离操作编码全局上下文,并建模长期依赖性,这有助于将像素与类似的语义标签相关联。此外,APF还采用频道重新加权块(CRB)来强调频道功能。最后,S \ TextSuperScript {2} -fpn的解码器然后采用GFU,该GFU用于融合APF和编码器的功能。已经对两个具有挑战性的语义分割基准进行了广泛的实验,这表明我们的方法通过不同的模型设置实现了更好的准确性/速度权衡。提出的模型已在CityScapes Dataset上实现了76.2 \%miou/87.3fps,77.4 \%miou/67fps和77.8 \%miou/30.5fps,以及69.6 \%miou,71.0 miou,71.0 \%miou,和74.2 \%\%\%\%\%\%。 miou在Camvid数据集上。这项工作的代码将在\ url {https://github.com/mohamedac29/s2-fpn提供。
translated by 谷歌翻译
在像素级别的特定类别分配地理空间对象是遥感图像分析中的基本任务。随着传感器技术的快速发展,可以在多个空间分辨率(MSR)中捕获远程感测图像,信息内容显示在不同的尺度上。从这些MSR图像中提取信息表示增强特征表示和表征的巨大机会。但是,MSR图像遭受了两个关键问题:1)地理对象的比例变化和2)在粗略空间分辨率下丢失详细信息。为了弥合这些差距,在本文中,我们提出了一种用于MSR远程感知图像的语义细分的新型刻度感知神经网络(SANET)。 SANET部署了密集连接的特征网络(DCFFM)模块,以捕获高质量的多尺度上下文,使得刻度变化正确地处理,并且对于大型和小物体而增加分割质量。空间特征重新校准(SFRM)模块进一步结合到网络中以学习具有增强的空间关系的完整语义内容,其中删除了信息丢失的负面影响。 DCFFM和SFRM的组合允许SANET学习尺度感知功能表示,这胜过现有的多尺度特征表示。三个语义分割数据集的广泛实验证明了拟议的Sanet在跨分辨率细分中的有效性。
translated by 谷歌翻译
In recent years, object detection has achieved a very large performance improvement, but the detection result of small objects is still not very satisfactory. This work proposes a strategy based on feature fusion and dilated convolution that employs dilated convolution to broaden the receptive field of feature maps at various scales in order to address this issue. On the one hand, it can improve the detection accuracy of larger objects. On the other hand, it provides more contextual information for small objects, which is beneficial to improving the detection accuracy of small objects. The shallow semantic information of small objects is obtained by filtering out the noise in the feature map, and the feature information of more small objects is preserved by using multi-scale fusion feature module and attention mechanism. The fusion of these shallow feature information and deep semantic information can generate richer feature maps for small object detection. Experiments show that this method can have higher accuracy than the traditional YOLOv3 network in the detection of small objects and occluded objects. In addition, we achieve 32.8\% Mean Average Precision on the detection of small objects on MS COCO2017 test set. For 640*640 input, this method has 88.76\% mAP on the PASCAL VOC2012 dataset.
translated by 谷歌翻译
伪装的对象检测(COD)旨在识别自然场景中隐藏自己的物体。准确的COD遭受了许多与低边界对比度有关的挑战,并且对象出现(例如对象大小和形状)的较大变化。为了应对这些挑战,我们提出了一种新颖的背景感知跨层次融合网络(C2F-net),该网络融合了上下文感知的跨级特征,以准确识别伪装的对象。具体而言,我们通过注意力诱导的跨融合模块(ACFM)来计算来自多级特征的内容丰富的注意系数,该模块(ACFM)进一步在注意系数的指导下进一步集成了特征。然后,我们提出了一个双分支全局上下文模块(DGCM),以通过利用丰富的全球上下文信息来完善内容丰富的功能表示的融合功能。多个ACFM和DGCM以级联的方式集成,以产生高级特征的粗略预测。粗糙的预测充当了注意力图,以完善低级特征,然后再将其传递到我们的伪装推断模块(CIM)以生成最终预测。我们对三个广泛使用的基准数据集进行了广泛的实验,并将C2F-NET与最新模型(SOTA)模型进行比较。结果表明,C2F-NET是一种有效的COD模型,并且表现出明显的SOTA模型。此外,对息肉细分数据集的评估证明了我们在COD下游应用程序中C2F-NET的有希望的潜力。我们的代码可在以下网址公开获取:https://github.com/ben57882/c2fnet-tscvt。
translated by 谷歌翻译
Semantic segmentation of UAV aerial remote sensing images provides a more efficient and convenient surveying and mapping method for traditional surveying and mapping. In order to make the model lightweight and improve a certain accuracy, this research developed a new lightweight and efficient network for the extraction of ground features from UAV aerial remote sensing images, called LDMCNet. Meanwhile, this research develops a powerful lightweight backbone network for the proposed semantic segmentation model. It is called LDCNet, and it is hoped that it can become the backbone network of a new generation of lightweight semantic segmentation algorithms. The proposed model uses dual multi-scale context modules, namely the Atrous Space Pyramid Pooling module (ASPP) and the Object Context Representation module (OCR). In addition, this research constructs a private dataset for semantic segmentation of aerial remote sensing images from drones. This data set contains 2431 training sets, 945 validation sets, and 475 test sets. The proposed model performs well on this dataset, with only 1.4M parameters and 5.48G floating-point operations (FLOPs), achieving an average intersection-over-union ratio (mIoU) of 71.12%. 7.88% higher than the baseline model. In order to verify the effectiveness of the proposed model, training on the public datasets "LoveDA" and "CITY-OSM" also achieved excellent results, achieving mIoU of 65.27% and 74.39%, respectively.
translated by 谷歌翻译
由于卷积在提取物体的局部上下文中,在过去十年中,对象检测在过去十年中取得了重大进展。但是,对象的尺度是多样的,当前卷积只能处理单尺度输入。因此,传统卷积具有固定接收场在处理这种规模差异问题方面的能力受到限制。多尺度功能表示已被证明是缓解规模差异问题的有效方法。最近的研究主要与某些量表或各个尺度的总体特征采用部分联系,并专注于整个量表的全球信息。但是,跨空间和深度维度的信息被忽略了。受此启发,我们提出了多尺度卷积(MSCONV)来解决此问题。同时考虑到量表,空间和深度信息,MSCONV能够更全面地处理多尺度输入。 MSCONV是有效的,并且在计算上是有效的,只有少量计算成本增加。对于大多数单阶段对象探测器,在检测头中用MSCONV代替传统的卷积可以带来AP的2.5 \%改进(在Coco 2017数据集上),只有3 \%的拖鞋增加了。 MSCONV对于两阶段对象探测器也具有灵活性和有效性。当扩展到主流两阶段对象检测器时,MSCONV的AP可以提高3.0 \%。我们在单尺度测试下的最佳模型在Coco 2017上实现了48.9 \%AP,\ textit {test-dev} Split,它超过了许多最新方法。
translated by 谷歌翻译
在过去的十年中,基于深度学习的算法在遥感图像分析的不同领域中广泛流行。最近,最初在自然语言处理中引入的基于变形金刚的体系结构遍布计算机视觉领域,在该字段中,自我发挥的机制已被用作替代流行的卷积操作员来捕获长期依赖性。受到计算机视觉的最新进展的启发,遥感社区还见证了对各种任务的视觉变压器的探索。尽管许多调查都集中在计算机视觉中的变压器上,但据我们所知,我们是第一个对基于遥感中变压器的最新进展进行系统评价的人。我们的调查涵盖了60多种基于变形金刚的60多种方法,用于遥感子方面的不同遥感问题:非常高分辨率(VHR),高光谱(HSI)和合成孔径雷达(SAR)图像。我们通过讨论遥感中变压器的不同挑战和开放问题来结束调查。此外,我们打算在遥感论文中频繁更新和维护最新的变压器,及其各自的代码:https://github.com/virobo-15/transformer-in-in-remote-sensing
translated by 谷歌翻译
最近,深度学习技术已被广泛用于图像识别领域。但是,其主要应用是对普通图片和常见场景的识别和检测。有效,有效地分析图像采集系统在无人机(UAVS)上获得的遥感图像(UAVS)的遥感图像是一项挑战,其中包括确定目标和其位置的计算。与普通图像或图像相比,空中遥感图像具有不同的拍摄角度和方法,这使得遥感图像在某些区域起着不可替代的作用。在这项研究中,提出了一种新的目标检测和识别方法,该方法是基于深度卷积神经网络(CNN)提出的,用于提供图像的多层次信息,并结合用于生成多式区域的区域建议网络。兴趣。所提出的方法产生的结果比传统方式获得的结果要准确和精确得多。这表明本文提出的模型在遥感图像识别中显示出巨大的适用性潜力。
translated by 谷歌翻译
最近,已经成功地应用于各种遥感图像(RSI)识别任务的大量基于深度学习的方法。然而,RSI字段中深度学习方法的大多数现有进步严重依赖于手动设计的骨干网络提取的特征,这严重阻碍了由于RSI的复杂性以及先前知识的限制而受到深度学习模型的潜力。在本文中,我们研究了RSI识别任务中的骨干架构的新设计范式,包括场景分类,陆地覆盖分类和对象检测。提出了一种基于权重共享策略和进化算法的一拍架构搜索框架,称为RSBNet,其中包括三个阶段:首先,在层面搜索空间中构造的超空网是在自组装的大型中预先磨削 - 基于集合单路径培训策略进行缩放RSI数据集。接下来,预先培训的SuperNet通过可切换识别模块配备不同的识别头,并分别在目标数据集上进行微调,以获取特定于任务特定的超网络。最后,我们根据没有任何网络训练的进化算法,搜索最佳骨干架构进行不同识别任务。对于不同识别任务的五个基准数据集进行了广泛的实验,结果显示了所提出的搜索范例的有效性,并证明搜索后的骨干能够灵活地调整不同的RSI识别任务并实现令人印象深刻的性能。
translated by 谷歌翻译
随着深度卷积神经网络的兴起,对象检测在过去几年中取得了突出的进步。但是,这种繁荣无法掩盖小物体检测(SOD)的不令人满意的情况,这是计算机视觉中臭名昭著的挑战性任务之一,这是由于视觉外观不佳和由小目标的内在结构引起的嘈杂表示。此外,用于基准小对象检测方法基准测试的大规模数据集仍然是瓶颈。在本文中,我们首先对小物体检测进行了详尽的审查。然后,为了催化SOD的发展,我们分别构建了两个大规模的小物体检测数据集(SODA),SODA-D和SODA-A,分别集中在驾驶和空中场景上。 SODA-D包括24704个高质量的交通图像和277596个9个类别的实例。对于苏打水,我们收集2510个高分辨率航空图像,并在9个类别上注释800203实例。众所周知,拟议的数据集是有史以来首次尝试使用针对多类SOD量身定制的大量注释实例进行大规模基准测试。最后,我们评估主流方法在苏打水上的性能。我们预计发布的基准可以促进SOD的发展,并产生该领域的更多突破。数据集和代码将很快在:\ url {https://shaunyuan22.github.io/soda}上。
translated by 谷歌翻译
交通标志检测是无人驾驶系统的具有挑战性的任务,特别是对于检测多尺度目标和检测的实时问题。在交通标志检测过程中,目标的比例大大变化,这将对检测精度产生一定的影响。特征金字塔广泛用于解决这个问题,但它可能会破坏不同的交通标志尺度的功能一致性。此外,在实际应用中,常用方法难以提高多尺度交通标志的检测精度,同时确保实时检测。在本文中,我们提出了一种改进的特征金字塔模型,名为AF-FPN,它利用自适应注意模块(AAM)和特征增强模块(FEM)来减少特征映射生成过程中的信息损失,并提高表示能力特征金字塔。我们用AF-FPN替换了YOLOV5中的原始特征金字塔网络,这在确保实时检测的前提下提高了YOLOV5网络的多尺度目标的检测性能。此外,提出了一种新的自动学习数据增强方法来丰富数据集,提高模型的稳健性,使其更适合实际情况。关于清华腾讯100K(TT100K)数据集的广泛实验结果证明了与多种最先进的方法相比,所提出的方法的有效性和优越性。
translated by 谷歌翻译