大坝水库在实现可持续发展目标和全球气候目标方面发挥着重要作用。但是,特别是对于小型水坝水库,其地理位置缺乏一致的数据。为了解决此数据差距,一种有前途的方法是根据全球可用的遥感图像进行自动水坝水库提取。它可以被认为是水体提取的精细颗粒任务,涉及在图像中提取水区,然后将水坝储层与天然水体分开。我们提出了一种基于新型的深神经网络(DNN)管道,该管道将大坝水库提取到水体分割和大坝储层识别中。首先将水体与分割模型中的背景土地分开,然后将每个水体预测为大坝储层或分类模型中的天然水体。对于以前的一步,将跨图像的点级度量学习注入分段模型,以解决水域和土地区域之间的轮廓模棱两可。对于后一个步骤,将带有簇的三重态的先前引导的度量学习注入到分类模型中,以根据储层簇在细粒度中优化图像嵌入空间。为了促进未来的研究,我们建立了一个带有地球图像数据的基准数据集,并从西非和印度的河流盆地标记为人类标记的水库。在水体分割任务,水坝水库识别任务和关节坝储层提取任务中,对这个基准进行了广泛的实验。将我们的方法与艺术方法的方法进行比较时,已经在各自的任务中观察到了卓越的性能。
translated by 谷歌翻译
在视觉识别任务中,很少的学习需要在很少的支持示例中学习对象类别的能力。鉴于深度学习的发展,它的重新流行主要是图像分类。这项工作着重于几片语义细分,这仍然是一个未开发的领域。最近的一些进步通常仅限于单级少量分段。在本文中,我们首先介绍了一个新颖的多通道(类)编码和解码体系结构,该体系结构有效地将多尺度查询信息和多类支持信息融合到一个查询支持嵌入中。多级分割直接在此嵌入后解码。为了获得更好的特征融合,在体系结构中提出了多层注意机制,其中包括对支持功能调制的关注和多尺度组合的注意力。最后,为了增强嵌入式空间学习,引入了一个额外的像素度量学习模块,并在输入图像的像素级嵌入式上提出了三重损失。对标准基准Pascal-5i和Coco-20i进行的广泛实验显示了我们方法对最新技术的明显好处
translated by 谷歌翻译
利用深度学习的水提取需要精确的像素级标签。然而,在像素级别标记高分辨率遥感图像非常困难。因此,我们研究如何利用点标签来提取水体并提出一种名为邻居特征聚合网络(NFANET)的新方法。与PixelLevel标签相比,Point标签更容易获得,但它们会失去许多信息。在本文中,我们利用了局部水体的相邻像素之间的相似性,并提出了邻居采样器来重塑遥感图像。然后,将采样的图像发送到网络以进行特征聚合。此外,我们使用改进的递归训练算法进一步提高提取精度,使水边界更加自然。此外,我们的方法利用相邻特征而不是全局或本地特征来学习更多代表性。实验结果表明,所提出的NFANET方法不仅优于其他研究的弱监管方法,而且还获得与最先进的结果相似。
translated by 谷歌翻译
X-ray imaging technology has been used for decades in clinical tasks to reveal the internal condition of different organs, and in recent years, it has become more common in other areas such as industry, security, and geography. The recent development of computer vision and machine learning techniques has also made it easier to automatically process X-ray images and several machine learning-based object (anomaly) detection, classification, and segmentation methods have been recently employed in X-ray image analysis. Due to the high potential of deep learning in related image processing applications, it has been used in most of the studies. This survey reviews the recent research on using computer vision and machine learning for X-ray analysis in industrial production and security applications and covers the applications, techniques, evaluation metrics, datasets, and performance comparison of those techniques on publicly available datasets. We also highlight some drawbacks in the published research and give recommendations for future research in computer vision-based X-ray analysis.
translated by 谷歌翻译
哥内克人Sentinel Imagery的纯粹卷的可用性为使用深度学习的大尺度创造了新的土地利用陆地覆盖(Lulc)映射的机会。虽然在这种大型数据集上培训是一个非琐碎的任务。在这项工作中,我们试验Lulc Image分类和基准不同最先进模型的Bigearthnet数据集,包括卷积神经网络,多层感知,视觉变压器,高效导通和宽残余网络(WRN)架构。我们的目标是利用分类准确性,培训时间和推理率。我们提出了一种基于用于网络深度,宽度和输入数据分辨率的WRNS复合缩放的高效导通的框架,以有效地训练和测试不同的模型设置。我们设计一种新颖的缩放WRN架构,增强了有效的通道注意力机制。我们提出的轻量级模型具有较小的培训参数,实现所有19个LULC类的平均F分类准确度达到4.5%,并且验证了我们使用的resnet50最先进的模型速度快两倍作为基线。我们提供超过50种培训的型号,以及我们在多个GPU节点上分布式培训的代码。
translated by 谷歌翻译
Due to object detection's close relationship with video analysis and image understanding, it has attracted much research attention in recent years. Traditional object detection methods are built on handcrafted features and shallow trainable architectures. Their performance easily stagnates by constructing complex ensembles which combine multiple low-level image features with high-level context from object detectors and scene classifiers. With the rapid development in deep learning, more powerful tools, which are able to learn semantic, high-level, deeper features, are introduced to address the problems existing in traditional architectures. These models behave differently in network architecture, training strategy and optimization function, etc. In this paper, we provide a review on deep learning based object detection frameworks. Our review begins with a brief introduction on the history of deep learning and its representative tool, namely Convolutional Neural Network (CNN). Then we focus on typical generic object detection architectures along with some modifications and useful tricks to improve detection performance further. As distinct specific detection tasks exhibit different characteristics, we also briefly survey several specific tasks, including salient object detection, face detection and pedestrian detection. Experimental analyses are also provided to compare various methods and draw some meaningful conclusions. Finally, several promising directions and tasks are provided to serve as guidelines for future work in both object detection and relevant neural network based learning systems.
translated by 谷歌翻译
语义分割是图像的像素明智标记。由于在像素级别定义了问题,因此确定图像类标签是不可接受的,而是在原始图像像素分辨率下本地化它们是必要的。通过卷积神经网络(CNN)在创建语义,高级和分层图像特征方面的非凡能力推动;在过去十年中提出了几种基于深入的学习的2D语义分割方法。在本调查中,我们主要关注最近的语义细分科学发展,特别是在使用2D图像的基于深度学习的方法。我们开始分析了对2D语义分割的公共图像集和排行榜,概述了性能评估中使用的技术。在研究现场的演变时,我们按时间顺序分类为三个主要时期,即预先和早期的深度学习时代,完全卷积的时代和后FCN时代。我们在技术上分析了解决领域的基本问题的解决方案,例如细粒度的本地化和规模不变性。在借阅我们的结论之前,我们提出了一张来自所有提到的时代的方法表,每个方法都概述了他们对该领域的贡献。我们通过讨论现场当前的挑战以及他们已经解决的程度来结束调查。
translated by 谷歌翻译
土地覆盖分类是一项多级分割任务,将每个像素分类为地球表面的某些天然或人为类别,例如水,土壤,自然植被,农作物和人类基础设施。受硬件计算资源和内存能力的限制,大多数现有研究通过将它们放置或将其裁剪成小于512*512像素的小斑块来预处理原始遥感图像,然后再将它们发送到深神经网络。然而,下调图像会导致空间细节损失,使小细分市场难以区分,并逆转了数十年来努力获得的空间分辨率进度。将图像裁剪成小斑块会导致远程上下文信息的丢失,并将预测的结果恢复为原始大小会带来额外的延迟。为了响应上述弱点,我们提出了称为Mkanet的有效的轻巧的语义分割网络。 Mkanet针对顶视图高分辨率遥感图像的特征,利用共享内核同时且同样处理不一致的尺度的地面段,还采用平行且浅层的体系结构来提高推理速度和友好的支持速度和友好的支持图像贴片,超过10倍。为了增强边界和小段歧视,我们还提出了一种捕获类别杂质区域的方法,利用边界信息并对边界和小部分错误判断施加额外的惩罚。广泛实验的视觉解释和定量指标都表明,Mkanet在两个土地覆盖分类数据集上获得了最先进的准确性,并且比其他竞争性轻量级网络快2倍。所有这些优点突出了Mkanet在实际应用中的潜力。
translated by 谷歌翻译
这项研究介绍了\ textit {landslide4sense},这是一种从遥感中检测到滑坡检测的参考基准。该存储库具有3,799个图像贴片,可从Sentinel-2传感器中融合光学层,并带有数字高程模型和来自ALOS Palsar的斜率层。附加的地形信息促进了对滑坡边界的准确检测,而最近的研究表明,仅使用光学数据,这是具有挑战性的。广泛的数据集支持在滑坡检测中进行深度学习(DL)研究,以及用于系统更新滑坡库存的方法的开发和验证。基准数据集已在四个不同的时间和地理位置收集:伊伯里(2018年9月),科达古(2018年8月),戈尔卡(2015年4月)和台湾(2009年8月)。每个图像像素均标记为属于滑坡,包括各种来源和彻底的手动注释。然后,我们评估11个最先进的DL分割模型的滑坡检测性能:U-NET,RESU-NET,PSPNET,CONTECTNET,DEEPLAB-V2,DEEPLAB-V3+,FCN-8,LINKNET,FRRRN-A,FRRN-A,, FRRN-B和SQNET。所有型号均已从划痕上对每个研究区域的四分之一的补丁进行培训,并在其他三个季度的独立贴片上进行了测试。我们的实验表明,Resu-NET的表现优于其他模型,用于滑坡检测任务。我们在\ url {www.landslide4sense.org}公开获得多种源滑坡基准数据(Landslide4sense)和经过测试的DL模型,为遥感,计算机视觉和机器学习社区建立了重要的资源通常,尤其是对滑坡检测的应用。
translated by 谷歌翻译
大多数最先进的实例级人类解析模型都采用了两阶段的基于锚的探测器,因此无法避免启发式锚盒设计和像素级别缺乏分析。为了解决这两个问题,我们设计了一个实例级人类解析网络,该网络在像素级别上无锚固且可解决。它由两个简单的子网络组成:一个用于边界框预测的无锚检测头和一个用于人体分割的边缘引导解析头。无锚探测器的头继承了像素样的优点,并有效地避免了对象检测应用中证明的超参数的敏感性。通过引入部分感知的边界线索,边缘引导的解析头能够将相邻的人类部分与彼此区分开,最多可在一个人类实例中,甚至重叠的实例。同时,利用了精炼的头部整合盒子级别的分数和部分分析质量,以提高解析结果的质量。在两个多个人类解析数据集(即CIHP和LV-MHP-V2.0)和一个视频实例级人类解析数据集(即VIP)上进行实验,表明我们的方法实现了超过全球级别和实例级别的性能最新的一阶段自上而下的替代方案。
translated by 谷歌翻译
Semantic segmentation works on the computer vision algorithm for assigning each pixel of an image into a class. The task of semantic segmentation should be performed with both accuracy and efficiency. Most of the existing deep FCNs yield to heavy computations and these networks are very power hungry, unsuitable for real-time applications on portable devices. This project analyzes current semantic segmentation models to explore the feasibility of applying these models for emergency response during catastrophic events. We compare the performance of real-time semantic segmentation models with non-real-time counterparts constrained by aerial images under oppositional settings. Furthermore, we train several models on the Flood-Net dataset, containing UAV images captured after Hurricane Harvey, and benchmark their execution on special classes such as flooded buildings vs. non-flooded buildings or flooded roads vs. non-flooded roads. In this project, we developed a real-time UNet based model and deployed that network on Jetson AGX Xavier module.
translated by 谷歌翻译
前所未有的访问多时间卫星图像,为各种地球观察任务开辟了新的视角。其中,农业包裹的像素精确的Panoptic分割具有重大的经济和环境影响。虽然研究人员对单张图像进行了探索了这个问题,但我们争辩说,随着图像的时间序列更好地寻址作物候选的复杂时间模式。在本文中,我们介绍了卫星图像时间序列(坐着)的Panoptic分割的第一端到端,单级方法(坐姿)。该模块可以与我们的新型图像序列编码网络相结合,依赖于时间自我关注,以提取丰富和自适应的多尺度时空特征。我们还介绍了Pastis,第一个开放式访问坐在Panoptic注释的数据集。我们展示了对多个竞争架构的语义细分的编码器的优越性,并建立了坐在的第一封Panoptic细分状态。我们的实施和痛苦是公开的。
translated by 谷歌翻译
Single-frame InfraRed Small Target (SIRST) detection has been a challenging task due to a lack of inherent characteristics, imprecise bounding box regression, a scarcity of real-world datasets, and sensitive localization evaluation. In this paper, we propose a comprehensive solution to these challenges. First, we find that the existing anchor-free label assignment method is prone to mislabeling small targets as background, leading to their omission by detectors. To overcome this issue, we propose an all-scale pseudo-box-based label assignment scheme that relaxes the constraints on scale and decouples the spatial assignment from the size of the ground-truth target. Second, motivated by the structured prior of feature pyramids, we introduce the one-stage cascade refinement network (OSCAR), which uses the high-level head as soft proposals for the low-level refinement head. This allows OSCAR to process the same target in a cascade coarse-to-fine manner. Finally, we present a new research benchmark for infrared small target detection, consisting of the SIRST-V2 dataset of real-world, high-resolution single-frame targets, the normalized contrast evaluation metric, and the DeepInfrared toolkit for detection. We conduct extensive ablation studies to evaluate the components of OSCAR and compare its performance to state-of-the-art model-driven and data-driven methods on the SIRST-V2 benchmark. Our results demonstrate that a top-down cascade refinement framework can improve the accuracy of infrared small target detection without sacrificing efficiency. The DeepInfrared toolkit, dataset, and trained models are available at https://github.com/YimianDai/open-deepinfrared to advance further research in this field.
translated by 谷歌翻译
机载激光扫描(ALS)点云的分类是遥感和摄影测量场的关键任务。尽管最近基于深度学习的方法取得了令人满意的表现,但他们忽略了接受场的统一性,这使得ALS点云分类对于区分具有复杂结构和极端规模变化的区域仍然具有挑战性。在本文中,为了配置多受感受性的场特征,我们提出了一个新型的接受场融合和分层网络(RFFS-NET)。以新颖的扩张图卷积(DGCONV)及其扩展环形扩张卷积(ADCONV)作为基本的构建块,使用扩张和环形图融合(Dagfusion)模块实现了接受场融合过程,该模块获得了多受感染的场特征代表通过捕获带有各种接收区域的扩张和环形图。随着计算碱基的计算基础,使用嵌套在RFFS-NET中的多级解码器进行的接收场的分层,并由多层接受场聚集损失(MRFALOSS)驱动,以驱动网络驱动网络以学习在具有不同分辨率的监督标签的方向。通过接受场融合和分层,RFFS-NET更适应大型ALS点云中具有复杂结构和极端尺度变化区域的分类。在ISPRS Vaihingen 3D数据集上进行了评估,我们的RFFS-NET显着优于MF1的基线方法5.3%,而MIOU的基线方法的总体准确性为82.1%,MF1的总准确度为71.6%,MIOU的MF1和MIOU为58.2%。此外,LASDU数据集和2019 IEEE-GRSS数据融合竞赛数据集的实验显示,RFFS-NET可以实现新的最新分类性能。
translated by 谷歌翻译
我们对最近的自我和半监督ML技术进行严格的评估,从而利用未标记的数据来改善下游任务绩效,以河床分割的三个遥感任务,陆地覆盖映射和洪水映射。这些方法对于遥感任务特别有价值,因为易于访问未标记的图像,并获得地面真理标签通常可以昂贵。当未标记的图像(标记数据集之外)提供培训时,我们量化性能改进可以对这些遥感分割任务进行期望。我们还设计实验以测试这些技术的有效性,当测试集相对于训练和验证集具有域移位时。
translated by 谷歌翻译
上下文信息对于各种计算机视觉任务至关重要,以前的作品通常设计插件模块和结构损失,以有效地提取和汇总全局上下文。这些方法利用优质标签来优化模型,但忽略了精细训练的特征也是宝贵的训练资源,可以将优选的分布引入硬像素(即错误分类的像素)。受到无监督范式的对比学习的启发,我们以监督的方式应用了对比度损失,并重新设计了损失功能,以抛弃无监督学习的刻板印象(例如,积极和负面的不平衡,对锚定计算的混淆)。为此,我们提出了阳性阴性相等的对比损失(PNE损失),这增加了阳性嵌入对锚的潜在影响,并同时对待阳性和阴性样本对。 PNE损失可以直接插入现有的语义细分框架中,并以可忽视的额外计算成本导致出色的性能。我们利用许多经典的分割方法(例如,DeepLabv3,Ocrnet,Upernet)和骨干(例如Resnet,Hrnet,Swin Transformer)进行全面的实验,并在两个基准数据集(例如,例如,例如,,例如城市景观和可可固定)。我们的代码将公开
translated by 谷歌翻译
尽管近期基于深度学习的语义细分,但远程感测图像的自动建筑检测仍然是一个具有挑战性的问题,由于全球建筑物的出现巨大变化。误差主要发生在构建足迹的边界,阴影区域,以及检测外表面具有与周围区域非常相似的反射率特性的建筑物。为了克服这些问题,我们提出了一种生成的对抗基于网络的基于网络的分割框架,其具有嵌入在发电机中的不确定性关注单元和改进模块。由边缘和反向关注单元组成的细化模块,旨在精炼预测的建筑地图。边缘注意力增强了边界特征,以估计更高的精度,并且反向关注允许网络探索先前估计区域中缺少的功能。不确定性关注单元有助于网络解决分类中的不确定性。作为我们方法的权力的衡量标准,截至2021年12月4日,它在Deepglobe公共领导板上的第二名,尽管我们的方法的主要重点 - 建筑边缘 - 并不完全对齐用于排行榜排名的指标。 DeepGlobe充满挑战数据集的整体F1分数为0.745。我们还报告了对挑战的Inria验证数据集的最佳成绩,我们的网络实现了81.28%的总体验证,总体准确性为97.03%。沿着同一条线,对于官方Inria测试数据集,我们的网络总体上得分77.86%和96.41%,而且准确性。
translated by 谷歌翻译
海洋生态系统及其鱼类栖息地越来越重要,因为它们在提供有价值的食物来源和保护效果方面的重要作用。由于它们的偏僻且难以接近自然,因此通常使用水下摄像头对海洋环境和鱼类栖息地进行监测。这些相机产生了大量数字数据,这些数据无法通过当前的手动处理方法有效地分析,这些方法涉及人类观察者。 DL是一种尖端的AI技术,在分析视觉数据时表现出了前所未有的性能。尽管它应用于无数领域,但仍在探索其在水下鱼类栖息地监测中的使用。在本文中,我们提供了一个涵盖DL的关键概念的教程,该教程可帮助读者了解对DL的工作原理的高级理解。该教程还解释了一个逐步的程序,讲述了如何为诸如水下鱼类监测等挑战性应用开发DL算法。此外,我们还提供了针对鱼类栖息地监测的关键深度学习技术的全面调查,包括分类,计数,定位和细分。此外,我们对水下鱼类数据集进行了公开调查,并比较水下鱼类监测域中的各种DL技术。我们还讨论了鱼类栖息地加工深度学习的新兴领域的一些挑战和机遇。本文是为了作为希望掌握对DL的高级了解,通过遵循我们的分步教程而为其应用开发的海洋科学家的教程,并了解如何发展其研究,以促进他们的研究。努力。同时,它适用于希望调查基于DL的最先进方法的计算机科学家,以进行鱼类栖息地监测。
translated by 谷歌翻译
Semantic segmentation of UAV aerial remote sensing images provides a more efficient and convenient surveying and mapping method for traditional surveying and mapping. In order to make the model lightweight and improve a certain accuracy, this research developed a new lightweight and efficient network for the extraction of ground features from UAV aerial remote sensing images, called LDMCNet. Meanwhile, this research develops a powerful lightweight backbone network for the proposed semantic segmentation model. It is called LDCNet, and it is hoped that it can become the backbone network of a new generation of lightweight semantic segmentation algorithms. The proposed model uses dual multi-scale context modules, namely the Atrous Space Pyramid Pooling module (ASPP) and the Object Context Representation module (OCR). In addition, this research constructs a private dataset for semantic segmentation of aerial remote sensing images from drones. This data set contains 2431 training sets, 945 validation sets, and 475 test sets. The proposed model performs well on this dataset, with only 1.4M parameters and 5.48G floating-point operations (FLOPs), achieving an average intersection-over-union ratio (mIoU) of 71.12%. 7.88% higher than the baseline model. In order to verify the effectiveness of the proposed model, training on the public datasets "LoveDA" and "CITY-OSM" also achieved excellent results, achieving mIoU of 65.27% and 74.39%, respectively.
translated by 谷歌翻译
学习遥感(RS)图像之间的相似性形成基于内容的RS图像检索(CBIR)的基础。最近,将图像的语义相似性映射到嵌入(度量标准)空间的深度度量学习方法已经发现非常流行。学习公制空间的常见方法依赖于将与作为锚称为锚的参考图像的类似(正)和不同(负)图像的三胞胎的选择。选择三胞胎是一个难以为多标签RS CBIR的困难任务,其中每个训练图像由多个类标签注释。为了解决这个问题,在本文中,我们提出了一种在为多标签RS CBIR问题定义的深神经网络(DNN)的框架中提出了一种新颖的三联样品采样方法。该方法基于两个主要步骤选择一小部分最多代表性和信息性三元组。在第一步中,使用迭代算法从当前迷你批量选择在嵌入空间中彼此多样化的一组锚。在第二步中,通过基于新颖的策略评估彼此之间的图像的相关性,硬度和多样性来选择不同的正面和负图像。在两个多标签基准档案上获得的实验结果表明,在DNN的上下文中选择最具信息丰富和代表性的三胞胎,导致:i)降低DNN训练阶段的计算复杂性,而性能没有任何显着损失; ii)由于信息性三元组允许快速收敛,因此学习速度的增加。所提出的方法的代码在https://git.tu-berlin.de/rsim/image-reetrieval-from-tropls上公开使用。
translated by 谷歌翻译