城市地区消耗了世界上三分之二的能源,占全球二氧化碳排放量的70%以上。正如IPCC全球预热的1.5C报告所述,到2050年实现碳中型需要清楚地了解城市几何形状。卫星图像的高质量建筑占地面积可以加速这一预测过程和授权在规模上的授权市决策。然而,以前的深度学习的方法面临相应的问题,例如缩放不变性和缺陷的足迹,部分原因是由于持续存在的类别不平衡。此外,大多数方法都需要补充数据,例如点云数据,建筑物高度信息和多频段图像 - 这具有有限的可用性并且产生乏味。在本文中,我们提出了一种改进的Deeplabv3 +模块,其具有扩张的REN底座骨架,仅产生从三声道RGB卫星图像的建筑占地面积的掩模。此外,我们在客观函数中引入了F-Beta测量,以帮助模型账户进行偏斜类分布,并防止假阳性占地面积。除F-Beta之外,我们还纳入了指数加权的边界损失,并使用跨数据集培训策略来进一步提高预测的质量。因此,我们跨越三个公共基准实现最先进的表演,并证明我们的RGB方法产生更高质量的视觉结果,并且对卫星图像的规模,分辨率和城市密度不可知。
translated by 谷歌翻译
尽管近期基于深度学习的语义细分,但远程感测图像的自动建筑检测仍然是一个具有挑战性的问题,由于全球建筑物的出现巨大变化。误差主要发生在构建足迹的边界,阴影区域,以及检测外表面具有与周围区域非常相似的反射率特性的建筑物。为了克服这些问题,我们提出了一种生成的对抗基于网络的基于网络的分割框架,其具有嵌入在发电机中的不确定性关注单元和改进模块。由边缘和反向关注单元组成的细化模块,旨在精炼预测的建筑地图。边缘注意力增强了边界特征,以估计更高的精度,并且反向关注允许网络探索先前估计区域中缺少的功能。不确定性关注单元有助于网络解决分类中的不确定性。作为我们方法的权力的衡量标准,截至2021年12月4日,它在Deepglobe公共领导板上的第二名,尽管我们的方法的主要重点 - 建筑边缘 - 并不完全对齐用于排行榜排名的指标。 DeepGlobe充满挑战数据集的整体F1分数为0.745。我们还报告了对挑战的Inria验证数据集的最佳成绩,我们的网络实现了81.28%的总体验证,总体准确性为97.03%。沿着同一条线,对于官方Inria测试数据集,我们的网络总体上得分77.86%和96.41%,而且准确性。
translated by 谷歌翻译
Image segmentation is a key topic in image processing and computer vision with applications such as scene understanding, medical image analysis, robotic perception, video surveillance, augmented reality, and image compression, among many others. Various algorithms for image segmentation have been developed in the literature. Recently, due to the success of deep learning models in a wide range of vision applications, there has been a substantial amount of works aimed at developing image segmentation approaches using deep learning models. In this survey, we provide a comprehensive review of the literature at the time of this writing, covering a broad spectrum of pioneering works for semantic and instance-level segmentation, including fully convolutional pixel-labeling networks, encoder-decoder architectures, multi-scale and pyramid based approaches, recurrent networks, visual attention models, and generative models in adversarial settings. We investigate the similarity, strengths and challenges of these deep learning models, examine the most widely used datasets, report performances, and discuss promising future research directions in this area.
translated by 谷歌翻译
本文介绍了Dahitra,这是一种具有分层变压器的新型深度学习模型,可在飓风后根据卫星图像对建筑物的损害进行分类。自动化的建筑损害评估为决策和资源分配提供了关键信息,以快速应急响应。卫星图像提供了实时,高覆盖的信息,并提供了向大规模污点后建筑物损失评估提供信息的机会。此外,深入学习方法已证明在对建筑物的损害进行分类方面有希望。在这项工作中,提出了一个基于变压器的新型网络来评估建筑物的损失。该网络利用多个分辨率的层次空间特征,并在将变压器编码器应用于空间特征后捕获特征域的时间差异。当对大规模灾难损坏数据集(XBD)进行测试以构建本地化和损坏分类以及在Levir-CD数据集上进行更改检测任务时,该网络将实现最先进的绩效。此外,我们引入了一个新的高分辨率卫星图像数据集,IDA-BD(与2021年路易斯安那州的2021年飓风IDA有关,以便域名适应以进一步评估该模型的能力,以适用于新损坏的区域。域的适应结果表明,所提出的模型可以适应一个新事件,只有有限的微调。因此,所提出的模型通过更好的性能和域的适应来推进艺术的当前状态。此外,IDA-BD也提供了A高分辨率注释的数据集用于该领域的未来研究。
translated by 谷歌翻译
该卷包含来自机器学习挑战的选定贡献“发现玛雅人的奥秘”,该挑战在欧洲机器学习和数据库中知识发现的欧洲挑战赛曲目(ECML PKDD 2021)中提出。遥感大大加速了古代玛雅人森林地区的传统考古景观调查。典型的探索和发现尝试,除了关注整个古老的城市外,还集中在单个建筑物和结构上。最近,已经成功地尝试了使用机器学习来识别古代玛雅人定居点。这些尝试虽然相关,但却集中在狭窄的区域上,并依靠高质量的空中激光扫描(ALS)数据,该数据仅涵盖古代玛雅人曾经定居的地区的一小部分。另一方面,由欧洲航天局(ESA)哨兵任务制作的卫星图像数据很丰富,更重要的是公开。旨在通过执行不同类型的卫星图像(Sentinel-1和Sentinel-2和ALS)的集成图像细分来定位和识别古老的Maya架构(建筑物,Aguadas和平台)的“发现和识别古代玛雅体系结构(建筑物,Aguadas和平台)的挑战的“发现和识别古老的玛雅体系结构(建筑物,阿吉达斯和平台)的“发现玛雅的奥秘”的挑战, (LIDAR)数据。
translated by 谷歌翻译
建筑物分割是地球观测和空中图像分析领域的基本任务。最现有的基于深度学习的文献中的基于深度学习的算法可以应用于固定或窄的空间分辨率图像。在实践方案中,用户处理广泛的图像分辨率,因此,通常需要重新确定给定的空中图像以匹配用于训练深度学习模型的数据集的空间分辨率。然而,这将导致输出分割掩模的质量严重降级。要处理此问题,我们提出了这项研究,该研究是能够在不同空间分辨率下的空中图像中存在的建筑物的规模不变神经网络(SCI-NET)。具体而言,我们修改了U-Net架构并用密集的空间金字塔池(ASPP)融合,以提取细粒度的多尺度表示。我们将拟议模型对开放城市AI DataSet上的若干艺术模型的拟议模型进行了比较,并显示了SCI-Net在数据集中可用的所有分辨率方面提供稳定的改进余量。
translated by 谷歌翻译
语义分割是图像的像素明智标记。由于在像素级别定义了问题,因此确定图像类标签是不可接受的,而是在原始图像像素分辨率下本地化它们是必要的。通过卷积神经网络(CNN)在创建语义,高级和分层图像特征方面的非凡能力推动;在过去十年中提出了几种基于深入的学习的2D语义分割方法。在本调查中,我们主要关注最近的语义细分科学发展,特别是在使用2D图像的基于深度学习的方法。我们开始分析了对2D语义分割的公共图像集和排行榜,概述了性能评估中使用的技术。在研究现场的演变时,我们按时间顺序分类为三个主要时期,即预先和早期的深度学习时代,完全卷积的时代和后FCN时代。我们在技术上分析了解决领域的基本问题的解决方案,例如细粒度的本地化和规模不变性。在借阅我们的结论之前,我们提出了一张来自所有提到的时代的方法表,每个方法都概述了他们对该领域的贡献。我们通过讨论现场当前的挑战以及他们已经解决的程度来结束调查。
translated by 谷歌翻译
X-ray imaging technology has been used for decades in clinical tasks to reveal the internal condition of different organs, and in recent years, it has become more common in other areas such as industry, security, and geography. The recent development of computer vision and machine learning techniques has also made it easier to automatically process X-ray images and several machine learning-based object (anomaly) detection, classification, and segmentation methods have been recently employed in X-ray image analysis. Due to the high potential of deep learning in related image processing applications, it has been used in most of the studies. This survey reviews the recent research on using computer vision and machine learning for X-ray analysis in industrial production and security applications and covers the applications, techniques, evaluation metrics, datasets, and performance comparison of those techniques on publicly available datasets. We also highlight some drawbacks in the published research and give recommendations for future research in computer vision-based X-ray analysis.
translated by 谷歌翻译
随着全球气候变化影响影响世界的影响,需要集体努力来减少温室气体排放。能源部门是气候变化的最大贡献者,许多努力集中在减少对碳源发电厂的依赖,并转向可再生能源,如太阳能。太阳能电池板位置的全面数据库对于协助分析师和政策制定者来说,在定义太阳能的进一步扩展方面的策略方面很重要。在本文中,我们专注于创建太阳能电池板的世界地图。我们识别给定地理区域内的太阳能电池板的位置和总表面积。我们使用深度学习方法来使用空中图像自动检测太阳能电池板位置及其表面积。该框架由使用具有语义分割模型的串联串联使用图像分类器的双分支模型组成的框架在我们创建的卫星图像的日数据集上培训。我们的作品提供了一种用于检测太阳能电池板的高效和可扩展的方法,实现分类的精度为0.96,并且对于分割性能,IOU分数为0.82。
translated by 谷歌翻译
自动分割方法是医学图像分析的重要进步。特别是机器学习技术和深度神经网络,是最先进的大多数医学图像分割任务。类别不平衡的问题在医疗数据集中构成了重大挑战,病变通常占据相对于背景的相对于较小的体积。深度学习算法培训中使用的损失函数对类别不平衡的鲁棒性不同,具有模型收敛的直接后果。分割最常用的损耗函数基于交叉熵损耗,骰子丢失或两者的组合。我们提出了统一的联络损失,是一种新的分层框架,它概括了骰子和基于跨熵的损失,用于处理类别不平衡。我们评估五个公共可用的损失功能,类不平衡的医学成像数据集:CVC-ClinicDB,船舶提取数字视网膜图像(驱动器),乳房超声波2017(Bus2017),脑肿瘤分割2020(Brats20)和肾肿瘤分割2019 (套件19)。我们将损耗功能性能与六个骰子或基于跨熵的损耗函数进行比较,横跨二进制二进制,3D二进制和3D多包子分段任务,展示我们所提出的损失函数对类不平衡具有强大,并且始终如一地优于其他丢失功能。源代码可用:https://github.com/mlyg/unified-focal-loss
translated by 谷歌翻译
Remote sensing of the Earth's surface water is critical in a wide range of environmental studies, from evaluating the societal impacts of seasonal droughts and floods to the large-scale implications of climate change. Consequently, a large literature exists on the classification of water from satellite imagery. Yet, previous methods have been limited by 1) the spatial resolution of public satellite imagery, 2) classification schemes that operate at the pixel level, and 3) the need for multiple spectral bands. We advance the state-of-the-art by 1) using commercial imagery with panchromatic and multispectral resolutions of 30 cm and 1.2 m, respectively, 2) developing multiple fully convolutional neural networks (FCN) that can learn the morphological features of water bodies in addition to their spectral properties, and 3) FCN that can classify water even from panchromatic imagery. This study focuses on rivers in the Arctic, using images from the Quickbird, WorldView, and GeoEye satellites. Because no training data are available at such high resolutions, we construct those manually. First, we use the RGB, and NIR bands of the 8-band multispectral sensors. Those trained models all achieve excellent precision and recall over 90% on validation data, aided by on-the-fly preprocessing of the training data specific to satellite imagery. In a novel approach, we then use results from the multispectral model to generate training data for FCN that only require panchromatic imagery, of which considerably more is available. Despite the smaller feature space, these models still achieve a precision and recall of over 85%. We provide our open-source codes and trained model parameters to the remote sensing community, which paves the way to a wide range of environmental hydrology applications at vastly superior accuracies and 2 orders of magnitude higher spatial resolution than previously possible.
translated by 谷歌翻译
用于卫星图像分析的计算机视觉算法的创新可以使我们能够在行星层面探索全球挑战,例如城市化和土地利用变化。但是,当试图复制将这些分析推向新领域的模型时,尤其是在发展中国家的模型时,域转移问题是一个普遍的情况。如果模型是通过一个位置的图像和标签训练的,则通常不会很好地概括到图像和数据分布不同的新位置。在这项工作中,我们考虑了我们有一个大型卫星图像场景的设置,我们希望在该场景上解决一个应用问题 - 构建足迹细分。在这里,我们不一定需要担心创建一个概括过我们场景边界的模型,而是可以训练本地模型。我们表明,使用非常高分辨率(0.5m/px)卫星图像解决建筑细分问题需要的标签很少。我们只有527个稀疏多边形注释(相当于1500 x 1500名被标记的像素)训练的最佳型号,召回了0.87的持有足迹,R2的r2为0.93视窗。我们将模型应用于约旦安曼(Amman)的高分辨率图像中,在一项有关城市变化检测的案例研究中。
translated by 谷歌翻译
车辆分类是一台热电电脑视觉主题,研究从地面查看到顶视图。在遥感中,顶视图的使用允许了解城市模式,车辆集中,交通管理等。但是,在瞄准像素方面的分类时存在一些困难:(a)大多数车辆分类研究使用对象检测方法,并且最公开的数据集设计用于此任务,(b)创建实例分段数据集是费力的,并且(C )传统的实例分段方法由于对象很小,因此在此任务上执行此任务。因此,本研究目标是:(1)提出使用GIS软件的新型半监督迭代学习方法,(2)提出一种自由盒实例分割方法,(3)提供城市规模的车辆数据集。考虑的迭代学习程序:(1)标记少数车辆,(2)在这些样本上列车,(3)使用模型对整个图像进行分类,(4)将图像预测转换为多边形shapefile,(5 )纠正有错误的一些区域,并将其包含在培训数据中,(6)重复,直到结果令人满意。为了单独的情况,我们考虑了车辆内部和车辆边界,DL模型是U-Net,具有高效网络B7骨架。当移除边框时,车辆内部变为隔离,允许唯一的对象识别。要恢复已删除的1像素边框,我们提出了一种扩展每个预测的简单方法。结果显示与掩模-RCNN(IOU中67%的82%)相比的更好的像素 - 明智的指标。关于每个对象分析,整体准确性,精度和召回大于90%。该管道适用于任何遥感目标,对分段和生成数据集非常有效。
translated by 谷歌翻译
大坝水库在实现可持续发展目标和全球气候目标方面发挥着重要作用。但是,特别是对于小型水坝水库,其地理位置缺乏一致的数据。为了解决此数据差距,一种有前途的方法是根据全球可用的遥感图像进行自动水坝水库提取。它可以被认为是水体提取的精细颗粒任务,涉及在图像中提取水区,然后将水坝储层与天然水体分开。我们提出了一种基于新型的深神经网络(DNN)管道,该管道将大坝水库提取到水体分割和大坝储层识别中。首先将水体与分割模型中的背景土地分开,然后将每个水体预测为大坝储层或分类模型中的天然水体。对于以前的一步,将跨图像的点级度量学习注入分段模型,以解决水域和土地区域之间的轮廓模棱两可。对于后一个步骤,将带有簇的三重态的先前引导的度量学习注入到分类模型中,以根据储层簇在细粒度中优化图像嵌入空间。为了促进未来的研究,我们建立了一个带有地球图像数据的基准数据集,并从西非和印度的河流盆地标记为人类标记的水库。在水体分割任务,水坝水库识别任务和关节坝储层提取任务中,对这个基准进行了广泛的实验。将我们的方法与艺术方法的方法进行比较时,已经在各自的任务中观察到了卓越的性能。
translated by 谷歌翻译
作物现场边界有助于映射作物类型,预测产量,并向农民提供现场级分析。近年来,已经看到深深学习的成功应用于划定工业农业系统中的现场边界,但由于(1)需要高分辨率卫星图像的小型字段来解除界限和(2)缺乏(2)缺乏用于模型培训和验证的地面标签。在这项工作中,我们结合了转移学习和弱监督来克服这些挑战,我们展示了在印度的成功方法,我们有效地产生了10,000个新的场地标签。我们最好的型号使用1.5亿分辨率的空中客车现货图像作为投入,预先列进法国界限的最先进的神经网络,以及印度标签上的微调,以实现0.86的联盟(iou)中位数交叉口在印度。如果使用4.8M分辨率的行星扫描图像,最好的模型可以实现0.72的中位数。实验还表明,法国的预训练减少了所需的印度现场标签的数量,以便在数据集较小时尽可能多地实现给定的性能水平。这些发现表明我们的方法是划定当前缺乏现场边界数据集的世界区域中的裁剪领域的可扩展方法。我们公开发布了10,000个标签和描绘模型,以方便社区创建现场边界地图和新方法。
translated by 谷歌翻译
Deep learning semantic segmentation algorithms have provided improved frameworks for the automated production of Land-Use and Land-Cover (LULC) maps, which significantly increases the frequency of map generation as well as consistency of production quality. In this research, a total of 28 different model variations were examined to improve the accuracy of LULC maps. The experiments were carried out using Landsat 5/7 or Landsat 8 satellite images with the North American Land Change Monitoring System labels. The performance of various CNNs and extension combinations were assessed, where VGGNet with an output stride of 4, and modified U-Net architecture provided the best results. Additional expanded analysis of the generated LULC maps was also provided. Using a deep neural network, this work achieved 92.4% accuracy for 13 LULC classes within southern Manitoba representing a 15.8% improvement over published results for the NALCMS. Based on the large regions of interest, higher radiometric resolution of Landsat 8 data resulted in better overall accuracies (88.04%) compare to Landsat 5/7 (80.66%) for 16 LULC classes. This represents an 11.44% and 4.06% increase in overall accuracy compared to previously published NALCMS results, including larger land area and higher number of LULC classes incorporated into the models compared to other published LULC map automation methods.
translated by 谷歌翻译
视频分析的图像分割在不同的研究领域起着重要作用,例如智能城市,医疗保健,计算机视觉和地球科学以及遥感应用。在这方面,最近致力于发展新的细分策略;最新的杰出成就之一是Panoptic细分。后者是由语义和实例分割的融合引起的。明确地,目前正在研究Panoptic细分,以帮助获得更多对视频监控,人群计数,自主驾驶,医学图像分析的图像场景的更细致的知识,以及一般对场景更深入的了解。为此,我们介绍了本文的首次全面审查现有的Panoptic分段方法,以获得作者的知识。因此,基于所采用的算法,应用场景和主要目标的性质,执行现有的Panoptic技术的明确定义分类。此外,讨论了使用伪标签注释新数据集的Panoptic分割。继续前进,进行消融研究,以了解不同观点的Panoptic方法。此外,讨论了适合于Panoptic分割的评估度量,并提供了现有解决方案性能的比较,以告知最先进的并识别其局限性和优势。最后,目前对主题技术面临的挑战和吸引不久的将来吸引相当兴趣的未来趋势,可以成为即将到来的研究研究的起点。提供代码的文件可用于:https://github.com/elharroussomar/awesome-panoptic-egation
translated by 谷歌翻译
前导分割方法将输出图表示为像素网格。我们研究了一个替代表示,其中每个图像修补程序都是对象边缘的建模,作为具有与每种补丁标签概率耦合的$ k $顶点的多边形。通过采用可分辨率的神经渲染器来创建光栅图像来优化顶点。然后将划分区域与地面真相分割进行比较。我们的方法获得多个最先进的结果:76.26 \%Miou在城市景观验证,90.92 \%iou vaihingen建筑分割基准,66.82 \%iou for monu显微镜数据集,鸟类的90.91 \%基准幼崽。我们的培训和再现这些结果的代码作为补充。
translated by 谷歌翻译
本文通过解决面具可逆性问题来研究建筑物多边形映射的问题,该问题导致了基于学习的方法的预测蒙版和多边形之间的显着性能差距。我们通过利用分层监督(底部级顶点,中层线段和高级区域口罩)来解决此问题,并提出了一种新颖用于建筑物多边形映射的面具。结果,我们表明,学识渊博的可逆建筑面具占据了深度卷积神经网络的所有优点,用于建筑物的高绩效多边形映射。在实验中,我们评估了对Aicrowd和Inria的两个公共基准的方法。在Aicrowd数据集上,我们提出的方法对AP,APBOUNDARY和POLIS的指标获得了一致改进。对于Inria数据集,我们提出的方法还获得了IOU和准确性指标的竞争结果。型号和源代码可在https://github.com/sarahwxu上获得。
translated by 谷歌翻译
Panoptic semonation组合实例和语义预测,允许同时检测“事物”和“东西”。在许多具有挑战性的问题中有效地接近远程感测的数据中的Panoptic分段可能是吉祥的,因为它允许连续映射和特定的目标计数。有几个困难阻止了遥感中这项任务的增长:(a)大多数算法都设计用于传统图像,(b)图像标签必须包含“事物”和“填写”类,并且(c)注释格式复杂。因此,旨在解决和提高遥感中Panoptic分割的可操作性,这项研究有五个目标:(1)创建一个新的Panoptic分段数据准备管道,(2)提出注释转换软件以产生Panoptic注释; (3)在城市地区提出一个小说数据集,(4)修改任务的Detectron2,(5)评估城市环境中这项任务的困难。我们使用的空中图像,考虑14级,使用0,24米的空间分辨率。我们的管道考虑了三个图像输入,所提出的软件使用点Shapefile来创建Coco格式的样本。我们的研究生成了3,400个样本,具有512x512像素尺寸。我们使用了带有两个骨干板(Reset-50和Reset-101)的Panoptic-FPN,以及模型评估被视为语义实例和Panoptic指标。我们获得了93.9,47.7和64.9的平均iou,box ap和pq。我们的研究提出了一个用于Panoptic Seation的第一个有效管道,以及用于其他研究人员的广泛数据库使用和处理需要彻底了解的其他数据或相关问题。
translated by 谷歌翻译