高分辨率卫星图像可以为土地覆盖分类提供丰富的详细空间信息,这对于研究复杂的建筑环境尤为重要。但是,由于覆盖范围复杂的覆盖模式,昂贵的训练样品收集以及卫星图像的严重分布变化,很少有研究应用高分辨率图像来大规模详细类别的覆盖地图。为了填补这一空白,我们提出了一个大规模的土地盖数据集,即五亿像素。它包含超过50亿个标记的像素,这些像素由150个高分辨率Gaofen-2(4 M)卫星图像,在24类系统中注释,涵盖人工结构,农业和自然阶层。此外,我们提出了一种基于深度学习的无监督域适应方法,该方法可以转移在标记的数据集(称为源域)上训练的分类模型,以获取大型土地覆盖映射的无标记数据(称为目标域) 。具体而言,我们采用动态伪标签分配和班级平衡策略来介绍一个端到端的暹罗网络,以执行自适应领域联合学习。为了验证我们的数据集的普遍性以及在不同的传感器和不同地理区域中提出的方法,我们对中国的五个大城市和其他五个亚洲国家的五个城市进行了土地覆盖地图,以下情况下使用:Planetscope(3 m),Gaofen-1,Gaofen-1 (8 m)和Sentinel-2(10 m)卫星图像。在总研究区域为60,000平方公里,即使输入图像完全未标记,实验也显示出令人鼓舞的结果。拟议的方法接受了5亿像素数据集的培训,可实现在整个中国和其他亚洲国家的高质量和详细的土地覆盖地图。
translated by 谷歌翻译
深度学习方法表明了遥感高空间分辨率(HSR)覆盖映射的有希望的结果。然而,城乡场景可以呈现完全不同的地理景观,以及这些算法的不充分性妨碍了城市级或国家级映射。大多数现有的HSR土地覆盖数据集主要推动学习语义表示的研究,从而忽略了模型可转移性。在本文中,我们介绍了陆地覆盖域自适应语义分割(Loveda)数据集以推进语义和可转让的学习。 Loveda DataSet包含5987个HSR图像,具有来自三个不同城市的166768个注释对象。与现有数据集相比,Loveda DataSet包含两个域名(城乡),由于:1)多尺度对象,带来了相当大的挑战; 2)复杂的背景样本; 3)类分布不一致。 Loveda DataSet适用于土地覆盖语义分段和无监督域适应(UDA)任务。因此,我们在11个语义分割方法和八种UDA方法上基准测试了Loveda DataSet。还进行了一些探索性研究,包括多规范架构和策略,额外的背景监督和伪标签分析,以解决这些挑战。代码和数据在https://github.com/junjue-wang/loveda获得。
translated by 谷歌翻译
语义细分是一种关键技术,涉及高分辨率遥感(HRS)图像的自动解释,并引起了遥感社区的广泛关注。由于其层次表示能力,深度卷积神经网络(DCNN)已成功应用于HRS图像语义分割任务。但是,对大量培训数据的严重依赖性以及对数据分布变化的敏感性严重限制了DCNNS在HRS图像的语义分割中的潜在应用。这项研究提出了一种新型的无监督域适应性语义分割网络(MemoryAdaptnet),用于HRS图像的语义分割。 MemoryAdaptnet构建了一种输出空间对抗学习方案,以弥合源域和目标域之间的域分布差异,并缩小域移位的影响。具体而言,我们嵌入了一个不变的特征内存模块来存储不变的域级上下文信息,因为从对抗学习获得的功能仅代表当前有限输入的变体特征。该模块由类别注意力驱动的不变域级上下文集合模块集成到当前伪不变功能,以进一步增强像素表示。基于熵的伪标签滤波策略用于更新当前目标图像的高额伪不变功能的内存模块。在三个跨域任务下进行的广泛实验表明,我们提出的记忆ADAPTNET非常优于最新方法。
translated by 谷歌翻译
在本文中,我们介绍了一个新的建筑数据集,并提出了一种新颖的域泛化方法,以促进从高分辨率遥感图像中提取建筑物的开发。当前建筑数据集的问题涉及它们缺乏多样性,标签的质量不令人满意,并且几乎不用于培训具有良好概括能力的建筑提取模型,以便正确地评估模型在实践中的真实性能场景。为了解决这些问题,我们建立了一个名为WHU-MIX建筑数据集的多样化,大规模和高质量的建筑数据集,该数据集更加面向实践。 WHU-MIX建筑物数据集由一个培训/验证集组成,该培训/验证集包含来自世界各地的43,727个不同图像,以及一个测试集,其中包含来自五大洲其他五个城市的8402张图像。此外,为了进一步提高建筑物提取模型的概括能力,我们提出了一种名为批处理样式混合(BSM)的域概括方法,该方法可以嵌入建筑物的frond-end中,以嵌入为有效的插件模块提取模型,为模型提供逐渐更大的数据分布,以学习数据不变知识。这项研究中进行的实验证实了WHU-MIX建筑数据集的潜力,以提高建筑物提取模型的性能,与其他现有数据集相比,MIOU提高了6-36%。其他数据集中标签不准确的不利影响可能会导致约20%的IOU减少。该实验还证实了所提出的BSM模块在增强模型的概括能力和鲁棒性方面的高性能,超过了13%的基线模型,而MIOU中最新的域概括方法则超过了4-15%。
translated by 谷歌翻译
给定空中图像,空中场景解析(ASP)目标,以解释图像内容的语义结构,例如,通过将语义标签分配给图像的每个像素来解释图像内容的语义结构。随着数据驱动方法的推广,过去几十年通过在使用高分辨率航空图像时,通过接近基于瓦片级场景分类或分段的图像分析的方案来解决了对ASP的有希望的进展。然而,前者的方案通常会产生瓷砖技术边界的结果,而后者需要处理从像素到语义的复杂建模过程,这通常需要具有像素 - 明智语义标签的大规模和良好的图像样本。在本文中,我们在ASP中解决了这些问题,从瓷砖级场景分类到像素明智语义标签的透视图。具体而言,我们首先通过文献综述重新审视空中图像解释。然后,我们提出了一个大规模的场景分类数据集,其中包含一百万个空中图像被称为百万援助。使用所提出的数据集,我们还通过经典卷积神经网络(CNN)报告基准测试实验。最后,我们通过统一瓦片级场景分类和基于对象的图像分析来实现ASP,以实现像素明智的语义标记。密集实验表明,百万援助是一个具有挑战性但有用的数据集,可以作为评估新开发的算法的基准。当从百万辅助救援方面传输知识时,百万辅助的微调CNN模型始终如一,而不是那些用于空中场景分类的预磨料想象。此外,我们设计的分层多任务学习方法实现了对挑战GID的最先进的像素 - 明智的分类,拓宽了用于航空图像解释的像素明智语义标记的瓦片级场景分类。
translated by 谷歌翻译
语义分割在广泛的计算机视觉应用中起着基本作用,提供了全球对图像​​的理解的关键信息。然而,最先进的模型依赖于大量的注释样本,其比在诸如图像分类的任务中获得更昂贵的昂贵的样本。由于未标记的数据替代地获得更便宜,因此无监督的域适应达到了语义分割社区的广泛成功并不令人惊讶。本调查致力于总结这一令人难以置信的快速增长的领域的五年,这包含了语义细分本身的重要性,以及将分段模型适应新环境的关键需求。我们提出了最重要的语义分割方法;我们对语义分割的域适应技术提供了全面的调查;我们揭示了多域学习,域泛化,测试时间适应或无源域适应等较新的趋势;我们通过描述在语义细分研究中最广泛使用的数据集和基准测试来结束本调查。我们希望本调查将在学术界和工业中提供具有全面参考指导的研究人员,并有助于他们培养现场的新研究方向。
translated by 谷歌翻译
Unsupervised domain adaptation (UDA) for semantic segmentation is a promising task freeing people from heavy annotation work. However, domain discrepancies in low-level image statistics and high-level contexts compromise the segmentation performance over the target domain. A key idea to tackle this problem is to perform both image-level and feature-level adaptation jointly. Unfortunately, there is a lack of such unified approaches for UDA tasks in the existing literature. This paper proposes a novel UDA pipeline for semantic segmentation that unifies image-level and feature-level adaptation. Concretely, for image-level domain shifts, we propose a global photometric alignment module and a global texture alignment module that align images in the source and target domains in terms of image-level properties. For feature-level domain shifts, we perform global manifold alignment by projecting pixel features from both domains onto the feature manifold of the source domain; and we further regularize category centers in the source domain through a category-oriented triplet loss and perform target domain consistency regularization over augmented target domain images. Experimental results demonstrate that our pipeline significantly outperforms previous methods. In the commonly tested GTA5$\rightarrow$Cityscapes task, our proposed method using Deeplab V3+ as the backbone surpasses previous SOTA by 8%, achieving 58.2% in mIoU.
translated by 谷歌翻译
了解驾驶场景中的雾图像序列对于自主驾驶至关重要,但是由于难以收集和注释不利天气的现实世界图像,这仍然是一项艰巨的任务。最近,自我训练策略被认为是无监督域适应的强大解决方案,通过生成目标伪标签并重新训练模型,它迭代地将模型从源域转化为目标域。但是,选择自信的伪标签不可避免地会遭受稀疏与准确性之间的冲突,这两者都会导致次优模型。为了解决这个问题,我们利用了驾驶场景的雾图图像序列的特征,以使自信的伪标签致密。具体而言,基于顺序图像数据的局部空间相似性和相邻时间对应的两个发现,我们提出了一种新型的目标域驱动的伪标签扩散(TDO-DIF)方案。它采用超像素和光学流来识别空间相似性和时间对应关系,然后扩散自信但稀疏的伪像标签,或者是由流量链接的超像素或时间对应对。此外,为了确保扩散像素的特征相似性,我们在模型重新训练阶段引入了局部空间相似性损失和时间对比度损失。实验结果表明,我们的TDO-DIF方案有助于自适应模型在两个公共可用的天然雾化数据集(超过雾气的Zurich and Forggy驾驶)上实现51.92%和53.84%的平均跨工会(MIOU),这超过了最态度ART无监督的域自适应语义分割方法。可以在https://github.com/velor2012/tdo-dif上找到模型和数据。
translated by 谷歌翻译
瞄准以像素 - 明智的语义类别描述陆地覆盖,遥感图像中的语义分割需要在广大地理位置上描绘不同的分布,这很难通过现有深层模型的架构中的均匀像素的前导路径难以实现。虽然已经设计了几种算法来选择用于自然图像分析的像素 - 方面的自适应前向路径,但它仍然缺乏关于如何获得最佳选择的理论支持。在本文中,我们在参数优化方面提供数学分析,指导我们设计一种称为隐藏路径选择网络(HPS-Net)的方法。借助从额外的迷你分支派生的隐藏变量,HPS-Net能够通过调整现有算法中的特征映射和像素 - 明智的路径选择之间的直接关系来解决无法访问的全球最佳的固有问题。路径选择。为了更好的培训和评估,我们进一步优化并将5级高芬图像数据集(GID-5)扩展为具有15个土地覆盖类别,即GID-15的新型。 GID-5和GID-15上的实验结果表明,所提出的模块可以稳定地提高不同深结构的性能,验证所提出的数学分析。
translated by 谷歌翻译
这项研究介绍了\ textit {landslide4sense},这是一种从遥感中检测到滑坡检测的参考基准。该存储库具有3,799个图像贴片,可从Sentinel-2传感器中融合光学层,并带有数字高程模型和来自ALOS Palsar的斜率层。附加的地形信息促进了对滑坡边界的准确检测,而最近的研究表明,仅使用光学数据,这是具有挑战性的。广泛的数据集支持在滑坡检测中进行深度学习(DL)研究,以及用于系统更新滑坡库存的方法的开发和验证。基准数据集已在四个不同的时间和地理位置收集:伊伯里(2018年9月),科达古(2018年8月),戈尔卡(2015年4月)和台湾(2009年8月)。每个图像像素均标记为属于滑坡,包括各种来源和彻底的手动注释。然后,我们评估11个最先进的DL分割模型的滑坡检测性能:U-NET,RESU-NET,PSPNET,CONTECTNET,DEEPLAB-V2,DEEPLAB-V3+,FCN-8,LINKNET,FRRRN-A,FRRN-A,, FRRN-B和SQNET。所有型号均已从划痕上对每个研究区域的四分之一的补丁进行培训,并在其他三个季度的独立贴片上进行了测试。我们的实验表明,Resu-NET的表现优于其他模型,用于滑坡检测任务。我们在\ url {www.landslide4sense.org}公开获得多种源滑坡基准数据(Landslide4sense)和经过测试的DL模型,为遥感,计算机视觉和机器学习社区建立了重要的资源通常,尤其是对滑坡检测的应用。
translated by 谷歌翻译
Transfer Learning methods are widely used in satellite image segmentation problems and improve performance upon classical supervised learning methods. In this study, we present a semantic segmentation method that allows us to make land cover maps by using transfer learning methods. We compare models trained in low-resolution images with insufficient data for the targeted region or zoom level. In order to boost performance on target data we experiment with models trained with unsupervised, semi-supervised and supervised transfer learning approaches, including satellite images from public datasets and other unlabeled sources. According to experimental results, transfer learning improves segmentation performance 3.4% MIoU (Mean Intersection over Union) in rural regions and 12.9% MIoU in urban regions. We observed that transfer learning is more effective when two datasets share a comparable zoom level and are labeled with identical rules; otherwise, semi-supervised learning is more effective by using the data as unlabeled. In addition, experiments showed that HRNet outperformed building segmentation approaches in multi-class segmentation.
translated by 谷歌翻译
深度学习算法在非常高分辨率(VHR)图像的语义分割方面取得了巨大成功。然而,培训这些模型通常需要大量准确的像素注释,这非常费力且耗时。为了减轻注释负担,本文提出了一个一致性调节的区域生长网络(CRGNET),以实现具有点级注释的VHR图像的语义分割。 CRGNET的关键思想是迭代选择未标记的像素,具有很高的信心,可以从原始稀疏点扩展带注释的区域。但是,由于扩展的注释中可能存在一些错误和噪音,因此直接向它们学习可能会误导网络的培训。为此,我们进一步提出了一致性正则化策略,在该策略中,基本分类器和扩展的分类器被采用。具体而言,基本分类器受原始稀疏注释的监督,而扩展的分类器的目的是从基本分类器生成的扩展注释中学习具有区域生长机制。因此,通过最大程度地减少基础和扩展分类器的预测之间的差异来实现一致性正则化。我们发现如此简单的正则化策略对于控制区域生长机制的质量非常有用。在两个基准数据集上进行的广泛实验表明,所提出的CRGNET显着优于现有的最新方法。代码和预培训模型可在线获得(https://github.com/yonghaoxu/crgnet)。
translated by 谷歌翻译
现有的基于深度学习的变更检测方法试图精心设计具有功能强大特征表示的复杂神经网络,但忽略了随时间变化的土地覆盖变化引起的通用域转移,包括亮度波动和事件前和事后图像之间的季节变化,从而产生亚最佳结果。在本文中,我们提出了一个端到端监督域的适应框架,用于跨域变更检测,即SDACD,以有效地减轻双期颞图像之间的域移位,以更好地变更预测。具体而言,我们的SDACD通过有监督的学习从图像和特征角度介绍了合作改编。图像适应性利用了具有循环矛盾的限制来利用生成的对抗学习,以执行跨域样式转换,从而有效地以两边的方式缩小了域间隙。为了特征适应性,我们提取域不变特征以对齐特征空间中的不同特征分布,这可以进一步减少跨域图像的域间隙。为了进一步提高性能,我们结合了三种类型的双颞图像,以进行最终变化预测,包括初始输入双期图像和两个来自事件前和事后域的生成的双颞图像。对两个基准的广泛实验和分析证明了我们提出的框架的有效性和普遍性。值得注意的是,我们的框架将几个代表性的基线模型推向了新的最先进的记录,分别在CDD和WHU建筑数据集上分别达到97.34%和92.36%。源代码和模型可在https://github.com/perfect-you/sdacd上公开获得。
translated by 谷歌翻译
交通场景边缘壳体的语义分割的鲁棒性是智能运输安全的重要因素。然而,交通事故的大多数关键场景都是非常动态和以前看不见的,这严重损害了语义分割方法的性能。另外,在高速驾驶期间传统相机的延迟将进一步降低时间尺寸中的上下文信息。因此,我们建议从基于事件的数据提取动态上下文,以更高的时间分辨率来增强静态RGB图像,即使对于来自运动模糊,碰撞,变形,翻转等的流量事故而言,此外,为评估分割交通事故中的性能,我们提供了一个像素 - 明智的注释事故数据集,即Dada-Seg,其中包含来自交通事故的各种临界情景。我们的实验表明,基于事件的数据可以通过在事故中保留快速移动的前景(碰撞物体)的微粒运动来提供互补信息以在不利条件下稳定语义分割。我们的方法在拟议的事故数据集中实现了+ 8.2%的性能增益,超过了20多种最先进的语义细分方法。已经证明该提案对于在多个源数据库中学到的模型,包括CityScapes,Kitti-360,BDD和Apolloscape的模型始终如一。
translated by 谷歌翻译
深度学习极大地提高了语义细分的性能,但是,它的成功依赖于大量注释的培训数据的可用性。因此,许多努力致力于域自适应语义分割,重点是将语义知识从标记的源域转移到未标记的目标域。现有的自我训练方法通常需要多轮训练,而基于对抗训练的另一个流行框架已知对超参数敏感。在本文中,我们提出了一个易于训练的框架,该框架学习了域自适应语义分割的域不变原型。特别是,我们表明域的适应性与很少的学习共享一个共同的角色,因为两者都旨在识别一些从大量可见数据中学到的知识的看不见的数据。因此,我们提出了一个统一的框架,用于域适应和很少的学习。核心思想是使用从几个镜头注释的目标图像中提取的类原型来对源图像和目标图像的像素进行分类。我们的方法仅涉及一个阶段训练,不需要对大规模的未经通知的目标图像进行培训。此外,我们的方法可以扩展到域适应性和几乎没有射击学习的变体。关于适应GTA5到CITYSCAPES和合成景观的实验表明,我们的方法实现了对最先进的竞争性能。
translated by 谷歌翻译
基于深度学习的路面裂缝检测方法通常需要大规模标签,具有详细的裂缝位置信息来学习准确的预测。然而,在实践中,由于路面裂缝的各种视觉模式,裂缝位置很难被手动注释。在本文中,我们提出了一种基于深域适应的裂缝检测网络(DDACDN),其学会利用源域知识来预测目标域中的多类别裂缝位置信息,其中仅是图像级标签可用的。具体地,DDACDN首先通过双分支权重共享骨干网络从源和目标域中提取裂缝特征。并且在实现跨域自适应的努力中,通过从每个域的特征空间聚合三尺度特征来构建中间域,以使来自源域的裂缝特征适应目标域。最后,该网络涉及两个域的知识,并接受识别和本地化路面裂缝的培训。为了便于准确的培训和验证域适应,我们使用两个具有挑战性的路面裂缝数据集CQu-BPDD和RDD2020。此外,我们构建了一个名为CQu-BPMDD的新型大型沥青路面多标签疾病数据集,其中包含38994个高分辨率路面疾病图像,以进一步评估模型的稳健性。广泛的实验表明,DDACDN优于最先进的路面裂纹检测方法,以预测目标结构域的裂缝位置。
translated by 谷歌翻译
建筑变更检测是许多重要应用,特别是在军事和危机管理领域。最近用于变化检测的方法已转向深度学习,这取决于其培训数据的质量。因此,大型注释卫星图像数据集的组装对于全球建筑更改监视是必不可少的。现有数据集几乎完全提供近Nadir观看角度。这限制了可以检测到的更改范围。通过提供更大的观察范围,光学卫星的滚动成像模式提出了克服这种限制的机会。因此,本文介绍了S2Looking,一个建筑变革检测数据集,其中包含以各种偏离Nadir角度捕获的大规模侧视卫星图像。 DataSet由5000个批次图像对组成的农村地区,并在全球范围内超过65,920个辅助的变化实例。数据集可用于培训基于深度学习的变更检测算法。它通过提供(1)更大的观察角来扩展现有数据集; (2)大照明差异; (3)额外的农村形象复杂性。为了便于{该数据集的使用,已经建立了基准任务,并且初步测试表明,深度学习算法发现数据集明显比最接近的近Nadir DataSet,Levir-CD +更具挑战性。因此,S2Looking可能会促进现有的建筑变革检测算法的重要进步。 DataSet可在https://github.com/s2looking/使用。
translated by 谷歌翻译
小型太阳能光伏(PV)阵列中电网的有效集成计划需要访问高质量的数据:单个太阳能PV阵列的位置和功率容量。不幸的是,不存在小型太阳能光伏的国家数据库。那些确实有限的空间分辨率,通常汇总到州或国家一级。尽管已经发布了几种有希望的太阳能光伏检测方法,但根据研究,研究这些模型的性能通常是高度异质的。这些方法对能源评估的实际应用的比较变得具有挑战性,可能意味着报告的绩效评估过于乐观。异质性有多种形式,我们在这项工作中探讨了每种形式:空间聚集的水平,地面真理的验证,培训和验证数据集的不一致以及培训的位置和传感器的多样性程度和验证数据始发。对于每个人,我们都会讨论文献中的新兴实践,以解决它们或暗示未来研究的方向。作为调查的一部分,我们评估了两个大区域的太阳PV识别性能。我们的发现表明,由于验证过程中的共同局限性,从卫星图像对太阳PV自动识别的传统绩效评估可能是乐观的。这项工作的收获旨在为能源研究人员和专业人员提供自动太阳能光伏评估技术的大规模实用应用。
translated by 谷歌翻译
本文提出FogAdapt,一种用于密集有雾场景的语义细分域的新方法。虽然已经针对显着的研究来减少语义分割中的域移位,但对具有恶劣天气条件的场景的适应仍然是一个开放的问题。由于天气状况,如雾,烟雾和雾度,加剧了域移位的场景的可见性,从而使得在这种情况下进行了无监督的适应性。我们提出了一种自熵和多尺度信息增强的自我监督域适应方法(FOGADAPT),以最大限度地减少有雾场景分割的域移位。由经验证据支持,雾密度的增加导致分割概率的高自熵性,我们引入了基于自熵的损耗功能来引导适应方法。此外,在不同的图像尺度上获得的推论由不确定性组合并加权,以生成目标域的尺度不变伪标签。这些规模不变的伪标签对可见性和比例变化具有鲁棒性。我们在真正的雾景场景中评估了真正的清晰天气场景模型,适应和综合非雾图像到真正的雾场景适应情景。我们的实验表明,FogAdapt在有雾图像的语义分割中的目前最先进的情况下显着优异。具体而言,通过考虑标准设置与最先进的(SOTA)方法相比,FogaDATK在Foggy苏黎世上获得3.8%,有雾的驾驶密集为6.0%,而在Miou的雾化驾驶的3.6%,在Miou,在MiOOP中改编为有雾的苏黎世。
translated by 谷歌翻译
这里介绍了人工智能研究所(IARAI)组织的2022年Landslide4sense(L4S)竞赛的科学结果。竞争的目的是根据全球收集的卫星图像的大规模多个来源自动检测滑坡。 2022 L4S旨在促进有关使用卫星图像的语义分割任务的深度学习模型(DL)模型最新发展的跨学科研究。在过去的几年中,由于卷积神经网络(CNN)的发展,基于DL的模型已经达到了对图像解释的期望。本文的主要目的是介绍本次比赛中介绍的细节和表现最佳的算法。获胜的解决方案详细介绍了Swin Transformer,Segformer和U-NET等最先进的模型。还考虑了先进的机器学习技术和诸如硬采矿,自我培训和混合数据增强之类的策略。此外,我们描述了L4S基准数据集,以促进进一步的比较,并在线报告准确性评估的结果。可以在\ textIt {未来开发排行榜上访问数据,以供将来评估,\ url {https://www.iarai.ac.ac.at/landslide4sense/challenge/},并邀请研究人员提交更多预测结果,评估准确性在他们的方法中,将它们与其他用户的方法进行比较,理想情况下,改善了本文报告的滑坡检测结果。
translated by 谷歌翻译