Though semantic segmentation has been heavily explored in vision literature, unique challenges remain in the remote sensing domain. One such challenge is how to handle resolution mismatch between overhead imagery and ground-truth label sources, due to differences in ground sample distance. To illustrate this problem, we introduce a new dataset and use it to showcase weaknesses inherent in existing strategies that naively upsample the target label to match the image resolution. Instead, we present a method that is supervised using low-resolution labels (without upsampling), but takes advantage of an exemplar set of high-resolution labels to guide the learning process. Our method incorporates region aggregation, adversarial learning, and self-supervised pretraining to generate fine-grained predictions, without requiring high-resolution annotations. Extensive experiments demonstrate the real-world applicability of our approach.
translated by 谷歌翻译
Remote sensing imagery provides comprehensive views of the Earth, where different sensors collect complementary data at different spatial scales. Large, pretrained models are commonly finetuned with imagery that is heavily augmented to mimic different conditions and scales, with the resulting models used for various tasks with imagery from a range of spatial scales. Such models overlook scale-specific information in the data. In this paper, we present Scale-MAE, a pretraining method that explicitly learns relationships between data at different, known scales throughout the pretraining process. Scale-MAE pretrains a network by masking an input image at a known input scale, where the area of the Earth covered by the image determines the scale of the ViT positional encoding, not the image resolution. Scale-MAE encodes the masked image with a standard ViT backbone, and then decodes the masked image through a bandpass filter to reconstruct low/high frequency images at lower/higher scales. We find that tasking the network with reconstructing both low/high frequency images leads to robust multiscale representations for remote sensing imagery. Scale-MAE achieves an average of a $5.0\%$ non-parametric kNN classification improvement across eight remote sensing datasets compared to current state-of-the-art and obtains a $0.9$ mIoU to $3.8$ mIoU improvement on the SpaceNet building segmentation transfer task for a range of evaluation scales.
translated by 谷歌翻译
我们表明,基于补丁的模型,例如展示,可以对使用深卷积神经网络的语义分割和标签超分辨率的最新状态具有卓越的性能。我们推导出一种新的培训算法,其允许从非常大的数据集中学习并从拓扑表征中推导出标签超分辨率算法作为统计推理算法。我们说明了我们在陆地覆盖映射和医学图像分析任务的方法。
translated by 谷歌翻译
我们对最近的自我和半监督ML技术进行严格的评估,从而利用未标记的数据来改善下游任务绩效,以河床分割的三个遥感任务,陆地覆盖映射和洪水映射。这些方法对于遥感任务特别有价值,因为易于访问未标记的图像,并获得地面真理标签通常可以昂贵。当未标记的图像(标记数据集之外)提供培训时,我们量化性能改进可以对这些遥感分割任务进行期望。我们还设计实验以测试这些技术的有效性,当测试集相对于训练和验证集具有域移位时。
translated by 谷歌翻译
我们提出了一种在数据样本集合中共同推断标签的方法,其中每个样本都包含一个观察和对标签的先验信念。通过隐式假设存在一种生成模型,可区分预测因子是后部,我们得出了一个训练目标,该目标允许在弱信念下学习。该配方统一了各种机器学习设置;弱信念可以以嘈杂或不完整的标签形式出现,由辅助输入的不同预测机制给出的可能性,或反映出有关手头问题结构的知识的常识性先验。我们证明了有关各种问题的建议算法:通过负面培训示例进行分类,从排名中学习,弱和自我监督的空中成像细分,视频框架的共段以及粗糙的监督文本分类。
translated by 谷歌翻译
高分辨率遥感图像用于广泛的任务,包括对象的检测和分类。然而,高分辨率图像昂贵,而较低的分辨率图像通常是可自由的可用的,并且可以由公众用于社会良好应用范围。为此,我们使用从Spacenet 7挑战的PlanetsCope图像策划多个频谱多图像超分辨率数据集作为高分辨率参考和与低分辨率图像相同的图像的多个Sentinel-2重新定位。我们介绍了将多图像超分辨率(MISR)应用于多光谱遥感图像的第一个结果。此外,我们还将辐射级一致性模块引入MISR模型,以保持哨声-2传感器的高辐射分辨率。我们表明MISR优于一系列图像保真度指标的单图像超分辨率和其他基线。此外,我们对建筑描绘的多图像超分辨率的效用进行了第一次评估,显示利用多个图像导致这些下游任务中的更好的性能。
translated by 谷歌翻译
作物现场边界有助于映射作物类型,预测产量,并向农民提供现场级分析。近年来,已经看到深深学习的成功应用于划定工业农业系统中的现场边界,但由于(1)需要高分辨率卫星图像的小型字段来解除界限和(2)缺乏(2)缺乏用于模型培训和验证的地面标签。在这项工作中,我们结合了转移学习和弱监督来克服这些挑战,我们展示了在印度的成功方法,我们有效地产生了10,000个新的场地标签。我们最好的型号使用1.5亿分辨率的空中客车现货图像作为投入,预先列进法国界限的最先进的神经网络,以及印度标签上的微调,以实现0.86的联盟(iou)中位数交叉口在印度。如果使用4.8M分辨率的行星扫描图像,最好的模型可以实现0.72的中位数。实验还表明,法国的预训练减少了所需的印度现场标签的数量,以便在数据集较小时尽可能多地实现给定的性能水平。这些发现表明我们的方法是划定当前缺乏现场边界数据集的世界区域中的裁剪领域的可扩展方法。我们公开发布了10,000个标签和描绘模型,以方便社区创建现场边界地图和新方法。
translated by 谷歌翻译
语义分割在广泛的计算机视觉应用中起着基本作用,提供了全球对图像​​的理解的关键信息。然而,最先进的模型依赖于大量的注释样本,其比在诸如图像分类的任务中获得更昂贵的昂贵的样本。由于未标记的数据替代地获得更便宜,因此无监督的域适应达到了语义分割社区的广泛成功并不令人惊讶。本调查致力于总结这一令人难以置信的快速增长的领域的五年,这包含了语义细分本身的重要性,以及将分段模型适应新环境的关键需求。我们提出了最重要的语义分割方法;我们对语义分割的域适应技术提供了全面的调查;我们揭示了多域学习,域泛化,测试时间适应或无源域适应等较新的趋势;我们通过描述在语义细分研究中最广泛使用的数据集和基准测试来结束本调查。我们希望本调查将在学术界和工业中提供具有全面参考指导的研究人员,并有助于他们培养现场的新研究方向。
translated by 谷歌翻译
高分辨率卫星图像可以为土地覆盖分类提供丰富的详细空间信息,这对于研究复杂的建筑环境尤为重要。但是,由于覆盖范围复杂的覆盖模式,昂贵的训练样品收集以及卫星图像的严重分布变化,很少有研究应用高分辨率图像来大规模详细类别的覆盖地图。为了填补这一空白,我们提出了一个大规模的土地盖数据集,即五亿像素。它包含超过50亿个标记的像素,这些像素由150个高分辨率Gaofen-2(4 M)卫星图像,在24类系统中注释,涵盖人工结构,农业和自然阶层。此外,我们提出了一种基于深度学习的无监督域适应方法,该方法可以转移在标记的数据集(称为源域)上训练的分类模型,以获取大型土地覆盖映射的无标记数据(称为目标域) 。具体而言,我们采用动态伪标签分配和班级平衡策略来介绍一个端到端的暹罗网络,以执行自适应领域联合学习。为了验证我们的数据集的普遍性以及在不同的传感器和不同地理区域中提出的方法,我们对中国的五个大城市和其他五个亚洲国家的五个城市进行了土地覆盖地图,以下情况下使用:Planetscope(3 m),Gaofen-1,Gaofen-1 (8 m)和Sentinel-2(10 m)卫星图像。在总研究区域为60,000平方公里,即使输入图像完全未标记,实验也显示出令人鼓舞的结果。拟议的方法接受了5亿像素数据集的培训,可实现在整个中国和其他亚洲国家的高质量和详细的土地覆盖地图。
translated by 谷歌翻译
在深度学习研究中,自学学习(SSL)引起了极大的关注,引起了计算机视觉和遥感社区的兴趣。尽管计算机视觉取得了很大的成功,但SSL在地球观测领域的大部分潜力仍然锁定。在本文中,我们对在遥感的背景下为计算机视觉的SSL概念和最新发展提供了介绍,并回顾了SSL中的概念和最新发展。此外,我们在流行的遥感数据集上提供了现代SSL算法的初步基准,从而验证了SSL在遥感中的潜力,并提供了有关数据增强的扩展研究。最后,我们确定了SSL未来研究的有希望的方向的地球观察(SSL4EO),以铺平了两个领域的富有成效的相互作用。
translated by 谷歌翻译
Image segmentation is a key topic in image processing and computer vision with applications such as scene understanding, medical image analysis, robotic perception, video surveillance, augmented reality, and image compression, among many others. Various algorithms for image segmentation have been developed in the literature. Recently, due to the success of deep learning models in a wide range of vision applications, there has been a substantial amount of works aimed at developing image segmentation approaches using deep learning models. In this survey, we provide a comprehensive review of the literature at the time of this writing, covering a broad spectrum of pioneering works for semantic and instance-level segmentation, including fully convolutional pixel-labeling networks, encoder-decoder architectures, multi-scale and pyramid based approaches, recurrent networks, visual attention models, and generative models in adversarial settings. We investigate the similarity, strengths and challenges of these deep learning models, examine the most widely used datasets, report performances, and discuss promising future research directions in this area.
translated by 谷歌翻译
该卷包含来自机器学习挑战的选定贡献“发现玛雅人的奥秘”,该挑战在欧洲机器学习和数据库中知识发现的欧洲挑战赛曲目(ECML PKDD 2021)中提出。遥感大大加速了古代玛雅人森林地区的传统考古景观调查。典型的探索和发现尝试,除了关注整个古老的城市外,还集中在单个建筑物和结构上。最近,已经成功地尝试了使用机器学习来识别古代玛雅人定居点。这些尝试虽然相关,但却集中在狭窄的区域上,并依靠高质量的空中激光扫描(ALS)数据,该数据仅涵盖古代玛雅人曾经定居的地区的一小部分。另一方面,由欧洲航天局(ESA)哨兵任务制作的卫星图像数据很丰富,更重要的是公开。旨在通过执行不同类型的卫星图像(Sentinel-1和Sentinel-2和ALS)的集成图像细分来定位和识别古老的Maya架构(建筑物,Aguadas和平台)的“发现和识别古代玛雅体系结构(建筑物,Aguadas和平台)的挑战的“发现和识别古老的玛雅体系结构(建筑物,阿吉达斯和平台)的“发现玛雅的奥秘”的挑战, (LIDAR)数据。
translated by 谷歌翻译
半监督的学习技术由于其有效的建筑模型能力,即使有稀缺的标记数据可用,它们也在受欢迎程度。在本文中,我们提出了一个框架和特定任务,用于\ textit {multichannel}模型的自我监督预处理,例如多光谱和合成孔径雷达图像的融合。我们表明,拟议的自我监督方法非常有效地学习与土地覆盖分类标签相关的特征。这是通过预处理任务的明确设计来实现的,该任务促进了感应方式之间的差距和利用输入的光谱特征。在半监督的环境中,如果有限的标签可用,则使用拟议的自我监督预审议,然后使用SAR和多光谱数据进行监督的填充,以进行土地覆盖分类,以优于纯粹监督的学习,例如纯监督的学习,来自Imagenet和ImageNet和Imagenet和Imagenet和Imagenet和Imagenet和ImageNet培训的初始化其他最近的自我监督方法。
translated by 谷歌翻译
深度学习方法表明了遥感高空间分辨率(HSR)覆盖映射的有希望的结果。然而,城乡场景可以呈现完全不同的地理景观,以及这些算法的不充分性妨碍了城市级或国家级映射。大多数现有的HSR土地覆盖数据集主要推动学习语义表示的研究,从而忽略了模型可转移性。在本文中,我们介绍了陆地覆盖域自适应语义分割(Loveda)数据集以推进语义和可转让的学习。 Loveda DataSet包含5987个HSR图像,具有来自三个不同城市的166768个注释对象。与现有数据集相比,Loveda DataSet包含两个域名(城乡),由于:1)多尺度对象,带来了相当大的挑战; 2)复杂的背景样本; 3)类分布不一致。 Loveda DataSet适用于土地覆盖语义分段和无监督域适应(UDA)任务。因此,我们在11个语义分割方法和八种UDA方法上基准测试了Loveda DataSet。还进行了一些探索性研究,包括多规范架构和策略,额外的背景监督和伪标签分析,以解决这些挑战。代码和数据在https://github.com/junjue-wang/loveda获得。
translated by 谷歌翻译
对联合国可持续发展目标的进展(SDGS)因关键环境和社会经济指标缺乏数据而受到阻碍,其中历史上有稀疏时间和空间覆盖率的地面调查。机器学习的最新进展使得可以利用丰富,频繁更新和全球可用的数据,例如卫星或社交媒体,以向SDGS提供洞察力。尽管有希望的早期结果,但到目前为止使用此类SDG测量数据的方法在很大程度上在不同的数据集或使用不一致的评估指标上进行了评估,使得难以理解的性能是改善,并且额外研究将是最丰富的。此外,处理卫星和地面调查数据需要域知识,其中许多机器学习群落缺乏。在本文中,我们介绍了3个SDG的3个基准任务的集合,包括与经济发展,农业,健康,教育,水和卫生,气候行动和陆地生命相关的任务。 15个任务中的11个数据集首次公开发布。我们为Acceptandbench的目标是(1)降低机器学习界的进入的障碍,以促进衡量和实现SDGS; (2)提供标准基准,用于评估各种SDG的任务的机器学习模型; (3)鼓励开发新颖的机器学习方法,改进的模型性能促进了对SDG的进展。
translated by 谷歌翻译
Fusing satellite imagery acquired with different sensors has been a long-standing challenge of Earth observation, particularly across different modalities such as optical and Synthetic Aperture Radar (SAR) images. Here, we explore the joint analysis of imagery from different sensors in the light of representation learning: we propose to learn a joint embedding of multiple satellite sensors within a deep neural network. Our application problem is the monitoring of lake ice on Alpine lakes. To reach the temporal resolution requirement of the Swiss Global Climate Observing System (GCOS) office, we combine three image sources: Sentinel-1 SAR (S1-SAR), Terra MODIS, and Suomi-NPP VIIRS. The large gaps between the optical and SAR domains and between the sensor resolutions make this a challenging instance of the sensor fusion problem. Our approach can be classified as a late fusion that is learned in a data-driven manner. The proposed network architecture has separate encoding branches for each image sensor, which feed into a single latent embedding. I.e., a common feature representation shared by all inputs, such that subsequent processing steps deliver comparable output irrespective of which sort of input image was used. By fusing satellite data, we map lake ice at a temporal resolution of < 1.5 days. The network produces spatially explicit lake ice maps with pixel-wise accuracies > 91% (respectively, mIoU scores > 60%) and generalises well across different lakes and winters. Moreover, it sets a new state-of-the-art for determining the important ice-on and ice-off dates for the target lakes, in many cases meeting the GCOS requirement.
translated by 谷歌翻译
与现场测量相比,遥感益处可以通过使大面积的监控更容易地进行栖息地保护,尤其是在可以自动分析遥感数据的情况下。监测的一个重要方面是对受监视区域中存在的栖息地类型进行分类和映射。自动分类是一项艰巨的任务,因为课程具有细粒度的差异,并且它们的分布是长尾巴且不平衡的。通常,用于自动土地覆盖分类的培训数据取决于完全注释的分割图,从遥感的图像到相当高的分类学,即森林,农田或市区等类别。自动栖息地分类的挑战是可靠的数据注释需要现场策略。因此,完整的分割图的生产成本很高,训练数据通常很稀疏,类似点,并且仅限于可以步行访问的区域。需要更有效地利用这些有限数据的方法。我们通过提出一种栖息地分类和映射的方法来解决这些问题,并应用此方法将整个芬兰拉普兰北部地区分类为Natura2000类。该方法的特征是使用从现场收集的细粒,稀疏,单像素注释,并与大量未经通知的数据结合在一起来产生分割图。比较了监督,无监督和半监督的方法,并证明了从较大的室外数据集中转移学习的好处。我们提出了一个\ ac {cnn}偏向于中心像素分类,与随机的森林分类器结合使用,该分类器比单独的模型本身产生更高的质量分类。我们表明,增加种植,测试时间的增加和半监督的学习可以进一步帮助分类。
translated by 谷歌翻译
小型太阳能光伏(PV)阵列中电网的有效集成计划需要访问高质量的数据:单个太阳能PV阵列的位置和功率容量。不幸的是,不存在小型太阳能光伏的国家数据库。那些确实有限的空间分辨率,通常汇总到州或国家一级。尽管已经发布了几种有希望的太阳能光伏检测方法,但根据研究,研究这些模型的性能通常是高度异质的。这些方法对能源评估的实际应用的比较变得具有挑战性,可能意味着报告的绩效评估过于乐观。异质性有多种形式,我们在这项工作中探讨了每种形式:空间聚集的水平,地面真理的验证,培训和验证数据集的不一致以及培训的位置和传感器的多样性程度和验证数据始发。对于每个人,我们都会讨论文献中的新兴实践,以解决它们或暗示未来研究的方向。作为调查的一部分,我们评估了两个大区域的太阳PV识别性能。我们的发现表明,由于验证过程中的共同局限性,从卫星图像对太阳PV自动识别的传统绩效评估可能是乐观的。这项工作的收获旨在为能源研究人员和专业人员提供自动太阳能光伏评估技术的大规模实用应用。
translated by 谷歌翻译
Remote sensing images are useful for a wide variety of environmental and earth monitoring tasks, including tracking deforestation, illegal fishing, urban expansion, and natural disasters. The earth is extremely diverse -- the amount of potential tasks in remote sensing images is massive, and the sizes of features range from several kilometers to just tens of centimeters. However, creating generalizable computer vision methods is a challenge in part due to the lack of a large-scale dataset that captures these diverse features for many tasks. In this paper, we present Satlas, a remote sensing dataset and benchmark that is large in both breadth, featuring all of the aforementioned applications and more, as well as scale, comprising 290M labels under 137 categories and seven label modalities. We evaluate eight baselines and a proposed method on Satlas, and find that there is substantial room for improvement in addressing research challenges specific to remote sensing, including processing image time series that consist of images from very different types of sensors, and taking advantage of long-range spatial context. We also find that pre-training on Satlas substantially improves performance on downstream tasks with few labeled examples, increasing average accuracy by 16% over ImageNet and 5% over the next best baseline.
translated by 谷歌翻译
这项研究介绍了\ textit {landslide4sense},这是一种从遥感中检测到滑坡检测的参考基准。该存储库具有3,799个图像贴片,可从Sentinel-2传感器中融合光学层,并带有数字高程模型和来自ALOS Palsar的斜率层。附加的地形信息促进了对滑坡边界的准确检测,而最近的研究表明,仅使用光学数据,这是具有挑战性的。广泛的数据集支持在滑坡检测中进行深度学习(DL)研究,以及用于系统更新滑坡库存的方法的开发和验证。基准数据集已在四个不同的时间和地理位置收集:伊伯里(2018年9月),科达古(2018年8月),戈尔卡(2015年4月)和台湾(2009年8月)。每个图像像素均标记为属于滑坡,包括各种来源和彻底的手动注释。然后,我们评估11个最先进的DL分割模型的滑坡检测性能:U-NET,RESU-NET,PSPNET,CONTECTNET,DEEPLAB-V2,DEEPLAB-V3+,FCN-8,LINKNET,FRRRN-A,FRRN-A,, FRRN-B和SQNET。所有型号均已从划痕上对每个研究区域的四分之一的补丁进行培训,并在其他三个季度的独立贴片上进行了测试。我们的实验表明,Resu-NET的表现优于其他模型,用于滑坡检测任务。我们在\ url {www.landslide4sense.org}公开获得多种源滑坡基准数据(Landslide4sense)和经过测试的DL模型,为遥感,计算机视觉和机器学习社区建立了重要的资源通常,尤其是对滑坡检测的应用。
translated by 谷歌翻译