Deep learning based change detection methods have received wide attentoion, thanks to their strong capability in obtaining rich features from images. However, existing AI-based CD methods largely rely on three functionality-enhancing modules, i.e., semantic enhancement, attention mechanisms, and correspondence enhancement. The stacking of these modules leads to great model complexity. To unify these three modules into a simple pipeline, we introduce Relational Change Detection Transformer (RCDT), a novel and simple framework for remote sensing change detection tasks. The proposed RCDT consists of three major components, a weight-sharing Siamese Backbone to obtain bi-temporal features, a Relational Cross Attention Module (RCAM) that implements offset cross attention to obtain bi-temporal relation-aware features, and a Features Constrain Module (FCM) to achieve the final refined predictions with high-resolution constraints. Extensive experiments on four different publically available datasets suggest that our proposed RCDT exhibits superior change detection performance compared with other competing methods. The therotical, methodogical, and experimental knowledge of this study is expected to benefit future change detection efforts that involve the cross attention mechanism.
translated by 谷歌翻译
Change detection (CD) aims to find the difference between two images at different times and outputs a change map to represent whether the region has changed or not. To achieve a better result in generating the change map, many State-of-The-Art (SoTA) methods design a deep learning model that has a powerful discriminative ability. However, these methods still get lower performance because they ignore spatial information and scaling changes between objects, giving rise to blurry or wrong boundaries. In addition to these, they also neglect the interactive information of two different images. To alleviate these problems, we propose our network, the Scale and Relation-Aware Siamese Network (SARAS-Net) to deal with this issue. In this paper, three modules are proposed that include relation-aware, scale-aware, and cross-transformer to tackle the problem of scene change detection more effectively. To verify our model, we tested three public datasets, including LEVIR-CD, WHU-CD, and DSFIN, and obtained SoTA accuracy. Our code is available at https://github.com/f64051041/SARAS-Net.
translated by 谷歌翻译
使用遥感图像进行建筑检测和变更检测可以帮助城市和救援计划。此外,它们可用于自然灾害后的建筑损害评估。当前,大多数用于建筑物检测的现有模型仅使用一个图像(预拆架图像)来检测建筑物。这是基于这样的想法:由于存在被破坏的建筑物,后沙仪图像降低了模型的性能。在本文中,我们提出了一种称为暹罗形式的暹罗模型,该模型使用前和垃圾后图像作为输入。我们的模型有两个编码器,并具有分层变压器体系结构。两个编码器中每个阶段的输出都以特征融合的方式给予特征融合,以从disasaster图像生成查询,并且(键,值)是从disasaster图像中生成的。为此,在特征融合中也考虑了时间特征。在特征融合中使用颞变压器的另一个优点是,与CNN相比,它们可以更好地维持由变压器编码器产生的大型接受场。最后,在每个阶段,将颞变压器的输出输入简单的MLP解码器。在XBD和WHU数据集上评估了暹罗形式模型,用于构建检测以及Levir-CD和CDD数据集,以进行更改检测,并可以胜过最新的。
translated by 谷歌翻译
本文介绍了一种基于变压器的暹罗网络架构(由Cradiformer缩写),用于从一对共同登记的遥感图像改变检测(CD)。与最近的CD框架不同,该CD框架基于完全卷积的网络(CoundNets),该方法将具有多层感知(MLP)解码器的分层结构化变压器编码器统一,以暹罗网络架构中的多层感知器,以有效地呈现所需的多尺度远程详细信息用于准确的CD。两个CD数据集上的实验表明,所提出的端到端培训变换器架构比以前的同行实现更好的CD性能。我们的代码可在https://github.com/wgcban/changeFormer获得。
translated by 谷歌翻译
在过去的十年中,基于深度学习的算法在遥感图像分析的不同领域中广泛流行。最近,最初在自然语言处理中引入的基于变形金刚的体系结构遍布计算机视觉领域,在该字段中,自我发挥的机制已被用作替代流行的卷积操作员来捕获长期依赖性。受到计算机视觉的最新进展的启发,遥感社区还见证了对各种任务的视觉变压器的探索。尽管许多调查都集中在计算机视觉中的变压器上,但据我们所知,我们是第一个对基于遥感中变压器的最新进展进行系统评价的人。我们的调查涵盖了60多种基于变形金刚的60多种方法,用于遥感子方面的不同遥感问题:非常高分辨率(VHR),高光谱(HSI)和合成孔径雷达(SAR)图像。我们通过讨论遥感中变压器的不同挑战和开放问题来结束调查。此外,我们打算在遥感论文中频繁更新和维护最新的变压器,及其各自的代码:https://github.com/virobo-15/transformer-in-in-remote-sensing
translated by 谷歌翻译
在广泛的实用应用中,需要进行远程感知的城市场景图像的语义细分,例如土地覆盖地图,城市变化检测,环境保护和经济评估。在深度学习技术的快速发展,卷积神经网络(CNN)的迅速发展。 )多年来一直在语义细分中占主导地位。 CNN采用层次特征表示,证明了局部信息提取的强大功能。但是,卷积层的本地属性限制了网络捕获全局上下文。最近,作为计算机视觉领域的热门话题,Transformer在全球信息建模中展示了其巨大的潜力,从而增强了许多与视觉相关的任务,例如图像分类,对象检测,尤其是语义细分。在本文中,我们提出了一个基于变压器的解码器,并为实时城市场景细分构建了一个类似Unet的变压器(UneTformer)。为了有效的分割,不显示器将轻量级RESNET18选择作为编码器,并开发出有效的全球关注机制,以模拟解码器中的全局和局部信息。广泛的实验表明,我们的方法不仅运行速度更快,而且与最先进的轻量级模型相比,其准确性更高。具体而言,拟议的未显示器分别在无人机和洛夫加数据集上分别达到了67.8%和52.4%的MIOU,而在单个NVIDIA GTX 3090 GPU上输入了512x512输入的推理速度最多可以达到322.4 fps。在进一步的探索中,拟议的基于变压器的解码器与SWIN变压器编码器结合使用,还可以在Vaihingen数据集上实现最新的结果(91.3%F1和84.1%MIOU)。源代码将在https://github.com/wanglibo1995/geoseg上免费获得。
translated by 谷歌翻译
多模态数据在遥感(RS)中变得容易获得,并且可以提供有关地球表面的互补信息。因此,多模态信息的有效融合对于卢比的各种应用是重要的,而且由于域差异,噪音和冗余,也是非常具有挑战性的。缺乏有效和可扩展的融合技术,用于遍布多种模式编码器和完全利用互补信息。为此,我们提出了一种基于新型金字塔注意融合(PAF)模块和门控融合单元(GFU)的多模态遥感数据的新型多模态网络(Multimodnet)。 PAF模块旨在有效地从每个模态中获得丰富的细粒度上下文表示,具有内置的交叉级别和巧克力关注融合机制,GFU模块利用了新颖的门控机制,用于早期合并特征,从而降低隐藏的冗余和噪音。这使得可以有效地提取补充方式来提取最迟到的特征融合的最有价值和互补的信息。两个代表性RS基准数据集的广泛实验证明了多模态土地覆盖分类的多模型的有效性,鲁棒性和优越性。
translated by 谷歌翻译
最新的语义分段方法采用具有编码器解码器架构的U-Net框架。 U-Net仍然具有挑战性,具有简单的跳过连接方案来模拟全局多尺度上下文:1)由于编码器和解码器级的不兼容功能集的问题,并非每个跳过连接设置都是有效的,甚至一些跳过连接对分割性能产生负面影响; 2)原始U-Net比某些数据集上没有任何跳过连接的U-Net更糟糕。根据我们的调查结果,我们提出了一个名为Uctransnet的新分段框架(在U-Net中的提议CTRANS模块),从引导机制的频道视角。具体地,CTRANS模块是U-NET SKIP连接的替代,其包括与变压器(命名CCT)和子模块通道 - 明智的跨关注进行多尺度信道交叉融合的子模块(命名为CCA)以指导熔融的多尺度通道 - 明智信息,以有效地连接到解码器功能以消除歧义。因此,由CCT和CCA组成的所提出的连接能够替换原始跳过连接以解决精确的自动医学图像分割的语义间隙。实验结果表明,我们的UCTRANSNET产生更精确的分割性能,并通过涉及变压器或U形框架的不同数据集和传统架构的语义分割来实现一致的改进。代码:https://github.com/mcgregorwwwww/uctransnet。
translated by 谷歌翻译
建筑变更检测是许多重要应用,特别是在军事和危机管理领域。最近用于变化检测的方法已转向深度学习,这取决于其培训数据的质量。因此,大型注释卫星图像数据集的组装对于全球建筑更改监视是必不可少的。现有数据集几乎完全提供近Nadir观看角度。这限制了可以检测到的更改范围。通过提供更大的观察范围,光学卫星的滚动成像模式提出了克服这种限制的机会。因此,本文介绍了S2Looking,一个建筑变革检测数据集,其中包含以各种偏离Nadir角度捕获的大规模侧视卫星图像。 DataSet由5000个批次图像对组成的农村地区,并在全球范围内超过65,920个辅助的变化实例。数据集可用于培训基于深度学习的变更检测算法。它通过提供(1)更大的观察角来扩展现有数据集; (2)大照明差异; (3)额外的农村形象复杂性。为了便于{该数据集的使用,已经建立了基准任务,并且初步测试表明,深度学习算法发现数据集明显比最接近的近Nadir DataSet,Levir-CD +更具挑战性。因此,S2Looking可能会促进现有的建筑变革检测算法的重要进步。 DataSet可在https://github.com/s2looking/使用。
translated by 谷歌翻译
本文介绍了Dahitra,这是一种具有分层变压器的新型深度学习模型,可在飓风后根据卫星图像对建筑物的损害进行分类。自动化的建筑损害评估为决策和资源分配提供了关键信息,以快速应急响应。卫星图像提供了实时,高覆盖的信息,并提供了向大规模污点后建筑物损失评估提供信息的机会。此外,深入学习方法已证明在对建筑物的损害进行分类方面有希望。在这项工作中,提出了一个基于变压器的新型网络来评估建筑物的损失。该网络利用多个分辨率的层次空间特征,并在将变压器编码器应用于空间特征后捕获特征域的时间差异。当对大规模灾难损坏数据集(XBD)进行测试以构建本地化和损坏分类以及在Levir-CD数据集上进行更改检测任务时,该网络将实现最先进的绩效。此外,我们引入了一个新的高分辨率卫星图像数据集,IDA-BD(与2021年路易斯安那州的2021年飓风IDA有关,以便域名适应以进一步评估该模型的能力,以适用于新损坏的区域。域的适应结果表明,所提出的模型可以适应一个新事件,只有有限的微调。因此,所提出的模型通过更好的性能和域的适应来推进艺术的当前状态。此外,IDA-BD也提供了A高分辨率注释的数据集用于该领域的未来研究。
translated by 谷歌翻译
作为新一代神经体系结构的变形金刚在自然语言处理和计算机视觉方面表现出色。但是,现有的视觉变形金刚努力使用有限的医学数据学习,并且无法概括各种医学图像任务。为了应对这些挑战,我们将Medformer作为数据量表变压器呈现为可推广的医学图像分割。关键设计结合了理想的电感偏差,线性复杂性的层次建模以及以空间和语义全局方式以线性复杂性的关注以及多尺度特征融合。 Medformer可以在不预训练的情况下学习微小至大规模的数据。广泛的实验表明,Medformer作为一般分割主链的潜力,在三个具有多种模式(例如CT和MRI)和多样化的医学靶标(例如,健康器官,疾病,疾病组织和肿瘤)的三个公共数据集上优于CNN和视觉变压器。我们将模型和评估管道公开可用,为促进广泛的下游临床应用提供固体基线和无偏比较。
translated by 谷歌翻译
变压器是一种基于关注的编码器解码器架构,彻底改变了自然语言处理领域。灵感来自这一重大成就,最近在将变形式架构调整到计算机视觉(CV)领域的一些开创性作品,这已经证明了他们对各种简历任务的有效性。依靠竞争力的建模能力,与现代卷积神经网络相比在本文中,我们已经为三百不同的视觉变压器进行了全面的审查,用于三个基本的CV任务(分类,检测和分割),提出了根据其动机,结构和使用情况组织这些方法的分类。 。由于培训设置和面向任务的差异,我们还在不同的配置上进行了评估了这些方法,以便于易于和直观的比较而不是各种基准。此外,我们已经揭示了一系列必不可少的,但可能使变压器能够从众多架构中脱颖而出,例如松弛的高级语义嵌入,以弥合视觉和顺序变压器之间的差距。最后,提出了三个未来的未来研究方向进行进一步投资。
translated by 谷歌翻译
Change detection (CD) aims to detect change regions within an image pair captured at different times, playing a significant role in diverse real-world applications. Nevertheless, most of the existing works focus on designing advanced network architectures to map the feature difference to the final change map while ignoring the influence of the quality of the feature difference. In this paper, we study the CD from a different perspective, i.e., how to optimize the feature difference to highlight changes and suppress unchanged regions, and propose a novel module denoted as iterative difference-enhanced transformers (IDET). IDET contains three transformers: two transformers for extracting the long-range information of the two images and one transformer for enhancing the feature difference. In contrast to the previous transformers, the third transformer takes the outputs of the first two transformers to guide the enhancement of the feature difference iteratively. To achieve more effective refinement, we further propose the multi-scale IDET-based change detection that uses multi-scale representations of the images for multiple feature difference refinements and proposes a coarse-to-fine fusion strategy to combine all refinements. Our final CD method outperforms seven state-of-the-art methods on six large-scale datasets under diverse application scenarios, which demonstrates the importance of feature difference enhancements and the effectiveness of IDET.
translated by 谷歌翻译
遥感图像的更改检测(CD)是通过分析两个次时图像之间的差异来检测变化区域。它广泛用于土地资源规划,自然危害监测和其他领域。在我们的研究中,我们提出了一个新型的暹罗神经网络,用于变化检测任务,即双UNET。与以前的单独编码BITEMAL图像相反,我们设计了一个编码器差分注意模块,以关注像素的空间差异关系。为了改善网络的概括,它计算了咬合图像之间的任何像素之间的注意力权重,并使用它们来引起更具区别的特征。为了改善特征融合并避免梯度消失,在解码阶段提出了多尺度加权方差图融合策略。实验表明,所提出的方法始终优于流行的季节性变化检测数据集最先进的方法。
translated by 谷歌翻译
哥内克人Sentinel Imagery的纯粹卷的可用性为使用深度学习的大尺度创造了新的土地利用陆地覆盖(Lulc)映射的机会。虽然在这种大型数据集上培训是一个非琐碎的任务。在这项工作中,我们试验Lulc Image分类和基准不同最先进模型的Bigearthnet数据集,包括卷积神经网络,多层感知,视觉变压器,高效导通和宽残余网络(WRN)架构。我们的目标是利用分类准确性,培训时间和推理率。我们提出了一种基于用于网络深度,宽度和输入数据分辨率的WRNS复合缩放的高效导通的框架,以有效地训练和测试不同的模型设置。我们设计一种新颖的缩放WRN架构,增强了有效的通道注意力机制。我们提出的轻量级模型具有较小的培训参数,实现所有19个LULC类的平均F分类准确度达到4.5%,并且验证了我们使用的resnet50最先进的模型速度快两倍作为基线。我们提供超过50种培训的型号,以及我们在多个GPU节点上分布式培训的代码。
translated by 谷歌翻译
大多数现有的RGB-D突出物体检测方法利用卷积操作并构建复杂的交织融合结构来实现跨模型信息集成。卷积操作的固有局部连接将基于卷积的方法的性能进行了限制到天花板的性能。在这项工作中,我们从全球信息对齐和转换的角度重新思考此任务。具体地,所提出的方法(Transcmd)级联几个跨模型集成单元来构造基于自上而下的变换器的信息传播路径(TIPP)。 Transcmd将多尺度和多模态特征集成作为序列到序列上下文传播和内置于变压器上的更新过程。此外,考虑到二次复杂性W.R.T.输入令牌的数量,我们设计了具有可接受的计算成本的修补程序令牌重新嵌入策略(Ptre)。七个RGB-D SOD基准数据集上的实验结果表明,在配备TIPP时,简单的两流编码器 - 解码器框架可以超越最先进的基于CNN的方法。
translated by 谷歌翻译
Change detection (CD) is an essential earth observation technique. It captures the dynamic information of land objects. With the rise of deep learning, convolutional neural networks (CNN) have shown great potential in CD. However, current CNN models introduce backbone architectures that lose detailed information during learning. Moreover, current CNN models are heavy in parameters, which prevents their deployment on edge devices such as UAVs. In this work, we tackle this issue by proposing RDP-Net: a region detail preserving network for CD. We propose an efficient training strategy that constructs the training tasks during the warmup period of CNN training and lets the CNN learn from easy to hard. The training strategy enables CNN to learn more powerful features with fewer FLOPs and achieve better performance. Next, we propose an effective edge loss that increases the penalty for errors on details and improves the network's attention to details such as boundary regions and small areas. Furthermore, we provide a CNN model with a brand new backbone that achieves the state-of-the-art empirical performance in CD with only 1.70M parameters. We hope our RDP-Net would benefit the practical CD applications on compact devices and could inspire more people to bring change detection to a new level with the efficient training strategy. The code and models are publicly available at https://github.com/Chnja/RDPNet.
translated by 谷歌翻译
表面缺陷检测是确保工业产品质量的极其至关重要的步骤。如今,基于编码器架构的卷积神经网络(CNN)在各种缺陷检测任务中取得了巨大的成功。然而,由于卷积的内在局部性,它们通常在明确建模长距离相互作用时表现出限制,这对于复杂情况下的像素缺陷检测至关重要,例如杂乱的背景和难以辨认的伪缺陷。最近的变压器尤其擅长学习全球图像依赖性,但对于详细的缺陷位置所需的本地结构信息有限。为了克服上述局限性,我们提出了一个有效的混合变压器体系结构,称为缺陷变压器(faft),用于表面缺陷检测,该检测将CNN和Transferaler纳入统一模型,以协作捕获本地和非本地关系。具体而言,在编码器模块中,首先采用卷积茎块来保留更详细的空间信息。然后,贴片聚合块用于生成具有四个层次结构的多尺度表示形式,每个层次结构之后分别是一系列的feft块,该块分别包括用于本地位置编码的本地位置块,一个轻巧的多功能自我自我 - 注意与良好的计算效率建模多尺度的全球上下文关系,以及用于功能转换和进一步位置信息学习的卷积馈送网络。最后,提出了一个简单但有效的解码器模块,以从编码器中的跳过连接中逐渐恢复空间细节。与其他基于CNN的网络相比,三个数据集上的广泛实验证明了我们方法的优势和效率。
translated by 谷歌翻译
Semantic segmentation of UAV aerial remote sensing images provides a more efficient and convenient surveying and mapping method for traditional surveying and mapping. In order to make the model lightweight and improve a certain accuracy, this research developed a new lightweight and efficient network for the extraction of ground features from UAV aerial remote sensing images, called LDMCNet. Meanwhile, this research develops a powerful lightweight backbone network for the proposed semantic segmentation model. It is called LDCNet, and it is hoped that it can become the backbone network of a new generation of lightweight semantic segmentation algorithms. The proposed model uses dual multi-scale context modules, namely the Atrous Space Pyramid Pooling module (ASPP) and the Object Context Representation module (OCR). In addition, this research constructs a private dataset for semantic segmentation of aerial remote sensing images from drones. This data set contains 2431 training sets, 945 validation sets, and 475 test sets. The proposed model performs well on this dataset, with only 1.4M parameters and 5.48G floating-point operations (FLOPs), achieving an average intersection-over-union ratio (mIoU) of 71.12%. 7.88% higher than the baseline model. In order to verify the effectiveness of the proposed model, training on the public datasets "LoveDA" and "CITY-OSM" also achieved excellent results, achieving mIoU of 65.27% and 74.39%, respectively.
translated by 谷歌翻译
尽管近期基于深度学习的语义细分,但远程感测图像的自动建筑检测仍然是一个具有挑战性的问题,由于全球建筑物的出现巨大变化。误差主要发生在构建足迹的边界,阴影区域,以及检测外表面具有与周围区域非常相似的反射率特性的建筑物。为了克服这些问题,我们提出了一种生成的对抗基于网络的基于网络的分割框架,其具有嵌入在发电机中的不确定性关注单元和改进模块。由边缘和反向关注单元组成的细化模块,旨在精炼预测的建筑地图。边缘注意力增强了边界特征,以估计更高的精度,并且反向关注允许网络探索先前估计区域中缺少的功能。不确定性关注单元有助于网络解决分类中的不确定性。作为我们方法的权力的衡量标准,截至2021年12月4日,它在Deepglobe公共领导板上的第二名,尽管我们的方法的主要重点 - 建筑边缘 - 并不完全对齐用于排行榜排名的指标。 DeepGlobe充满挑战数据集的整体F1分数为0.745。我们还报告了对挑战的Inria验证数据集的最佳成绩,我们的网络实现了81.28%的总体验证,总体准确性为97.03%。沿着同一条线,对于官方Inria测试数据集,我们的网络总体上得分77.86%和96.41%,而且准确性。
translated by 谷歌翻译