高光谱(HS)图像的特征在于近似连续的频谱信息,通过捕获微妙的光谱差异来实现材料的精细识别。由于它们出色的局部上下文建模能力,已被证明是HS Image分类中的强大特征提取器的卷积神经网络(CNNS)。但是,由于其固有的网络骨干的限制,CNNS无法挖掘并表示频谱签名的序列属性。为了解决这个问题,我们从与变换器的顺序透视重新考虑HS图像分类,并提出一个名为\ ul {spectralformer}的新型骨干网。除了经典变压器中的带明智的表示之外,Spectralformer能够从HS图像的相邻频带中学习频谱局部序列信息,产生群体方向谱嵌入。更重要的是,为了减少在层面传播过程中丢失有价值信息的可能性,我们通过自适应地学习跨层熔断“软”残留物来传达横向跳过连接以传送从浅层到深层的存储器样组件。值得注意的是,所提出的光谱变压器是一个高度灵活的骨干网络,可以适用于像素和修补程序的输入。我们通过进行广泛的实验评估三个HS数据集上提出的光谱变压器的分类性能,显示了经典变压器的优越性,与最先进的骨干网络相比,实现了显着改进。这项工作的代码将在https://github.com/danfenghong/ieee_tgrs_spectralformer下获得,以便再现性。
translated by 谷歌翻译
确实,卷积神经网络(CNN)更合适。然而,固定内核大小使传统的CNN太具体,既不灵活也不有利于特征学习,从而影响分类准确性。不同内核大小网络的卷积可以通过捕获更多辨别和相关信息来克服这个问题。鉴于此,所提出的解决方案旨在将3D和2D成立网的核心思想与促进混合方案中的HSIC CNN性能提升。生成的\ Textit {注意融合混合网络}(AFNET)基于三个关注融合的并行混合子网,每个块中的不同内核使用高级功能,以增强最终的地面图。简而言之,AFNET能够选择性地过滤滤除对分类至关重要的辨别特征。与最先进的模型相比,HSI数据集的几次测试为AFNET提供了竞争力的结果。拟议的管道实现,实际上,印度松树的总体准确性为97 \%,博茨瓦纳100 \%,帕尔茨大学,帕维亚中心和萨利纳斯数据集的99 \%。
translated by 谷歌翻译
在过去的十年中,基于深度学习的算法在遥感图像分析的不同领域中广泛流行。最近,最初在自然语言处理中引入的基于变形金刚的体系结构遍布计算机视觉领域,在该字段中,自我发挥的机制已被用作替代流行的卷积操作员来捕获长期依赖性。受到计算机视觉的最新进展的启发,遥感社区还见证了对各种任务的视觉变压器的探索。尽管许多调查都集中在计算机视觉中的变压器上,但据我们所知,我们是第一个对基于遥感中变压器的最新进展进行系统评价的人。我们的调查涵盖了60多种基于变形金刚的60多种方法,用于遥感子方面的不同遥感问题:非常高分辨率(VHR),高光谱(HSI)和合成孔径雷达(SAR)图像。我们通过讨论遥感中变压器的不同挑战和开放问题来结束调查。此外,我们打算在遥感论文中频繁更新和维护最新的变压器,及其各自的代码:https://github.com/virobo-15/transformer-in-in-remote-sensing
translated by 谷歌翻译
随着深度学习技术的快速发展和计算能力的提高,深度学习已广泛应用于高光谱图像(HSI)分类领域。通常,深度学习模型通常包含许多可训练参数,并且需要大量标记的样品来实现最佳性能。然而,关于HSI分类,由于手动标记的难度和耗时的性质,大量标记的样本通常难以获取。因此,许多研究工作侧重于建立一个少数标记样本的HSI分类的深层学习模型。在本文中,我们专注于这一主题,并对相关文献提供系统审查。具体而言,本文的贡献是双重的。首先,相关方法的研究进展根据学习范式分类,包括转移学习,积极学习和少量学习。其次,已经进行了许多具有各种最先进的方法的实验,总结了结果以揭示潜在的研究方向。更重要的是,虽然深度学习模型(通常需要足够的标记样本)和具有少量标记样本的HSI场景之间存在巨大差距,但是通过深度学习融合,可以很好地表征小样本集的问题方法和相关技术,如转移学习和轻量级模型。为了再现性,可以在HTTPS://github.com/shuguoj/hsi-classification中找到纸张中评估的方法的源代码.git。
translated by 谷歌翻译
高光谱图像(HSI)分类一直是决定的热门话题,因为高光谱图像具有丰富的空间和光谱信息,并为区分不同的土地覆盖物体提供了有力的基础。从深度学习技术的发展中受益,基于深度学习的HSI分类方法已实现了有希望的表现。最近,已经提出了一些用于HSI分类的神经架构搜索(NAS)算法,这将HSI分类的准确性进一步提高到了新的水平。在本文中,NAS和变压器首次合并用于处理HSI分类任务。与以前的工作相比,提出的方法有两个主要差异。首先,我们重新访问了先前的HSI分类NAS方法中设计的搜索空间,并提出了一个新型的混合搜索空间,该搜索空间由空间主导的细胞和频谱主导的单元组成。与以前的工作中提出的搜索空间相比,所提出的混合搜索空间与HSI数据的特征更加一致,即HSIS具有相对较低的空间分辨率和非常高的光谱分辨率。其次,为了进一步提高分类准确性,我们尝试将新兴变压器模块移植到自动设计的卷积神经网络(CNN)上,以将全局信息添加到CNN学到的局部区域的特征中。三个公共HSI数据集的实验结果表明,所提出的方法的性能要比比较方法更好,包括手动设计的网络和基于NAS的HSI分类方法。特别是在最近被捕获的休斯顿大学数据集中,总体准确性提高了近6个百分点。代码可在以下网址获得:https://github.com/cecilia-xue/hyt-nas。
translated by 谷歌翻译
表面缺陷检测是确保工业产品质量的极其至关重要的步骤。如今,基于编码器架构的卷积神经网络(CNN)在各种缺陷检测任务中取得了巨大的成功。然而,由于卷积的内在局部性,它们通常在明确建模长距离相互作用时表现出限制,这对于复杂情况下的像素缺陷检测至关重要,例如杂乱的背景和难以辨认的伪缺陷。最近的变压器尤其擅长学习全球图像依赖性,但对于详细的缺陷位置所需的本地结构信息有限。为了克服上述局限性,我们提出了一个有效的混合变压器体系结构,称为缺陷变压器(faft),用于表面缺陷检测,该检测将CNN和Transferaler纳入统一模型,以协作捕获本地和非本地关系。具体而言,在编码器模块中,首先采用卷积茎块来保留更详细的空间信息。然后,贴片聚合块用于生成具有四个层次结构的多尺度表示形式,每个层次结构之后分别是一系列的feft块,该块分别包括用于本地位置编码的本地位置块,一个轻巧的多功能自我自我 - 注意与良好的计算效率建模多尺度的全球上下文关系,以及用于功能转换和进一步位置信息学习的卷积馈送网络。最后,提出了一个简单但有效的解码器模块,以从编码器中的跳过连接中逐渐恢复空间细节。与其他基于CNN的网络相比,三个数据集上的广泛实验证明了我们方法的优势和效率。
translated by 谷歌翻译
哥内克人Sentinel Imagery的纯粹卷的可用性为使用深度学习的大尺度创造了新的土地利用陆地覆盖(Lulc)映射的机会。虽然在这种大型数据集上培训是一个非琐碎的任务。在这项工作中,我们试验Lulc Image分类和基准不同最先进模型的Bigearthnet数据集,包括卷积神经网络,多层感知,视觉变压器,高效导通和宽残余网络(WRN)架构。我们的目标是利用分类准确性,培训时间和推理率。我们提出了一种基于用于网络深度,宽度和输入数据分辨率的WRNS复合缩放的高效导通的框架,以有效地训练和测试不同的模型设置。我们设计一种新颖的缩放WRN架构,增强了有效的通道注意力机制。我们提出的轻量级模型具有较小的培训参数,实现所有19个LULC类的平均F分类准确度达到4.5%,并且验证了我们使用的resnet50最先进的模型速度快两倍作为基线。我们提供超过50种培训的型号,以及我们在多个GPU节点上分布式培训的代码。
translated by 谷歌翻译
深度学习方法论为高光谱图像(HSI)分析社区的发展做出了很大贡献。但是,这也使HSI分析系统容易受到对抗攻击的影响。为此,我们在本文中提出了一个掩盖的空间光谱自动编码器(MSSA),根据自我监督的学习理论,以增强HSI分析系统的鲁棒性。首先,进行了一个掩盖的序列注意学习模块,以促进沿光谱通道的HSI分析系统的固有鲁棒性。然后,我们开发了一个具有可学习的图形结构的图形卷积网络,以建立全局像素的组合。这样,每种组合中的所有相关像素都可以分散攻击效果,并且在空间方面可以实现更好的防御性能。最后,为了提高防御能力并解决有限标记样品的问题,MSSA采用光谱重建作为借口任务,并以自我监督的方式适合数据集。 - 高光谱分类方法和代表性的对抗防御策略。
translated by 谷歌翻译
人类自然有效地在复杂的场景中找到突出区域。通过这种观察的动机,引入了计算机视觉中的注意力机制,目的是模仿人类视觉系统的这一方面。这种注意机制可以基于输入图像的特征被视为动态权重调整过程。注意机制在许多视觉任务中取得了巨大的成功,包括图像分类,对象检测,语义分割,视频理解,图像生成,3D视觉,多模态任务和自我监督的学习。在本调查中,我们对计算机愿景中的各种关注机制进行了全面的审查,并根据渠道注意,空间关注,暂时关注和分支注意力进行分类。相关的存储库https://github.com/menghaoguo/awesome-vision-tions致力于收集相关的工作。我们还建议了未来的注意机制研究方向。
translated by 谷歌翻译
最近的研究表明,在高光谱图像(HSI)分类任务中,深度学习算法的巨大潜力。然而,培训这些模型通常需要大量标记的数据。由于针对HSI的像素级注释的收集是费力且耗时的,因此开发算法可以在小样本量的情况下产生良好的性能。在这项研究中,我们提出了一个强大的自我缩放网络(RSEN)来解决这个问题。拟议的RSEN由两个子网组成,包括基本网络和一个集合网络。鉴于标记数据的监督损失以及未经标记的数据的无监督损失,基本网络和整体网络都可以相互学习,从而实现自我启动的机制。据我们所知,提出的方法是首次尝试将自我汇总技术引入HSI分类任务,该任务提供了有关如何利用HSI中未标记数据来协助网络培训的不同观点。我们进一步提出了一种新型的一致性滤波器,以增加自我同步学习的鲁棒性。在三个基准HSI数据集上进行的广泛实验表明,与最新方法相比,所提出的算法可以产生竞争性能。代码可在线获得(\ url {https://github.com/yonghaoxu/rsen})。
translated by 谷歌翻译
光谱超分辨率(SSR)是指从RGB对应物中恢复的高光谱图像(HSI)。由于SSR问题的一对多性,可以将单个RGB图像恢复到许多HSIS。解决这个暗示问题的关键是插入多源以前的信息,如自然RGB空间上下文的上下文,深度特征或固有的HSI统计事先等,以提高重建的置信度和保真度光谱。然而,大多数目前的方法只考虑设计定制的卷积神经网络(CNN)的一般和有限的前瞻,这导致无法有效地减轻不良程度。为解决有问题的问题,我们为SSR提出了一个新颖的全面的先前嵌入关系网络(HPRN)。基本上,核心框架由几个多剩余关系块(MRB)进行多种组装,其完全便于RGB信号之前的低频内容的传输和利用。创新性地,引入了RGB输入的语义之前,以识别类别属性,并且向前提出了语义驱动的空间关系模块(SSRM)以使用语义嵌入关系矩阵在聚类的类似特征之间执行特征聚合。此外,我们开发了一种基于变换器的通道关系模块(TCRM),其习惯使用标量作为先前深度特征中的频道方面关系的描述符,并用某些向量替换为变换器特征交互,支持表示更加歧视。为了保持高光谱频带之间的数学相关和光谱一致性,将二阶的先前约束(SOPC)结合到丢失功能中以引导HSI重建过程。
translated by 谷歌翻译
变压器一直是自然语言处理(NLP)和计算机视觉(CV)革命的核心。 NLP和CV的显着成功启发了探索变压器在点云处理中的使用。但是,变压器如何应对点云的不规则性和无序性质?变压器对于不同的3D表示(例如,基于点或体素)的合适性如何?各种3D处理任务的变压器有多大的能力?截至目前,仍然没有对这些问题的研究进行系统的调查。我们第一次为3D点云分析提供了越来越受欢迎的变压器的全面概述。我们首先介绍变压器体系结构的理论,并在2D/3D字段中审查其应用程序。然后,我们提出三种不同的分类法(即实现 - 数据表示和基于任务),它们可以从多个角度对当前的基于变压器的方法进行分类。此外,我们介绍了研究3D中自我注意机制的变异和改进的结果。为了证明变压器在点云分析中的优势,我们提供了基于各种变压器的分类,分割和对象检测方法的全面比较。最后,我们建议三个潜在的研究方向,为3D变压器的开发提供福利参考。
translated by 谷歌翻译
高光谱成像由于其在捕获丰富的空间和光谱信息的能力上提供了多功能应用,这对于识别物质至关重要。但是,获取高光谱图像的设备昂贵且复杂。因此,已经通过直接从低成本,更多可用的RGB图像重建高光谱信息来提出了许多替代光谱成像方法。我们详细研究了来自广泛的RGB图像的这些最先进的光谱重建方法。对25种方法的系统研究和比较表明,尽管速度较低,但大多数数据驱动的深度学习方法在重建精度和质量方面都优于先前的方法。这项全面的审查可以成为同伴研究人员的富有成果的参考来源,从而进一步启发了相关领域的未来发展方向。
translated by 谷歌翻译
通过深度学习(DL)大大扩展了数据驱动故障诊断模型的范围。然而,经典卷积和反复化结构具有计算效率和特征表示的缺陷,而基于注意机制的最新变压器架构尚未应用于该字段。为了解决这些问题,我们提出了一种新颖的时变电片(TFT)模型,其灵感来自序列加工的香草变压器大规模成功。特别是,我们设计了一个新的笨蛋和编码器模块,以从振动信号的时频表示(TFR)中提取有效抽象。在此基础上,本文提出了一种基于时变电片的新的端到端故障诊断框架。通过轴承实验数据集的案例研究,我们构建了最佳变压器结构并验证了其故障诊断性能。与基准模型和其他最先进的方法相比,证明了所提出的方法的优越性。
translated by 谷歌翻译
有效的早期检测马铃薯晚枯萎病(PLB)是马铃薯栽培的必要方面。然而,由于缺乏在冠层水平上缺乏视觉线索,在具有传统成像方法的领域的早期阶段来检测晚期枯萎是一项挑战。高光谱成像可以,捕获来自宽范围波长的光谱信号也在视觉波长之外。在这种情况下,通过将2D卷积神经网络(2D-CNN)和3D-CNN与深度合作的网络(PLB-2D-3D-A)组合来提出高光谱图像的深度学习分类架构。首先,2D-CNN和3D-CNN用于提取丰富的光谱空间特征,然后使用注意力块和SE-RESET用于强调特征图中的突出特征,并提高模型的泛化能力。数据集采用15,360张图像(64x64x204)构建,从在实验领域捕获的240个原始图像裁剪,具有超过20种马铃薯基因型。 2000年图像的测试数据集中的精度在全带中达到0.739,特定带中的0.790(492nm,519nm,560nm,592nm,717nm和765nm)。本研究表明,具有深入学习和近端高光谱成像的早期检测PLB的令人鼓舞的结果。
translated by 谷歌翻译
给定空中图像,空中场景解析(ASP)目标,以解释图像内容的语义结构,例如,通过将语义标签分配给图像的每个像素来解释图像内容的语义结构。随着数据驱动方法的推广,过去几十年通过在使用高分辨率航空图像时,通过接近基于瓦片级场景分类或分段的图像分析的方案来解决了对ASP的有希望的进展。然而,前者的方案通常会产生瓷砖技术边界的结果,而后者需要处理从像素到语义的复杂建模过程,这通常需要具有像素 - 明智语义标签的大规模和良好的图像样本。在本文中,我们在ASP中解决了这些问题,从瓷砖级场景分类到像素明智语义标签的透视图。具体而言,我们首先通过文献综述重新审视空中图像解释。然后,我们提出了一个大规模的场景分类数据集,其中包含一百万个空中图像被称为百万援助。使用所提出的数据集,我们还通过经典卷积神经网络(CNN)报告基准测试实验。最后,我们通过统一瓦片级场景分类和基于对象的图像分析来实现ASP,以实现像素明智的语义标记。密集实验表明,百万援助是一个具有挑战性但有用的数据集,可以作为评估新开发的算法的基准。当从百万辅助救援方面传输知识时,百万辅助的微调CNN模型始终如一,而不是那些用于空中场景分类的预磨料想象。此外,我们设计的分层多任务学习方法实现了对挑战GID的最先进的像素 - 明智的分类,拓宽了用于航空图像解释的像素明智语义标记的瓦片级场景分类。
translated by 谷歌翻译
大型视觉基础模型在自然图像上的视觉任务上取得了重大进展,在这种情况下,视觉变压器是其良好可扩展性和表示能力的主要选择。但是,在现有模型仍处于小规模的情况下,遥感社区(RS)社区中大型模型的利用仍然不足,从而限制了性能。在本文中,我们使用约1亿个参数求助于普通视觉变压器,并首次尝试提出针对RS任务定制的大型视觉模型,并探索如此大型模型的性能。具体而言,要处理RS图像中各种取向的较大图像大小和对象,我们提出了一个新的旋转型尺寸的窗户注意力,以替代变形金刚中的原始关注,这可以大大降低计算成本和内存足迹,同时学习更好的对象通过从生成的不同窗口中提取丰富上下文来表示。关于检测任务的实验证明了我们模型的优越性,超过了所有最新模型,在DOTA-V1.0数据集上实现了81.16 \%地图。与现有的高级方法相比,我们在下游分类和细分任务上的模型结果也证明了竞争性能。进一步的实验显示了我们模型对计算复杂性和几乎没有学习的优势。代码和模型将在https://github.com/vitae-transformer/remote-sensing-rvsa上发布
translated by 谷歌翻译
本文解决了高光谱(HS)图像denoising的具有挑战性的问题。与现有的基于深度学习的方法不同,通常采用复杂的网络体系结构或经验堆叠现成的模块以提高性能,我们专注于捕获HS图像的高维特性的高效提取方式。具体来说,基于理论分析,提高由展开的卷积内核形成的矩阵的排名可以促进特征多样性,我们建议分别执行1卷卷积的降级低维卷积集(Re-Convset)沿着HS图像并排的三个维度,然后通过可学习的压缩层汇总所得的空间光谱嵌入。重新汇率不仅了解HS图像的不同空间光谱特征,而且还降低了网络的参数和复杂性。然后,我们将重新汇合纳入广泛使用的U-NET体系结构中,以构建HS图像Denoisising方法。令人惊讶的是,在定量指标,视觉结果和效率方面,我们观察到这样的简洁框架在很大程度上优于最新方法。我们相信我们的工作可能会阐明基于深度学习的HS图像处理和分析。
translated by 谷歌翻译
变形金刚占据了自然语言处理领域,最近影响了计算机视觉区域。在医学图像分析领域中,变压器也已成功应用于全栈临床应用,包括图像合成/重建,注册,分割,检测和诊断。我们的论文旨在促进变压器在医学图像分析领域的认识和应用。具体而言,我们首先概述了内置在变压器和其他基本组件中的注意机制的核心概念。其次,我们回顾了针对医疗图像应用程序量身定制的各种变压器体系结构,并讨论其局限性。在这篇综述中,我们调查了围绕在不同学习范式中使用变压器,提高模型效率及其与其他技术的耦合的关键挑战。我们希望这篇评论可以为读者提供医学图像分析领域的读者的全面图片。
translated by 谷歌翻译
Camouflaged objects are seamlessly blended in with their surroundings, which brings a challenging detection task in computer vision. Optimizing a convolutional neural network (CNN) for camouflaged object detection (COD) tends to activate local discriminative regions while ignoring complete object extent, causing the partial activation issue which inevitably leads to missing or redundant regions of objects. In this paper, we argue that partial activation is caused by the intrinsic characteristics of CNN, where the convolution operations produce local receptive fields and experience difficulty to capture long-range feature dependency among image regions. In order to obtain feature maps that could activate full object extent, keeping the segmental results from being overwhelmed by noisy features, a novel framework termed Cross-Model Detail Querying network (DQnet) is proposed. It reasons the relations between long-range-aware representations and multi-scale local details to make the enhanced representation fully highlight the object regions and eliminate noise on non-object regions. Specifically, a vanilla ViT pretrained with self-supervised learning (SSL) is employed to model long-range dependencies among image regions. A ResNet is employed to enable learning fine-grained spatial local details in multiple scales. Then, to effectively retrieve object-related details, a Relation-Based Querying (RBQ) module is proposed to explore window-based interactions between the global representations and the multi-scale local details. Extensive experiments are conducted on the widely used COD datasets and show that our DQnet outperforms the current state-of-the-arts.
translated by 谷歌翻译