智能论文笔记

GLF-CR: SAR-Enhanced Cloud Removal with Global-Local Fusion

Fang Xu , Yilei Shi , Patrick Ebel , Lei Yu , Gui-Song Xia , Wen Yang , Xiao Xiang Zhu

分类：计算机视觉

2022-06-06

可以通过合成孔径雷达（SAR）图像来缓解云去除任务的挑战，这些图像可以穿透云覆盖。但是，光学图像和SAR图像之间的较大域间隙以及SAR图像的严重斑点噪声可能会导致基于SAR的基于SAR的云去除，从而导致性能退化。在本文中，我们提出了一种新型的基于全局融合的云去除（GLF-CR）算法，以利用SAR图像中嵌入的互补信息。利用SAR信息的力量促进云清除需要两个方面。首先是全球融合，指导所有本地光窗口之间的关系，以维持与其余无云区域一致的回收区域的结构。第二个本地融合，传输嵌入在SAR图像中的互补信息，该信息与多云区域相对应，以生成缺失区域的可靠纹理细节，并使用动态过滤来减轻斑点噪声引起的性能退化。广泛的评估表明，所提出的算法可以产生高质量的无云图像，并且在SEN12MS-CR数据集中的PSNR方面，其增益约为1.7 db，超过最先进的云去除算法。

translated by 谷歌翻译

A Survey of Deep Face Restoration: Denoise, Super-Resolution, Deblur, Artifact Removal

Tao Wang , Kaihao Zhang , Xuanxi Chen , Wenhan Luo , Jiankang Deng , Tong Lu , Xiaochun Cao , Wei Liu , Hongdong Li , Stefanos Zafeiriou

分类：计算机视觉

2022-11-05

Face Restoration (FR) aims to restore High-Quality (HQ) faces from Low-Quality (LQ) input images, which is a domain-specific image restoration problem in the low-level computer vision area. The early face restoration methods mainly use statistic priors and degradation models, which are difficult to meet the requirements of real-world applications in practice. In recent years, face restoration has witnessed great progress after stepping into the deep learning era. However, there are few works to study deep learning-based face restoration methods systematically. Thus, this paper comprehensively surveys recent advances in deep learning techniques for face restoration. Specifically, we first summarize different problem formulations and analyze the characteristic of the face image. Second, we discuss the challenges of face restoration. Concerning these challenges, we present a comprehensive review of existing FR methods, including prior based methods and deep learning-based methods. Then, we explore developed techniques in the task of FR covering network architectures, loss functions, and benchmark datasets. We also conduct a systematic benchmark evaluation on representative methods. Finally, we discuss future directions, including network designs, metrics, benchmark datasets, applications,etc. We also provide an open-source repository for all the discussed methods, which is available at https://github.com/TaoWangzj/Awesome-Face-Restoration.

translated by 谷歌翻译

Holistic Attention-Fusion Adversarial Network for Single Image Defogging

Wei Liu , Cheng Chen , Rui Jiang , Tao Lu , Zixiang Xiong

分类：计算机视觉

2022-02-19

基于对抗性学习的图像抑制方法，由于其出色的性能，已经在计算机视觉中进行了广泛的研究。但是，大多数现有方法对实际情况的质量功能有限，因为它们在相同场景的透明和合成的雾化图像上进行了培训。此外，它们在保留鲜艳的色彩和丰富的文本细节方面存在局限性。为了解决这些问题，我们开发了一个新颖的生成对抗网络，称为整体注意力融合对抗网络（HAAN），用于单个图像。 Haan由Fog2FogFogre块和FogFree2Fog块组成。在每个块中，有三个基于学习的模块，即雾除雾，颜色纹理恢复和雾合成，它们相互限制以生成高质量的图像。 Haan旨在通过学习雾图图像之间的整体通道空间特征相关性及其几个派生图像之间的整体通道空间特征相关性来利用纹理和结构信息的自相似性。此外，在雾合成模块中，我们利用大气散射模型来指导它，以通过新颖的天空分割网络专注于大气光优化来提高生成质量。关于合成和现实世界数据集的广泛实验表明，就定量准确性和主观的视觉质量而言，Haan的表现优于最先进的脱落方法。

translated by 谷歌翻译

High-resolution Depth Maps Imaging via Attention-based Hierarchical Multi-modal Fusion

Zhiwei Zhong , Xianming Liu , Junjun Jiang , Debin Zhao , Zhiwen Chen , Xiangyang Ji

分类：计算机视觉

2021-04-04

深度映射记录场景中的视点和对象之间的距离，这在许多真实应用程序中起着关键作用。然而，消费者级RGB-D相机捕获的深度图遭受了低空间分辨率。引导深度地图超分辨率（DSR）是解决此问题的流行方法，该方法试图从输入的低分辨率（LR）深度及其耦合的HR RGB图像中恢复高分辨率（HR）深度映射和作为指引。引导DSR最具挑战性的问题是如何正确选择一致的结构并传播它们，并正确处理不一致的结构。在本文中，我们提出了一种用于引导DSR的新型关注的分层多模态融合（AHMF）网络。具体地，为了有效地提取和组合来自LR深度和HR引导的相关信息，我们提出了一种基于多模态注意力的融合（MMAF）策略，包括分层卷积层，包括特征增强块，以选择有价值的功能和特征重新校准块来统一不同外观特征的方式的相似性度量。此外，我们提出了一个双向分层特征协作（BHFC）模块，以完全利用多尺度特征之间的低级空间信息和高级结构信息。实验结果表明，在重建精度，运行速度和记忆效率方面，我们的方法优于最先进的方法。

translated by 谷歌翻译

Deep Learning for HDR Imaging: State-of-the-Art and Future Trends

Lin Wang , Kuk-Jin Yoon

分类：计算机视觉 | 机器学习

2021-10-20

高动态范围（HDR）成像是一种允许广泛的动态曝光范围的技术，这在图像处理，计算机图形和计算机视觉中很重要。近年来，使用深度学习（DL），HDR成像有重大进展。本研究对深层HDR成像方法的最新发展进行了综合和富有洞察力的调查和分析。在分层和结构上，将现有的深层HDR成像方法基于（1）输入曝光的数量/域，（2）学习任务数，（3）新传感器数据，（4）新的学习策略，（5）应用程序。重要的是，我们对关于其潜在和挑战的每个类别提供建设性的讨论。此外，我们审查了深度HDR成像的一些关键方面，例如数据集和评估指标。最后，我们突出了一些打开的问题，并指出了未来的研究方向。

translated by 谷歌翻译

Towards Efficient and Scale-Robust Ultra-High-Definition Image Demoireing

Xin Yu , Peng Dai , Wenbo Li , Lan Ma , Jiajun Shen , Jia Li , Xiaojuan Qi

分类：计算机视觉

2022-07-20

随着移动设备的快速开发，现代使用的手机通常允许用户捕获4K分辨率（即超高定义）图像。然而，对于图像进行示范，在低级视觉中，一项艰巨的任务，现有作品通常是在低分辨率或合成图像上进行的。因此，这些方法对4K分辨率图像的有效性仍然未知。在本文中，我们探索了Moire模式的删除，以进行超高定义图像。为此，我们提出了第一个超高定义的演示数据集（UHDM），其中包含5,000个现实世界4K分辨率图像对，并对当前最新方法进行基准研究。此外，我们提出了一个有效的基线模型ESDNET来解决4K Moire图像，其中我们构建了一个语义对准的比例感知模块来解决Moire模式的尺度变化。广泛的实验表明了我们的方法的有效性，这可以超过最轻巧的优于最先进的方法。代码和数据集可在https://xinyu-andy.github.io/uhdm-page上找到。

translated by 谷歌翻译

Complementary Feature Enhanced Network with Vision Transformer for Image Dehazing

Dong Zhao , Jia Li , Hongyu Li , Long Xu

分类：计算机视觉

2021-09-15

传统的基于CNNS的脱水模型遭受了两个基本问题：脱水框架（可解释性有限）和卷积层（内容无关，无效地学习远程依赖信息）。在本文中，我们提出了一种新的互补特征增强框架，其中互补特征由几个互补的子任务学习，然后一起用于提高主要任务的性能。新框架的一个突出优势之一是，有目的选择的互补任务可以专注于学习弱依赖性的互补特征，避免重复和无效的网络学习。我们根据这样一个框架设计了一种新的脱瘟网络。具体地，我们选择内在图像分解作为补充任务，其中反射率和阴影预测子任务用于提取色彩和纹理的互补特征。为了有效地聚合这些互补特征，我们提出了一种互补特征选择模块（CFSM），以选择图像脱水的更有用功能。此外，我们介绍了一个名为Hybrid Local-Global Vision变换器（Hylog-Vit）的新版本的Vision变换器块，并将其包含在我们的脱水网络中。 Hylog-VIT块包括用于捕获本地和全球依赖性的本地和全局视觉变压器路径。结果，Hylog-VIT引入网络中的局部性并捕获全局和远程依赖性。在均匀，非均匀和夜间脱水任务上的广泛实验表明，所提出的脱水网络可以实现比基于CNNS的去吸收模型的相当甚至更好的性能。

translated by 谷歌翻译

Ghost-free High Dynamic Range Imaging with Context-aware Transformer

Zhen Liu , Yinglong Wang , Bing Zeng , Shuaicheng Liu

分类：计算机视觉

2022-08-10

高动态范围（HDR）DEGHOSTING算法旨在生成具有现实细节的无幽灵HDR图像。受到接收场的局部性的限制，现有的基于CNN的方法通常容易产生大型运动和严重饱和的情况下产生鬼影和强度扭曲。在本文中，我们提出了一种新颖的背景感知视觉变压器（CA-VIT），用于无幽灵的高动态范围成像。 CA-VIT被设计为双分支结构，可以共同捕获全球和本地依赖性。具体而言，全球分支采用基于窗口的变压器编码器来建模远程对象运动和强度变化以解决hosting。对于本地分支，我们设计了局部上下文提取器（LCE）来捕获短范围的图像特征，并使用频道注意机制在提取的功能上选择信息丰富的本地详细信息，以补充全局分支。通过将CA-VIT作为基本组件纳入基本组件，我们进一步构建了HDR-Transformer，这是一个分层网络，以重建高质量的无幽灵HDR图像。在三个基准数据集上进行的广泛实验表明，我们的方法在定性和定量上优于最先进的方法，而计算预算大大降低。代码可从https://github.com/megvii-research/hdr-transformer获得

translated by 谷歌翻译

Deep Depth Completion from Extremely Sparse Data: A Survey

Junjie Hu , Chenyu Bao , Mete Ozay , Chenyou Fan , Qing Gao , Honghai Liu , Tin Lun Lam

分类：计算机视觉

2022-05-11

深度完成旨在预测从深度传感器（例如Lidars）中捕获的极稀疏图的密集像素深度。它在各种应用中起着至关重要的作用，例如自动驾驶，3D重建，增强现实和机器人导航。基于深度学习的解决方案已经证明了这项任务的最新成功。在本文中，我们首次提供了全面的文献综述，可帮助读者更好地掌握研究趋势并清楚地了解当前的进步。我们通过通过对现有方法进行分类的新型分类法提出建议，研究网络体系结构，损失功能，基准数据集和学习策略的设计方面的相关研究。此外，我们在包括室内和室外数据集（包括室内和室外数据集）上进行了三个广泛使用基准测试的模型性能进行定量比较。最后，我们讨论了先前作品的挑战，并为读者提供一些有关未来研究方向的见解。

translated by 谷歌翻译

MM811 Project Report: Cloud Detection and Removal in Satellite Images

Dale Chen-Song , Erfan Khalaji , Vaishali Rani

分类：计算机视觉 | 机器学习

2022-12-21

For satellite images, the presence of clouds presents a problem as clouds obscure more than half to two-thirds of the ground information. This problem causes many issues for reliability in a noise-free environment to communicate data and other applications that need seamless monitoring. Removing the clouds from the images while keeping the background pixels intact can help address the mentioned issues. Recently, deep learning methods have become popular for researching cloud removal by demonstrating promising results, among which Generative Adversarial Networks (GAN) have shown considerably better performance. In this project, we aim to address cloud removal from satellite images using AttentionGAN and then compare our results by reproducing the results obtained using traditional GANs and auto-encoders. We use RICE dataset. The outcome of this project can be used to develop applications that require cloud-free satellite images. Moreover, our results could be helpful for making further research improvements.

translated by 谷歌翻译

Deep Attentional Guided Image Filtering

Zhiwei Zhong , Xianming Liu , Junjun Jiang , Debin Zhao , Xiangyang Ji

分类：计算机视觉

2021-12-13

引导过滤器是计算机视觉和计算机图形中的基本工具，旨在将结构信息从引导图像传输到目标图像。大多数现有方法构造来自指导本身的滤波器内核，而不考虑指导和目标之间的相互依赖性。然而，由于两种图像中通常存在显着不同的边沿，只需将引导的所有结构信息传送到目标即将导致各种伪像。要应对这个问题，我们提出了一个名为Deep Enterponal引导图像过滤的有效框架，其过滤过程可以完全集成两个图像中包含的互补信息。具体地，我们提出了一种注意力内核学习模块，分别从引导和目标生成双组滤波器内核，然后通过在两个图像之间建模像素方向依赖性来自适应地组合它们。同时，我们提出了一种多尺度引导图像滤波模块，以粗略的方式通过所构造的内核逐渐产生滤波结果。相应地，引入了多尺度融合策略以重用中间导点在粗略的过程中。广泛的实验表明，所提出的框架在广泛的引导图像滤波应用中，诸如引导超分辨率，横向模态恢复，纹理拆除和语义分割的最先进的方法。

translated by 谷歌翻译

Unbiased Multi-Modality Guidance for Image Inpainting

Yongsheng Yu , Dawei Du , Libo Zhang , Tiejian Luo

分类：计算机视觉

2022-08-25

图像介入是一个不适的问题，可以基于带有遮罩的不完整图像来恢复缺失或损坏的图像内容。以前的作品通常可以预测辅助结构（例如边缘，分割和轮廓），以帮助以多阶段的方式填充视觉逼真的斑块。但是，不精确的辅助先验可能会产生有偏见的成分结果。此外，对于复杂的神经网络的多个阶段来实现的某些方法是耗时的。为了解决此问题，我们开发了一个端到端的多模式引导的变压器网络，包括一个镶嵌分支和两个用于语义分割和边缘纹理的辅助分支。在每个变压器块中，提出的多尺度空间感知注意模块可以通过辅助构成规范有效地学习多模式结构特征。与以前依赖于偏见先验的直接指导的方法不同，我们的方法基于来自多种模式的判别性相互作用信息，在图像中具有语义一致的上下文。关于几个具有挑战性的图像镶嵌数据集的全面实验表明，我们的方法实现了最先进的性能，以有效地处理各种常规/不规则面具。

translated by 谷歌翻译

HTML版本

Deep Learning-based Face Super-Resolution: A Survey

Junjun Jiang , Chenyang Wang , Xianming Liu , Jiayi Ma

分类：计算机视觉

2021-01-11

面部超分辨率（FSR），也称为面部幻觉，其旨在增强低分辨率（LR）面部图像以产生高分辨率（HR）面部图像的分辨率，是特定于域的图像超分辨率问题。最近，FSR获得了相当大的关注，并目睹了深度学习技术的发展炫目。迄今为止，有很少有基于深入学习的FSR的研究摘要。在本次调查中，我们以系统的方式对基于深度学习的FSR方法进行了全面审查。首先，我们总结了FSR的问题制定，并引入了流行的评估度量和损失功能。其次，我们详细说明了FSR中使用的面部特征和流行数据集。第三，我们根据面部特征的利用大致分类了现有方法。在每个类别中，我们从设计原则的一般描述开始，然后概述代表方法，然后讨论其中的利弊。第四，我们评估了一些最先进的方法的表现。第五，联合FSR和其他任务以及与FSR相关的申请大致介绍。最后，我们设想了这一领域进一步的技术进步的前景。在\ URL {https://github.com/junjun-jiang/face-hallucination-benchmark}上有一个策划的文件和资源的策划文件和资源清单

translated by 谷歌翻译

Multi-scale Sampling and Aggregation Network For High Dynamic Range Imaging

Jun Xiao , Qian Ye , Tianshan Liu , Cong Zhang , Kin-Man Lam

分类：计算机视觉

2022-08-04

高动态范围（HDR）成像是图像处理中的一个基本问题，即使在场景中存在不同的照明的情况下，它旨在产生暴露良好的图像。近年来，多曝光融合方法已取得了显着的结果，该方法合并了多个具有不同暴露的动态范围（LDR）图像，以生成相应的HDR图像。但是，在动态场景中综合HDR图像仍然具有挑战性，并且需求量很高。生产HDR图像有两个挑战：1）。 LDR图像之间的对象运动很容易在生成的结果中引起不良的幽灵伪像。 2）。由于在合并阶段对这些区域的补偿不足，因此下区域和过度曝光的区域通常包含扭曲的图像含量。在本文中，我们提出了一个多尺度采样和聚合网络，用于在动态场景中进行HDR成像。为了有效地减轻小动作和大型动作引起的问题，我们的方法通过以粗到精细的方式对LDR图像进行了暗中对齐LDR图像。此外，我们提出了一个基于离散小波转换的密集连接的网络，以改善性能，该网络将输入分解为几个非重叠频率子带，并在小波域中自适应地执行补偿。实验表明，与其他有希望的HDR成像方法相比，我们提出的方法可以在不同场景下实现最新的性能。此外，由我们的方法生成的HDR图像包含清洁剂和更详细的内容，扭曲较少，从而带来更好的视觉质量。

translated by 谷歌翻译

Light Field Reconstruction via Deep Adaptive Fusion of Hybrid Lenses

Jing Jin , Mantang Guo , Hui Liu , Junhui Hou , Hongkai Xiong

分类：计算机视觉

2021-02-14

This paper explores the problem of reconstructing high-resolution light field (LF) images from hybrid lenses, including a high-resolution camera surrounded by multiple low-resolution cameras. The performance of existing methods is still limited, as they produce either blurry results on plain textured areas or distortions around depth discontinuous boundaries. To tackle this challenge, we propose a novel end-to-end learning-based approach, which can comprehensively utilize the specific characteristics of the input from two complementary and parallel perspectives. Specifically, one module regresses a spatially consistent intermediate estimation by learning a deep multidimensional and cross-domain feature representation, while the other module warps another intermediate estimation, which maintains the high-frequency textures, by propagating the information of the high-resolution view. We finally leverage the advantages of the two intermediate estimations adaptively via the learned attention maps, leading to the final high-resolution LF image with satisfactory results on both plain textured areas and depth discontinuous boundaries. Besides, to promote the effectiveness of our method trained with simulated hybrid data on real hybrid data captured by a hybrid LF imaging system, we carefully design the network architecture and the training strategy. Extensive experiments on both real and simulated hybrid data demonstrate the significant superiority of our approach over state-of-the-art ones. To the best of our knowledge, this is the first end-to-end deep learning method for LF reconstruction from a real hybrid input. We believe our framework could potentially decrease the cost of high-resolution LF data acquisition and benefit LF data storage and transmission.

translated by 谷歌翻译

CSformer: Bridging Convolution and Transformer for Compressive Sensing

Dongjie Ye , Zhangkai Ni , Hanli Wang , Jian Zhang , Shiqi Wang , Sam Kwong

分类：计算机视觉

2021-12-31

卷积神经网络（CNNS）成功地进行了压缩图像感测。然而，由于局部性和重量共享的归纳偏差，卷积操作证明了建模远程依赖性的内在限制。变压器，最初作为序列到序列模型设计，在捕获由于基于自我关注的架构而捕获的全局背景中，即使它可以配备有限的本地化能力。本文提出了一种混合框架，一个混合框架，其集成了从CNN提供的借用的优点以及变压器提供的全局上下文，以获得增强的表示学习。所提出的方法是由自适应采样和恢复组成的端到端压缩图像感测方法。在采样模块中，通过学习的采样矩阵测量图像逐块。在重建阶段，将测量投射到双杆中。一个是用于通过卷积建模邻域关系的CNN杆，另一个是用于采用全球自我关注机制的变压器杆。双分支结构是并发，并且本地特征和全局表示在不同的分辨率下融合，以最大化功能的互补性。此外，我们探索一个渐进的战略和基于窗口的变压器块，以降低参数和计算复杂性。实验结果表明了基于专用变压器的架构进行压缩感测的有效性，与不同数据集的最先进方法相比，实现了卓越的性能。

translated by 谷歌翻译

HPRN: Holistic Prior-embedded Relation Network for Spectral Super-Resolution

Chaoxiong Wu , Jiaojiao Li , Rui Song , Yunsong Li , Qian Du

分类：人工智能 | 计算机视觉

2021-12-29

光谱超分辨率（SSR）是指从RGB对应物中恢复的高光谱图像（HSI）。由于SSR问题的一对多性，可以将单个RGB图像恢复到许多HSIS。解决这个暗示问题的关键是插入多源以前的信息，如自然RGB空间上下文的上下文，深度特征或固有的HSI统计事先等，以提高重建的置信度和保真度光谱。然而，大多数目前的方法只考虑设计定制的卷积神经网络（CNN）的一般和有限的前瞻，这导致无法有效地减轻不良程度。为解决有问题的问题，我们为SSR提出了一个新颖的全面的先前嵌入关系网络（HPRN）。基本上，核心框架由几个多剩余关系块（MRB）进行多种组装，其完全便于RGB信号之前的低频内容的传输和利用。创新性地，引入了RGB输入的语义之前，以识别类别属性，并且向前提出了语义驱动的空间关系模块（SSRM）以使用语义嵌入关系矩阵在聚类的类似特征之间执行特征聚合。此外，我们开发了一种基于变换器的通道关系模块（TCRM），其习惯使用标量作为先前深度特征中的频道方面关系的描述符，并用某些向量替换为变换器特征交互，支持表示更加歧视。为了保持高光谱频带之间的数学相关和光谱一致性，将二阶的先前约束（SOPC）结合到丢失功能中以引导HSI重建过程。

translated by 谷歌翻译

CNSNet: A Cleanness-Navigated-Shadow Network for Shadow Removal

Qianhao Yu , Naishan Zheng , Jie Huang , Feng Zhao

分类：计算机视觉

2022-09-06

去除阴影的关键是通过非阴影区域的指导恢复阴影区域的内容。由于远程建模不足，基于CNN的方法无法彻底研究非阴影地区的信息。为了解决这个问题，我们提出了一个新颖的清洁效果图网络（CNSNET），并具有面向阴影的自适应归一化（SOAN）模块，并根据阴影蒙版带有带有变压器（SAAT）模块的阴影吸引的聚合。在影子面罩的指导下，Soan模块制定了非阴影区域的统计数据，并将它们适应到阴影区域以进行区域修复。 SAAT模块利用阴影面膜来精确指导每个阴影像素的修复，通过考虑来自无阴影区域的高度相关像素以进行全球像素恢复。在三个基准数据集（ISTD，ISTD+和SRD）上进行了广泛的实验表明，我们的方法可实现出色的脱落性能。

translated by 谷歌翻译

Rain Removal from Light Field Images with 4D Convolution and Multi-scale Gaussian Process

Tao Yan , Mingyue Li , Bin Li , Yang Yang , Rynson W. H. Lau

分类：计算机视觉

2022-08-16

现有的DERANE方法主要集中于单个输入图像。只有单个输入图像，很难准确检测到雨条，去除雨条并恢复无雨图像。与单个2D图像相比，光场图像（LFI）通过通过元素摄像机记录每个事件射线的方向和位置，嵌入了广泛的3D结构和纹理信息，该镜头已成为计算机中的流行设备视觉和图形研究社区。在本文中，我们提出了一个新颖的网络4D-MGP-SRRNET，以从LFI中删除雨条。我们的方法将大雨LFI的所有子视图作为输入。为了充分利用LFI，我们采用4D卷积层来构建拟议的雨牛排清除网络，以同时处理LFI的所有子视图。在拟议的网络中，提出了带有新颖的多尺度自引导高斯工艺（MSGP）模块的雨水检测模型MGPDNET，以检测输入LFI的所有子视图中的雨条。引入了半监督的学习，以通过对虚拟世界LFI和现实世界中的LFI进行多个尺度上的虚拟世界LFI和现实世界中的LFI来准确检测雨季，这是通过计算现实世界中雨水条纹的伪地面真相。然后，所有减去预测的雨条的子视图都将馈送到4D残差模型中，以估计深度图。最后，所有子视图与相应的雨条和从估计的深度图转换的相应雨条和雾图都馈送到基于对抗性复发性神经网络的雨天LFI恢复模型，以逐步消除雨水条纹并恢复无雨的LFI LFI LFI。。对合成LFI和现实世界LFI进行的广泛的定量和定性评估证明了我们提出的方法的有效性。

translated by 谷歌翻译

Transformers in Remote Sensing: A Survey

Abdulaziz Amer Aleissaee , Amandeep Kumar , Rao Muhammad Anwer , Salman Khan , Hisham Cholakkal , Gui-Song Xia , Fahad Shahbaz khan

分类：计算机视觉

2022-09-02

在过去的十年中，基于深度学习的算法在遥感图像分析的不同领域中广泛流行。最近，最初在自然语言处理中引入的基于变形金刚的体系结构遍布计算机视觉领域，在该字段中，自我发挥的机制已被用作替代流行的卷积操作员来捕获长期依赖性。受到计算机视觉的最新进展的启发，遥感社区还见证了对各种任务的视觉变压器的探索。尽管许多调查都集中在计算机视觉中的变压器上，但据我们所知，我们是第一个对基于遥感中变压器的最新进展进行系统评价的人。我们的调查涵盖了60多种基于变形金刚的60多种方法，用于遥感子方面的不同遥感问题：非常高分辨率（VHR），高光谱（HSI）和合成孔径雷达（SAR）图像。我们通过讨论遥感中变压器的不同挑战和开放问题来结束调查。此外，我们打算在遥感论文中频繁更新和维护最新的变压器，及其各自的代码：https：//github.com/virobo-15/transformer-in-in-remote-sensing

translated by 谷歌翻译

HTML版本