智能论文笔记

Swin transformers make strong contextual encoders for VHR image road extraction

Tao Chen , Daguang Jiang , Ruirui Li

分类：计算机视觉

2022-01-10

基于深度学习的自动化道路特性或分割已经取得了重大进展，但仍然有利于结果的完整性和连通性的边缘。这主要是由于大型级别差异，含糊不清的阶级区别的挑战，以及来自阴影，树木和建筑物的闭塞。因此，能够感知全球背景和模型几何信息对于进一步提高道路分割的准确性至关重要。在本文中，我们设计了一种新型双分支编码块Coswin，它利用了Swin变压器的全局上下文建模的能力和Reset的本地特征提取。此外，我们还提出了一个名为CFilter的上下文引导的过滤器块，这可以过滤滤除与上下文 - 无关的噪声功能，以便更好地重建细节。我们在U形网络架构中使用CosWin和CFilter。马萨诸塞州和CHN6-CUG数据集上的实验表明，该方法在F1，IOU和OA的指标上优于其他最先进的方法。进一步的分析表明，准确性的提高来自于分段道路的更好的完整性和连通性。

translated by 谷歌翻译

HiFormer: Hierarchical Multi-scale Representations Using Transformers for Medical Image Segmentation

Moein Heidari , Amirhossein Kazerouni , Milad Soltany , Reza Azad , Ehsan Khodapanah Aghdam , Julien Cohen-Adad , Dorit Merhof

分类：计算机视觉 | 人工智能

2022-07-18

卷积神经网络（CNN）已成为医疗图像分割任务的共识。但是，由于卷积操作的性质，它们在建模长期依赖性和空间相关性时受到限制。尽管最初开发了变压器来解决这个问题，但它们未能捕获低级功能。相比之下，证明本地和全球特征对于密集的预测至关重要，例如在具有挑战性的环境中细分。在本文中，我们提出了一种新型方法，该方法有效地桥接了CNN和用于医学图像分割的变压器。具体而言，我们使用开创性SWIN变压器模块和一个基于CNN的编码器设计两个多尺度特征表示。为了确保从上述两个表示获得的全局和局部特征的精细融合，我们建议在编码器编码器结构的跳过连接中提出一个双层融合（DLF）模块。在各种医学图像分割数据集上进行的广泛实验证明了Hiformer在计算复杂性以及定量和定性结果方面对其他基于CNN的，基于变压器和混合方法的有效性。我们的代码可在以下网址公开获取：https：//github.com/amirhossein-kz/hiformer

translated by 谷歌翻译

TransDeepLab: Convolution-Free Transformer-based DeepLab v3+ for Medical Image Segmentation

Reza Azad , Moein Heidari , Moein Shariatnia , Ehsan Khodapanah Aghdam , Sanaz Karimijafarbigloo , Ehsan Adeli , Dorit Merhof

分类：计算机视觉 | 机器学习

2022-08-01

多年来，卷积神经网络（CNN）已成为多种计算机视觉任务的事实上的标准。尤其是，基于开创性体系结构（例如具有跳过连接的U形模型）或具有金字塔池的Artous卷积的深度神经网络已针对广泛的医学图像分析任务量身定制。此类架构的主要优点是它们容易拘留多功能本地功能。然而，作为一般共识，CNN无法捕获由于卷积操作的固有性能的内在特性而捕获长期依赖性和空间相关性。另外，从全球信息建模中获利的变压器源于自我发项机制，最近在自然语言处理和计算机视觉方面取得了出色的表现。然而，以前的研究证明，局部和全局特征对于密集预测的深层模型至关重要，例如以不同的形状和配置对复杂的结构进行分割。为此，本文提出了TransDeeplab，这是一种新型的DeepLab样纯变压器，用于医学图像分割。具体而言，我们用移动的窗口利用层次旋转式变形器来扩展DeepLabV3并建模非常有用的空间金字塔池（ASPP）模块。对相关文献的彻底搜索结果是，我们是第一个用基于纯变压器模型对开创性DeepLab模型进行建模的人。关于各种医学图像分割任务的广泛实验证明，我们的方法在视觉变压器和基于CNN的方法的合并中表现出色或与大多数当代作品相提并论，并显着降低了模型复杂性。代码和训练有素的模型可在https://github.com/rezazad68/transdeeplab上公开获得

translated by 谷歌翻译

LEDCNet: A Lightweight and Efficient Semantic Segmentation Algorithm Using Dual Context Module for Extracting Ground Objects from UAV Aerial Remote Sensing Images

Xiaoxiang Han , Yiman Liu , Gang Liu , Qiaohong Liu

分类：计算机视觉

2022-12-16

Semantic segmentation of UAV aerial remote sensing images provides a more efficient and convenient surveying and mapping method for traditional surveying and mapping. In order to make the model lightweight and improve a certain accuracy, this research developed a new lightweight and efficient network for the extraction of ground features from UAV aerial remote sensing images, called LDMCNet. Meanwhile, this research develops a powerful lightweight backbone network for the proposed semantic segmentation model. It is called LDCNet, and it is hoped that it can become the backbone network of a new generation of lightweight semantic segmentation algorithms. The proposed model uses dual multi-scale context modules, namely the Atrous Space Pyramid Pooling module (ASPP) and the Object Context Representation module (OCR). In addition, this research constructs a private dataset for semantic segmentation of aerial remote sensing images from drones. This data set contains 2431 training sets, 945 validation sets, and 475 test sets. The proposed model performs well on this dataset, with only 1.4M parameters and 5.48G floating-point operations (FLOPs), achieving an average intersection-over-union ratio (mIoU) of 71.12%. 7.88% higher than the baseline model. In order to verify the effectiveness of the proposed model, training on the public datasets "LoveDA" and "CITY-OSM" also achieved excellent results, achieving mIoU of 65.27% and 74.39%, respectively.

translated by 谷歌翻译

Hepatic vessel segmentation based on 3Dswin-transformer with inductive biased multi-head self-attention

Mian Wu , Yinling Qian , Xiangyun Liao , Qiong Wang , Pheng-Ann Heng

分类：计算机视觉

2021-11-05

目的：在手术规划之前，CT图像中肝血管的分割是必不可少的，并引起了医学图像分析界的广泛兴趣。由于结构复杂，对比度背景下，自动肝脏血管分割仍然特别具有挑战性。大多数相关的研究采用FCN，U-Net和V-Net变体作为骨干。然而，这些方法主要集中在捕获多尺度局部特征，这可能导致由于卷积运营商有限的地区接收领域而产生错误分类的体素。方法：我们提出了一种强大的端到端血管分割网络，通过将SWIN变压器扩展到3D并采用卷积和自我关注的有效组合，提出了一种被称为电感偏置的多头注意船网（IBIMHAV-NET）的稳健端到端血管分割网络。在实践中，我们介绍了Voxel-Wise嵌入而不是修补程序嵌入，以定位精确的肝脏血管素，并采用多尺度卷积运营商来获得局部空间信息。另一方面，我们提出了感应偏置的多头自我关注，其学习从初始化的绝对位置嵌入的归纳偏置相对位置嵌入嵌入。基于此，我们可以获得更可靠的查询和键矩阵。为了验证我们模型的泛化，我们测试具有不同结构复杂性的样本。结果：我们对3Dircadb数据集进行了实验。四种测试病例的平均骰子和敏感性为74.8％和77.5％，超过现有深度学习方法的结果和改进的图形切割方法。结论：拟议模型IBIMHAV-Net提供一种具有交错架构的自动，精确的3D肝血管分割，可更好地利用CT卷中的全局和局部空间特征。它可以进一步扩展到其他临床数据。

translated by 谷歌翻译

PHTrans: Parallelly Aggregating Global and Local Representations for Medical Image Segmentation

Wentao Liu , Tong Tian , Weijin Xu , Huihua Yang , Xipeng Pan , Songlin Yan , Lemeng Wang

分类：计算机视觉

2022-03-09

变压器在计算机视觉中的成功吸引了医学成像社区越来越多的关注。特别是对于医学图像细分，已经介绍了许多基于卷积神经网络（CNN）和变压器的出色混合体系结构，并取得了令人印象深刻的性能。但是，将模块化变压器嵌入CNN中的大多数方法都难以发挥其全部潜力。在本文中，我们提出了一种新型的医学图像分割的混合体系结构，称为Phtrans，该架构可与主要构建基块中的变形金刚和CNN杂交，以产生来自全球和本地特征的层次结构表示，并适应性地汇总它们，旨在完全利用其优势以获得更好的优势。细分性能。具体而言，phtrans遵循U形编码器编码器设计，并在深层阶段引入平行的Hybird模块，其中卷积块和经过修改的3D SWIN变压器分别学习本地特征和全局依赖性，然后统一尺寸，统一尺寸输出以实现特征聚合。超出颅库和自动化心脏诊断挑战数据集以外的多ATLA标签的广泛实验结果证实了其有效性，始终超过了最先进的方法。该代码可在以下网址获得：https：//github.com/lseventeen/phtrans。

translated by 谷歌翻译

D-Former: A U-shaped Dilated Transformer for 3D Medical Image Segmentation

Yixuan Wu , Kuanlun Liao , Jintai Chen , Danny Z. Chen , Jinhong Wang , Honghao Gao , Jian Wu

分类：计算机视觉 | 人工智能

2022-01-03

计算机辅助医学图像分割已广泛应用于诊断和治疗，以获得靶器官和组织的形状和体积的临床有用信息。在过去的几年中，基于卷积神经网络（CNN）的方法（例如，U-Net）占主导地位，但仍遭受了不足的远程信息捕获。因此，最近的工作提出了用于医学图像分割任务的计算机视觉变压器变体，并获得了有希望的表现。这种变压器通过计算配对贴片关系来模拟远程依赖性。然而，它们促进了禁止的计算成本，尤其是在3D医学图像（例如，CT和MRI）上。在本文中，我们提出了一种称为扩张变压器的新方法，该方法在本地和全球范围内交替捕获的配对贴片关系进行自我关注。灵感来自扩张卷积核，我们以扩张的方式进行全球自我关注，扩大接收领域而不增加所涉及的斑块，从而降低计算成本。基于这种扩展变压器的设计，我们构造了一个用于3D医学图像分割的U形编码器解码器分层体系结构。 Synapse和ACDC数据集的实验表明，我们的D-Ager Model从头开始培训，以低计算成本从划痕训练，优于各种竞争力的CNN或基于变压器的分段模型，而不耗时的每训练过程。

translated by 谷歌翻译

Focal-UNet: UNet-like Focal Modulation for Medical Image Segmentation

MohammadReza Naderi , MohammadHossein Givkashi , Fatemeh Piri , Nader Karimi , Shadrokh Samavi

分类：计算机视觉

2022-12-19

Recently, many attempts have been made to construct a transformer base U-shaped architecture, and new methods have been proposed that outperformed CNN-based rivals. However, serious problems such as blockiness and cropped edges in predicted masks remain because of transformers' patch partitioning operations. In this work, we propose a new U-shaped architecture for medical image segmentation with the help of the newly introduced focal modulation mechanism. The proposed architecture has asymmetric depths for the encoder and decoder. Due to the ability of the focal module to aggregate local and global features, our model could simultaneously benefit the wide receptive field of transformers and local viewing of CNNs. This helps the proposed method balance the local and global feature usage to outperform one of the most powerful transformer-based U-shaped models called Swin-UNet. We achieved a 1.68% higher DICE score and a 0.89 better HD metric on the Synapse dataset. Also, with extremely limited data, we had a 4.25% higher DICE score on the NeoPolyp dataset. Our implementations are available at: https://github.com/givkashi/Focal-UNet

translated by 谷歌翻译

TransNorm: Transformer Provides a Strong Spatial Normalization Mechanism for a Deep Segmentation Model

Reza Azad , Mohammad T. AL-Antary , Moein Heidari , Dorit Merhof

分类：计算机视觉

2022-07-27

在过去的几年中，卷积神经网络（CNN），尤其是U-NET，一直是医学图像处理时代的流行技术。具体而言，开创性的U-NET及其替代方案成功地设法解决了各种各样的医学图像分割任务。但是，这些体系结构在本质上是不完美的，因为它们无法表现出长距离相互作用和空间依赖性，从而导致具有可变形状和结构的医学图像分割的严重性能下降。针对序列到序列预测的初步提议的变压器已成为替代体系结构，以精确地模拟由自我激进机制辅助的全局信息。尽管设计了可行的设计，但利用纯变压器来进行图像分割目的，可能导致限制的定位容量，导致低级功能不足。因此，一系列研究旨在设计基于变压器的U-NET的强大变体。在本文中，我们提出了Trans-Norm，这是一种新型的深层分割框架，它随同将变压器模块合并为标准U-NET的编码器和跳过连接。我们认为，跳过连接的方便设计对于准确的分割至关重要，因为它可以帮助扩展路径和收缩路径之间的功能融合。在这方面，我们从变压器模块中得出了一种空间归一化机制，以适应性地重新校准跳过连接路径。对医学图像分割的三个典型任务进行了广泛的实验，证明了透气的有效性。代码和训练有素的模型可在https://github.com/rezazad68/transnorm上公开获得。

translated by 谷歌翻译

Self-attention on Multi-Shifted Windows for Scene Segmentation

Litao Yu , Zhibin Li , Jian Zhang , Qiang Wu

分类：计算机视觉

2022-07-10

图像中的场景细分是视觉内容理解中的一个基本而又具有挑战性的问题，即学习一个模型，将每个图像像素分配给分类标签。这项学习任务的挑战之一是考虑空间和语义关系以获得描述性特征表示，因此从多个量表中学习特征图是场景细分中的一种常见实践。在本文中，我们探讨了在多尺度图像窗口中自我发挥的有效使用来学习描述性视觉特征，然后提出三种不同的策略来汇总这些特征图以解码特征表示形式以进行密集的预测。我们的设计基于最近提出的SWIN Transformer模型，该模型完全放弃了卷积操作。借助简单而有效的多尺度功能学习和聚合，我们的模型在四个公共场景细分数据集，Pascal VOC2012，Coco-STUFF 10K，ADE20K和CITYSCAPES上实现了非常有希望的性能。

translated by 谷歌翻译

UNetFormer: A UNet-like Transformer for Efficient Semantic Segmentation of Remote Sensing Urban Scene Imagery

Libo Wang , Rui Li , Ce Zhang , Shenghui Fang , Chenxi Duan , Xiaoliang Meng , Peter M. Atkinson

分类：计算机视觉

2021-09-18

在广泛的实用应用中，需要进行远程感知的城市场景图像的语义细分，例如土地覆盖地图，城市变化检测，环境保护和经济评估。在深度学习技术的快速发展，卷积神经网络（CNN）的迅速发展。）多年来一直在语义细分中占主导地位。 CNN采用层次特征表示，证明了局部信息提取的强大功能。但是，卷积层的本地属性限制了网络捕获全局上下文。最近，作为计算机视觉领域的热门话题，Transformer在全球信息建模中展示了其巨大的潜力，从而增强了许多与视觉相关的任务，例如图像分类，对象检测，尤其是语义细分。在本文中，我们提出了一个基于变压器的解码器，并为实时城市场景细分构建了一个类似Unet的变压器（UneTformer）。为了有效的分割，不显示器将轻量级RESNET18选择作为编码器，并开发出有效的全球关注机制，以模拟解码器中的全局和局部信息。广泛的实验表明，我们的方法不仅运行速度更快，而且与最先进的轻量级模型相比，其准确性更高。具体而言，拟议的未显示器分别在无人机和洛夫加数据集上分别达到了67.8％和52.4％的MIOU，而在单个NVIDIA GTX 3090 GPU上输入了512x512输入的推理速度最多可以达到322.4 fps。在进一步的探索中，拟议的基于变压器的解码器与SWIN变压器编码器结合使用，还可以在Vaihingen数据集上实现最新的结果（91.3％F1和84.1％MIOU）。源代码将在https://github.com/wanglibo1995/geoseg上免费获得。

translated by 谷歌翻译

Generalised Image Outpainting with U-Transformer

Penglei Gao , Xi Yang , Rui Zhang , Kaizhu Huang , John Y. Goulermas , Yujie Geng , Yuyao Yan

分类：计算机视觉

2022-01-27

虽然大多数当前的图像支出都进行了水平外推，但我们研究了广义图像支出问题，这些问题将视觉上下文推断出给定图像周围的全面。为此，我们开发了一个新型的基于变压器的生成对抗网络，称为U-Transformer，能够扩展具有合理结构和细节的图像边界，即使是复杂的风景图像。具体而言，我们将生成器设计为嵌入流行的Swin Transformer块的编码器到二次结构。因此，我们的新型框架可以更好地应对图像远程依赖性，这对于广义图像支出至关重要。我们另外提出了U形结构和多视图时间空间预测网络，以增强图像自我重建以及未知的零件预测。我们在实验上证明，我们提出的方法可以为针对最新图像支出方法提供广义图像支出产生可吸引人的结果。

translated by 谷歌翻译

SeMask: Semantically Masked Transformers for Semantic Segmentation

Jitesh Jain , Anukriti Singh , Nikita Orlov , Zilong Huang , Jiachen Li , Steven Walton , Humphrey Shi

分类：计算机视觉 | 机器学习

2021-12-23

在图像变压器网络的编码器部分中的FineTuning佩带的骨干网一直是语义分段任务的传统方法。然而，这种方法揭示了图像在编码阶段提供的语义上下文。本文认为将图像的语义信息纳入预磨料的基于分层变换器的骨干，而FineTuning可显着提高性能。为实现这一目标，我们提出了一个简单且有效的框架，在语义关注操作的帮助下将语义信息包含在编码器中。此外，我们在训练期间使用轻量级语义解码器，为每个阶段提供监督对中间语义的先前地图。我们的实验表明，结合语义前导者增强了所建立的分层编码器的性能，随着絮凝物的数量略有增加。我们通过将Sromask集成到Swin-Cransformer的每个变体中提供了经验证明，因为我们的编码器与不同的解码器配对。我们的框架在CudeScapes数据集上实现了ADE20K数据集的新型58.22％的MIOU，并在Miou指标中提高了超过3％的内容。代码和检查点在https://github.com/picsart-ai-research/semask-egation上公开使用。

translated by 谷歌翻译

Fully Transformer Networks for Semantic Image Segmentation

Sitong Wu , Tianyi Wu , Fangjian Lin , Shengwei Tian , Guodong Guo

分类：计算机视觉

2021-06-08

由于长距离依赖性建模的能力，变压器在各种自然语言处理和计算机视觉任务中表现出令人印象深刻的性能。最近的进展证明，将这种变压器与基于CNN的语义图像分割模型相结合非常有前途。然而，目前还没有很好地研究了纯变压器的方法如何实现图像分割。在这项工作中，我们探索了语义图像分割的新框架，它是基于编码器 - 解码器的完全变压器网络（FTN）。具体地，我们首先提出金字塔组变压器（PGT）作为逐步学习分层特征的编码器，同时降低标准视觉变压器（VIT）的计算复杂性。然后，我们将特征金字塔变换器（FPT）提出了来自PGT编码器的多电平进行语义图像分割的多级别的语义级别和空间级信息。令人惊讶的是，这种简单的基线可以在多个具有挑战性的语义细分和面部解析基准上实现更好的结果，包括帕斯卡背景，ADE20K，Cocostuff和Celebamask-HQ。源代码将在https://github.com/br -dl/paddlevit上发布。

translated by 谷歌翻译

High-Resolution Swin Transformer for Automatic Medical Image Segmentation

Chen Wei , Shenghan Ren , Kaitai Guo , Haihong Hu , Jimin Liang

分类：计算机视觉 | 人工智能

2022-07-23

特征图的分辨率对于医学图像分割至关重要。大多数现有用于医疗图像分割的基于变压器的网络都是U-NET样体系结构，其中包含一个编码器，该编码器利用一系列变压器块将输入医疗图像从高分辨率表示形式转换为低分辨率特征图和解码器这逐渐从低分辨率特征图中恢复了高分辨率表示。与以前的研究不同，在本文中，我们利用高分辨率网络（HRNET）的网络设计样式，用变压器块替换卷积层，并从变压器块生成的不同分辨率特征图中连续交换信息。本文介绍的新基于变压器的网络表示为高分辨率SWIN Transformer网络（HRSTNET）。广泛的实验表明，HRSTNET可以与基于最新的变压器类似于脑肿瘤分割的U-NET样结构（BRATS）2021和Medical Sementation Decathlon的肝数据集实现可比的性能。 HRSTNET代码将在https://github.com/auroua/hrstnet上公开获得。

translated by 谷歌翻译

Semantic Labeling of High Resolution Images Using EfficientUNets and Transformers

Hasan AlMarzouqi , Lyes Saad Saoud

分类：计算机视觉

2022-06-20

语义细分需要在处理大量数据时学习高级特征的方法。卷积神经网络（CNN）可以学习独特和适应性的特征，以实现这一目标。但是，由于遥感图像的大尺寸和高空间分辨率，这些网络无法有效地分析整个场景。最近，Deep Transformers证明了它们能够记录图像中不同对象之间的全局相互作用的能力。在本文中，我们提出了一个新的分割模型，该模型将卷积神经网络与变压器结合在一起，并表明这种局部和全局特征提取技术的混合物在遥感分割中提供了显着优势。此外，提出的模型包括两个融合层，这些融合层旨在有效地表示网络的多模式输入和输出。输入融合层提取物具有总结图像内容与高程图（DSM）之间关系的地图。输出融合层使用一种新型的多任务分割策略，其中使用特定于类的特征提取层和损耗函数来识别类标签。最后，使用快速制定的方法将所有不明的类标签转换为其最接近的邻居。我们的结果表明，与最新技术相比，提出的方法可以提高分割精度。

translated by 谷歌翻译

DnSwin: Toward Real-World Denoising via Continuous Wavelet Sliding-Transformer

Hao Li , Zhijing Yang , Xiaobin Hong , Ziying Zhao , Junyang Chen , Yukai Shi , Jinshan Pan

分类：计算机视觉

2022-07-28

现实世界图像Denoising是一个实用的图像恢复问题，旨在从野外嘈杂的输入中获取干净的图像。最近，Vision Transformer（VIT）表现出强大的捕获远程依赖性的能力，许多研究人员试图将VIT应用于图像DeNosing任务。但是，现实世界的图像是一个孤立的框架，它使VIT构建了内部贴片的远程依赖性，该依赖性将图像分为贴片并混乱噪声模式和梯度连续性。在本文中，我们建议通过使用连续的小波滑动转换器来解决此问题，该小波滑动转换器在现实世界中构建频率对应关系，称为dnswin。具体而言，我们首先使用CNN编码器从嘈杂的输入图像中提取底部功能。 DNSWIN的关键是将高频和低频信息与功能和构建频率依赖性分开。为此，我们提出了小波滑动窗口变压器，该变压器利用离散的小波变换，自我注意力和逆离散小波变换来提取深度特征。最后，我们使用CNN解码器将深度特征重建为DeNo的图像。对现实世界的基准测试的定量和定性评估都表明，拟议的DNSWIN对最新方法的表现良好。

translated by 谷歌翻译

Defect Transformer: An Efficient Hybrid Transformer Architecture for Surface Defect Detection

Junpu Wang , Guili Xu , Fuju Yan , Jinjin Wang , Zhengsheng Wang

分类：计算机视觉

2022-07-17

表面缺陷检测是确保工业产品质量的极其至关重要的步骤。如今，基于编码器架构的卷积神经网络（CNN）在各种缺陷检测任务中取得了巨大的成功。然而，由于卷积的内在局部性，它们通常在明确建模长距离相互作用时表现出限制，这对于复杂情况下的像素缺陷检测至关重要，例如杂乱的背景和难以辨认的伪缺陷。最近的变压器尤其擅长学习全球图像依赖性，但对于详细的缺陷位置所需的本地结构信息有限。为了克服上述局限性，我们提出了一个有效的混合变压器体系结构，称为缺陷变压器（faft），用于表面缺陷检测，该检测将CNN和Transferaler纳入统一模型，以协作捕获本地和非本地关系。具体而言，在编码器模块中，首先采用卷积茎块来保留更详细的空间信息。然后，贴片聚合块用于生成具有四个层次结构的多尺度表示形式，每个层次结构之后分别是一系列的feft块，该块分别包括用于本地位置编码的本地位置块，一个轻巧的多功能自我自我 - 注意与良好的计算效率建模多尺度的全球上下文关系，以及用于功能转换和进一步位置信息学习的卷积馈送网络。最后，提出了一个简单但有效的解码器模块，以从编码器中的跳过连接中逐渐恢复空间细节。与其他基于CNN的网络相比，三个数据集上的广泛实验证明了我们方法的优势和效率。

translated by 谷歌翻译

Transformers in Remote Sensing: A Survey

Abdulaziz Amer Aleissaee , Amandeep Kumar , Rao Muhammad Anwer , Salman Khan , Hisham Cholakkal , Gui-Song Xia , Fahad Shahbaz khan

分类：计算机视觉

2022-09-02

在过去的十年中，基于深度学习的算法在遥感图像分析的不同领域中广泛流行。最近，最初在自然语言处理中引入的基于变形金刚的体系结构遍布计算机视觉领域，在该字段中，自我发挥的机制已被用作替代流行的卷积操作员来捕获长期依赖性。受到计算机视觉的最新进展的启发，遥感社区还见证了对各种任务的视觉变压器的探索。尽管许多调查都集中在计算机视觉中的变压器上，但据我们所知，我们是第一个对基于遥感中变压器的最新进展进行系统评价的人。我们的调查涵盖了60多种基于变形金刚的60多种方法，用于遥感子方面的不同遥感问题：非常高分辨率（VHR），高光谱（HSI）和合成孔径雷达（SAR）图像。我们通过讨论遥感中变压器的不同挑战和开放问题来结束调查。此外，我们打算在遥感论文中频繁更新和维护最新的变压器，及其各自的代码：https：//github.com/virobo-15/transformer-in-in-remote-sensing

translated by 谷歌翻译

HTML版本

Swin-Pose: Swin Transformer Based Human Pose Estimation

Zinan Xiong , Chenxi Wang , Ying Li , Yan Luo , Yu Cao

分类：计算机视觉

2022-01-19

卷积神经网络（CNN）已在许多计算机视觉任务中广泛使用。但是，CNN具有固定的接收场，并且缺乏远程感知的能力，这对于人类的姿势估计至关重要。由于其能够捕获像素之间的远程依赖性的能力，因此最近对计算机视觉应用程序采用了变压器体系结构，并被证明是一种高效的体系结构。我们有兴趣探索其在人类姿势估计中的能力，因此提出了一个基于变压器结构的新型模型，并通过特征金字塔融合结构增强了。更具体地说，我们使用预训练的Swin变压器作为主链，并从输入图像中提取特征，我们利用特征金字塔结构从不同阶段提取特征图。通过将功能融合在一起，我们的模型可以预测关键点热图。我们研究的实验结果表明，与最新的基于CNN的模型相比，提出的基于变压器的模型可以实现更好的性能。

translated by 谷歌翻译