智能论文笔记

Vision Transformer with Convolutional Encoder-Decoder for Hand Gesture Recognition using 24 GHz Doppler Radar

Kavinda Kehelella , Gayangana Leelarathne , Dhanuka Marasinghe , Nisal Kariyawasam , Viduneth Ariyarathna , Arjuna Madanayake , Ranga Rodrigo , Chamira U. S. Edussooriya

分类：机器学习

2022-09-12

变压器与卷积编码器结合使用，最近已使用微型多普勒特征用于手势识别（HGR）。我们为HGR提出了一个基于视觉转换器的架构，该体系结构具有多腹腔连续波多普勒雷达接收器。所提出的架构由三个模块组成：一个卷积编码器，带有三个变压器层的注意模块和一个多层感知器。新型的卷积解码器有助于将具有较大尺寸的斑块喂入注意力模块，以改善特征提取。用与两种抗连续波多普勒雷达接收器相对应的数据集获得的实验结果（Skaria等人出版）证实，所提出的体系结构的准确性达到了98.3％，从而实质上超过了现状的阶段。 - 在使用的数据集上进行艺术。

translated by 谷歌翻译

Efficient deep learning models for land cover image classification

Ioannis Papoutsis , Nikolaos-Ioannis Bountos , Angelos Zavras , Dimitrios Michail , Christos Tryfonopoulos

分类：计算机视觉

2021-11-18

哥内克人Sentinel Imagery的纯粹卷的可用性为使用深度学习的大尺度创造了新的土地利用陆地覆盖（Lulc）映射的机会。虽然在这种大型数据集上培训是一个非琐碎的任务。在这项工作中，我们试验Lulc Image分类和基准不同最先进模型的Bigearthnet数据集，包括卷积神经网络，多层感知，视觉变压器，高效导通和宽残余网络（WRN）架构。我们的目标是利用分类准确性，培训时间和推理率。我们提出了一种基于用于网络深度，宽度和输入数据分辨率的WRNS复合缩放的高效导通的框架，以有效地训练和测试不同的模型设置。我们设计一种新颖的缩放WRN架构，增强了有效的通道注意力机制。我们提出的轻量级模型具有较小的培训参数，实现所有19个LULC类的平均F分类准确度达到4.5％，并且验证了我们使用的resnet50最先进的模型速度快两倍作为基线。我们提供超过50种培训的型号，以及我们在多个GPU节点上分布式培训的代码。

translated by 谷歌翻译

ConTraNet: A single end-to-end hybrid network for EEG-based and EMG-based human machine interfaces

Omair Ali , Muhammad Saif-ur-Rehman , Tobias Glasmachers , Ioannis Iossifidis , Christian Klaes

分类：机器学习

2022-06-21

目的：脑电图（EEG）和肌电图（EMG）是两个非侵入性的生物信号，它们在人类机器界面（HMI）技术（EEG-HMI和EMG-HMI范式）中广泛用于康复，用于康复的物理残疾人。将脑电图和EMG信号成功解码为各自的控制命令是康复过程中的关键步骤。最近，提出了几个基于卷积的神经网络（CNN）架构，它们直接将原始的时间序列信号映射到决策空间中，并同时执行有意义的特征提取和分类的过程。但是，这些网络是根据学习给定生物信号的预期特征量身定制的，并且仅限于单个范式。在这项工作中，我们解决了一个问题，即我们可以构建一个单个体系结构，该架构能够从不同的HMI范式中学习不同的功能并仍然成功地对其进行分类。方法：在这项工作中，我们引入了一个称为Controanet的单个混合模型，该模型基于CNN和Transformer架构，该模型对EEG-HMI和EMG-HMI范式同样有用。 Contranet使用CNN块在模型中引入电感偏置并学习局部依赖性，而变压器块则使用自我注意机制来学习信号中的长距离依赖性，这对于EEG和EMG信号的分类至关重要。主要结果：我们在三个属于EEG-HMI和EMG-HMI范式的公开数据集上评估并比较了Contronet与最先进的方法。 Contranet在所有不同类别任务（2级，3类，4级和10级解码任务）中的表现优于其对应。意义：结果表明，与当前的最新算法状态相比，从不同的HMI范式中学习不同的特征并概述了矛盾。

translated by 谷歌翻译

MSHT: Multi-stage Hybrid Transformer for the ROSE Image Analysis of Pancreatic Cancer

Tianyi Zhang , Yunlu Feng , Yu Zhao , Guangda Fan , Aiming Yang , Shangqin Lyu , Peng Zhang , Fan Song , Chenbin Ma , Yangyang Sun

分类：计算机视觉 | 机器学习

2021-12-27

胰腺癌是世界上最严重恶性的癌症之一，这种癌症迅速迅速，具有很高的死亡率。快速的现场评估（玫瑰）技术通过立即分析与现场病理学家的快速染色的细胞影析学形象来创新工作流程，这使得在这种紧压的过程中能够更快的诊断。然而，由于缺乏经验丰富的病理学家，玫瑰诊断的更广泛的扩张已经受到阻碍。为了克服这个问题，我们提出了一个混合高性能深度学习模型，以实现自动化工作流程，从而释放占据病理学家的宝贵时间。通过使用我们特定的多级混合设计将变压器块引入该字段，由卷积神经网络（CNN）产生的空间特征显着增强了变压器全球建模。转向多级空间特征作为全球关注指导，这种设计将鲁棒性与CNN的感应偏差与变压器的复杂全球建模功能相结合。收集4240朵Rose图像的数据集以评估此未开发领域的方法。所提出的多级混合变压器（MSHT）在分类精度下实现95.68％，其鲜明地高于最先进的模型。面对对可解释性的需求，MSHT以更准确的关注区域表达其对应物。结果表明，MSHT可以以前所未有的图像规模精确地区分癌症样本，奠定了部署自动决策系统的基础，并在临床实践中扩大玫瑰。代码和记录可在：https://github.com/sagizty/multi-stage-ybrid-transformer。

translated by 谷歌翻译

Learning of Frequency-Time Attention Mechanism for Automatic Modulation Recognition

Shangao Lin , Yuan Zeng , Yi Gong

分类：计算机视觉

2021-11-05

最近的基于学习的图像分类和语音识别方法使得广泛利用注意力机制来实现最先进的识别力，这表明了注意力机制的有效性。由于调制无线电信号的频率和时间信息对调制模式识别至关重要的事实，本文提出了一种卷积神经网络（CNN）的调制识别框架的频率时间注意机制。所提出的频率 - 时间注意模块旨在了解哪些频道，频率和时间信息在CNN中更有意义，以进行调制识别。我们分析了所提出的频率时期注意机制的有效性，并比较了两个现有的基于学习的方法的提出方法。在开源调制识别数据集上的实验表明，所提出的框架的识别性能优于框架的识别性能，而无需朝向基于学习的方法。

translated by 谷歌翻译

Assessing the Impact of Attention and Self-Attention Mechanisms on the Classification of Skin Lesions

Rafael Pedro , Arlindo L. Oliveira

分类：计算机视觉 | 人工智能 | 机器学习

2021-12-23

注意机制对研究界提出了重大兴趣，因为他们承诺改善神经网络架构的表现。但是，在任何特定的问题中，我们仍然缺乏主要的方法来选择导致保证改进的具体机制和超参数。最近，已经提出了自我关注并广泛用于变压器 - 类似的架构中，导致某些应用中的重大突破。在这项工作中，我们专注于两种形式的注意机制：注意模块和自我关注。注意模块用于重新重量每个层输入张量的特征。不同的模块具有不同的方法，可以在完全连接或卷积层中执行此重复。研究的注意力模型是完全模块化的，在这项工作中，它们将与流行的Reset架构一起使用。自我关注，最初在自然语言处理领域提出，可以将所有项目与输入序列中的所有项目相关联。自我关注在计算机视觉中越来越受欢迎，其中有时与卷积层相结合，尽管最近的一些架构与卷曲完全消失。在这项工作中，我们研究并执行了在特定计算机视觉任务中许多不同关注机制的客观的比较，在广泛使用的皮肤癌MNIST数据集中的样本分类。结果表明，关注模块有时会改善卷积神经网络架构的性能，也是这种改进虽然明显且统计学意义，但在不同的环境中并不一致。另一方面，通过自我关注机制获得的结果表明了一致和显着的改进，即使在具有减少数量的参数的架构中，也可以实现最佳结果。

translated by 谷歌翻译

Rethinking Cooking State Recognition with Vision Transformers

Akib Mohammed Khan , Alif Ashrafee , Reeshoon Sayera , Shahriar Ivan , Sabbir Ahmed

分类：计算机视觉

2022-12-16

To ensure proper knowledge representation of the kitchen environment, it is vital for kitchen robots to recognize the states of the food items that are being cooked. Although the domain of object detection and recognition has been extensively studied, the task of object state classification has remained relatively unexplored. The high intra-class similarity of ingredients during different states of cooking makes the task even more challenging. Researchers have proposed adopting Deep Learning based strategies in recent times, however, they are yet to achieve high performance. In this study, we utilized the self-attention mechanism of the Vision Transformer (ViT) architecture for the Cooking State Recognition task. The proposed approach encapsulates the globally salient features from images, while also exploiting the weights learned from a larger dataset. This global attention allows the model to withstand the similarities between samples of different cooking objects, while the employment of transfer learning helps to overcome the lack of inductive bias by utilizing pretrained weights. To improve recognition accuracy, several augmentation techniques have been employed as well. Evaluation of our proposed framework on the `Cooking State Recognition Challenge Dataset' has achieved an accuracy of 94.3%, which significantly outperforms the state-of-the-art.

translated by 谷歌翻译

Couplformer:Rethinking Vision Transformer with Coupling Attention Map

Hai Lan , Xihao Wang , Xian Wei

分类：计算机视觉

2021-12-10

随着自我关注机制的发展，变压器模型已经在计算机视觉域中展示了其出色的性能。然而，从完全关注机制带来的大规模计算成为内存消耗的沉重负担。顺序地，记忆的限制降低了改善变压器模型的可能性。为了解决这个问题，我们提出了一种名为耦合器的新的记忆经济性注意力机制，它将注意力映射与两个子矩阵分成并从空间信息中生成对准分数。应用了一系列不同的尺度图像分类任务来评估模型的有效性。实验结果表明，在ImageNet-1K分类任务上，与常规变压器相比，耦合器可以显着降低28％的存储器消耗，同时访问足够的精度要求，并且在占用相同的内存占用时表达了0.92％。结果，耦合器可以用作视觉任务中的有效骨干，并提供关于研究人员注意机制的新颖视角。

translated by 谷歌翻译

Recent Advances in Vision Transformer: A Survey for Different Domains

Khawar Islam

分类：计算机视觉 | 人工智能

2022-03-03

与卷积神经网络（CNN）相比，视觉变压器（VIT）正在变得越来越流行和主导技术。作为计算机视觉中苛刻的技术，VIT已成功解决了各种视觉问题，同时着眼于远程关系。在本文中，我们首先介绍自我注意机制的基本概念和背景。接下来，我们提供了最新表现最好的VIT方法的全面概述，该方法在强度和弱点，计算成本以及培训和测试数据集方面描述。我们彻底比较了流行基准数据集上各种VIT算法和大多数代表性CNN方法的性能。最后，我们通过有见地的观察来探索一些局限性，并提供进一步的研究方向。项目页面以及论文集可通过https://github.com/khawar512/vit-survey获得

translated by 谷歌翻译

Transformers in Remote Sensing: A Survey

Abdulaziz Amer Aleissaee , Amandeep Kumar , Rao Muhammad Anwer , Salman Khan , Hisham Cholakkal , Gui-Song Xia , Fahad Shahbaz khan

分类：计算机视觉

2022-09-02

在过去的十年中，基于深度学习的算法在遥感图像分析的不同领域中广泛流行。最近，最初在自然语言处理中引入的基于变形金刚的体系结构遍布计算机视觉领域，在该字段中，自我发挥的机制已被用作替代流行的卷积操作员来捕获长期依赖性。受到计算机视觉的最新进展的启发，遥感社区还见证了对各种任务的视觉变压器的探索。尽管许多调查都集中在计算机视觉中的变压器上，但据我们所知，我们是第一个对基于遥感中变压器的最新进展进行系统评价的人。我们的调查涵盖了60多种基于变形金刚的60多种方法，用于遥感子方面的不同遥感问题：非常高分辨率（VHR），高光谱（HSI）和合成孔径雷达（SAR）图像。我们通过讨论遥感中变压器的不同挑战和开放问题来结束调查。此外，我们打算在遥感论文中频繁更新和维护最新的变压器，及其各自的代码：https：//github.com/virobo-15/transformer-in-in-remote-sensing

translated by 谷歌翻译

HTML版本

Vision Transformers: State of the Art and Research Challenges

Bo-Kai Ruan , Hong-Han Shuai , Wen-Huang Cheng

分类：计算机视觉

2022-07-07

变形金刚在自然语言处理方面取得了巨大的成功。由于变压器中自我发挥机制的强大能力，研究人员为各种计算机视觉任务（例如图像识别，对象检测，图像分割，姿势估计和3D重建）开发了视觉变压器。本文介绍了有关视觉变形金刚的不同建筑设计和培训技巧（包括自我监督的学习）文献的全面概述。我们的目标是为开放研究机会提供系统的审查。

translated by 谷歌翻译

CAE-Transformer: Transformer-based Model to Predict Invasiveness of Lung Adenocarcinoma Subsolid Nodules from Non-thin Section 3D CT Scans

Shahin Heidarian , Parnian Afshar , Anastasia Oikonomou , Konstantinos N. Plataniotis , Arash Mohammadi

分类：计算机视觉 | 机器学习

2021-10-17

肺癌是全世界癌症死亡的主要原因，具有各种组织学类型，其中肺腺癌（Luac）最近是最普遍的。肺腺癌被归类为预侵入性，微创和侵入性腺癌。及时，准确地了解肺结核的侵袭性导致适当的治疗计划，并降低了不必要或晚期手术的风险。目前，主要成像模型评估和预测Luacs的侵袭性是胸部CT。然而，基于CT图像的结果是主观的并且与手术切除后提供的地面真理审查相比，患有低精度。本文开发了一种基于预测变压器的框架，称为“CAE变压器”，以对Luacs进行分类。 CAE变换器利用卷积自动编码器（CAE）来自动从CT切片中提取信息性功能，然后将其馈送到修改的变压器模型以捕获全局切片关系。我们的内部数据集114个病理证明的副实体结节（SSN）的实验结果证明了CAE变压器在直方图/基于射频的模型上的优越性及其基于深度学习的对应物，实现了87.73％，灵敏度的准确性使用10倍交叉验证，88.67％，特异性为86.33％和0.913的AUC。

translated by 谷歌翻译

Escaping the Big Data Paradigm with Compact Transformers

Ali Hassani , Steven Walton , Nikhil Shah , Abulikemu Abuduweili , Jiachen Li , Humphrey Shi

分类：计算机视觉 | 机器学习

2021-04-12

随着变压器作为语言处理的标准及其在计算机视觉方面的进步，参数大小和培训数据的数量相应地增长。许多人开始相信，因此，变形金刚不适合少量数据。这种趋势引起了人们的关注，例如：某些科学领域中数据的可用性有限，并且排除了该领域研究资源有限的人。在本文中，我们旨在通过引入紧凑型变压器来提出一种小规模学习的方法。我们首次表明，具有正确的尺寸，卷积令牌化，变压器可以避免在小数据集上过度拟合和优于最先进的CNN。我们的模型在模型大小方面具有灵活性，并且在获得竞争成果的同时，参数可能仅为0.28亿。当在CIFAR-10上训练Cifar-10，只有370万参数训练时，我们的最佳模型可以达到98％的准确性，这是与以前的基于变形金刚的模型相比，数据效率的显着提高，比其他变压器小于10倍，并且是15％的大小。在实现类似性能的同时，重新NET50。 CCT还表现优于许多基于CNN的现代方法，甚至超过一些基于NAS的方法。此外，我们在Flowers-102上获得了新的SOTA，具有99.76％的TOP-1准确性，并改善了Imagenet上现有基线（82.71％精度，具有29％的VIT参数）以及NLP任务。我们针对变压器的简单而紧凑的设计使它们更可行，可以为那些计算资源和/或处理小型数据集的人学习，同时扩展了在数据高效变压器中的现有研究工作。我们的代码和预培训模型可在https://github.com/shi-labs/compact-transformers上公开获得。

translated by 谷歌翻译

CSformer: Bridging Convolution and Transformer for Compressive Sensing

Dongjie Ye , Zhangkai Ni , Hanli Wang , Jian Zhang , Shiqi Wang , Sam Kwong

分类：计算机视觉

2021-12-31

卷积神经网络（CNNS）成功地进行了压缩图像感测。然而，由于局部性和重量共享的归纳偏差，卷积操作证明了建模远程依赖性的内在限制。变压器，最初作为序列到序列模型设计，在捕获由于基于自我关注的架构而捕获的全局背景中，即使它可以配备有限的本地化能力。本文提出了一种混合框架，一个混合框架，其集成了从CNN提供的借用的优点以及变压器提供的全局上下文，以获得增强的表示学习。所提出的方法是由自适应采样和恢复组成的端到端压缩图像感测方法。在采样模块中，通过学习的采样矩阵测量图像逐块。在重建阶段，将测量投射到双杆中。一个是用于通过卷积建模邻域关系的CNN杆，另一个是用于采用全球自我关注机制的变压器杆。双分支结构是并发，并且本地特征和全局表示在不同的分辨率下融合，以最大化功能的互补性。此外，我们探索一个渐进的战略和基于窗口的变压器块，以降低参数和计算复杂性。实验结果表明了基于专用变压器的架构进行压缩感测的有效性，与不同数据集的最先进方法相比，实现了卓越的性能。

translated by 谷歌翻译

Explainable vision transformer enabled convolutional neural network for plant disease identification: PlantXViT

Poornima Singh Thakur , Pritee Khanna , Tanuja Sheorey , Aparajita Ojha

分类：计算机视觉

2022-07-16

植物疾病是全球作物损失的主要原因，对世界经济产生了影响。为了解决这些问题，智能农业解决方案正在发展，将物联网和机器学习结合起来，以进行早期疾病检测和控制。许多这样的系统使用基于视觉的机器学习方法进行实时疾病检测和诊断。随着深度学习技术的发展，已经出现了新方法，这些方法采用卷积神经网络进行植物性疾病检测和鉴定。基于视觉的深度学习的另一个趋势是使用视觉变压器，事实证明，这些变压器是分类和其他问题的强大模型。但是，很少研究视力变压器以进行植物病理应用。在这项研究中，为植物性疾病鉴定提出了一个启用视觉变压器的卷积神经网络模型。提出的模型将传统卷积神经网络的能力与视觉变压器有效地识别出多种农作物的大量植物疾病。拟议的模型具有轻巧的结构，只有80万个可训练的参数，这使其适合基于物联网的智能农业服务。 PlantXvit的性能在五个公开可用的数据集上进行了评估。拟议的PlantXvit网络在所有五个数据集上的性能要比五种最先进的方法更好。即使在挑战性的背景条件下，识别植物性疾病的平均准确性分别超过了苹果，玉米和稻米数据集的93.55％，92.59％和98.33％。使用梯度加权的类激活图和局部可解释的模型不可思议的解释来评估所提出模型的解释性效率。

translated by 谷歌翻译

The channel-spatial attention-based vision transformer network for automated, accurate prediction of crop nitrogen status from UAV imagery

Xin Zhang , Liangxiu Han , Tam Sobeih , Lewis Lappin , Mark Lee , Andew Howard , Aron Kisdi

分类：计算机视觉

2021-11-12

农民常规施用氮气（N）肥料以增加作物产量。目前，农民经常在某些位置或时间点上过度应用N肥料，因为它们没有高分辨率作物N状态数据。 N用效率可以很低，剩下的N损失环境，导致生产成本高，环境污染。准确和及时估计作物中的N状况至关重要，从而提高种植系统的经济和环境可持续性。基于组织分析的常规方法在实验室中估算植物中的N个状态是耗时和破坏性的。遥感和机器学习的最新进展表明了以非破坏性方式解决上述挑战的承诺。我们提出了一种新的深度学习框架：一种基于频道空间关注的视觉变压器（CSVT），用于估计从麦田中从UAV收集的大图像的作物N状态。与现有的作品不同，所提出的CSVT引入了通道注意力块（CAB）和空间交互块（SIB），其允许捕获来自UAV数字空中图像的空间和通道功能的非线性特性，以获得准确的N状态预测在小麦作物。此外，由于获得标记的数据是耗时且昂贵的，因此引入了本地到全局自我监督的学习，以预先培训CSVT，具有广泛的未标记数据。建议的CSVT与最先进的模型进行了比较，在测试和独立数据集上进行测试和验证。该方法实现了高精度（0.96），具有良好的普遍性和对小麦N状况估算的再现性。

translated by 谷歌翻译

A novel time-frequency Transformer based on self-attention mechanism and its application in fault diagnosis of rolling bearings

Yifei Ding , Minping Jia , Qiuhua Miao , Yudong Cao

分类：人工智能 | 机器学习

2021-04-19

通过深度学习（DL）大大扩展了数据驱动故障诊断模型的范围。然而，经典卷积和反复化结构具有计算效率和特征表示的缺陷，而基于注意机制的最新变压器架构尚未应用于该字段。为了解决这些问题，我们提出了一种新颖的时变电片（TFT）模型，其灵感来自序列加工的香草变压器大规模成功。特别是，我们设计了一个新的笨蛋和编码器模块，以从振动信号的时频表示（TFR）中提取有效抽象。在此基础上，本文提出了一种基于时变电片的新的端到端故障诊断框架。通过轴承实验数据集的案例研究，我们构建了最佳变压器结构并验证了其故障诊断性能。与基准模型和其他最先进的方法相比，证明了所提出的方法的优越性。

translated by 谷歌翻译

Transformer-based Hand Gesture Recognition via High-Density EMG Signals: From Instantaneous Recognition to Fusion of Motor Unit Spike Trains

Mansooreh Montazerin , Elahe Rahimian , Farnoosh Naderkhani , S. Farokh Atashzar , Svetlana Yanushkevich , Arash Mohammadi

分类：机器学习

2022-11-29

Designing efficient and labor-saving prosthetic hands requires powerful hand gesture recognition algorithms that can achieve high accuracy with limited complexity and latency. In this context, the paper proposes a compact deep learning framework referred to as the CT-HGR, which employs a vision transformer network to conduct hand gesture recognition using highdensity sEMG (HD-sEMG) signals. The attention mechanism in the proposed model identifies similarities among different data segments with a greater capacity for parallel computations and addresses the memory limitation problems while dealing with inputs of large sequence lengths. CT-HGR can be trained from scratch without any need for transfer learning and can simultaneously extract both temporal and spatial features of HD-sEMG data. Additionally, the CT-HGR framework can perform instantaneous recognition using sEMG image spatially composed from HD-sEMG signals. A variant of the CT-HGR is also designed to incorporate microscopic neural drive information in the form of Motor Unit Spike Trains (MUSTs) extracted from HD-sEMG signals using Blind Source Separation (BSS). This variant is combined with its baseline version via a hybrid architecture to evaluate potentials of fusing macroscopic and microscopic neural drive information. The utilized HD-sEMG dataset involves 128 electrodes that collect the signals related to 65 isometric hand gestures of 20 subjects. The proposed CT-HGR framework is applied to 31.25, 62.5, 125, 250 ms window sizes of the above-mentioned dataset utilizing 32, 64, 128 electrode channels. The average accuracy over all the participants using 32 electrodes and a window size of 31.25 ms is 86.23%, which gradually increases till reaching 91.98% for 128 electrodes and a window size of 250 ms. The CT-HGR achieves accuracy of 89.13% for instantaneous recognition based on a single frame of HD-sEMG image.

translated by 谷歌翻译

CvT: Introducing Convolutions to Vision Transformers

Haiping Wu , Bin Xiao , Noel Codella , Mengchen Liu , Xiyang Dai , Lu Yuan , Lei Zhang

分类：

2021-03-29

We present in this paper a new architecture, named Convolutional vision Transformer (CvT), that improves Vision Transformer (ViT) in performance and efficiency by introducing convolutions into ViT to yield the best of both designs. This is accomplished through two primary modifications: a hierarchy of Transformers containing a new convolutional token embedding, and a convolutional Transformer block leveraging a convolutional projection. These changes introduce desirable properties of convolutional neural networks (CNNs) to the ViT architecture (i.e. shift, scale, and distortion invariance) while maintaining the merits of Transformers (i.e. dynamic attention, global context, and better generalization). We validate CvT by conducting extensive experiments, showing that this approach achieves state-of-the-art performance over other Vision Transformers and ResNets on ImageNet-1k, with fewer parameters and lower FLOPs. In addition, performance gains are maintained when pretrained on larger datasets (e.g. ImageNet-22k) and fine-tuned to downstream tasks. Pretrained on ImageNet-22k, our CvT-W24 obtains a top-1 accuracy of 87.7% on the ImageNet-1k val set. Finally, our results show that the positional encoding, a crucial component in existing Vision Transformers, can be safely removed in our model, simplifying the design for higher resolution vision tasks. Code will be released at https: //github.com/leoxiaobin/CvT.

translated by 谷歌翻译

Semantic Labeling of High Resolution Images Using EfficientUNets and Transformers

Hasan AlMarzouqi , Lyes Saad Saoud

分类：计算机视觉

2022-06-20

语义细分需要在处理大量数据时学习高级特征的方法。卷积神经网络（CNN）可以学习独特和适应性的特征，以实现这一目标。但是，由于遥感图像的大尺寸和高空间分辨率，这些网络无法有效地分析整个场景。最近，Deep Transformers证明了它们能够记录图像中不同对象之间的全局相互作用的能力。在本文中，我们提出了一个新的分割模型，该模型将卷积神经网络与变压器结合在一起，并表明这种局部和全局特征提取技术的混合物在遥感分割中提供了显着优势。此外，提出的模型包括两个融合层，这些融合层旨在有效地表示网络的多模式输入和输出。输入融合层提取物具有总结图像内容与高程图（DSM）之间关系的地图。输出融合层使用一种新型的多任务分割策略，其中使用特定于类的特征提取层和损耗函数来识别类标签。最后，使用快速制定的方法将所有不明的类标签转换为其最接近的邻居。我们的结果表明，与最新技术相比，提出的方法可以提高分割精度。

translated by 谷歌翻译