智能论文笔记

Dense-TNT: Efficient Vehicle Type Classification Neural Network Using Satellite Imagery

Ruikang Luo , Yaofeng Song , Han Zhao , Yicheng Zhang , Yi Zhang , Nanbin Zhao , Liping Huang , Rong Su

分类：计算机视觉 | 人工智能

2022-09-27

准确的车辆类型分类在智能运输系统中起重要作用。对于统治者而言，重要的是要了解道路状况，通常为交通灯控制系统的贡献，以相应地响应以减轻交通拥堵。新技术和全面数据源，例如航空照片和遥感数据，提供了更丰富，高维的信息。同样，由于深度神经网络技术的快速发展，基于图像的车辆分类方法可以在处理数据时更好地提取基本的客观特征。最近，已经提出了几种深度学习模型来解决该问题。但是，基于纯卷积的传统方法对全球信息提取有限制，而复杂的环境（例如恶劣的天气）严重限制了识别能力。为了在复杂环境下提高车辆类型的分类能力，本研究提出了一种新型连接的卷积变压器在变压器神经网络（密度TNT）框架中，通过堆叠密集连接的卷积网络（Densenet）和变压器（TNT）（TNT）（TNT）（TNT ）层。部署了三个区域的数据和四个不同的天气条件以评估识别能力。实验发现，即使在严重的雾气天气条件下，我们提出的车辆分类模型的识别能力也很少。

translated by 谷歌翻译

Transformers in Remote Sensing: A Survey

Abdulaziz Amer Aleissaee , Amandeep Kumar , Rao Muhammad Anwer , Salman Khan , Hisham Cholakkal , Gui-Song Xia , Fahad Shahbaz khan

分类：计算机视觉

2022-09-02

在过去的十年中，基于深度学习的算法在遥感图像分析的不同领域中广泛流行。最近，最初在自然语言处理中引入的基于变形金刚的体系结构遍布计算机视觉领域，在该字段中，自我发挥的机制已被用作替代流行的卷积操作员来捕获长期依赖性。受到计算机视觉的最新进展的启发，遥感社区还见证了对各种任务的视觉变压器的探索。尽管许多调查都集中在计算机视觉中的变压器上，但据我们所知，我们是第一个对基于遥感中变压器的最新进展进行系统评价的人。我们的调查涵盖了60多种基于变形金刚的60多种方法，用于遥感子方面的不同遥感问题：非常高分辨率（VHR），高光谱（HSI）和合成孔径雷达（SAR）图像。我们通过讨论遥感中变压器的不同挑战和开放问题来结束调查。此外，我们打算在遥感论文中频繁更新和维护最新的变压器，及其各自的代码：https：//github.com/virobo-15/transformer-in-in-remote-sensing

translated by 谷歌翻译

HTML版本

Efficient deep learning models for land cover image classification

Ioannis Papoutsis , Nikolaos-Ioannis Bountos , Angelos Zavras , Dimitrios Michail , Christos Tryfonopoulos

分类：计算机视觉

2021-11-18

哥内克人Sentinel Imagery的纯粹卷的可用性为使用深度学习的大尺度创造了新的土地利用陆地覆盖（Lulc）映射的机会。虽然在这种大型数据集上培训是一个非琐碎的任务。在这项工作中，我们试验Lulc Image分类和基准不同最先进模型的Bigearthnet数据集，包括卷积神经网络，多层感知，视觉变压器，高效导通和宽残余网络（WRN）架构。我们的目标是利用分类准确性，培训时间和推理率。我们提出了一种基于用于网络深度，宽度和输入数据分辨率的WRNS复合缩放的高效导通的框架，以有效地训练和测试不同的模型设置。我们设计一种新颖的缩放WRN架构，增强了有效的通道注意力机制。我们提出的轻量级模型具有较小的培训参数，实现所有19个LULC类的平均F分类准确度达到4.5％，并且验证了我们使用的resnet50最先进的模型速度快两倍作为基线。我们提供超过50种培训的型号，以及我们在多个GPU节点上分布式培训的代码。

translated by 谷歌翻译

Defect Transformer: An Efficient Hybrid Transformer Architecture for Surface Defect Detection

Junpu Wang , Guili Xu , Fuju Yan , Jinjin Wang , Zhengsheng Wang

分类：计算机视觉

2022-07-17

表面缺陷检测是确保工业产品质量的极其至关重要的步骤。如今，基于编码器架构的卷积神经网络（CNN）在各种缺陷检测任务中取得了巨大的成功。然而，由于卷积的内在局部性，它们通常在明确建模长距离相互作用时表现出限制，这对于复杂情况下的像素缺陷检测至关重要，例如杂乱的背景和难以辨认的伪缺陷。最近的变压器尤其擅长学习全球图像依赖性，但对于详细的缺陷位置所需的本地结构信息有限。为了克服上述局限性，我们提出了一个有效的混合变压器体系结构，称为缺陷变压器（faft），用于表面缺陷检测，该检测将CNN和Transferaler纳入统一模型，以协作捕获本地和非本地关系。具体而言，在编码器模块中，首先采用卷积茎块来保留更详细的空间信息。然后，贴片聚合块用于生成具有四个层次结构的多尺度表示形式，每个层次结构之后分别是一系列的feft块，该块分别包括用于本地位置编码的本地位置块，一个轻巧的多功能自我自我 - 注意与良好的计算效率建模多尺度的全球上下文关系，以及用于功能转换和进一步位置信息学习的卷积馈送网络。最后，提出了一个简单但有效的解码器模块，以从编码器中的跳过连接中逐渐恢复空间细节。与其他基于CNN的网络相比，三个数据集上的广泛实验证明了我们方法的优势和效率。

translated by 谷歌翻译

The channel-spatial attention-based vision transformer network for automated, accurate prediction of crop nitrogen status from UAV imagery

Xin Zhang , Liangxiu Han , Tam Sobeih , Lewis Lappin , Mark Lee , Andew Howard , Aron Kisdi

分类：计算机视觉

2021-11-12

农民常规施用氮气（N）肥料以增加作物产量。目前，农民经常在某些位置或时间点上过度应用N肥料，因为它们没有高分辨率作物N状态数据。 N用效率可以很低，剩下的N损失环境，导致生产成本高，环境污染。准确和及时估计作物中的N状况至关重要，从而提高种植系统的经济和环境可持续性。基于组织分析的常规方法在实验室中估算植物中的N个状态是耗时和破坏性的。遥感和机器学习的最新进展表明了以非破坏性方式解决上述挑战的承诺。我们提出了一种新的深度学习框架：一种基于频道空间关注的视觉变压器（CSVT），用于估计从麦田中从UAV收集的大图像的作物N状态。与现有的作品不同，所提出的CSVT引入了通道注意力块（CAB）和空间交互块（SIB），其允许捕获来自UAV数字空中图像的空间和通道功能的非线性特性，以获得准确的N状态预测在小麦作物。此外，由于获得标记的数据是耗时且昂贵的，因此引入了本地到全局自我监督的学习，以预先培训CSVT，具有广泛的未标记数据。建议的CSVT与最先进的模型进行了比较，在测试和独立数据集上进行测试和验证。该方法实现了高精度（0.96），具有良好的普遍性和对小麦N状况估算的再现性。

translated by 谷歌翻译

AST-GIN: Attribute-Augmented Spatial-Temporal Graph Informer Network for Electric Vehicle Charging Station Availability Forecasting

Ruikang Luo , Yaofeng Song , Liping Huang , Yicheng Zhang , Rong Su

分类：机器学习

2022-09-07

电动汽车（EV）充电需求和充电站的可用性预测是智能运输系统中的挑战之一。通过准确的EV站情况预测，可以提前安排合适的充电行为以缓解范围焦虑。但是，由于复杂的道路网络结构和全面的外部因素，例如兴趣点（POI）和天气效应，许多现有的深度学习方法用于解决此问题，因此，许多常用算法只能在没有历史用法的情况下提取历史用法考虑外部因素的全面影响。为了提高预测准确性和可解释性，在本研究中提出了属性增强的时空图信息器（AST-GIN）结构，通过将图形卷积网络（GCN）层和告密者层组合来提取外部和内部空间 - 相关运输数据的时间依赖性。并且外部因素被模拟为动态属性，由属性调制的编码器进行训练。测试了邓迪市收集的数据的AST-gin模型，实验结果表明，与其他基线相比，考虑到外部因素对各种地平线环境的影响，我们的模型的有效性。

translated by 谷歌翻译

Grafting Transformer on Automatically Designed Convolutional Neural Network for Hyperspectral Image Classification

Xizhe Xue , Haokui Zhang , Bei Fang , Zongwen Bai , Ying Li

分类：计算机视觉

2021-10-21

高光谱图像（HSI）分类一直是决定的热门话题，因为高光谱图像具有丰富的空间和光谱信息，并为区分不同的土地覆盖物体提供了有力的基础。从深度学习技术的发展中受益，基于深度学习的HSI分类方法已实现了有希望的表现。最近，已经提出了一些用于HSI分类的神经架构搜索（NAS）算法，这将HSI分类的准确性进一步提高到了新的水平。在本文中，NAS和变压器首次合并用于处理HSI分类任务。与以前的工作相比，提出的方法有两个主要差异。首先，我们重新访问了先前的HSI分类NAS方法中设计的搜索空间，并提出了一个新型的混合搜索空间，该搜索空间由空间主导的细胞和频谱主导的单元组成。与以前的工作中提出的搜索空间相比，所提出的混合搜索空间与HSI数据的特征更加一致，即HSIS具有相对较低的空间分辨率和非常高的光谱分辨率。其次，为了进一步提高分类准确性，我们尝试将新兴变压器模块移植到自动设计的卷积神经网络（CNN）上，以将全局信息添加到CNN学到的局部区域的特征中。三个公共HSI数据集的实验结果表明，所提出的方法的性能要比比较方法更好，包括手动设计的网络和基于NAS的HSI分类方法。特别是在最近被捕获的休斯顿大学数据集中，总体准确性提高了近6个百分点。代码可在以下网址获得：https：//github.com/cecilia-xue/hyt-nas。

translated by 谷歌翻译

Remote Sensing Image Scene Classification: Benchmark and State of the Art

Gong Cheng , Junwei Han , Xiaoqiang Lu

分类：

2017-03-01

This paper reviews the recent progress of remote sensing image scene classification, proposes a large-scale benchmark dataset, and evaluates a number of state-of-the-art methods using the proposed dataset.

translated by 谷歌翻译

CAINNFlow: Convolutional block Attention modules and Invertible Neural Networks Flow for anomaly detection and localization tasks

Ruiqing Yan , Fan Zhang , Mengyuan Huang , Wu Liu , Dongyu Hu , Jinfeng Li , Qiang Liu , Jingrong Jiang , Qianjin Guo , Linghan Zheng

分类：计算机视觉 | 人工智能

2022-06-04

对象异常的检测对于工业过程至关重要，但是由于难以获得大量有缺陷的样本以及现实生活中无法预测的异常类型，因此无监督的异常检测和定位尤为重要。在现有的无监督异常检测和定位方法中，基于NF的方案取得了更好的结果。但是，两个子网（复杂函数）$ s_ {i}（u_ {i}）$和$ t_ {i}（u_ {i}）在nf中通常是多层的perceptrons，需要从2D扁平至1D，破坏了特征图中的空间位置关系并丢失空间结构信息。为了保留并有效提取空间结构信息，我们在这项研究中设计了一个复杂的函数模型，该模型具有交替的CBAM嵌入在堆叠的$ 3 \ times3 $全卷积中，该卷积能够保留并有效地在标准化流程模型中提取空间结构信息。 MVTEC AD数据集的广泛实验结果表明，Cainnflow基于CNN和Transformer Backbone网络作为特征提取器达到高级准确性和推理效率，并且Cainnflow可在MVTEC广告中获得$ 98.64 \％的像素级AUC $ 98.64 \％\％。

translated by 谷歌翻译

A novel time-frequency Transformer based on self-attention mechanism and its application in fault diagnosis of rolling bearings

Yifei Ding , Minping Jia , Qiuhua Miao , Yudong Cao

分类：人工智能 | 机器学习

2021-04-19

通过深度学习（DL）大大扩展了数据驱动故障诊断模型的范围。然而，经典卷积和反复化结构具有计算效率和特征表示的缺陷，而基于注意机制的最新变压器架构尚未应用于该字段。为了解决这些问题，我们提出了一种新颖的时变电片（TFT）模型，其灵感来自序列加工的香草变压器大规模成功。特别是，我们设计了一个新的笨蛋和编码器模块，以从振动信号的时频表示（TFR）中提取有效抽象。在此基础上，本文提出了一种基于时变电片的新的端到端故障诊断框架。通过轴承实验数据集的案例研究，我们构建了最佳变压器结构并验证了其故障诊断性能。与基准模型和其他最先进的方法相比，证明了所提出的方法的优越性。

translated by 谷歌翻译

LDNet: End-to-End Lane Marking Detection Approach Using a Dynamic Vision Sensor

Farzeen Munir , Shoaib Azam , Moongu Jeon , Byung-Geun Lee , Witold Pedrycz

分类：计算机视觉

2020-09-17

现代车辆配备各种驾驶员辅助系统，包括自动车道保持，这防止了无意的车道偏离。传统车道检测方法采用了手工制作或基于深度的学习功能，然后使用基于帧的RGB摄像机进行通道提取的后处理技术。用于车道检测任务的帧的RGB摄像机的利用易于照明变化，太阳眩光和运动模糊，这限制了车道检测方法的性能。在自主驾驶中的感知堆栈中结合了一个事件摄像机，用于自动驾驶的感知堆栈是用于减轻基于帧的RGB摄像机遇到的挑战的最有希望的解决方案之一。这项工作的主要贡献是设计车道标记检测模型，它采用动态视觉传感器。本文探讨了使用事件摄像机通过设计卷积编码器后跟注意引导的解码器的新颖性应用了车道标记检测。编码特征的空间分辨率由致密的区域空间金字塔池（ASPP）块保持。解码器中的添加剂注意机制可提高促进车道本地化的高维输入编码特征的性能，并缓解后处理计算。使用DVS数据集进行通道提取（DET）的DVS数据集进行评估所提出的工作的功效。实验结果表明，多人和二进制车道标记检测任务中的5.54 \％$ 5.54 \％$ 5.54 \％$ 5.03 \％$ 5.03 \％$ 5.03。此外，在建议方法的联盟（$ iou $）分数上的交叉点将超越最佳最先进的方法，分别以6.50 \％$ 6.50 \％$ 6.5.37 \％$ 9.37 \％$ 。

translated by 谷歌翻译

Fusion of Satellite Images and Weather Data with Transformer Networks for Downy Mildew Disease Detection

William Maillet , Maryam Ouhami , Adel Hafiane

分类：计算机视觉 | 人工智能

2022-09-06

作物疾病显着影响农业生产的数量和质量。在精确农业的目标是最大程度地减少甚至避免使用农药的目的，具有深度学习的天气和遥感数据可以在检测作物疾病中发挥关键作用，从而允许对农作物的局部治疗。但是，将天气和图像等异质数据结合在一起仍然是一个热门话题和具有挑战性的任务。变压器体系结构的最新发展显示了从不同领域（例如文本图像）融合数据的可能性。当前的趋势是仅定制一个变压器来创建多模式融合模型。相反，我们提出了一种使用三个变压器实现数据融合的新方法。在本文中，我们首先通过使用ConvlstM模型来插值来解决缺失的卫星图像问题。然后，提出了一种多模式融合体系结构，该体系结构共同学习处理视觉和天气信息。该体系结构是由三个主要组件，一个视觉变压器和两个变压器编码器构建的，可以融合图像和天气方式。所提出的方法的结果有望达到97 \％的总体准确性。

translated by 谷歌翻译

The Outcome of the 2022 Landslide4Sense Competition: Advanced Landslide Detection from Multi-Source Satellite Imagery

Omid Ghorbanzadeh , Yonghao Xu , Hengwei Zhao , Junjue Wang , Yanfei Zhong , Dong Zhao , Qi Zang , Shuang Wang , Fahong Zhang , Yilei Shi

分类：计算机视觉

2022-09-06

这里介绍了人工智能研究所（IARAI）组织的2022年Landslide4sense（L4S）竞赛的科学结果。竞争的目的是根据全球收集的卫星图像的大规模多个来源自动检测滑坡。 2022 L4S旨在促进有关使用卫星图像的语义分割任务的深度学习模型（DL）模型最新发展的跨学科研究。在过去的几年中，由于卷积神经网络（CNN）的发展，基于DL的模型已经达到了对图像解释的期望。本文的主要目的是介绍本次比赛中介绍的细节和表现最佳的算法。获胜的解决方案详细介绍了Swin Transformer，Segformer和U-NET等最先进的模型。还考虑了先进的机器学习技术和诸如硬采矿，自我培训和混合数据增强之类的策略。此外，我们描述了L4S基准数据集，以促进进一步的比较，并在线报告准确性评估的结果。可以在\ textIt {未来开发排行榜上访问数据，以供将来评估，\ url {https://www.iarai.ac.ac.at/landslide4sense/challenge/}，并邀请研究人员提交更多预测结果，评估准确性在他们的方法中，将它们与其他用户的方法进行比较，理想情况下，改善了本文报告的滑坡检测结果。

translated by 谷歌翻译

S2Looking: A Satellite Side-Looking Dataset for Building Change Detection

Li Shen , Yao Lu , Hao Chen , Hao Wei , Donghai Xie , Jiabao Yue , Rui Chen , Shouye Lv , Bitao Jiang

分类：计算机视觉 | 人工智能

2021-07-20

建筑变更检测是许多重要应用，特别是在军事和危机管理领域。最近用于变化检测的方法已转向深度学习，这取决于其培训数据的质量。因此，大型注释卫星图像数据集的组装对于全球建筑更改监视是必不可少的。现有数据集几乎完全提供近Nadir观看角度。这限制了可以检测到的更改范围。通过提供更大的观察范围，光学卫星的滚动成像模式提出了克服这种限制的机会。因此，本文介绍了S2Looking，一个建筑变革检测数据集，其中包含以各种偏离Nadir角度捕获的大规模侧视卫星图像。 DataSet由5000个批次图像对组成的农村地区，并在全球范围内超过65,920个辅助的变化实例。数据集可用于培训基于深度学习的变更检测算法。它通过提供（1）更大的观察角来扩展现有数据集; （2）大照明差异; （3）额外的农村形象复杂性。为了便于{该数据集的使用，已经建立了基准任务，并且初步测试表明，深度学习算法发现数据集明显比最接近的近Nadir DataSet，Levir-CD +更具挑战性。因此，S2Looking可能会促进现有的建筑变革检测算法的重要进步。 DataSet可在https://github.com/s2looking/使用。

translated by 谷歌翻译

Pyramid Transformer for Traffic Sign Detection

Omid Nejati Manzari , Amin Boudesh , Shahriar B. Shokouhi

分类：计算机视觉

2022-07-13

在自动驾驶汽车和自动驾驶系统的视觉系统中，交通标志检测是至关重要的任务。最近，基于变压器的新型模型为各种计算机视觉任务取得了令人鼓舞的结果。我们仍然观察到，香草VIT无法在交通符号检测中产生令人满意的结果，因为数据集的整体大小非常小，交通标志的类分布非常不平衡。为了克服这个问题，本文提出了一种具有局部机制的新型金字塔变压器。具体而言，金字塔变压器具有几个空间金字塔还原层，可通过使用严重的卷积将输入图像缩小并嵌入具有丰富多尺度上下文的令牌中。此外，它继承了固有的量表不变性归纳偏差，并能够在各种尺度上学习对象的本地功能表示，从而增强了网络的鲁棒性，以与流量标志的大小差异。实验是在德国交通标志基准（GTSDB）上进行的。结果证明了交通符号检测任务中提出的模型的优势。更具体地说，当将金字塔变压器应用于级联RCNN中时，将金字塔变压器在GTSDB中获得75.6％的地图，并超过了最知名和广泛使用的SOTA。

translated by 谷歌翻译

Roadmap on Signal Processing for Next Generation Measurement Systems

D. K. Iakovidis , M. Ooi , Y. C. Kuang , S. Damidenko , A. Shestakov , V. Sinistin , M. Henry , A. Sciacchitano , A. Discetti , S. Donati

分类：人工智能 | 计算机视觉

2021-11-03

信号处理是几乎任何传感器系统的基本组件，具有不同科学学科的广泛应用。时间序列数据，图像和视频序列包括可以增强和分析信息提取和量化的代表性形式的信号。人工智能和机器学习的最近进步正在转向智能，数据驱动，信号处理的研究。该路线图呈现了最先进的方法和应用程序的关键概述，旨在突出未来的挑战和对下一代测量系统的研究机会。它涵盖了广泛的主题，从基础到工业研究，以简明的主题部分组织，反映了每个研究领域的当前和未来发展的趋势和影响。此外，它为研究人员和资助机构提供了识别新前景的指导。

translated by 谷歌翻译

Rethinking Cooking State Recognition with Vision Transformers

Akib Mohammed Khan , Alif Ashrafee , Reeshoon Sayera , Shahriar Ivan , Sabbir Ahmed

分类：计算机视觉

2022-12-16

To ensure proper knowledge representation of the kitchen environment, it is vital for kitchen robots to recognize the states of the food items that are being cooked. Although the domain of object detection and recognition has been extensively studied, the task of object state classification has remained relatively unexplored. The high intra-class similarity of ingredients during different states of cooking makes the task even more challenging. Researchers have proposed adopting Deep Learning based strategies in recent times, however, they are yet to achieve high performance. In this study, we utilized the self-attention mechanism of the Vision Transformer (ViT) architecture for the Cooking State Recognition task. The proposed approach encapsulates the globally salient features from images, while also exploiting the weights learned from a larger dataset. This global attention allows the model to withstand the similarities between samples of different cooking objects, while the employment of transfer learning helps to overcome the lack of inductive bias by utilizing pretrained weights. To improve recognition accuracy, several augmentation techniques have been employed as well. Evaluation of our proposed framework on the `Cooking State Recognition Challenge Dataset' has achieved an accuracy of 94.3%, which significantly outperforms the state-of-the-art.

translated by 谷歌翻译

LEDCNet: A Lightweight and Efficient Semantic Segmentation Algorithm Using Dual Context Module for Extracting Ground Objects from UAV Aerial Remote Sensing Images

Xiaoxiang Han , Yiman Liu , Gang Liu , Qiaohong Liu

分类：计算机视觉

2022-12-16

Semantic segmentation of UAV aerial remote sensing images provides a more efficient and convenient surveying and mapping method for traditional surveying and mapping. In order to make the model lightweight and improve a certain accuracy, this research developed a new lightweight and efficient network for the extraction of ground features from UAV aerial remote sensing images, called LDMCNet. Meanwhile, this research develops a powerful lightweight backbone network for the proposed semantic segmentation model. It is called LDCNet, and it is hoped that it can become the backbone network of a new generation of lightweight semantic segmentation algorithms. The proposed model uses dual multi-scale context modules, namely the Atrous Space Pyramid Pooling module (ASPP) and the Object Context Representation module (OCR). In addition, this research constructs a private dataset for semantic segmentation of aerial remote sensing images from drones. This data set contains 2431 training sets, 945 validation sets, and 475 test sets. The proposed model performs well on this dataset, with only 1.4M parameters and 5.48G floating-point operations (FLOPs), achieving an average intersection-over-union ratio (mIoU) of 71.12%. 7.88% higher than the baseline model. In order to verify the effectiveness of the proposed model, training on the public datasets "LoveDA" and "CITY-OSM" also achieved excellent results, achieving mIoU of 65.27% and 74.39%, respectively.

translated by 谷歌翻译

MSHT: Multi-stage Hybrid Transformer for the ROSE Image Analysis of Pancreatic Cancer

Tianyi Zhang , Yunlu Feng , Yu Zhao , Guangda Fan , Aiming Yang , Shangqin Lyu , Peng Zhang , Fan Song , Chenbin Ma , Yangyang Sun

分类：计算机视觉 | 机器学习

2021-12-27

胰腺癌是世界上最严重恶性的癌症之一，这种癌症迅速迅速，具有很高的死亡率。快速的现场评估（玫瑰）技术通过立即分析与现场病理学家的快速染色的细胞影析学形象来创新工作流程，这使得在这种紧压的过程中能够更快的诊断。然而，由于缺乏经验丰富的病理学家，玫瑰诊断的更广泛的扩张已经受到阻碍。为了克服这个问题，我们提出了一个混合高性能深度学习模型，以实现自动化工作流程，从而释放占据病理学家的宝贵时间。通过使用我们特定的多级混合设计将变压器块引入该字段，由卷积神经网络（CNN）产生的空间特征显着增强了变压器全球建模。转向多级空间特征作为全球关注指导，这种设计将鲁棒性与CNN的感应偏差与变压器的复杂全球建模功能相结合。收集4240朵Rose图像的数据集以评估此未开发领域的方法。所提出的多级混合变压器（MSHT）在分类精度下实现95.68％，其鲜明地高于最先进的模型。面对对可解释性的需求，MSHT以更准确的关注区域表达其对应物。结果表明，MSHT可以以前所未有的图像规模精确地区分癌症样本，奠定了部署自动决策系统的基础，并在临床实践中扩大玫瑰。代码和记录可在：https://github.com/sagizty/multi-stage-ybrid-transformer。

translated by 谷歌翻译

CSformer: Bridging Convolution and Transformer for Compressive Sensing

Dongjie Ye , Zhangkai Ni , Hanli Wang , Jian Zhang , Shiqi Wang , Sam Kwong

分类：计算机视觉

2021-12-31

卷积神经网络（CNNS）成功地进行了压缩图像感测。然而，由于局部性和重量共享的归纳偏差，卷积操作证明了建模远程依赖性的内在限制。变压器，最初作为序列到序列模型设计，在捕获由于基于自我关注的架构而捕获的全局背景中，即使它可以配备有限的本地化能力。本文提出了一种混合框架，一个混合框架，其集成了从CNN提供的借用的优点以及变压器提供的全局上下文，以获得增强的表示学习。所提出的方法是由自适应采样和恢复组成的端到端压缩图像感测方法。在采样模块中，通过学习的采样矩阵测量图像逐块。在重建阶段，将测量投射到双杆中。一个是用于通过卷积建模邻域关系的CNN杆，另一个是用于采用全球自我关注机制的变压器杆。双分支结构是并发，并且本地特征和全局表示在不同的分辨率下融合，以最大化功能的互补性。此外，我们探索一个渐进的战略和基于窗口的变压器块，以降低参数和计算复杂性。实验结果表明了基于专用变压器的架构进行压缩感测的有效性，与不同数据集的最先进方法相比，实现了卓越的性能。

translated by 谷歌翻译