智能论文笔记

Uformer-ICS: A Specialized U-Shaped Transformer for Image Compressive Sensing

Kuiyuan Zhang , Zhongyun Hua , Yuanman Li , Yushu Zhang , Yicong Zhou

分类：计算机视觉

2022-09-05

最近，一些研究在图像压缩感测（CS）任务中应用了深层卷积神经网络（CNN），以提高重建质量。但是，卷积层通常具有一个小的接受场。因此，使用CNN捕获远程像素相关性是具有挑战性的，这限制了其在Image CS任务中的重建性能。考虑到这一限制，我们为图像CS任务（称为uformer-ics）提出了一个U形变压器。我们通过将CS的先验投影知识集成到原始变压器块中，然后使用基于投影基于投影的变压器块和残留卷积块构建对称重建模型来开发一个基于投影的变压器块。与以前的基于CNN的CS方法相比，只能利用本地图像特征，建议的重建模型可以同时利用图像的局部特征和远程依赖性，以及CS理论的先前投影知识。此外，我们设计了一个自适应采样模型，该模型可以基于块稀疏性自适应采样图像块，这可以确保压缩结果保留在固定采样比下原始图像的最大可能信息。提出的UFORFORFOR-ICS是一个端到端框架，同时学习采样和重建过程。实验结果表明，与现有的基于深度学习的CS方法相比，它的重建性能明显优于重建性能。

translated by 谷歌翻译

CSformer: Bridging Convolution and Transformer for Compressive Sensing

Dongjie Ye , Zhangkai Ni , Hanli Wang , Jian Zhang , Shiqi Wang , Sam Kwong

分类：计算机视觉

2021-12-31

卷积神经网络（CNNS）成功地进行了压缩图像感测。然而，由于局部性和重量共享的归纳偏差，卷积操作证明了建模远程依赖性的内在限制。变压器，最初作为序列到序列模型设计，在捕获由于基于自我关注的架构而捕获的全局背景中，即使它可以配备有限的本地化能力。本文提出了一种混合框架，一个混合框架，其集成了从CNN提供的借用的优点以及变压器提供的全局上下文，以获得增强的表示学习。所提出的方法是由自适应采样和恢复组成的端到端压缩图像感测方法。在采样模块中，通过学习的采样矩阵测量图像逐块。在重建阶段，将测量投射到双杆中。一个是用于通过卷积建模邻域关系的CNN杆，另一个是用于采用全球自我关注机制的变压器杆。双分支结构是并发，并且本地特征和全局表示在不同的分辨率下融合，以最大化功能的互补性。此外，我们探索一个渐进的战略和基于窗口的变压器块，以降低参数和计算复杂性。实验结果表明了基于专用变压器的架构进行压缩感测的有效性，与不同数据集的最先进方法相比，实现了卓越的性能。

translated by 谷歌翻译

Image Compressed Sensing Using Non-local Neural Network

Wenxue Cui , Shaohui Liu , Feng Jiang , Debin Zhao

分类：计算机视觉

2021-12-07

基于深度网络的图像压缩感（CS）近年来引起了很多关注。然而，现有的基于深网络的CS方案以逐个块的方式重建目标图像，其导致严重的块伪像或将深网络训练为黑盒，其带来了对图像先验知识的有限识别。本文提出了一种使用非局部神经网络（NL-CSNet）的新型图像CS框架，其利用具有深度网络的非本地自相似子，提高重建质量。在所提出的NL-CSNET中，构造了两个非本地子网，用于分别利用测量域中的非本地自相似子系统和多尺度特征域。具体地，在测量域的子网中，建立用于更好的初始重建的不同图像块的测量之间的长距离依赖性。类似地，在多尺度特征域的子网中，在深度重建的多尺度空间中探讨了密集特征表示之间的亲和力。此外，开发了一种新的损失函数以增强非本地表示之间的耦合，这也能够实现NL-CSNet的端到端训练。广泛的实验表明，NL-CSNet优于现有的最先进的CS方法，同时保持快速的计算速度。

translated by 谷歌翻译

DnSwin: Toward Real-World Denoising via Continuous Wavelet Sliding-Transformer

Hao Li , Zhijing Yang , Xiaobin Hong , Ziying Zhao , Junyang Chen , Yukai Shi , Jinshan Pan

分类：计算机视觉

2022-07-28

现实世界图像Denoising是一个实用的图像恢复问题，旨在从野外嘈杂的输入中获取干净的图像。最近，Vision Transformer（VIT）表现出强大的捕获远程依赖性的能力，许多研究人员试图将VIT应用于图像DeNosing任务。但是，现实世界的图像是一个孤立的框架，它使VIT构建了内部贴片的远程依赖性，该依赖性将图像分为贴片并混乱噪声模式和梯度连续性。在本文中，我们建议通过使用连续的小波滑动转换器来解决此问题，该小波滑动转换器在现实世界中构建频率对应关系，称为dnswin。具体而言，我们首先使用CNN编码器从嘈杂的输入图像中提取底部功能。 DNSWIN的关键是将高频和低频信息与功能和构建频率依赖性分开。为此，我们提出了小波滑动窗口变压器，该变压器利用离散的小波变换，自我注意力和逆离散小波变换来提取深度特征。最后，我们使用CNN解码器将深度特征重建为DeNo的图像。对现实世界的基准测试的定量和定性评估都表明，拟议的DNSWIN对最新方法的表现良好。

translated by 谷歌翻译

Uformer: A General U-Shaped Transformer for Image Restoration

Zhendong Wang , Xiaodong Cun , Jianmin Bao , Wengang Zhou , Jianzhuang Liu , Houqiang Li

分类：计算机视觉

2021-06-06

在本文中，我们呈现了UFFORER，一种用于图像恢复的有效和高效的变换器架构，其中我们使用变压器块构建分层编码器解码器网络。在UFFAR中，有两个核心设计。首先，我们介绍了一个新颖的本地增强型窗口（Lewin）变压器块，其执行基于窗口的自我关注而不是全局自我关注。它显着降低了高分辨率特征映射的计算复杂性，同时捕获本地上下文。其次，我们提出了一种以多尺度空间偏置的形式提出了一种学习的多尺度恢复调制器，以调整UFFORER解码器的多个层中的特征。我们的调制器展示了卓越的能力，用于恢复各种图像恢复任务的详细信息，同时引入边缘额外参数和计算成本。通过这两个设计提供支持，UFFORER享有高能力，可以捕获本地和全局依赖性的图像恢复。为了评估我们的方法，在几种图像恢复任务中进行了广泛的实验，包括图像去噪，运动脱棕，散焦和污染物。没有钟声和口哨，与最先进的算法相比，我们的UFormer实现了卓越的性能或相当的性能。代码和模型可在https://github.com/zhendongwang6/uformer中找到。

translated by 谷歌翻译

Image Compressed Sensing with Multi-scale Dilated Convolutional Neural Network

Zhifeng Wang , Zhenghui Wang , Chunyan Zeng , Yan Yu , Xiangkui Wan

分类：计算机视觉

2022-09-28

与传统CS方法相比，基于深度学习（DL）的压缩传感（CS）已被应用于图像重建的更好性能。但是，大多数现有的DL方法都利用逐个块测量，每个测量块分别恢复，这引入了重建的有害阻塞效应。此外，这些方法的神经元接受场被设计为每一层的大小相同，这只能收集单尺度的空间信息，并对重建过程产生负面影响。本文提出了一个新的框架，称为CS测量和重建的多尺度扩张卷积神经网络（MSDCNN）。在测量期间，我们直接从训练有素的测量网络中获得所有测量，该测量网络采用了完全卷积结构，并通过输入图像与重建网络共同训练。它不必将其切成块，从而有效地避免了块效应。在重建期间，我们提出了多尺度特征提取（MFE）体系结构，以模仿人类视觉系统以捕获同一功能映射的多尺度特征，从而增强了框架的图像特征提取能力并提高了框架的性能并提高了框架的性能。影像重建。在MFE中，有多个并行卷积通道以获取多尺度特征信息。然后，将多尺度功能信息融合在一起，并以高质量重建原始图像。我们的实验结果表明，根据PSNR和SSIM，该提出的方法对最新方法的性能有利。

translated by 谷歌翻译

Accurate Image Restoration with Attention Retractable Transformer

Jiale Zhang , Yulun Zhang , Jinjin Gu , Yongbing Zhang , Linghe Kong , Xin Yuan

分类：计算机视觉

2022-10-04

Recently, Transformer-based image restoration networks have achieved promising improvements over convolutional neural networks due to parameter-independent global interactions. To lower computational cost, existing works generally limit self-attention computation within non-overlapping windows. However, each group of tokens are always from a dense area of the image. This is considered as a dense attention strategy since the interactions of tokens are restrained in dense regions. Obviously, this strategy could result in restricted receptive fields. To address this issue, we propose Attention Retractable Transformer (ART) for image restoration, which presents both dense and sparse attention modules in the network. The sparse attention module allows tokens from sparse areas to interact and thus provides a wider receptive field. Furthermore, the alternating application of dense and sparse attention modules greatly enhances representation ability of Transformer while providing retractable attention on the input image.We conduct extensive experiments on image super-resolution, denoising, and JPEG compression artifact reduction tasks. Experimental results validate that our proposed ART outperforms state-of-the-art methods on various benchmark datasets both quantitatively and visually. We also provide code and models at the website https://github.com/gladzhang/ART.

translated by 谷歌翻译

Multi-Channel Deep Networks for Block-Based Image Compressive Sensing

Siwang Zhou , Yan He , Yonghe Liu , Chengqing Li , Jianming Zhang

分类：机器学习 | (统计)机器学习

2019-08-28

在图像压缩传感（CS）中将深层神经网络纳入了最近在多媒体技术和应用中的密集关注。随着深网接近，直接从CS测量中了解了反映射，重建速度的速度明显快于常规CS算法。但是，对于现有的基于网络的方法，CS采样过程必须映射单独的网络模型。由于封锁伪像，这可能会降低图像CS的性能，尤其是当将多个采样率分配给图像中的不同块时。在本文中，我们通过利用与性能显着超过当前最新方法的间隔相关性来开发一个用于基于块的图像CS的多通道深网。显着的性能改善归因于块近似，但完全去除了封闭伪像的图像。具体而言，使用我们的多通道结构，可以在单个模型中重建具有多种采样率的图像块。然后，最初重建的块能够将其重新组装成完整的图像中，以通过展开基于手动设计的基于手动设计的CS恢复算法来改善恢复的图像。实验结果表明，所提出的方法在客观指标和主观视觉图像质量方面优于最先进的CS方法。我们的源代码可从https://github.com/siwangzhou/deepbcs获得。

translated by 谷歌翻译

SwinIR: Image Restoration Using Swin Transformer

Jingyun Liang , Jiezhang Cao , Guolei Sun , Kai Zhang , Luc Van Gool , Radu Timofte

分类：

2021-08-23

Image restoration is a long-standing low-level vision problem that aims to restore high-quality images from lowquality images (e.g., downscaled, noisy and compressed images). While state-of-the-art image restoration methods are based on convolutional neural networks, few attempts have been made with Transformers which show impressive performance on high-level vision tasks. In this paper, we propose a strong baseline model SwinIR for image restoration based on the Swin Transformer. SwinIR consists of three parts: shallow feature extraction, deep feature extraction and high-quality image reconstruction. In particular, the deep feature extraction module is composed of several residual Swin Transformer blocks (RSTB), each of which has several Swin Transformer layers together with a residual connection. We conduct experiments on three representative tasks: image super-resolution (including classical, lightweight and real-world image super-resolution), image denoising (including grayscale and color image denoising) and JPEG compression artifact reduction. Experimental results demonstrate that SwinIR outperforms state-of-the-art methods on different tasks by up to 0.14∼0.45dB, while the total number of parameters can be reduced by up to 67%.

translated by 谷歌翻译

Mask-guided Spectral-wise Transformer for Efficient Hyperspectral Image Reconstruction

Yuanhao Cai , Jing Lin , Xiaowan Hu , Haoqian Wang , Xin Yuan , Yulun Zhang , Radu Timofte , Luc Van Gool

分类：计算机视觉

2021-11-15

高光谱图像（HSI）重建旨在从编码光圈快照频谱成像（CASSI）系统中的2D测量中恢复3D空间光谱信号。 HSI表示在光谱维度上具有高度相似和相关性。建模频谱间相互作用对HSI重建有益。然而，现有的基于CNN的方法显示了捕获光谱和远程依赖性的限制。此外，HSI信息由CASSI中的编码孔径（物理掩码）调制。尽管如此，目前的算法尚未完全探索掩模的掩模恢复的引导效果。在本文中，我们提出了一种新颖的框架，掩模引导的光谱 - 明智变压器（MST），用于HSI重建。具体地，我们介绍了一种频谱，用于将每个光谱特征视为令牌的频谱 - 明智的多头自我注意（S-MSA）并计算沿光谱尺寸的自我关注。此外，我们自定义一个掩模导向机构（mm），指示S-MSA，以注意具有高保真谱表示的空间区域。广泛的实验表明，我们的MST在模拟和真实HSI数据集上显着优于最先进的（SOTA）方法，同时需要大幅更便宜的计算和内存成本。

translated by 谷歌翻译

Content-aware Scalable Deep Compressed Sensing

Bin Chen , Jian Zhang

分类：计算机视觉

2022-07-19

为了更有效地解决图像压缩传感（CS）问题，我们提出了一种新颖的内容可扩展的网络，该网络称为CASNET，该网络共同实现了自适应采样率分配，精细的粒状可伸缩性和高质量的重建。我们首先采用数据驱动的显着性检测器来评估不同图像区域的重要性，并提出基于显着性的块比率汇总（BRA）策略来分配采样率。然后开发一个统一的可学习生成矩阵，以产生具有有序结构的任何CS比的采样矩阵。 CASNET配备了由显着性信息和防止伪影的多块训练方案引导的优化启发的恢复子网，CASNET与一个单个模型共同重建以各种采样率采样的图像阻止。为了加速训练收敛并改善网络鲁棒性，我们提出了一种基于SVD的初始化方案和随机转换增强（RTE）策略，在没有引入额外参数的情况下是可扩展的。所有CASNET组件都可以组合和端到端学习。我们进一步提供了四个阶段的实施，用于评估和实际部署。实验表明，CASNET大量优于其他CS网络，从而验证了其组件和策略之间的协作和相互支持。代码可在https://github.com/guaishou74851/casnet上找到。

translated by 谷歌翻译

Spatial-Temporal Transformer for Video Snapshot Compressive Imaging

Lishun Wang , Miao Cao , Yong Zhong , Xin Yuan

分类：计算机视觉

2022-09-04

视频快照压缩成像（SCI）使用计算成像的概念通过单个测量捕获了多个顺序视频帧。基本原理是通过不同的遮罩调节高速框架，这些调制帧求和到由低速2D传感器捕获的单个测量值（称为光学编码器）；此后，如果需要，使用算法来重建所需的高速帧（配音软件解码器）。在本文中，我们考虑了视频SCI中的重建算法，即从压缩测量中恢复一系列视频帧。具体而言，我们提出了一个时空变压器（STFORMER）来利用空间和时间域中的相关性。 stformer网络由令牌生成块，视频重建块组成，这两个块由一系列的stformer块连接。每个STFORMER块由空间自我注意分支，时间自我发项处和这两个分支的输出组成，由融合网络集成。对模拟和真实数据的广泛结果证明了Stformer的最新性能。代码和模型可在https://github.com/ucaswangls/stformer.git上公开获得

translated by 谷歌翻译

Ultra-High-Definition Low-Light Image Enhancement: A Benchmark and Transformer-Based Method

Tao Wang , Kaihao Zhang , Tianrun Shen , Wenhan Luo , Bjorn Stenger , Tong Lu

分类：计算机视觉

2022-12-22

As the quality of optical sensors improves, there is a need for processing large-scale images. In particular, the ability of devices to capture ultra-high definition (UHD) images and video places new demands on the image processing pipeline. In this paper, we consider the task of low-light image enhancement (LLIE) and introduce a large-scale database consisting of images at 4K and 8K resolution. We conduct systematic benchmarking studies and provide a comparison of current LLIE algorithms. As a second contribution, we introduce LLFormer, a transformer-based low-light enhancement method. The core components of LLFormer are the axis-based multi-head self-attention and cross-layer attention fusion block, which significantly reduces the linear complexity. Extensive experiments on the new dataset and existing public datasets show that LLFormer outperforms state-of-the-art methods. We also show that employing existing LLIE methods trained on our benchmark as a pre-processing step significantly improves the performance of downstream tasks, e.g., face detection in low-light conditions. The source code and pre-trained models are available at https://github.com/TaoWangzj/LLFormer.

translated by 谷歌翻译

ELMformer: Efficient Raw Image Restoration with a Locally Multiplicative Transformer

Jiaqi Ma , Shengyuan Yan , Lefei Zhang , Guoli Wang , Qian Zhang

分类：计算机视觉

2022-08-31

为了获得下游图像信号过程（ISP）的高质量的原始图像，在本文中，我们提出了一个有效的本地乘法变压器，称为ELMFORMER，用于原始图像恢复。 Elmformer包含两个核心设计，尤其是针对原始属性是单渠道的原始图像。第一个设计是双向融合投影（BFP）模块，我们考虑了原始图像的颜色特征和单渠道的空间结构。第二个是我们提出了一个本地乘法自我注意力（L-MSA）方案，以有效地从当地空间传递信息到相关部分。 Elmformer可以有效地减少计算消耗，并在原始图像恢复任务上表现良好。通过这两种核心设计，Elmformer提高了最高的性能，并且与最先进的机构相比，原始DeNoising和原始Deblurring基准测试最低。广泛的实验证明了Elmformer的优势和概括能力。在SIDD基准测试中，我们的方法比基于ISP的方法具有更好的降解性能，这些方法需要大量的额外的SRGB培训图像。这些代码在https://github.com/leonmakise/elmformer上发布。

translated by 谷歌翻译

HTML版本

From Coarse to Fine: Hierarchical Pixel Integration for Lightweight Image Super-Resolution

Jie Liu , Chao Chen , Jie Tang , Gangshan Wu

分类：计算机视觉

2022-11-30

Image super-resolution (SR) serves as a fundamental tool for the processing and transmission of multimedia data. Recently, Transformer-based models have achieved competitive performances in image SR. They divide images into fixed-size patches and apply self-attention on these patches to model long-range dependencies among pixels. However, this architecture design is originated for high-level vision tasks, which lacks design guideline from SR knowledge. In this paper, we aim to design a new attention block whose insights are from the interpretation of Local Attribution Map (LAM) for SR networks. Specifically, LAM presents a hierarchical importance map where the most important pixels are located in a fine area of a patch and some less important pixels are spread in a coarse area of the whole image. To access pixels in the coarse area, instead of using a very large patch size, we propose a lightweight Global Pixel Access (GPA) module that applies cross-attention with the most similar patch in an image. In the fine area, we use an Intra-Patch Self-Attention (IPSA) module to model long-range pixel dependencies in a local patch, and then a $3\times3$ convolution is applied to process the finest details. In addition, a Cascaded Patch Division (CPD) strategy is proposed to enhance perceptual quality of recovered images. Extensive experiments suggest that our method outperforms state-of-the-art lightweight SR methods by a large margin. Code is available at https://github.com/passerer/HPINet.

translated by 谷歌翻译

S^2-Transformer for Mask-Aware Hyperspectral Image Reconstruction

Jiamian Wang , Kunpeng Li , Yulun Zhang , Xin Yuan , Zhiqiang Tao

分类：计算机视觉

2022-09-24

高光谱成像技术（HSI）在远程分布光谱波长上记录了视觉信息。代表性的高光谱图像采集程序通过编码的光圈快照光谱成像器（CASSI）进行了3D到2D的编码，并且需要用于3D信号重建的软件解码器。基于此编码程序，两个主要挑战妨碍了高保真重建的方式：（i）获得2D测量值，CASSI通过分散器触觉并将其挤压到同一空间区域，从。（ii）物理编码的光圈（掩码）将通过选择性阻止像素的光曝光来导致掩盖数据丢失。为了应对这些挑战，我们提出了具有面膜感知的学习策略的空间光谱（S2-）变压器体系结构。首先，我们同时利用空间和光谱注意模型来沿两个维度划分2D测量中的混合信息。空间和光谱线索跨的一系列变压器结构是系统设计的，它考虑了两倍提示之间的信息相互依赖性。其次，蒙面的像素将引起更高的预测难度，应与未掩盖的像素不同。因此，我们通过推断出对蒙版意识预测的难度级别来适应归因于面具结构的损失惩罚。我们提出的方法不仅定量设置了新的最新方法，而且在结构化区域中产生了更好的感知质量。

translated by 谷歌翻译

Coarse-to-Fine Sparse Transformer for Hyperspectral Image Reconstruction

Jing Lin , Yuanhao Cai , Xiaowan Hu , Haoqian Wang , Xin Yuan , Yulun Zhang , Radu Timofte , Luc Van Gool

分类：计算机视觉

2022-03-09

已经开发了许多算法来解决编码光圈快照光谱成像（CASSI）的反问题，即从2D压缩测量中恢复3D高光谱图像（HSIS）。近年来，基于学习的方法证明了有希望的表现，并主导了主流研究方向。但是，现有的基于CNN的方法显示了捕获长期依赖性和非本地自相似性的局限性。以前的基于变压器的方法密集样本令牌，其中一些是不明显的，并计算了某些在内容中无关的令牌之间的多头自我注意力（MSA）。这不符合HSI信号的空间稀疏性质，并限制了模型可伸缩性。在本文中，我们提出了一种新型的基于变压器的方法，即粗到细稀疏变压器（CST），首先将HSI的稀疏嵌入到HSI重建的深度学习中。特别是，CST使用我们提出的光谱感知筛选机制（SASM）进行粗贴片选择。然后，选定的贴片被馈入我们的定制光谱 - 聚集多头自我注意力（SAH-MSA），以进行精细的像素聚类和自相似性捕获。全面的实验表明，我们的CST在需要廉价的计算成本的同时，明显优于最先进的方法。代码和模型将在https://github.com/caiyuanhao1998/mst上发布

translated by 谷歌翻译

Global Sensing and Measurements Reuse for Image Compressed Sensing

Zi-En Fan , Feng Lian , Jia-Ni Quan

分类：计算机视觉

2022-06-23

最近，与传统方法相比，基于网络的图像压缩传感方法可实现高重建质量和降低的计算开销。但是，现有方法仅从网络中的部分特征中获得测量结果，并仅将它们用于图像重建。他们忽略了网络\ cite {zeiler2014Visalization}中的低，中和高级特征，所有这些特征对于高质量重建至关重要。此外，仅使用一次测量可能不足以从测量中提取更丰富的信息。为了解决这些问题，我们提出了一个新颖的测量值重复使用卷积压缩感应网络（MR-CCSNET），该网络（MR-CCSNET）采用全球传感模块（GSM）收集所有级别的功能，以实现有效的感应和测量重复使用块（MRB）多次重复使用测量值在多尺度上。最后，三个基准数据集的实验结果表明，我们的模型可以显着胜过最先进的方法。

translated by 谷歌翻译

Fast Hierarchical Deep Unfolding Network for Image Compressed Sensing

Wenxue Cui , Shaohui Liu , Debin Zhao

分类：计算机视觉

2022-08-03

通过将某些优化求解器与深神经网络相结合，深层展开网络（DUN）近年来引起了图像压缩感（CS）的广泛关注。但是，现有DUN中仍然存在几个问题：1）对于每次迭代，通常采用一个简单的堆叠卷积网络，这显然限制了这些模型的表现力。 2）培训完成后，对于任何输入内容，大多数现有DUNS的超参数均已固定，这大大削弱了其适应性。在本文中，通过展开快速迭代的收缩阈值算法（FISTA），提出了一种新颖的快速分层dun，被称为Fhdun，用于图像压缩传感，开发出了精心设计的层次结构，以合作探索富人的上下文，以探索富人的上下文。多尺度空间中的信息。为了进一步增强适应性，在我们的框架中开发了一系列的超参数生成网络，以根据输入内容动态生产相应的最佳超参数。此外，由于Fista的加速政策，新嵌入的加速模块使拟议的Fhdun节省了超过50％的迭代循环，以抵抗最近的Duns。广泛的CS实验表明，所提出的FHDUN优于现有的最新CS方法，同时保持较少的迭代。

translated by 谷歌翻译

Defect Transformer: An Efficient Hybrid Transformer Architecture for Surface Defect Detection

Junpu Wang , Guili Xu , Fuju Yan , Jinjin Wang , Zhengsheng Wang

分类：计算机视觉

2022-07-17

表面缺陷检测是确保工业产品质量的极其至关重要的步骤。如今，基于编码器架构的卷积神经网络（CNN）在各种缺陷检测任务中取得了巨大的成功。然而，由于卷积的内在局部性，它们通常在明确建模长距离相互作用时表现出限制，这对于复杂情况下的像素缺陷检测至关重要，例如杂乱的背景和难以辨认的伪缺陷。最近的变压器尤其擅长学习全球图像依赖性，但对于详细的缺陷位置所需的本地结构信息有限。为了克服上述局限性，我们提出了一个有效的混合变压器体系结构，称为缺陷变压器（faft），用于表面缺陷检测，该检测将CNN和Transferaler纳入统一模型，以协作捕获本地和非本地关系。具体而言，在编码器模块中，首先采用卷积茎块来保留更详细的空间信息。然后，贴片聚合块用于生成具有四个层次结构的多尺度表示形式，每个层次结构之后分别是一系列的feft块，该块分别包括用于本地位置编码的本地位置块，一个轻巧的多功能自我自我 - 注意与良好的计算效率建模多尺度的全球上下文关系，以及用于功能转换和进一步位置信息学习的卷积馈送网络。最后，提出了一个简单但有效的解码器模块，以从编码器中的跳过连接中逐渐恢复空间细节。与其他基于CNN的网络相比，三个数据集上的广泛实验证明了我们方法的优势和效率。

translated by 谷歌翻译