智能论文笔记

DMTNet: Dynamic Multi-scale Network for Dual-pixel Images Defocus Deblurring with Transformer

Dafeng Zhang , Xiaobing Wang

分类：计算机视觉

2022-09-13

最近的作品在使用卷积神经网络（CNN）的双像素数据基于defocus Deblurring任务方面取得了出色的成果，而数据的稀缺性限制了视觉变压器在此任务中的探索和尝试。此外，现有作品还使用固定参数和网络体系结构来删除具有不同分布和内容信息的图像，这也影响了模型的概括能力。在本文中，我们提出了一个动态多尺度网络，名为DMTNET，用于双像素图像Defocus DeBlurring。 DMTNET主要包含两个模块：特征提取模块和重建模块。该特征提取模块由几个视觉变压器块组成，该模块使用其强大的特征提取能力来获得更丰富的功能并改善模型的鲁棒性。重建模块由几个动态多尺度子重构模块（DMSSRM）组成。 DMSSRM可以根据输入图像的模糊分布和内容信息自适应地分配权重来恢复图像。 DMTNET结合了变压器和CNN的优势，其中视觉变压器改善了CNN的性能上限，并且CNN的电感偏置使变压器能够在不依赖大量数据的情况下提取更强大的功能。 DMTNET可能是首次使用视觉变压器来恢复模糊图像以清晰的尝试。通过与CNN结合，视觉变压器可以在小数据集上实现更好的性能。对流行基准测试的实验结果表明，我们的DMTNET显着优于最先进的方法。

translated by 谷歌翻译

CSformer: Bridging Convolution and Transformer for Compressive Sensing

Dongjie Ye , Zhangkai Ni , Hanli Wang , Jian Zhang , Shiqi Wang , Sam Kwong

分类：计算机视觉

2021-12-31

卷积神经网络（CNNS）成功地进行了压缩图像感测。然而，由于局部性和重量共享的归纳偏差，卷积操作证明了建模远程依赖性的内在限制。变压器，最初作为序列到序列模型设计，在捕获由于基于自我关注的架构而捕获的全局背景中，即使它可以配备有限的本地化能力。本文提出了一种混合框架，一个混合框架，其集成了从CNN提供的借用的优点以及变压器提供的全局上下文，以获得增强的表示学习。所提出的方法是由自适应采样和恢复组成的端到端压缩图像感测方法。在采样模块中，通过学习的采样矩阵测量图像逐块。在重建阶段，将测量投射到双杆中。一个是用于通过卷积建模邻域关系的CNN杆，另一个是用于采用全球自我关注机制的变压器杆。双分支结构是并发，并且本地特征和全局表示在不同的分辨率下融合，以最大化功能的互补性。此外，我们探索一个渐进的战略和基于窗口的变压器块，以降低参数和计算复杂性。实验结果表明了基于专用变压器的架构进行压缩感测的有效性，与不同数据集的最先进方法相比，实现了卓越的性能。

translated by 谷歌翻译

MSP-Former: Multi-Scale Projection Transformer for Single Image Desnowing

Sixiang Chen , Tian Ye , Yun Liu , Taodong Liao , Yi Ye , Erkang Chen

分类：计算机视觉

2022-07-12

在恶劣天气下降雪场景的图像恢复是一项艰巨的任务。雪图像具有复杂的降解，并在干净的图像上混乱，改变了干净的图像的分布。以前基于CNN的方法由于缺乏特定的全球建模能力，因此在恢复雪场景中完全恢复了雪场的挑战。在本文中，我们将视觉变压器应用于从单个图像中去除积雪的任务。具体而言，我们建议沿通道拆分的并行网络体系结构分别执行本地功能改进和全局信息建模。我们利用频道洗牌操作来结合其各自的优势以增强网络性能。其次，我们提出了MSP模块，该模块利用多规模的AVGPOOL来汇总不同大小的信息，并同时对多头自我注意力进行多尺度投影自我注意，以提高模型在不同规模下降下的表示能力。最后，我们设计了一个轻巧，简单的本地捕获模块，可以完善模型的本地捕获能力。在实验部分，我们进行了广泛的实验以证明我们方法的优越性。我们比较了三个雪场数据集上的先前清除方法。实验结果表明，我们的方法超过了更少的参数和计算的最新方法。在CSD测试数据集上，我们实现了1.99dB和SSIM 0.03的实质增长。在SRR和SNOW100K数据集上，与Transweather方法相比，我们还增加了2.47dB和1.62dB，在SSIM中提高了0.03。在视觉比较部分中，我们的MSP形式比现有方法获得了更好的视觉效果，证明了我们方法的可用性。

translated by 谷歌翻译

Stripformer: Strip Transformer for Fast Image Deblurring

Fu-Jen Tsai , Yan-Tsung Peng , Yen-Yu Lin , Chung-Chi Tsai , Chia-Wen Lin

分类：计算机视觉

2022-04-10

在动态场景中拍摄的图像可能包含不必要的运动模糊，从而大大降低视觉质量。这种模糊会导致短期和远程特定区域的平滑伪像，通常是方向性和不均匀的，很难去除。受到变压器在计算机视觉和图像处理任务的最新成功的启发，我们开发了Stripformer，这是一种基于变压器的体系结构，该体系结构构建了内部和跨条纹代币，以在水平和垂直方向上重新构建图像特征，以捕获模糊的模式，以不同于不同方向。它堆叠了隔离的内带和串间注意层，以揭示模糊的幅度。除了检测各种取向和幅度的区域特异性模式外，Stripformer还是一个令牌效率和参数有效的变压器模型，要求比Vanilla变压器更少的内存使用和计算成本要少得多，但在不依赖巨大训练数据的情况下工作得更好。实验结果表明，在动态场景中，脱衣舞素对最新模型的表现良好。

translated by 谷歌翻译

SwinIR: Image Restoration Using Swin Transformer

Jingyun Liang , Jiezhang Cao , Guolei Sun , Kai Zhang , Luc Van Gool , Radu Timofte

分类：

2021-08-23

Image restoration is a long-standing low-level vision problem that aims to restore high-quality images from lowquality images (e.g., downscaled, noisy and compressed images). While state-of-the-art image restoration methods are based on convolutional neural networks, few attempts have been made with Transformers which show impressive performance on high-level vision tasks. In this paper, we propose a strong baseline model SwinIR for image restoration based on the Swin Transformer. SwinIR consists of three parts: shallow feature extraction, deep feature extraction and high-quality image reconstruction. In particular, the deep feature extraction module is composed of several residual Swin Transformer blocks (RSTB), each of which has several Swin Transformer layers together with a residual connection. We conduct experiments on three representative tasks: image super-resolution (including classical, lightweight and real-world image super-resolution), image denoising (including grayscale and color image denoising) and JPEG compression artifact reduction. Experimental results demonstrate that SwinIR outperforms state-of-the-art methods on different tasks by up to 0.14∼0.45dB, while the total number of parameters can be reduced by up to 67%.

translated by 谷歌翻译

SwinFIR: Revisiting the SwinIR with Fast Fourier Convolution and Improved Training for Image Super-Resolution

Dafeng Zhang , Feiyu Huang , Shizhuo Liu , Xiaobing Wang , Zhezhu Jin

分类：计算机视觉

2022-08-24

基于变压器的方法与基于CNN的方法相比，由于其对远程依赖性的模型，因此获得了令人印象深刻的图像恢复性能。但是，像Swinir这样的进步采用了基于窗口的和本地注意力的策略来平衡性能和计算开销，这限制了采用大型接收领域来捕获全球信息并在早期层中建立长期依赖性。为了进一步提高捕获全球信息的效率，在这项工作中，我们建议Swinfir通过更换具有整个图像范围的接收场的快速傅立叶卷积（FFC）组件来扩展Swinir。我们还重新访问其他先进技术，即数据增强，预训练和功能集合，以改善图像重建的效果。并且我们的功能合奏方法使模型的性能得以大大增强，而无需增加训练和测试时间。与现有方法相比，我们将算法应用于多个流行的大规模基准，并实现了最先进的性能。例如，我们的Swinfir在漫画109数据集上达到了32.83 dB的PSNR，该PSNR比最先进的Swinir方法高0.8 dB。

translated by 谷歌翻译

DnSwin: Toward Real-World Denoising via Continuous Wavelet Sliding-Transformer

Hao Li , Zhijing Yang , Xiaobin Hong , Ziying Zhao , Junyang Chen , Yukai Shi , Jinshan Pan

分类：计算机视觉

2022-07-28

现实世界图像Denoising是一个实用的图像恢复问题，旨在从野外嘈杂的输入中获取干净的图像。最近，Vision Transformer（VIT）表现出强大的捕获远程依赖性的能力，许多研究人员试图将VIT应用于图像DeNosing任务。但是，现实世界的图像是一个孤立的框架，它使VIT构建了内部贴片的远程依赖性，该依赖性将图像分为贴片并混乱噪声模式和梯度连续性。在本文中，我们建议通过使用连续的小波滑动转换器来解决此问题，该小波滑动转换器在现实世界中构建频率对应关系，称为dnswin。具体而言，我们首先使用CNN编码器从嘈杂的输入图像中提取底部功能。 DNSWIN的关键是将高频和低频信息与功能和构建频率依赖性分开。为此，我们提出了小波滑动窗口变压器，该变压器利用离散的小波变换，自我注意力和逆离散小波变换来提取深度特征。最后，我们使用CNN解码器将深度特征重建为DeNo的图像。对现实世界的基准测试的定量和定性评估都表明，拟议的DNSWIN对最新方法的表现良好。

translated by 谷歌翻译

Dynamic Scene Deblurring Base on Continuous Cross-Layer Attention Transmission

Xia Hua , Junxiong Fei , Mingxin Li , ZeZheng Li , Yu Shi , JiangGuo Liu , Hanyu Hong

分类：计算机视觉

2022-06-23

使用注意机制的深度卷积神经网络（CNN）在动态场景中取得了巨大的成功。在大多数这些网络中，只能通过注意图精炼的功能传递到下一层，并且不同层的注意力图彼此分开，这并不能充分利用来自CNN中不同层的注意信息。为了解决这个问题，我们引入了一种新的连续跨层注意传播（CCLAT）机制，该机制可以利用所有卷积层的分层注意信息。基于CCLAT机制，我们使用非常简单的注意模块来构建一个新型残留的密集注意融合块（RDAFB）。在RDAFB中，从上述RDAFB的输出中推断出的注意图和每一层直接连接到后续的映射，从而导致CRLAT机制。以RDAFB为基础，我们为动态场景Deblurring设计了一个名为RDAFNET的有效体系结构。基准数据集上的实验表明，所提出的模型的表现优于最先进的脱毛方法，并证明了CCLAT机制的有效性。源代码可在以下网址提供：https：//github.com/xjmz6/rdafnet。

translated by 谷歌翻译

Video Frame Interpolation Transformer

Zhihao Shi , Xiangyu Xu , Xiaohong Liu , Jun Chen , Ming-Hsuan Yang

分类：计算机视觉

2021-11-27

用于深度卷积神经网络的视频插值的现有方法，因此遭受其内在限制，例如内部局限性核心权重和受限制的接收领域。为了解决这些问题，我们提出了一种基于变换器的视频插值框架，允许内容感知聚合权重，并考虑具有自我关注操作的远程依赖性。为避免全球自我关注的高计算成本，我们将当地注意的概念引入视频插值并将其扩展到空间域。此外，我们提出了一个节省时间的分离策略，以节省内存使用，这也提高了性能。此外，我们开发了一种多尺度帧合成方案，以充分实现变压器的潜力。广泛的实验证明了所提出的模型对最先进的方法来说，定量和定性地在各种基准数据集上进行定量和定性。

translated by 谷歌翻译

Ghost-free High Dynamic Range Imaging with Context-aware Transformer

Zhen Liu , Yinglong Wang , Bing Zeng , Shuaicheng Liu

分类：计算机视觉

2022-08-10

高动态范围（HDR）DEGHOSTING算法旨在生成具有现实细节的无幽灵HDR图像。受到接收场的局部性的限制，现有的基于CNN的方法通常容易产生大型运动和严重饱和的情况下产生鬼影和强度扭曲。在本文中，我们提出了一种新颖的背景感知视觉变压器（CA-VIT），用于无幽灵的高动态范围成像。 CA-VIT被设计为双分支结构，可以共同捕获全球和本地依赖性。具体而言，全球分支采用基于窗口的变压器编码器来建模远程对象运动和强度变化以解决hosting。对于本地分支，我们设计了局部上下文提取器（LCE）来捕获短范围的图像特征，并使用频道注意机制在提取的功能上选择信息丰富的本地详细信息，以补充全局分支。通过将CA-VIT作为基本组件纳入基本组件，我们进一步构建了HDR-Transformer，这是一个分层网络，以重建高质量的无幽灵HDR图像。在三个基准数据集上进行的广泛实验表明，我们的方法在定性和定量上优于最先进的方法，而计算预算大大降低。代码可从https://github.com/megvii-research/hdr-transformer获得

translated by 谷歌翻译

Blind Face Restoration: Benchmark Datasets and a Baseline Model

Puyang Zhang , Kaihao Zhang , Wenhan Luo , Changsheng Li , Guoren Wang

分类：计算机视觉

2022-06-08

盲面修复（BFR）旨在从相应的低质量（LQ）输入中构建高质量（HQ）面部图像。最近，已经提出了许多BFR方法，并取得了杰出的成功。但是，这些方法经过私人合成的数据集进行了培训或评估，这使得与后续方法相比的方法是不可行的。为了解决这个问题，我们首先合成两个称为EDFEACE-CELEB-1M（BFR128）和EDFACE-CELEB-150K（BFR512）的盲面恢复基准数据集。在五个设置下，将最先进的方法在它们的五个设置下进行了基准测试，包括模糊，噪声，低分辨率，JPEG压缩伪像及其组合（完全退化）。为了使比较更全面，应用了五个广泛使用的定量指标和两个任务驱动的指标，包括平均面部标志距离（AFLD）和平均面部ID余弦相似性（AFICS）。此外，我们开发了一个有效的基线模型，称为Swin Transformer U-NET（昏迷）。带有U-NET体系结构的昏迷器应用了注意机制和移动的窗口方案，以捕获远程像素相互作用，并更多地关注重要功能，同时仍受到有效训练。实验结果表明，所提出的基线方法对各种BFR任务的SOTA方法表现出色。

translated by 谷歌翻译

Uformer: A General U-Shaped Transformer for Image Restoration

Zhendong Wang , Xiaodong Cun , Jianmin Bao , Wengang Zhou , Jianzhuang Liu , Houqiang Li

分类：计算机视觉

2021-06-06

在本文中，我们呈现了UFFORER，一种用于图像恢复的有效和高效的变换器架构，其中我们使用变压器块构建分层编码器解码器网络。在UFFAR中，有两个核心设计。首先，我们介绍了一个新颖的本地增强型窗口（Lewin）变压器块，其执行基于窗口的自我关注而不是全局自我关注。它显着降低了高分辨率特征映射的计算复杂性，同时捕获本地上下文。其次，我们提出了一种以多尺度空间偏置的形式提出了一种学习的多尺度恢复调制器，以调整UFFORER解码器的多个层中的特征。我们的调制器展示了卓越的能力，用于恢复各种图像恢复任务的详细信息，同时引入边缘额外参数和计算成本。通过这两个设计提供支持，UFFORER享有高能力，可以捕获本地和全局依赖性的图像恢复。为了评估我们的方法，在几种图像恢复任务中进行了广泛的实验，包括图像去噪，运动脱棕，散焦和污染物。没有钟声和口哨，与最先进的算法相比，我们的UFormer实现了卓越的性能或相当的性能。代码和模型可在https://github.com/zhendongwang6/uformer中找到。

translated by 谷歌翻译

Accurate Image Restoration with Attention Retractable Transformer

Jiale Zhang , Yulun Zhang , Jinjin Gu , Yongbing Zhang , Linghe Kong , Xin Yuan

分类：计算机视觉

2022-10-04

Recently, Transformer-based image restoration networks have achieved promising improvements over convolutional neural networks due to parameter-independent global interactions. To lower computational cost, existing works generally limit self-attention computation within non-overlapping windows. However, each group of tokens are always from a dense area of the image. This is considered as a dense attention strategy since the interactions of tokens are restrained in dense regions. Obviously, this strategy could result in restricted receptive fields. To address this issue, we propose Attention Retractable Transformer (ART) for image restoration, which presents both dense and sparse attention modules in the network. The sparse attention module allows tokens from sparse areas to interact and thus provides a wider receptive field. Furthermore, the alternating application of dense and sparse attention modules greatly enhances representation ability of Transformer while providing retractable attention on the input image.We conduct extensive experiments on image super-resolution, denoising, and JPEG compression artifact reduction tasks. Experimental results validate that our proposed ART outperforms state-of-the-art methods on various benchmark datasets both quantitatively and visually. We also provide code and models at the website https://github.com/gladzhang/ART.

translated by 谷歌翻译

SnowFormer: Scale-aware Transformer via Context Interaction for Single Image Desnowing

Sixiang Chen , Tian Ye , Yun Liu , Erkang Chen , Jun Shi , Jingchun Zhou

分类：计算机视觉

2022-08-20

否决单图是一项普遍但又具有挑战性的任务。复杂的降雪降解和各种降解量表需要强大的代表能力。为了使否定的网络看到各种降雪并建模本地细节和全球信息的上下文相互作用，我们提出了一种称为Snowformer的功能强大的建筑。首先，它在编码器中执行比例感知功能聚合，以捕获各种降解的丰富积雪信息。其次，为了解决大规模降级，它使用了解码器中的新颖上下文交互变压器块，该互动器块在全球上下文交互中从前范围内的局部细节和全局信息进行了上下文交互。并引入本地上下文互动可改善场景细节的恢复。第三，我们设计了一个异质的特征投影头，该功能投影头逐渐融合了编码器和解码器的特征，并将精制功能投影到干净的图像中。广泛的实验表明，所提出的雪诺形雪孔比其他SOTA方法取得了重大改进。与SOTA单图像HDCW-NET相比，它在CSD测试集上将PSNR度量提高了9.2dB。此外，与一般图像恢复体系结构NAFNET相比，PSNR的增加5.13db，这验证了我们的雪诺形雪地降雪任务的强大表示能力。该代码在\ url {https://github.com/ephemeral182/snowformer}中发布。

translated by 谷歌翻译

ELMformer: Efficient Raw Image Restoration with a Locally Multiplicative Transformer

Jiaqi Ma , Shengyuan Yan , Lefei Zhang , Guoli Wang , Qian Zhang

分类：计算机视觉

2022-08-31

为了获得下游图像信号过程（ISP）的高质量的原始图像，在本文中，我们提出了一个有效的本地乘法变压器，称为ELMFORMER，用于原始图像恢复。 Elmformer包含两个核心设计，尤其是针对原始属性是单渠道的原始图像。第一个设计是双向融合投影（BFP）模块，我们考虑了原始图像的颜色特征和单渠道的空间结构。第二个是我们提出了一个本地乘法自我注意力（L-MSA）方案，以有效地从当地空间传递信息到相关部分。 Elmformer可以有效地减少计算消耗，并在原始图像恢复任务上表现良好。通过这两种核心设计，Elmformer提高了最高的性能，并且与最先进的机构相比，原始DeNoising和原始Deblurring基准测试最低。广泛的实验证明了Elmformer的优势和概括能力。在SIDD基准测试中，我们的方法比基于ISP的方法具有更好的降解性能，这些方法需要大量的额外的SRGB培训图像。这些代码在https://github.com/leonmakise/elmformer上发布。

translated by 谷歌翻译

HTML版本

Restormer: Efficient Transformer for High-Resolution Image Restoration

Syed Waqas Zamir , Aditya Arora , Salman Khan , Munawar Hayat , Fahad Shahbaz Khan , Ming-Hsuan Yang

分类：计算机视觉

2021-11-18

由于卷积神经网络（CNNS）在从大规模数据中进行了学习的可概括图像前沿执行井，因此这些模型已被广泛地应用于图像恢复和相关任务。最近，另一类神经架构，变形金刚表现出对自然语言和高级视觉任务的显着性能。虽然变压器模型减轻了CNNS的缺点（即，有限的接收领域并对输入内容而无关），但其计算复杂性以空间分辨率二次大转，因此可以对涉及高分辨率图像的大多数图像恢复任务应用得不可行。在这项工作中，我们通过在构建块（多头关注和前锋网络）中进行多个关键设计，提出了一种有效的变压器模型，使得它可以捕获远程像素相互作用，同时仍然适用于大图像。我们的模型，命名恢复变压器（RESTORMER），实现了最先进的结果，导致几种图像恢复任务，包括图像派生，单图像运动脱棕，散焦去纹（单图像和双像素数据）和图像去噪（高斯灰度/颜色去噪，真实的图像去噪）。源代码和预先训练的型号可在https://github.com/swz30/restormer上获得。

translated by 谷歌翻译

Efficient Image Super-Resolution with Feature Interaction Weighted Hybrid Network

Wenjie Li , Juncheng Li , Guangwei Gao , Weihong Deng , Jian Yang , Guo-Jun Qi , Chia-Wen Lin

分类：计算机视觉

2022-12-29

Recently, great progress has been made in single-image super-resolution (SISR) based on deep learning technology. However, the existing methods usually require a large computational cost. Meanwhile, the activation function will cause some features of the intermediate layer to be lost. Therefore, it is a challenge to make the model lightweight while reducing the impact of intermediate feature loss on the reconstruction quality. In this paper, we propose a Feature Interaction Weighted Hybrid Network (FIWHN) to alleviate the above problem. Specifically, FIWHN consists of a series of novel Wide-residual Distillation Interaction Blocks (WDIB) as the backbone, where every third WDIBs form a Feature shuffle Weighted Group (FSWG) by mutual information mixing and fusion. In addition, to mitigate the adverse effects of intermediate feature loss on the reconstruction results, we introduced a well-designed Wide Convolutional Residual Weighting (WCRW) and Wide Identical Residual Weighting (WIRW) units in WDIB, and effectively cross-fused features of different finenesses through a Wide-residual Distillation Connection (WRDC) framework and a Self-Calibrating Fusion (SCF) unit. Finally, to complement the global features lacking in the CNN model, we introduced the Transformer into our model and explored a new way of combining the CNN and Transformer. Extensive quantitative and qualitative experiments on low-level and high-level tasks show that our proposed FIWHN can achieve a good balance between performance and efficiency, and is more conducive to downstream tasks to solve problems in low-pixel scenarios.

translated by 谷歌翻译

Perceiving and Modeling Density is All You Need for Image Dehazing

Tian Ye , Mingchao Jiang , Yunchen Zhang , Liang Chen , Erkang Chen , Pen Chen , Zhiyong Lu

分类：计算机视觉

2021-11-18

在现实世界中，在雾度下拍摄的图像的降解可以是非常复杂的，其中雾度的空间分布从图像变化到图像。最近的方法采用深神经网络直接从朦胧图像中恢复清洁场景。然而，由于悖论由真正捕获的雾霾的变化和当前网络的固定退化参数引起的悖论，最近在真实朦胧的图像上的脱水方法的泛化能力不是理想的。解决现实世界建模问题阴霾退化，我们建议通过对不均匀雾度分布的鉴定和建模密度来解决这个问题。我们提出了一种新颖的可分离混合注意力（SHA）模块来编码雾霾密度，通过捕获正交方向上的特征来实现这一目标。此外，提出了密度图以明确地模拟雾度的不均匀分布。密度图以半监督方式生成位置编码。这种雾度密度感知和建模有效地捕获特征水平的不均匀分布性变性。通过SHA和密度图的合适组合，我们设计了一种新型的脱水网络架构，实现了良好的复杂性性能权衡。两个大规模数据集的广泛实验表明，我们的方法通过量化和定性地通过大幅度超越所有最先进的方法，将最佳发布的PSNR度量从28.53 DB升高到Haze4K测试数据集和在SOTS室内测试数据集中的37.17 dB至38.41 dB。

translated by 谷歌翻译

MAXIM: Multi-Axis MLP for Image Processing

Zhengzhong Tu , Hossein Talebi , Han Zhang , Feng Yang , Peyman Milanfar , Alan Bovik , Yinxiao Li

分类：计算机视觉

2022-01-09

最近的变形金刚和多层Perceptron（MLP）模型的进展为计算机视觉任务提供了新的网络架构设计。虽然这些模型在许多愿景任务中被证明是有效的，但在图像识别之类的愿景中，仍然存在挑战，使他们适应低级视觉。支持高分辨率图像和本地注意力的局限性的不灵活性可能是使用变压器和MLP在图像恢复中的主要瓶颈。在这项工作中，我们介绍了一个多轴MLP基于MARIC的架构，称为Maxim，可用作用于图像处理任务的高效和灵活的通用视觉骨干。 Maxim使用UNET形的分层结构，并支持由空间门控MLP启用的远程交互。具体而言，Maxim包含两个基于MLP的构建块：多轴门控MLP，允许局部和全球视觉线索的高效和可扩展的空间混合，以及交叉栅栏，替代跨关注的替代方案 - 细分互补。这两个模块都仅基于MLP，而且还受益于全局和“全卷积”，两个属性对于图像处理是可取的。我们广泛的实验结果表明，所提出的Maxim模型在一系列图像处理任务中实现了十多个基准的最先进的性能，包括去噪，失败，派热，脱落和增强，同时需要更少或相当的数量参数和拖鞋而不是竞争模型。

translated by 谷歌翻译

Global Context Vision Transformers

Ali Hatamizadeh , Hongxu Yin , Jan Kautz , Pavlo Molchanov

分类：计算机视觉 | 人工智能 | 机器学习

2022-06-20

我们提出了全球环境视觉变压器（GC VIT），这是一种新的结构，可增强参数和计算利用率。我们的方法利用了与本地自我注意的联合的全球自我发项模块，以有效但有效地建模长和短距离的空间相互作用，而无需昂贵的操作，例如计算注意力面罩或移动本地窗户。此外，我们通过建议在我们的体系结构中使用修改后的融合倒置残差块来解决VIT中缺乏归纳偏差的问题。我们提出的GC VIT在图像分类，对象检测和语义分割任务中实现了最新的结果。在用于分类的ImagEnet-1k数据集上，基本，小而微小的GC VIT，$ 28 $ M，$ 51 $ M和$ 90 $ M参数实现$ \ textbf {83.2 \％} $，$ \ textbf {83.9 \％} $和$ \ textbf {84.4 \％} $ top-1的精度，超过了相当大的先前艺术，例如基于CNN的Convnext和基于VIT的Swin Transformer，其优势大大。在对象检测，实例分割和使用MS Coco和ADE20K数据集的下游任务中，预训练的GC VIT主机在对象检测，实例分割和语义分割的任务中始终如一地超过事务，有时是通过大余量。可在https://github.com/nvlabs/gcvit上获得代码。

translated by 谷歌翻译