在恶劣天气下降雪场景的图像恢复是一项艰巨的任务。雪图像具有复杂的降解,并在干净的图像上混乱,改变了干净的图像的分布。以前基于CNN的方法由于缺乏特定的全球建模能力,因此在恢复雪场景中完全恢复了雪场的挑战。在本文中,我们将视觉变压器应用于从单个图像中去除积雪的任务。具体而言,我们建议沿通道拆分的并行网络体系结构分别执行本地功能改进和全局信息建模。我们利用频道洗牌操作来结合其各自的优势以增强网络性能。其次,我们提出了MSP模块,该模块利用多规模的AVGPOOL来汇总不同大小的信息,并同时对多头自我注意力进行多尺度投影自我注意,以提高模型在不同规模下降下的表示能力。最后,我们设计了一个轻巧,简单的本地捕获模块,可以完善模型的本地捕获能力。在实验部分,我们进行了广泛的实验以证明我们方法的优越性。我们比较了三个雪场数据集上的先前清除方法。实验结果表明,我们的方法超过了更少的参数和计算的最新方法。在CSD测试数据集上,我们实现了1.99dB和SSIM 0.03的实质增长。在SRR和SNOW100K数据集上,与Transweather方法相比,我们还增加了2.47dB和1.62dB,在SSIM中提高了0.03。在视觉比较部分中,我们的MSP形式比现有方法获得了更好的视觉效果,证明了我们方法的可用性。
translated by 谷歌翻译
否决单图是一项普遍但又具有挑战性的任务。复杂的降雪降解和各种降解量表需要强大的代表能力。为了使否定的网络看到各种降雪并建模本地细节和全球信息的上下文相互作用,我们提出了一种称为Snowformer的功能强大的建筑。首先,它在编码器中执行比例感知功能聚合,以捕获各种降解的丰富积雪信息。其次,为了解决大规模降级,它使用了解码器中的新颖上下文交互变压器块,该互动器块在全球上下文交互中从前范围内的局部细节和全局信息进行了上下文交互。并引入本地上下文互动可改善场景细节的恢复。第三,我们设计了一个异质的特征投影头,该功能投影头逐渐融合了编码器和解码器的特征,并将精制功能投影到干净的图像中。广泛的实验表明,所提出的雪诺形雪孔比其他SOTA方法取得了重大改进。与SOTA单图像HDCW-NET相比,它在CSD测试集上将PSNR度量提高了9.2dB。此外,与一般图像恢复体系结构NAFNET相比,PSNR的增加5.13db,这验证了我们的雪诺形雪地降雪任务的强大表示能力。该代码在\ url {https://github.com/ephemeral182/snowformer}中发布。
translated by 谷歌翻译
在冬季场景中,在雪下拍摄的图像的降解可能非常复杂,其中雪降解的空间分布因图像而异。最近的方法采用深层神经网络,直接从雪图像中恢复清洁的场景。但是,由于复杂的雪降解差异导致悖论,实时实现可靠的高清图像是一个巨大的挑战。我们开发了一种新型有效的金字塔网络,具有非对称编码器架构,用于实时高清图像。我们提出的网络的一般思想是通过功能中的多尺度特征流充分利用多尺度的特征流。与以前最先进的方法相比,我们的方法实现了更好的复杂性 - 性能取舍,并有效地处理了高清和超高清图像的处理困难。在三个大规模图像上进行的广泛实验表明,我们的方法超过了所有最新方法,既有数量又定性地超过了大幅度,从而将PSNR度量从31.76 dB提高到34.10 dB,升至34.10 dB。 SRRS测试数据集上的28.29 dB至30.87 dB。
translated by 谷歌翻译
在本文中,我们呈现了UFFORER,一种用于图像恢复的有效和高效的变换器架构,其中我们使用变压器块构建分层编码器解码器网络。在UFFAR中,有两个核心设计。首先,我们介绍了一个新颖的本地增强型窗口(Lewin)变压器块,其执行基于窗口的自我关注而不是全局自我关注。它显着降低了高分辨率特征映射的计算复杂性,同时捕获本地上下文。其次,我们提出了一种以多尺度空间偏置的形式提出了一种学习的多尺度恢复调制器,以调整UFFORER解码器的多个层中的特征。我们的调制器展示了卓越的能力,用于恢复各种图像恢复任务的详细信息,同时引入边缘额外参数和计算成本。通过这两个设计提供支持,UFFORER享有高能力,可以捕获本地和全局依赖性的图像恢复。为了评估我们的方法,在几种图像恢复任务中进行了广泛的实验,包括图像去噪,运动脱棕,散焦和污染物。没有钟声和口哨,与最先进的算法相比,我们的UFormer实现了卓越的性能或相当的性能。代码和模型可在https://github.com/zhendongwang6/uformer中找到。
translated by 谷歌翻译
现实世界图像Denoising是一个实用的图像恢复问题,旨在从野外嘈杂的输入中获取干净的图像。最近,Vision Transformer(VIT)表现出强大的捕获远程依赖性的能力,许多研究人员试图将VIT应用于图像DeNosing任务。但是,现实世界的图像是一个孤立的框架,它使VIT构建了内部贴片的远程依赖性,该依赖性将图像分为贴片并混乱噪声模式和梯度连续性。在本文中,我们建议通过使用连续的小波滑动转换器来解决此问题,该小波滑动转换器在现实世界中构建频率对应关系,称为dnswin。具体而言,我们首先使用CNN编码器从嘈杂的输入图像中提取底部功能。 DNSWIN的关键是将高频和低频信息与功能和构建频率依赖性分开。为此,我们提出了小波滑动窗口变压器,该变压器利用离散的小波变换,自我注意力和逆离散小波变换来提取深度特征。最后,我们使用CNN解码器将深度特征重建为DeNo的图像。对现实世界的基准测试的定量和定性评估都表明,拟议的DNSWIN对最新方法的表现良好。
translated by 谷歌翻译
传统的基于CNNS的脱水模型遭受了两个基本问题:脱水框架(可解释性有限)和卷积层(内容无关,无效地学习远程依赖信息)。在本文中,我们提出了一种新的互补特征增强框架,其中互补特征由几个互补的子任务学习,然后一起用于提高主要任务的性能。新框架的一个突出优势之一是,有目的选择的互补任务可以专注于学习弱依赖性的互补特征,避免重复和无效的网络学习。我们根据这样一个框架设计了一种新的脱瘟网络。具体地,我们选择内在图像分解作为补充任务,其中反射率和阴影预测子任务用于提取色彩和纹理的互补特征。为了有效地聚合这些互补特征,我们提出了一种互补特征选择模块(CFSM),以选择图像脱水的更有用功能。此外,我们介绍了一个名为Hybrid Local-Global Vision变换器(Hylog-Vit)的新版本的Vision变换器块,并将其包含在我们的脱水网络中。 Hylog-VIT块包括用于捕获本地和全球依赖性的本地和全局视觉变压器路径。结果,Hylog-VIT引入网络中的局部性并捕获全局和远程依赖性。在均匀,非均匀和夜间脱水任务上的广泛实验表明,所提出的脱水网络可以实现比基于CNNS的去吸收模型的相当甚至更好的性能。
translated by 谷歌翻译
卷积神经网络(CNNS)成功地进行了压缩图像感测。然而,由于局部性和重量共享的归纳偏差,卷积操作证明了建模远程依赖性的内在限制。变压器,最初作为序列到序列模型设计,在捕获由于基于自我关注的架构而捕获的全局背景中,即使它可以配备有限的本地化能力。本文提出了一种混合框架,一个混合框架,其集成了从CNN提供的借用的优点以及变压器提供的全局上下文,以获得增强的表示学习。所提出的方法是由自适应采样和恢复组成的端到端压缩图像感测方法。在采样模块中,通过学习的采样矩阵测量图像逐块。在重建阶段,将测量投射到双杆中。一个是用于通过卷积建模邻域关系的CNN杆,另一个是用于采用全球自我关注机制的变压器杆。双分支结构是并发,并且本地特征和全局表示在不同的分辨率下融合,以最大化功能的互补性。此外,我们探索一个渐进的战略和基于窗口的变压器块,以降低参数和计算复杂性。实验结果表明了基于专用变压器的架构进行压缩感测的有效性,与不同数据集的最先进方法相比,实现了卓越的性能。
translated by 谷歌翻译
卷积神经网络(CNN)和变压器在多媒体应用中取得了巨大成功。但是,几乎没有努力有效,有效地协调这两个架构以满足图像的范围。本文旨在统一这两种架构,以利用其学习优点来降低图像。特别是,CNN的局部连通性和翻译等效性以及变压器中自我注意力(SA)的全球聚合能力被完全利用用于特定的局部环境和全球结构表示。基于雨水分布揭示降解位置和程度的观察,我们在帮助背景恢复之前引入退化,并因此呈现关联细化方案。提出了一种新型的多输入注意模块(MAM),以将降雨的去除和背景恢复关联。此外,我们为模型配备了有效的深度可分离卷积,以学习特定的特征表示并权衡计算复杂性。广泛的实验表明,我们提出的方法(称为ELF)的表现平均比最先进的方法(MPRNET)优于0.25 dB,但仅占其计算成本和参数的11.7 \%和42.1 \%。源代码可从https://github.com/kuijiang94/magic-elf获得。
translated by 谷歌翻译
这项工作研究了关节降雨和雾霾清除问题。在现实情况下,雨水和阴霾通常是两个经常共同发生的共同天气现象,可以极大地降低场景图像的清晰度和质量,从而导致视觉应用的性能下降,例如自动驾驶。但是,在场景图像中共同消除雨水和雾霾是艰难而挑战,在那里,阴霾和雨水的存在以及大气光的变化都可以降低现场信息。当前的方法集中在污染部分上,因此忽略了受大气光的变化影响的场景信息的恢复。我们提出了一个新颖的深神经网络,称为不对称双重编码器U-NET(ADU-NET),以应对上述挑战。 ADU-NET既产生污染物残留物,又产生残留的现场,以有效地去除雨水和雾霾,同时保留场景信息的保真度。广泛的实验表明,我们的工作在合成数据和现实世界数据基准(包括RainCityScapes,Bid Rain和Spa-data)的相当大的差距上优于现有的最新方法。例如,我们在RainCityScapes/spa-data上分别将最新的PSNR值提高了2.26/4.57。代码将免费提供给研究社区。
translated by 谷歌翻译
随着深度学习的发展,单图像超分辨率(SISR)取得了重大突破。最近,已经提出了基于全局特征交互的SISR网络性能的方法。但是,需要动态地忽略对上下文的响应的神经元的功能。为了解决这个问题,我们提出了一个轻巧的交叉障碍性推理网络(CFIN),这是一个由卷积神经网络(CNN)和变压器组成的混合网络。具体而言,一种新型的交叉磁场导向变压器(CFGT)旨在通过使用调制卷积内核与局部代表性语义信息结合来自适应修改网络权重。此外,提出了基于CNN的跨尺度信息聚合模块(CIAM),以使模型更好地专注于潜在的实用信息并提高变压器阶段的效率。广泛的实验表明,我们提出的CFIN是一种轻巧有效的SISR模型,可以在计算成本和模型性能之间达到良好的平衡。
translated by 谷歌翻译
从图像中删除像雨,雾和雪一样的恶劣天气条件是许多应用中的重要问题。在文献中提出的大多数方法旨在处理只是去除一种劣化。最近,建议使用神经架构搜索的基于CNN的方法(一体化),以一次去除所有天气条件。但是,它具有大量参数,因为它使用多个编码器来满足每个天气删除任务,并且仍然具有改进其性能的范围。在这项工作中,我们专注于开发一个有效的解决方案,以了解所有恶劣的恶劣气象删除问题。为此,我们提出了一个基于变压器的端到端模型的Transweather,只需一个编码器和可通过任何天气状况恢复图像恢复的解码器。具体地,我们利用了一种使用内部变压器块的新型变压器编码器,以增强贴片内的注意力,以有效地消除较小的天气降级。我们还介绍了一个具有学习天气型嵌入的变压器解码器,可调整​​手头的天气降级。 Transweather通过一体化网络以及针对特定任务的微调的方法跨越多个测试数据集的显着改进。特别是,Transweather在Test1(Rain + Fog)DataSet上的当前最先进的最新状态将+6.34 PSNR推动雪橇上的Test1(Rain + Fog)DataSet +4.93 PSNR和rainDrop测试数据集上的+3.11 psnr。近天气天气也在现实世界测试图像上验证,发现比以前的方法更有效。可以在https://github.com/jeya-maria-jose/transweather访问实施代码和预先训练的权重。
translated by 谷歌翻译
最近的变形金刚和多层Perceptron(MLP)模型的进展为计算机视觉任务提供了新的网络架构设计。虽然这些模型在许多愿景任务中被证明是有效的,但在图像识别之类的愿景中,仍然存在挑战,使他们适应低级视觉。支持高分辨率图像和本地注意力的局限性的不灵活性可能是使用变压器和MLP在图像恢复中的主要瓶颈。在这项工作中,我们介绍了一个多轴MLP基于MARIC的架构,称为Maxim,可用作用于图像处理任务的高效和灵活的通用视觉骨干。 Maxim使用UNET形的分层结构,并支持由空间门控MLP启用的远程交互。具体而言,Maxim包含两个基于MLP的构建块:多轴门控MLP,允许局部和全球视觉线索的高效和可扩展的空间混合,以及交叉栅栏,替代跨关注的替代方案 - 细分互补。这两个模块都仅基于MLP,而且还受益于全局和“全卷积”,两个属性对于图像处理是可取的。我们广泛的实验结果表明,所提出的Maxim模型在一系列图像处理任务中实现了十多个基准的最先进的性能,包括去噪,失败,派热,脱落和增强,同时需要更少或相当的数量参数和拖鞋而不是竞争模型。
translated by 谷歌翻译
在现实世界中,在雾度下拍摄的图像的降解可以是非常复杂的,其中雾度的空间分布从图像变化到图像。最近的方法采用深神经网络直接从朦胧图像中恢复清洁场景。然而,由于悖论由真正捕获的雾霾的变化和当前网络的固定退化参数引起的悖论,最近在真实朦胧的图像上的脱水方法的泛化能力不是理想的。解决现实世界建模问题阴霾退化,我们建议通过对不均匀雾度分布的鉴定和建模密度来解决这个问题。我们提出了一种新颖的可分离混合注意力(SHA)模块来编码雾霾密度,通过捕获正交方向上的特征来实现这一目标。此外,提出了密度图以明确地模拟雾度的不均匀分布。密度图以半监督方式生成位置编码。这种雾度密度感知和建模有效地捕获特征水平的不均匀分布性变性。通过SHA和密度图的合适组合,我们设计了一种新型的脱水网络架构,实现了良好的复杂性性能权衡。两个大规模数据集的广泛实验表明,我们的方法通过量化和定性地通过大幅度超越所有最先进的方法,将最佳发布的PSNR度量从28.53 DB升高到Haze4K测试数据集和在SOTS室内测试数据集中的37.17 dB至38.41 dB。
translated by 谷歌翻译
基于深度卷积神经网络(CNN)的单图像飞机方法已取得了重大成功。以前的方法致力于通过增加网络的深度和宽度来改善网络的性能。当前的方法着重于增加卷积内核的大小,以通过受益于更大的接受场来增强其性能。但是,直接增加卷积内核的大小会引入大量计算开销和参数。因此,本文设计了一个新型的大内核卷积驱动块(LKD块),该磁带(LKD块)由分解深度大核卷积块(DLKCB)和通道增强的进料前向前网络(CEFN)组成。设计的DLKCB可以将深度大的内核卷积分为较小的深度卷积和深度扩张的卷积,而无需引入大量参数和计算开销。同时,设计的CEFN将通道注意机制纳入馈电网络中,以利用重要的通道并增强鲁棒性。通过组合多个LKD块和上向下的采样模块,可以进行大内核卷积DeHaze网络(LKD-NET)。评估结果证明了设计的DLKCB和CEFN的有效性,而我们的LKD-NET优于最先进的功能。在SOTS室内数据集上,我们的LKD-NET极大地优于基于变压器的方法Dehamer,只有1.79%#PARAM和48.9%的FLOPS。我们的LKD-NET的源代码可在https://github.com/swu-cs-medialab/lkd-net上获得。
translated by 谷歌翻译
在恶劣天气下的图像修复是一项艰巨的任务。过去的大多数作品都集中在消除图像中的雨水和阴霾现象。但是,雪也是一种极为普遍的大气现象,它将严重影响高级计算机视觉任务的性能,例如对象检测和语义分割。最近,已经提出了一些用于降雪的方法,大多数方法直接将雪图像作为优化对象。但是,雪地点和形状的分布很复杂。因此,未能有效地检测雪花 /雪连胜将影响降雪并限制模型性能。为了解决这些问题,我们提出了一个雪地掩模的自适应残留网络(SMGARN)。具体而言,SMGARN由三个部分组成,即Mask-Net,Guidance-Fusion Network(GF-NET)和重建-NET。首先,我们构建了一个以自像素的注意(SA)和跨像素的注意(CA),以捕获雪花的特征并准确地定位了雪的位置,从而预测了准确的雪山。其次,预测的雪面被发送到专门设计的GF-NET中,以适应指导模型去除雪。最后,使用有效的重建网络来消除面纱效果并纠正图像以重建最终的无雪图像。广泛的实验表明,我们的SMGARN数值优于所有现有的降雪方法,并且重建的图像在视觉对比度上更清晰。所有代码都将可用。
translated by 谷歌翻译
由于卷积神经网络(CNNS)在从大规模数据中进行了学习的可概括图像前沿执行井,因此这些模型已被广泛地应用于图像恢复和相关任务。最近,另一类神经架构,变形金刚表现出对自然语言和高级视觉任务的显着性能。虽然变压器模型减轻了CNNS的缺点(即,有限的接收领域并对输入内容而无关),但其计算复杂性以空间分辨率二次大转,因此可以对涉及高分辨率图像的大多数图像恢复任务应用得不可行。在这项工作中,我们通过在构建块(多头关注和前锋网络)中进行多个关键设计,提出了一种有效的变压器模型,使得它可以捕获远程像素相互作用,同时仍然适用于大图像。我们的模型,命名恢复变压器(RESTORMER),实现了最先进的结果,导致几种图像恢复任务,包括图像派生,单图像运动脱棕,散焦去纹(单图像和双像素数据)和图像去噪(高斯灰度/颜色去噪,真实的图像去噪)。源代码和预先训练的型号可在https://github.com/swz30/restormer上获得。
translated by 谷歌翻译
Recently, Transformer-based image restoration networks have achieved promising improvements over convolutional neural networks due to parameter-independent global interactions. To lower computational cost, existing works generally limit self-attention computation within non-overlapping windows. However, each group of tokens are always from a dense area of the image. This is considered as a dense attention strategy since the interactions of tokens are restrained in dense regions. Obviously, this strategy could result in restricted receptive fields. To address this issue, we propose Attention Retractable Transformer (ART) for image restoration, which presents both dense and sparse attention modules in the network. The sparse attention module allows tokens from sparse areas to interact and thus provides a wider receptive field. Furthermore, the alternating application of dense and sparse attention modules greatly enhances representation ability of Transformer while providing retractable attention on the input image.We conduct extensive experiments on image super-resolution, denoising, and JPEG compression artifact reduction tasks. Experimental results validate that our proposed ART outperforms state-of-the-art methods on various benchmark datasets both quantitatively and visually. We also provide code and models at the website https://github.com/gladzhang/ART.
translated by 谷歌翻译
视觉变压器由于能够捕获图像中的长期依赖性的能力而成功地应用于图像识别任务。但是,变压器与现有卷积神经网络(CNN)之间的性能和计算成本仍然存在差距。在本文中,我们旨在解决此问题,并开发一个网络,该网络不仅可以超越规范变压器,而且可以超越高性能卷积模型。我们通过利用变压器来捕获长期依赖性和CNN来建模本地特征,从而提出了一个新的基于变压器的混合网络。此外,我们将其扩展为获得一个称为CMT的模型家族,比以前的基于卷积和基于变压器的模型获得了更好的准确性和效率。特别是,我们的CMT-S在ImageNet上获得了83.5%的TOP-1精度,而在拖鞋上的拖曳率分别比现有的DEIT和EficitiveNet小14倍和2倍。拟议的CMT-S还可以很好地概括CIFAR10(99.2%),CIFAR100(91.7%),花(98.7%)以及其他具有挑战性的视觉数据集,例如可可(44.3%地图),计算成本较小。
translated by 谷歌翻译
最近的作品在使用卷积神经网络(CNN)的双像素数据基于defocus Deblurring任务方面取得了出色的成果,而数据的稀缺性限制了视觉变压器在此任务中的探索和尝试。此外,现有作品还使用固定参数和网络体系结构来删除具有不同分布和内容信息的图像,这也影响了模型的概括能力。在本文中,我们提出了一个动态多尺度网络,名为DMTNET,用于双像素图像Defocus DeBlurring。 DMTNET主要包含两个模块:特征提取模块和重建模块。该特征提取模块由几个视觉变压器块组成,该模块使用其强大的特征提取能力来获得更丰富的功能并改善模型的鲁棒性。重建模块由几个动态多尺度子重构模块(DMSSRM)组成。 DMSSRM可以根据输入图像的模糊分布和内容信息自适应地分配权重来恢复图像。 DMTNET结合了变压器和CNN的优势,其中视觉变压器改善了CNN的性能上限,并且CNN的电感偏置使变压器能够在不依赖大量数据的情况下提取更强大的功能。 DMTNET可能是首次使用视觉变压器来恢复模糊图像以清晰的尝试。通过与CNN结合,视觉变压器可以在小数据集上实现更好的性能。对流行基准测试的实验结果表明,我们的DMTNET显着优于最先进的方法。
translated by 谷歌翻译
Image restoration is a long-standing low-level vision problem that aims to restore high-quality images from lowquality images (e.g., downscaled, noisy and compressed images). While state-of-the-art image restoration methods are based on convolutional neural networks, few attempts have been made with Transformers which show impressive performance on high-level vision tasks. In this paper, we propose a strong baseline model SwinIR for image restoration based on the Swin Transformer. SwinIR consists of three parts: shallow feature extraction, deep feature extraction and high-quality image reconstruction. In particular, the deep feature extraction module is composed of several residual Swin Transformer blocks (RSTB), each of which has several Swin Transformer layers together with a residual connection. We conduct experiments on three representative tasks: image super-resolution (including classical, lightweight and real-world image super-resolution), image denoising (including grayscale and color image denoising) and JPEG compression artifact reduction. Experimental results demonstrate that SwinIR outperforms state-of-the-art methods on different tasks by up to 0.14∼0.45dB, while the total number of parameters can be reduced by up to 67%.
translated by 谷歌翻译