学习自然图像恢复的一般性先验是一项重要但具有挑战性的任务。早期方法主要涉及手工制作的先验,包括归一化稀疏性,L_0梯度,暗通道先验等。最近,深层神经网络已用于学习各种图像先验,但不能保证概括。在本文中,我们提出了一种新颖的方法,该方法将任务敏捷的先验嵌入到变压器中。我们的方法称为任务不合时宜的先验嵌入(磁带),由两个阶段组成,即,任务不合时宜的预训练和特定于任务的微调,第一阶段将有关自然图像的先验知识嵌入到变压器中,第二阶段嵌入了第二阶段。阶段提取知识以帮助下游图像恢复。对各种降解的实验验证了胶带的有效性。根据PSNR的图像恢复性能提高了多达1.45dB,甚至超过了特定于任务的算法。更重要的是,磁带显示了从退化的图像中解开广义图像先验的能力,这些图像具有良好的转移能力,可以转移到未知的下游任务。
translated by 谷歌翻译
由于现代硬件的计算能力强烈增加,在大规模数据集上学习的预训练的深度学习模型(例如,BERT,GPT-3)已经显示了它们对传统方法的有效性。巨大进展主要促进了变压器及其变体架构的代表能力。在本文中,我们研究了低级计算机视觉任务(例如,去噪,超级分辨率和派没),并开发了一个新的预先训练的模型,即图像处理变压器(IPT)。为了最大限度地挖掘变压器的能力,我们展示了利用众所周知的想象网基准,以产生大量损坏的图像对。 IPT模型在具有多头和多尾的这些图像上培训。此外,引入了对比度学习,以适应不同的图像处理任务。因此,在微调后,预先训练的模型可以有效地在所需的任务上使用。只有一个预先训练的模型,IPT优于当前的最先进方法对各种低级基准。代码可在https://github.com/huawei-noah/pretrate -ipt和https://gitee.com/mindspore/mindspore/tree/master/model_zoo/research/cv/ipt
translated by 谷歌翻译
我们提出了一种新的零射多帧图像恢复方法,用于去除连续帧中变化的不需要的障碍物(例如降雨,雪和莫尔图案)。它有三个阶段:变压器预训练,零射恢复和硬贴片细化。使用预先训练的变压器,我们的模型能够在真实图像信息和阻碍元件之间讲述运动差异。对于零拍摄图像恢复,我们设计了一种由暹罗变换器,编码器和解码器构建的新型模型,称为暹罗。每个变压器具有时间关注层和几个自我注意层,以捕获多个帧的时间和空间信息。只有在去噪任务上进行预训练(自我监督),Siamtrans在三个不同的低级视觉任务中测试了三种不同的低级视觉任务(派生,发誓和Desnowing)。与相关方法相比,我们的表现效果最佳,甚至优于具有监督学习的表现。
translated by 谷歌翻译
在本文中,我们呈现了UFFORER,一种用于图像恢复的有效和高效的变换器架构,其中我们使用变压器块构建分层编码器解码器网络。在UFFAR中,有两个核心设计。首先,我们介绍了一个新颖的本地增强型窗口(Lewin)变压器块,其执行基于窗口的自我关注而不是全局自我关注。它显着降低了高分辨率特征映射的计算复杂性,同时捕获本地上下文。其次,我们提出了一种以多尺度空间偏置的形式提出了一种学习的多尺度恢复调制器,以调整UFFORER解码器的多个层中的特征。我们的调制器展示了卓越的能力,用于恢复各种图像恢复任务的详细信息,同时引入边缘额外参数和计算成本。通过这两个设计提供支持,UFFORER享有高能力,可以捕获本地和全局依赖性的图像恢复。为了评估我们的方法,在几种图像恢复任务中进行了广泛的实验,包括图像去噪,运动脱棕,散焦和污染物。没有钟声和口哨,与最先进的算法相比,我们的UFormer实现了卓越的性能或相当的性能。代码和模型可在https://github.com/zhendongwang6/uformer中找到。
translated by 谷歌翻译
从图像中删除像雨,雾和雪一样的恶劣天气条件是许多应用中的重要问题。在文献中提出的大多数方法旨在处理只是去除一种劣化。最近,建议使用神经架构搜索的基于CNN的方法(一体化),以一次去除所有天气条件。但是,它具有大量参数,因为它使用多个编码器来满足每个天气删除任务,并且仍然具有改进其性能的范围。在这项工作中,我们专注于开发一个有效的解决方案,以了解所有恶劣的恶劣气象删除问题。为此,我们提出了一个基于变压器的端到端模型的Transweather,只需一个编码器和可通过任何天气状况恢复图像恢复的解码器。具体地,我们利用了一种使用内部变压器块的新型变压器编码器,以增强贴片内的注意力,以有效地消除较小的天气降级。我们还介绍了一个具有学习天气型嵌入的变压器解码器,可调整​​手头的天气降级。 Transweather通过一体化网络以及针对特定任务的微调的方法跨越多个测试数据集的显着改进。特别是,Transweather在Test1(Rain + Fog)DataSet上的当前最先进的最新状态将+6.34 PSNR推动雪橇上的Test1(Rain + Fog)DataSet +4.93 PSNR和rainDrop测试数据集上的+3.11 psnr。近天气天气也在现实世界测试图像上验证,发现比以前的方法更有效。可以在https://github.com/jeya-maria-jose/transweather访问实施代码和预先训练的权重。
translated by 谷歌翻译
预训练在高级计算机视觉中标志着众多艺术状态,但曾经有很少的尝试调查图像处理系统中的预训练方式。在本文中,我们对图像预培训进行了深入研究。在实用价值考虑到实际价值的实际基础进行本研究,我们首先提出了一种通用,经济高效的变压器的图像处理框架。它在一系列低级任务中产生了高度竞争的性能,但在约束参数和计算复杂性下。然后,基于此框架,我们设计了一整套原则性的评估工具,认真对待和全面地诊断不同任务的图像预训练,并揭示其对内部网络表示的影响。我们发现预训练在低级任务中发挥着惊人的不同角色。例如,预训练将更多本地信息引入超级分辨率(SR)的更高层数,产生显着的性能增益,而预培训几乎不会影响去噪的内部特征表示,导致稍微收益。此外,我们探索了不同的预训练方法,揭示了多任务预训练更有效和数据效率。所有代码和模型将在https://github.com/fenglinglwb/edt发布。
translated by 谷歌翻译
盲面修复(BFR)旨在从相应的低质量(LQ)输入中构建高质量(HQ)面部图像。最近,已经提出了许多BFR方法,并取得了杰出的成功。但是,这些方法经过私人合成的数据集进行了培训或评估,这使得与后续方法相比的方法是不可行的。为了解决这个问题,我们首先合成两个称为EDFEACE-CELEB-1M(BFR128)和EDFACE-CELEB-150K(BFR512)的盲面恢复基准数据集。在五个设置下,将最先进的方法在它们的五个设置下进行了基准测试,包括模糊,噪声,低分辨率,JPEG压缩伪像及其组合(完全退化)。为了使比较更全面,应用了五个广泛使用的定量指标和两个任务驱动的指标,包括平均面部标志距离(AFLD)和平均面部ID余弦相似性(AFICS)。此外,我们开发了一个有效的基线模型,称为Swin Transformer U-NET(昏迷)。带有U-NET体系结构的昏迷器应用了注意机制和移动的窗口方案,以捕获远程像素相互作用,并更多地关注重要功能,同时仍受到有效训练。实验结果表明,所提出的基线方法对各种BFR任务的SOTA方法表现出色。
translated by 谷歌翻译
为了获得下游图像信号过程(ISP)的高质量的原始图像,在本文中,我们提出了一个有效的本地乘法变压器,称为ELMFORMER,用于原始图像恢复。 Elmformer包含两个核心设计,尤其是针对原始属性是单渠道的原始图像。第一个设计是双向融合投影(BFP)模块,我们考虑了原始图像的颜色特征和单渠道的空间结构。第二个是我们提出了一个本地乘法自我注意力(L-MSA)方案,以有效地从当地空间传递信息到相关部分。 Elmformer可以有效地减少计算消耗,并在原始图像恢复任务上表现良好。通过这两种核心设计,Elmformer提高了最高的性能,并且与最先进的机构相比,原始DeNoising和原始Deblurring基准测试最低。广泛的实验证明了Elmformer的优势和概括能力。在SIDD基准测试中,我们的方法比基于ISP的方法具有更好的降解性能,这些方法需要大量的额外的SRGB培训图像。这些代码在https://github.com/leonmakise/elmformer上发布。
translated by 谷歌翻译
现实世界图像Denoising是一个实用的图像恢复问题,旨在从野外嘈杂的输入中获取干净的图像。最近,Vision Transformer(VIT)表现出强大的捕获远程依赖性的能力,许多研究人员试图将VIT应用于图像DeNosing任务。但是,现实世界的图像是一个孤立的框架,它使VIT构建了内部贴片的远程依赖性,该依赖性将图像分为贴片并混乱噪声模式和梯度连续性。在本文中,我们建议通过使用连续的小波滑动转换器来解决此问题,该小波滑动转换器在现实世界中构建频率对应关系,称为dnswin。具体而言,我们首先使用CNN编码器从嘈杂的输入图像中提取底部功能。 DNSWIN的关键是将高频和低频信息与功能和构建频率依赖性分开。为此,我们提出了小波滑动窗口变压器,该变压器利用离散的小波变换,自我注意力和逆离散小波变换来提取深度特征。最后,我们使用CNN解码器将深度特征重建为DeNo的图像。对现实世界的基准测试的定量和定性评估都表明,拟议的DNSWIN对最新方法的表现良好。
translated by 谷歌翻译
眼科医生已经使用眼底图像筛选和诊断眼病。然而,不同的设备和眼科医生对眼底图像的质量产生了大的变化。低质量(LQ)降级的眼底图像在临床筛查中容易导致不确定性,并且通常会增加误诊的风险。因此,真实的眼底图像恢复值得研究。不幸的是,到目前为止,这项任务尚未探索真正的临床基准。在本文中,我们研究了真正的临床眼底图像恢复问题。首先,我们建立一个临床数据集,真实的眼底(RF),包括120个低质量和高质量(HQ)图像对。然后,我们提出了一种新型的变压器的生成对抗网络(RFRMANER)来恢复临床眼底图像的实际降级。我们网络中的关键组件是基于窗口的自我关注块(WSAB),其捕获非本地自我相似性和远程依赖性。为了产生更明显的令人愉悦的结果,介绍了一种基于变压器的鉴别器。在我们的临床基准测试中的广泛实验表明,所提出的rformer显着优于最先进的(SOTA)方法。此外,诸如船舶分割和光盘/杯子检测之类的下游任务的实验表明我们所提出的rformer益处临床眼底图像分析和应用。将发布数据集,代码和模型。
translated by 谷歌翻译
Recently, Transformer-based image restoration networks have achieved promising improvements over convolutional neural networks due to parameter-independent global interactions. To lower computational cost, existing works generally limit self-attention computation within non-overlapping windows. However, each group of tokens are always from a dense area of the image. This is considered as a dense attention strategy since the interactions of tokens are restrained in dense regions. Obviously, this strategy could result in restricted receptive fields. To address this issue, we propose Attention Retractable Transformer (ART) for image restoration, which presents both dense and sparse attention modules in the network. The sparse attention module allows tokens from sparse areas to interact and thus provides a wider receptive field. Furthermore, the alternating application of dense and sparse attention modules greatly enhances representation ability of Transformer while providing retractable attention on the input image.We conduct extensive experiments on image super-resolution, denoising, and JPEG compression artifact reduction tasks. Experimental results validate that our proposed ART outperforms state-of-the-art methods on various benchmark datasets both quantitatively and visually. We also provide code and models at the website https://github.com/gladzhang/ART.
translated by 谷歌翻译
由于卷积神经网络(CNNS)在从大规模数据中进行了学习的可概括图像前沿执行井,因此这些模型已被广泛地应用于图像恢复和相关任务。最近,另一类神经架构,变形金刚表现出对自然语言和高级视觉任务的显着性能。虽然变压器模型减轻了CNNS的缺点(即,有限的接收领域并对输入内容而无关),但其计算复杂性以空间分辨率二次大转,因此可以对涉及高分辨率图像的大多数图像恢复任务应用得不可行。在这项工作中,我们通过在构建块(多头关注和前锋网络)中进行多个关键设计,提出了一种有效的变压器模型,使得它可以捕获远程像素相互作用,同时仍然适用于大图像。我们的模型,命名恢复变压器(RESTORMER),实现了最先进的结果,导致几种图像恢复任务,包括图像派生,单图像运动脱棕,散焦去纹(单图像和双像素数据)和图像去噪(高斯灰度/颜色去噪,真实的图像去噪)。源代码和预先训练的型号可在https://github.com/swz30/restormer上获得。
translated by 谷歌翻译
最近,基于深度学习的图像降级方法在测试数据上具有与训练集相同的测试数据的有希望的性能,在该数据中,已经学习了基于合成或收集的现实世界训练数据的各种denoising模型。但是,在处理真实世界的嘈杂图像时,Denoising的性能仍然受到限制。在本文中,我们提出了一种简单而有效的贝叶斯深集合(BDE)方法,用于真实世界图像denoising,其中可以融合使用各种训练数据设置进行预训练的几位代表性的深层Denoiser,以提高稳健性。 BDE的基础是,现实世界的图像噪声高度取决于信号依赖性,并且在现实世界中的嘈杂图像中的异质噪声可以由不同的Deoisiser分别处理。特别是,我们将受过良好训练的CBDNET,NBNET,HINET,UFORFORMER和GMSNET进入Denoiser池,并采用U-NET来预测Pixel的加权图以融合这些DeOisiser。引入了贝叶斯深度学习策略,而不是仅仅学习像素的加权地图,而是为了预测加权不确定性和加权图,可以通过该策略来建模预测差异,以改善现实世界中的嘈杂图像的鲁棒性。广泛的实验表明,可以通过融合现有的DINOISER而不是训练一个以昂贵的成本来训练一个大的Denoiser来更好地消除现实世界的噪音。在DND数据集上,我们的BDE实现了 +0.28〜dB PSNR的增益,而不是最先进的denoising方法。此外,我们注意到,在应用于现实世界嘈杂的图像时,基于不同高斯噪声水平的BDE Denoiser优于最先进的CBDNET。此外,我们的BDE可以扩展到其他图像恢复任务,并在基准数据集上获得 +0.30dB, +0.18dB和 +0.12dB PSNR的收益,以分别用于图像去除图像,图像降低和单个图像超级分辨率。
translated by 谷歌翻译
Face Restoration (FR) aims to restore High-Quality (HQ) faces from Low-Quality (LQ) input images, which is a domain-specific image restoration problem in the low-level computer vision area. The early face restoration methods mainly use statistic priors and degradation models, which are difficult to meet the requirements of real-world applications in practice. In recent years, face restoration has witnessed great progress after stepping into the deep learning era. However, there are few works to study deep learning-based face restoration methods systematically. Thus, this paper comprehensively surveys recent advances in deep learning techniques for face restoration. Specifically, we first summarize different problem formulations and analyze the characteristic of the face image. Second, we discuss the challenges of face restoration. Concerning these challenges, we present a comprehensive review of existing FR methods, including prior based methods and deep learning-based methods. Then, we explore developed techniques in the task of FR covering network architectures, loss functions, and benchmark datasets. We also conduct a systematic benchmark evaluation on representative methods. Finally, we discuss future directions, including network designs, metrics, benchmark datasets, applications,etc. We also provide an open-source repository for all the discussed methods, which is available at https://github.com/TaoWangzj/Awesome-Face-Restoration.
translated by 谷歌翻译
去除阴影的关键是通过非阴影区域的指导恢复阴影区域的内容。由于远程建模不足,基于CNN的方法无法彻底研究非阴影地区的信息。为了解决这个问题,我们提出了一个新颖的清洁效果图网络(CNSNET),并具有面向阴影的自适应归一化(SOAN)模块,并根据阴影蒙版带有带有变压器(SAAT)模块的阴影吸引的聚合。在影子面罩的指导下,Soan模块制定了非阴影区域的统计数据,并将它们适应到阴影区域以进行区域修复。 SAAT模块利用阴影面膜来精确指导每个阴影像素的修复,通过考虑来自无阴影区域的高度相关像素以进行全球像素恢复。在三个基准数据集(ISTD,ISTD+和SRD)上进行了广泛的实验表明,我们的方法可实现出色的脱落性能。
translated by 谷歌翻译
压缩在通过限制系统(例如流媒体服务,虚拟现实或视频游戏)等系统的有效传输和存储图像和视频中起着重要作用。但是,不可避免地会导致伪影和原始信息的丢失,这可能会严重降低视觉质量。由于这些原因,压缩图像的质量增强已成为流行的研究主题。尽管大多数最先进的图像恢复方法基于卷积神经网络,但基于Swinir等其他基于变压器的方法在这些任务上表现出令人印象深刻的性能。在本文中,我们探索了新型的Swin Transformer V2,以改善图像超分辨率的Swinir,尤其是压缩输入方案。使用这种方法,我们可以解决训练变压器视觉模型中的主要问题,例如训练不稳定性,预训练和微调之间的分辨率差距以及数据饥饿。我们对三个代表性任务进行实验:JPEG压缩伪像去除,图像超分辨率(经典和轻巧)以及压缩的图像超分辨率。实验结果表明,我们的方法SWIN2SR可以改善SWINIR的训练收敛性和性能,并且是“ AIM 2022挑战压缩图像和视频的超分辨率”的前5个解决方案。
translated by 谷歌翻译
Image restoration under hazy weather condition, which is called single image dehazing, has been of significant interest for various computer vision applications. In recent years, deep learning-based methods have achieved success. However, existing image dehazing methods typically neglect the hierarchy of features in the neural network and fail to exploit their relationships fully. To this end, we propose an effective image dehazing method named Hierarchical Contrastive Dehazing (HCD), which is based on feature fusion and contrastive learning strategies. HCD consists of a hierarchical dehazing network (HDN) and a novel hierarchical contrastive loss (HCL). Specifically, the core design in the HDN is a Hierarchical Interaction Module, which utilizes multi-scale activation to revise the feature responses hierarchically. To cooperate with the training of HDN, we propose HCL which performs contrastive learning on hierarchically paired exemplars, facilitating haze removal. Extensive experiments on public datasets, RESIDE, HazeRD, and DENSE-HAZE, demonstrate that HCD quantitatively outperforms the state-of-the-art methods in terms of PSNR, SSIM and achieves better visual quality.
translated by 谷歌翻译
高光谱图像(HSI)重建旨在从编码光圈快照频谱成像(CASSI)系统中的2D测量中恢复3D空间光谱信号。 HSI表示在光谱维度上具有高度相似和相关性。建模频谱间相互作用对HSI重建有益。然而,现有的基于CNN的方法显示了捕获光谱和远程依赖性的限制。此外,HSI信息由CASSI中的编码孔径(物理掩码)调制。尽管如此,目前的算法尚未完全探索掩模的掩模恢复的引导效果。在本文中,我们提出了一种新颖的框架,掩模引导的光谱 - 明智变压器(MST),用于HSI重建。具体地,我们介绍了一种频谱,用于将每个光谱特征视为令牌的频谱 - 明智的多头自我注意(S-MSA)并计算沿光谱尺寸的自我关注。此外,我们自定义一个掩模导向机构(mm),指示S-MSA,以注意具有高保真谱表示的空间区域。广泛的实验表明,我们的MST在模拟和真实HSI数据集上显着优于最先进的(SOTA)方法,同时需要大幅更便宜的计算和内存成本。
translated by 谷歌翻译
对比学习在各种高级任务中取得了显着的成功,但是为低级任务提出了较少的方法。采用VANILLA对比学习技术采用直接为低级视觉任务提出的VANILLA对比度学习技术,因为所获得的全局视觉表现不足以用于需要丰富的纹理和上下文信息的低级任务。在本文中,我们提出了一种用于单图像超分辨率(SISR)的新型对比学习框架。我们从两个视角调查基于对比的学习的SISR:样品施工和特征嵌入。现有方法提出了一些天真的样本施工方法(例如,考虑到作为负样本的低质量输入以及作为正样品的地面真理),并且它们采用了先前的模型(例如,预先训练的VGG模型)来获得该特征嵌入而不是探索任务友好的。为此,我们向SISR提出了一个实用的对比学习框架,涉及在频率空间中产生许多信息丰富的正负样本。我们不是利用其他预先训练的网络,我们设计了一种从鉴别器网络继承的简单但有效的嵌入网络,并且可以用主SR网络迭代优化,使其成为任务最通报。最后,我们对我们的方法进行了广泛的实验评估,与基准方法相比,在目前的最先进的SISR方法中显示出高达0.21 dB的显着增益。
translated by 谷歌翻译
Image restoration tasks demand a complex balance between spatial details and high-level contextualized information while recovering images. In this paper, we propose a novel synergistic design that can optimally balance these competing goals. Our main proposal is a multi-stage architecture, that progressively learns restoration functions for the degraded inputs, thereby breaking down the overall recovery process into more manageable steps. Specifically, our model first learns the contextualized features using encoder-decoder architectures and later combines them with a high-resolution branch that retains local information. At each stage, we introduce a novel per-pixel adaptive design that leverages in-situ supervised attention to reweight the local features. A key ingredient in such a multi-stage architecture is the information exchange between different stages. To this end, we propose a twofaceted approach where the information is not only exchanged sequentially from early to late stages, but lateral connections between feature processing blocks also exist to avoid any loss of information. The resulting tightly interlinked multi-stage architecture, named as MPRNet, delivers strong performance gains on ten datasets across a range of tasks including image deraining, deblurring, and denoising. The source code and pre-trained models are available at https://github.com/swz30/MPRNet.
translated by 谷歌翻译