图像运动模糊通常是由于移动物体或摄像头摇动而导致的。这种模糊通常是方向性的,不均匀。先前的研究工作试图通过使用自我注意力的自我次数多尺度或多斑架构来解决非均匀的模糊。但是,使用自我电流框架通常会导致更长的推理时间,而像素间或通道间的自我注意力可能会导致过度记忆使用。本文提出了模糊的注意力网络(BANET),该网络通过单个正向通行证完成了准确有效的脱脂。我们的Banet利用基于区域的自我注意力,并通过多内核条池汇总到不同程度的模糊模式,并具有级联的平行扩张卷积,以汇总多尺度内容特征。关于GoPro和Hide基准的广泛实验结果表明,所提出的班轮在模糊的图像修复中表现出色,并可以实时提供Deblurred结果。
translated by 谷歌翻译
在动态场景中拍摄的图像可能包含不必要的运动模糊,从而大大降低视觉质量。这种模糊会导致短期和远程特定区域的平滑伪像,通常是方向性和不均匀的,很难去除。受到变压器在计算机视觉和图像处理任务的最新成功的启发,我们开发了Stripformer,这是一种基于变压器的体系结构,该体系结构构建了内部和跨条纹代币,以在水平和垂直方向上重新构建图像特征,以捕获模糊的模式,以不同于不同方向。它堆叠了隔离的内带和串间注意层,以揭示模糊的幅度。除了检测各种取向和幅度的区域特异性模式外,Stripformer还是一个令牌效率和参数有效的变压器模型,要求比Vanilla变压器更少的内存使用和计算成本要少得多,但在不依赖巨大训练数据的情况下工作得更好。实验结果表明,在动态场景中,脱衣舞素对最新模型的表现良好。
translated by 谷歌翻译
This paper tackles the problem of motion deblurring of dynamic scenes. Although end-to-end fully convolutional designs have recently advanced the state-of-the-art in nonuniform motion deblurring, their performance-complexity trade-off is still sub-optimal. Existing approaches achieve a large receptive field by increasing the number of generic convolution layers and kernel-size, but this comes at the expense of of the increase in model size and inference speed. In this work, we propose an efficient pixel adaptive and feature attentive design for handling large blur variations across different spatial locations and process each test image adaptively. We also propose an effective content-aware global-local filtering module that significantly improves performance by considering not only global dependencies but also by dynamically exploiting neighboring pixel information. We use a patch-hierarchical attentive architecture composed of the above module that implicitly discovers the spatial variations in the blur present in the input image and in turn, performs local and global modulation of intermediate features. Extensive qualitative and quantitative comparisons with prior art on deblurring benchmarks demonstrate that our design offers significant improvements over the state-of-the-art in accuracy as well as speed.
translated by 谷歌翻译
使用注意机制的深度卷积神经网络(CNN)在动态场景中取得了巨大的成功。在大多数这些网络中,只能通过注意图精炼的功能传递到下一层,并且不同层的注意力图彼此分开,这并不能充分利用来自CNN中不同层的注意信息。为了解决这个问题,我们引入了一种新的连续跨层注意传播(CCLAT)机制,该机制可以利用所有卷积层的分层注意信息。基于CCLAT机制,我们使用非常简单的注意模块来构建一个新型残留的密集注意融合块(RDAFB)。在RDAFB中,从上述RDAFB的输出中推断出的注意图和每一层直接连接到后续的映射,从而导致CRLAT机制。以RDAFB为基础,我们为动态场景Deblurring设计了一个名为RDAFNET的有效体系结构。基准数据集上的实验表明,所提出的模型的表现优于最先进的脱毛方法,并证明了CCLAT机制的有效性。源代码可在以下网址提供:https://github.com/xjmz6/rdafnet。
translated by 谷歌翻译
大多数现有的基于深度学习的单图像动态场景盲目脱毛(SIDSBD)方法通常设计深网络,以直接从一个输入的运动模糊图像中直接删除空间变化的运动模糊,而无需模糊的内核估计。在本文中,受投射运动路径模糊(PMPB)模型和可变形卷积的启发,我们提出了一个新颖的约束可变形的卷积网络(CDCN),以进行有效的单图像动态场景,同时实现了准确的空间变化,以及仅观察到的运动模糊图像的高质量图像恢复。在我们提出的CDCN中,我们首先构建了一种新型的多尺度多级多输入多输出(MSML-MIMO)编码器架构,以提高功能提取能力。其次,与使用多个连续帧的DLVBD方法不同,提出了一种新颖的约束可变形卷积重塑(CDCR)策略,其中首先将可变形的卷积应用于输入的单运动模糊图像的模糊特征,用于学习学习的抽样点,以学习学习的采样点每个像素的运动模糊内核类似于PMPB模型中摄像机震动的运动密度函数的估计,然后提出了一种基于PMPB的新型重塑损耗函数来限制学习的采样点收敛,这可以使得可以使得可以使其产生。学习的采样点与每个像素的相对运动轨迹匹配,并促进空间变化的运动模糊内核估计的准确性。
translated by 谷歌翻译
本文铲球动态场景去模糊的问题。虽然终端到终端的全卷积的设计最近提出的国家的最先进的非匀速运动去模糊,他们的表现复杂的权衡仍是次优的。现有的方法在普通卷积层,内核尺寸的数量,来与模型的大小和推理速度的增加的负担,一个简单的增量实现大的感受野。在这项工作中,我们提出了一个有效的像素适应并配内和跨不同的图像处理大量的模糊变化周到的设计。我们还提出了一种有效的内容感知全局 - 局部滤波模块通过不仅考虑像素的全局依赖关系还动态使用相邻像素是显著提高性能。我们使用上述模块构成的补丁分层架构周到隐式地发现存在于所述输入图像并依次模糊的空间变化进行的中间特征局部和全局调制。与现有技术的上去模糊基准广泛的定性和定量的比较表明了该网络的优越性。
translated by 谷歌翻译
Despite deep end-to-end learning methods have shown their superiority in removing non-uniform motion blur, there still exist major challenges with the current multi-scale and scale-recurrent models: 1) Deconvolution/upsampling operations in the coarse-to-fine scheme result in expensive runtime; 2) Simply increasing the model depth with finer-scale levels cannot improve the quality of deblurring. To tackle the above problems, we present a deep hierarchical multi-patch network inspired by Spatial Pyramid Matching to deal with blurry images via a fine-tocoarse hierarchical representation. To deal with the performance saturation w.r.t. depth, we propose a stacked version of our multi-patch model. Our proposed basic multi-patch model achieves the state-of-the-art performance on the Go-Pro dataset while enjoying a 40× faster runtime compared to current multi-scale methods. With 30ms to process an image at 1280×720 resolution, it is the first real-time deep motion deblurring model for 720p images at 30fps. For stacked networks, significant improvements (over 1.2dB) are achieved on the GoPro dataset by increasing the network depth. Moreover, by varying the depth of the stacked model, one can adapt the performance and runtime of the same network for different application scenarios.
translated by 谷歌翻译
由于大气湍流的扭曲而恢复图像是一个长期存在的问题,这是由于变形的空间变化,图像形成过程的非线性以及训练和测试数据的稀缺性。现有方法通常在失真模型上具有强大的统计假设,在许多情况下,由于没有概括,因此在现实世界中的性能有限。为了克服挑战,本文提出了一种端到端物理驱动的方法,该方法有效,可以推广到现实世界的湍流。在数据合成方面,我们通过通过宽sense式的平稳性近似随机场来显着增加SOTA湍流模拟器可以处理的图像分辨率。新的数据合成过程使大规模的多级湍流和训练的地面真相对产生。在网络设计方面,我们提出了湍流缓解变压器(TMT),这是一个两级U-NET形状的多帧恢复网络,该网络具有Noval有效的自发机制,称为暂时通道关节关注(TCJA)。我们还引入了一种新的培训方案,该方案由新的模拟器启用,并设计新的变压器单元以减少内存消耗。在静态场景和动态场景上的实验结果是有希望的,包括各种真实的湍流场景。
translated by 谷歌翻译
派生是一个重要而基本的计算机视觉任务,旨在消除在下雨天捕获的图像或视频中的雨条纹和累积。现有的派威方法通常会使雨水模型的启发式假设,这迫使它们采用复杂的优化或迭代细化以获得高回收质量。然而,这导致耗时的方法,并影响解决从假设偏离的雨水模式的有效性。在本文中,我们通过在没有复杂的雨水模型假设的情况下,通过在没有复杂的雨水模型假设的情况下制定污染作为预测滤波问题的简单而有效的污染方法。具体地,我们识别通过深网络自适应地预测适当的核的空间变型预测滤波(SPFILT以过滤不同的各个像素。由于滤波可以通过加速卷积来实现,因此我们的方法可以显着效率。我们进一步提出了eFderain +,其中包含三个主要贡献来解决残留的雨迹,多尺度和多样化的雨水模式而不会损害效率。首先,我们提出了不确定感知的级联预测滤波(UC-PFILT),其可以通过预测的内核来识别重建清洁像素的困难,并有效地移除残留的雨水迹线。其次,我们设计重量共享多尺度扩张过滤(WS-MS-DFILT),以处理多尺度雨条纹,而不会损害效率。第三,消除各种雨水模式的差距,我们提出了一种新颖的数据增强方法(即Rainmix)来培养我们的深层模型。通过对不同变体的复杂分析的所有贡献相结合,我们的最终方法在恢复质量和速度方面优于四个单像辐照数据集和一个视频派威数据集的基线方法。
translated by 谷歌翻译
Image restoration tasks demand a complex balance between spatial details and high-level contextualized information while recovering images. In this paper, we propose a novel synergistic design that can optimally balance these competing goals. Our main proposal is a multi-stage architecture, that progressively learns restoration functions for the degraded inputs, thereby breaking down the overall recovery process into more manageable steps. Specifically, our model first learns the contextualized features using encoder-decoder architectures and later combines them with a high-resolution branch that retains local information. At each stage, we introduce a novel per-pixel adaptive design that leverages in-situ supervised attention to reweight the local features. A key ingredient in such a multi-stage architecture is the information exchange between different stages. To this end, we propose a twofaceted approach where the information is not only exchanged sequentially from early to late stages, but lateral connections between feature processing blocks also exist to avoid any loss of information. The resulting tightly interlinked multi-stage architecture, named as MPRNet, delivers strong performance gains on ten datasets across a range of tasks including image deraining, deblurring, and denoising. The source code and pre-trained models are available at https://github.com/swz30/MPRNet.
translated by 谷歌翻译
大多数现有的基于深度学习的方法用于血管分割的方法忽略了视网膜血管的两个重要方面,一个是船只的定向信息,另一个是整个基底区域的上下文信息。在本文中,我们提出了一个强大的方向和上下文纠缠的网络(称为OCE-NET),该网络具有提取血管的复杂方向和上下文信息的能力。为了实现复杂的方向,提出了动态复杂方向意识卷积(DCOA Conv),以提取具有多种取向的复杂血管,以改善血管连续性。为了同时捕获全球上下文信息并强调重要的本地信息,开发了一个全球和局部融合模块(GLFM),以同时对船舶的长距离依赖性进行建模,并将足够的关注放在局部薄船上。提出了一种新颖的方向和上下文纠缠的非本地(OCE-NL)模块,以将方向和上下文信息纠缠在一起。此外,提出了不平衡的注意模块(UARM)来处理背景,厚和薄容器的不平衡像素数量。在几个常用的数据集(驱动器,凝视和ChasceB1)和一些更具挑战性的数据集(AV Wide,UOA-DR,RFMID和UK BioBANK)上进行了广泛的实验。消融研究表明,所提出的方法在保持薄血管的连续性方面取得了有希望的性能,比较实验表明,我们的OCE-NET可以在视网膜血管分割上实现最新性能。
translated by 谷歌翻译
由于卷积神经网络(CNNS)在从大规模数据中进行了学习的可概括图像前沿执行井,因此这些模型已被广泛地应用于图像恢复和相关任务。最近,另一类神经架构,变形金刚表现出对自然语言和高级视觉任务的显着性能。虽然变压器模型减轻了CNNS的缺点(即,有限的接收领域并对输入内容而无关),但其计算复杂性以空间分辨率二次大转,因此可以对涉及高分辨率图像的大多数图像恢复任务应用得不可行。在这项工作中,我们通过在构建块(多头关注和前锋网络)中进行多个关键设计,提出了一种有效的变压器模型,使得它可以捕获远程像素相互作用,同时仍然适用于大图像。我们的模型,命名恢复变压器(RESTORMER),实现了最先进的结果,导致几种图像恢复任务,包括图像派生,单图像运动脱棕,散焦去纹(单图像和双像素数据)和图像去噪(高斯灰度/颜色去噪,真实的图像去噪)。源代码和预先训练的型号可在https://github.com/swz30/restormer上获得。
translated by 谷歌翻译
采用重塑的常见做法是学习模糊和锐利图像对之间的差异,在端到端图像去孔架构之间的差异。从其模糊的对应物重建锐利图像需要有关低频和高频信息的变化。尽管传统的RESBLOCK可以具有良好的能力在捕获图像的高频分量时,但它倾向于俯视低频信息。此外,RESBLOCK通常无法富集地模拟在从其模糊的对应物中重建尖锐图像的不普通的远程信息。在本文中,我们介绍了一种剩余的快速傅里叶变换与卷积块(RES FFT-CONV块),能够捕获长期和短期交互,同时集成低频和高频残差。 RES FFT-CONC模块是一个概念简单但可计算的高效,即插即用块,导致不同架构中的表现增长显着。利用RES FFT-CONV块,我们进一步提出了一种基于MIMO-UNET的深度残留的傅里叶变换(DEEPRFT)框架,在GoPro,隐藏,Realblur和DPDD数据集上实现最先进的图像去孔性能。实验表明我们的DEEPRFT可以显着提高图像去掩饰性能(例如,与MIMO-UNET相比,Gopro Dataset上的PSNR上的1.09 dB改善),DEEPRFT +在GoPro数据集上达到PSNR中的33.23 dB。
translated by 谷歌翻译
在本文中,我们呈现了UFFORER,一种用于图像恢复的有效和高效的变换器架构,其中我们使用变压器块构建分层编码器解码器网络。在UFFAR中,有两个核心设计。首先,我们介绍了一个新颖的本地增强型窗口(Lewin)变压器块,其执行基于窗口的自我关注而不是全局自我关注。它显着降低了高分辨率特征映射的计算复杂性,同时捕获本地上下文。其次,我们提出了一种以多尺度空间偏置的形式提出了一种学习的多尺度恢复调制器,以调整UFFORER解码器的多个层中的特征。我们的调制器展示了卓越的能力,用于恢复各种图像恢复任务的详细信息,同时引入边缘额外参数和计算成本。通过这两个设计提供支持,UFFORER享有高能力,可以捕获本地和全局依赖性的图像恢复。为了评估我们的方法,在几种图像恢复任务中进行了广泛的实验,包括图像去噪,运动脱棕,散焦和污染物。没有钟声和口哨,与最先进的算法相比,我们的UFormer实现了卓越的性能或相当的性能。代码和模型可在https://github.com/zhendongwang6/uformer中找到。
translated by 谷歌翻译
在各种基于学习的图像恢复任务(例如图像降解和图像超分辨率)中,降解表示形式被广泛用于建模降解过程并处理复杂的降解模式。但是,在基于学习的图像deblurring中,它们的探索程度较低,因为在现实世界中挑战性的情况下,模糊内核估计不能很好地表现。我们认为,对于图像降低的降解表示形式是特别必要的,因为模糊模式通常显示出比噪声模式或高频纹理更大的变化。在本文中,我们提出了一个框架来学习模糊图像的空间自适应降解表示。提出了一种新颖的联合图像re毁和脱蓝色的学习过程,以提高降解表示的表现力。为了使学习的降解表示有效地启动和降解,我们提出了一个多尺度退化注入网络(MSDI-NET),以将它们集成到神经网络中。通过集成,MSDI-NET可以适应各种复杂的模糊模式。 GoPro和Realblur数据集上的实验表明,我们提出的具有学识渊博的退化表示形式的Deblurring框架优于最先进的方法,具有吸引人的改进。该代码在https://github.com/dasongli1/learning_degradation上发布。
translated by 谷歌翻译
Informative features play a crucial role in the single image super-resolution task. Channel attention has been demonstrated to be effective for preserving information-rich features in each layer. However, channel attention treats each convolution layer as a separate process that misses the correlation among different layers. To address this problem, we propose a new holistic attention network (HAN), which consists of a layer attention module (LAM) and a channel-spatial attention module (CSAM), to model the holistic interdependencies among layers, channels, and positions. Specifically, the proposed LAM adaptively emphasizes hierarchical features by considering correlations among layers. Meanwhile, CSAM learns the confidence at all the positions of each channel to selectively capture more informative features. Extensive experiments demonstrate that the proposed HAN performs favorably against the state-ofthe-art single image super-resolution approaches.
translated by 谷歌翻译
许多图像处理网络在整个输入图像上应用一组静态卷积核,这是自然图像的次优,因为它们通常由异质视觉模式组成。最近在分类,分割和图像恢复方面的工作已经证明,动态核优于局部图像统计数据的静态内核。然而,这些工作经常采用每像素卷积核,这引入了高存储器和计算成本。为了在没有显着开销的情况下实现空间变化的处理,我们呈现\ TextBF {Malle} Chable \ TextBF {CONV} olution(\ textbf {malleconv}),作为动态卷积的有效变体。 \我们的权重由能够在特定空间位置产生内容相关的输出的有效预测器网络动态地产生。与以前的作品不同,\我们从输入生成一组更小的空间变化内核,这会扩大网络的接收领域,并显着降低计算和内存成本。然后通过具有最小内存开销的高效切片和-Conver操作员将这些内核应用于全分辨率的特征映射。我们进一步使用MalleConv建立了高效的去噪网络,被创建为\ textbf {mallenet}。它实现了高质量的结果,没有非常深的架构,例如,它是8.91 $ \ times $的速度快于最好的去噪算法(Swinir),同时保持类似的性能。我们还表明,添加到标准的基于卷积的骨干的单个\我们可以贡献显着降低计算成本或以相似的成本提高图像质量。项目页面:https://yifanjiang.net/malleconv.html
translated by 谷歌翻译
Multi-Scale and U-shaped Networks are widely used in various image restoration problems, including deblurring. Keeping in mind the wide range of applications, we present a comparison of these architectures and their effects on image deblurring. We also introduce a new block called as NFResblock. It consists of a Fast Fourier Transformation layer and a series of modified Non-Linear Activation Free Blocks. Based on these architectures and additions, we introduce NFResnet and NFResnet+, which are modified multi-scale and U-Net architectures, respectively. We also use three different loss functions to train these architectures: Charbonnier Loss, Edge Loss, and Frequency Reconstruction Loss. Extensive experiments on the Deep Video Deblurring dataset, along with ablation studies for each component, have been presented in this paper. The proposed architectures achieve a considerable increase in Peak Signal to Noise (PSNR) ratio and Structural Similarity Index (SSIM) value.
translated by 谷歌翻译
最近的变形金刚和多层Perceptron(MLP)模型的进展为计算机视觉任务提供了新的网络架构设计。虽然这些模型在许多愿景任务中被证明是有效的,但在图像识别之类的愿景中,仍然存在挑战,使他们适应低级视觉。支持高分辨率图像和本地注意力的局限性的不灵活性可能是使用变压器和MLP在图像恢复中的主要瓶颈。在这项工作中,我们介绍了一个多轴MLP基于MARIC的架构,称为Maxim,可用作用于图像处理任务的高效和灵活的通用视觉骨干。 Maxim使用UNET形的分层结构,并支持由空间门控MLP启用的远程交互。具体而言,Maxim包含两个基于MLP的构建块:多轴门控MLP,允许局部和全球视觉线索的高效和可扩展的空间混合,以及交叉栅栏,替代跨关注的替代方案 - 细分互补。这两个模块都仅基于MLP,而且还受益于全局和“全卷积”,两个属性对于图像处理是可取的。我们广泛的实验结果表明,所提出的Maxim模型在一系列图像处理任务中实现了十多个基准的最先进的性能,包括去噪,失败,派热,脱落和增强,同时需要更少或相当的数量参数和拖鞋而不是竞争模型。
translated by 谷歌翻译
高动态范围(HDR)成像是图像处理中的一个基本问题,即使在场景中存在不同的照明的情况下,它旨在产生暴露良好的图像。近年来,多曝光融合方法已取得了显着的结果,该方法合并了多个具有不同暴露的动态范围(LDR)图像,以生成相应的HDR图像。但是,在动态场景中综合HDR图像仍然具有挑战性,并且需求量很高。生产HDR图像有两个挑战:1)。 LDR图像之间的对象运动很容易在生成的结果中引起不良的幽灵伪像。 2)。由于在合并阶段对这些区域的补偿不足,因此下区域和过度曝光的区域通常包含扭曲的图像含量。在本文中,我们提出了一个多尺度采样和聚合网络,用于在动态场景中进行HDR成像。为了有效地减轻小动作和大型动作引起的问题,我们的方法通过以粗到精细的方式对LDR图像进行了暗中对齐LDR图像。此外,我们提出了一个基于离散小波转换的密集连接的网络,以改善性能,该网络将输入分解为几个非重叠频率子带,并在小波域中自适应地执行补偿。实验表明,与其他有希望的HDR成像方法相比,我们提出的方法可以在不同场景下实现最新的性能。此外,由我们的方法生成的HDR图像包含清洁剂和更详细的内容,扭曲较少,从而带来更好的视觉质量。
translated by 谷歌翻译