当前,基于变压器的算法正在在图像脱张的域中引起飞溅。它们的成就取决于CNN茎的自我发挥机制,以模拟令牌之间的长距离依赖性。不幸的是,这种令人愉悦的管道引入了较高的计算复杂性,因此很难实时在单个GPU上运行超高定义图像。为了取消准确性和效率,在没有自我注意力的机制的情况下,在三维($ c $,$ w $和$ h $)信号的三维($ c $,$ w $和$ h $)信号上周期性计算的输入降级图像进行了计算。我们将此深层网络称为多尺度立方混合物,在快速傅立叶变换后,它在真实和虚构的组件上都作用,以估计傅立叶系数,从而获得脱毛的图像。此外,我们将多尺度立方混合物与切片策略相结合,以低得多的计算成本产生高质量结果。实验结果表明,所提出的算法对几个基准的最先进的脱蓝色方法和在精度和速度方面的新超高定义数据集有利。
translated by 谷歌翻译
低光图像增强功能是一个经典的计算机视觉问题,旨在从低光图像中恢复正常暴露图像。但是,该领域常用的卷积神经网络擅长对空间结构域中的低频局部结构特征进行取样,从而导致重建图像的纹理细节不清楚。为了减轻这个问题,我们建议使用傅立叶系数进行新的模块,该模块可以在频率阶段的语义约束下恢复高质量的纹理细节并补充空间域。此外,我们使用带有不同接收场的扩张卷积为图像空间域设计了一个简单有效的模块,以减轻频繁下采样引起的细节损失。我们将上述部分集成到端到端的双分支网络中,并设计一个新颖的损失委员会和一个自适应融合模块,以指导网络灵活地结合空间和频域特征,以产生更令人愉悦的视觉效果。最后,我们在公共基准上评估了拟议的网络。广泛的实验结果表明,我们的方法的表现优于许多现有的最先进的结果,表现出出色的性能和潜力。
translated by 谷歌翻译
Informative features play a crucial role in the single image super-resolution task. Channel attention has been demonstrated to be effective for preserving information-rich features in each layer. However, channel attention treats each convolution layer as a separate process that misses the correlation among different layers. To address this problem, we propose a new holistic attention network (HAN), which consists of a layer attention module (LAM) and a channel-spatial attention module (CSAM), to model the holistic interdependencies among layers, channels, and positions. Specifically, the proposed LAM adaptively emphasizes hierarchical features by considering correlations among layers. Meanwhile, CSAM learns the confidence at all the positions of each channel to selectively capture more informative features. Extensive experiments demonstrate that the proposed HAN performs favorably against the state-ofthe-art single image super-resolution approaches.
translated by 谷歌翻译
使用注意机制的深度卷积神经网络(CNN)在动态场景中取得了巨大的成功。在大多数这些网络中,只能通过注意图精炼的功能传递到下一层,并且不同层的注意力图彼此分开,这并不能充分利用来自CNN中不同层的注意信息。为了解决这个问题,我们引入了一种新的连续跨层注意传播(CCLAT)机制,该机制可以利用所有卷积层的分层注意信息。基于CCLAT机制,我们使用非常简单的注意模块来构建一个新型残留的密集注意融合块(RDAFB)。在RDAFB中,从上述RDAFB的输出中推断出的注意图和每一层直接连接到后续的映射,从而导致CRLAT机制。以RDAFB为基础,我们为动态场景Deblurring设计了一个名为RDAFNET的有效体系结构。基准数据集上的实验表明,所提出的模型的表现优于最先进的脱毛方法,并证明了CCLAT机制的有效性。源代码可在以下网址提供:https://github.com/xjmz6/rdafnet。
translated by 谷歌翻译
现实世界图像Denoising是一个实用的图像恢复问题,旨在从野外嘈杂的输入中获取干净的图像。最近,Vision Transformer(VIT)表现出强大的捕获远程依赖性的能力,许多研究人员试图将VIT应用于图像DeNosing任务。但是,现实世界的图像是一个孤立的框架,它使VIT构建了内部贴片的远程依赖性,该依赖性将图像分为贴片并混乱噪声模式和梯度连续性。在本文中,我们建议通过使用连续的小波滑动转换器来解决此问题,该小波滑动转换器在现实世界中构建频率对应关系,称为dnswin。具体而言,我们首先使用CNN编码器从嘈杂的输入图像中提取底部功能。 DNSWIN的关键是将高频和低频信息与功能和构建频率依赖性分开。为此,我们提出了小波滑动窗口变压器,该变压器利用离散的小波变换,自我注意力和逆离散小波变换来提取深度特征。最后,我们使用CNN解码器将深度特征重建为DeNo的图像。对现实世界的基准测试的定量和定性评估都表明,拟议的DNSWIN对最新方法的表现良好。
translated by 谷歌翻译
在本文中,我们研究了现实世界图像脱毛的问题,并考虑了改善深度图像脱布模型的性能的两个关键因素,即培训数据综合和网络体系结构设计。经过现有合成数据集训练的脱毛模型在由于域移位引起的真实模糊图像上的表现较差。为了减少合成和真实域之间的域间隙,我们提出了一种新颖的现实模糊合成管道来模拟摄像机成像过程。由于我们提出的合成方法,可以使现有的Deblurring模型更强大,以处理现实世界的模糊。此外,我们开发了一个有效的脱蓝色模型,该模型同时捕获特征域中的非本地依赖性和局部上下文。具体而言,我们将多路径变压器模块介绍给UNET架构,以进行丰富的多尺度功能学习。在三个现实世界数据集上进行的全面实验表明,所提出的Deblurring模型的性能优于最新方法。
translated by 谷歌翻译
在弱照明条件下捕获的图像可能会严重降低图像质量。求解一系列低光图像的降解可以有效地提高图像的视觉质量和高级视觉任务的性能。在本研究中,提出了一种新的基于RETINEX的实际网络(R2RNET),用于低光图像增强,其包括三个子网:DECOM-NET,DENOISE-NET和RELIGHT-NET。这三个子网分别用于分解,去噪,对比增强和细节保存。我们的R2RNET不仅使用图像的空间信息来提高对比度,还使用频率信息来保留细节。因此,我们的模型对所有退化的图像进行了更强大的结果。与在合成图像上培训的最先前的方法不同,我们收集了第一个大型现实世界配对的低/普通灯图像数据集(LSRW数据集),以满足培训要求,使我们的模型具有更好的现实世界中的泛化性能场景。对公共数据集的广泛实验表明,我们的方法在定量和视觉上以现有的最先进方法优于现有的现有方法。此外,我们的结果表明,通过使用我们在低光条件下的方法获得的增强的结果,可以有效地改善高级视觉任务(即面部检测)的性能。我们的代码和LSRW数据集可用于:https://github.com/abcdef2000/r2rnet。
translated by 谷歌翻译
否决单图是一项普遍但又具有挑战性的任务。复杂的降雪降解和各种降解量表需要强大的代表能力。为了使否定的网络看到各种降雪并建模本地细节和全球信息的上下文相互作用,我们提出了一种称为Snowformer的功能强大的建筑。首先,它在编码器中执行比例感知功能聚合,以捕获各种降解的丰富积雪信息。其次,为了解决大规模降级,它使用了解码器中的新颖上下文交互变压器块,该互动器块在全球上下文交互中从前范围内的局部细节和全局信息进行了上下文交互。并引入本地上下文互动可改善场景细节的恢复。第三,我们设计了一个异质的特征投影头,该功能投影头逐渐融合了编码器和解码器的特征,并将精制功能投影到干净的图像中。广泛的实验表明,所提出的雪诺形雪孔比其他SOTA方法取得了重大改进。与SOTA单图像HDCW-NET相比,它在CSD测试集上将PSNR度量提高了9.2dB。此外,与一般图像恢复体系结构NAFNET相比,PSNR的增加5.13db,这验证了我们的雪诺形雪地降雪任务的强大表示能力。该代码在\ url {https://github.com/ephemeral182/snowformer}中发布。
translated by 谷歌翻译
联合超分辨率和反音调映射(SR-ITM)旨在提高具有分辨率和动态范围具有质量缺陷的视频的视觉质量。当使用4K高动态范围(HDR)电视来观看低分辨率标准动态范围(LR SDR)视频时,就会出现此问题。以前依赖于学习本地信息的方法通常在保留颜色合规性和远程结构相似性方面做得很好,从而导致了不自然的色彩过渡和纹理伪像。为了应对这些挑战,我们建议联合SR-ITM的全球先验指导的调制网络(GPGMNET)。特别是,我们设计了一个全球先验提取模块(GPEM),以提取颜色合规性和结构相似性,分别对ITM和SR任务有益。为了进一步利用全球先验并保留空间信息,我们使用一些用于中间特征调制的参数,设计多个全球先验的指导空间调制块(GSMB),其中调制参数由共享的全局先验和空间特征生成来自空间金字塔卷积块(SPCB)的地图。通过这些精心设计的设计,GPGMNET可以通过较低的计算复杂性实现更高的视觉质量。广泛的实验表明,我们提出的GPGMNET优于最新方法。具体而言,我们提出的模型在PSNR中超过了0.64 dB的最新模型,其中69 $ \%$ $ $较少,3.1 $ \ times $ speedup。该代码将很快发布。
translated by 谷歌翻译
传统的基于CNNS的脱水模型遭受了两个基本问题:脱水框架(可解释性有限)和卷积层(内容无关,无效地学习远程依赖信息)。在本文中,我们提出了一种新的互补特征增强框架,其中互补特征由几个互补的子任务学习,然后一起用于提高主要任务的性能。新框架的一个突出优势之一是,有目的选择的互补任务可以专注于学习弱依赖性的互补特征,避免重复和无效的网络学习。我们根据这样一个框架设计了一种新的脱瘟网络。具体地,我们选择内在图像分解作为补充任务,其中反射率和阴影预测子任务用于提取色彩和纹理的互补特征。为了有效地聚合这些互补特征,我们提出了一种互补特征选择模块(CFSM),以选择图像脱水的更有用功能。此外,我们介绍了一个名为Hybrid Local-Global Vision变换器(Hylog-Vit)的新版本的Vision变换器块,并将其包含在我们的脱水网络中。 Hylog-VIT块包括用于捕获本地和全球依赖性的本地和全局视觉变压器路径。结果,Hylog-VIT引入网络中的局部性并捕获全局和远程依赖性。在均匀,非均匀和夜间脱水任务上的广泛实验表明,所提出的脱水网络可以实现比基于CNNS的去吸收模型的相当甚至更好的性能。
translated by 谷歌翻译
Convolutional neural networks have recently demonstrated high-quality reconstruction for single-image superresolution. In this paper, we propose the Laplacian Pyramid Super-Resolution Network (LapSRN) to progressively reconstruct the sub-band residuals of high-resolution images. At each pyramid level, our model takes coarse-resolution feature maps as input, predicts the high-frequency residuals, and uses transposed convolutions for upsampling to the finer level. Our method does not require the bicubic interpolation as the pre-processing step and thus dramatically reduces the computational complexity. We train the proposed LapSRN with deep supervision using a robust Charbonnier loss function and achieve high-quality reconstruction. Furthermore, our network generates multi-scale predictions in one feed-forward pass through the progressive reconstruction, thereby facilitates resource-aware applications. Extensive quantitative and qualitative evaluations on benchmark datasets show that the proposed algorithm performs favorably against the state-of-the-art methods in terms of speed and accuracy.
translated by 谷歌翻译
卷积神经网络(CNN)和变压器在多媒体应用中取得了巨大成功。但是,几乎没有努力有效,有效地协调这两个架构以满足图像的范围。本文旨在统一这两种架构,以利用其学习优点来降低图像。特别是,CNN的局部连通性和翻译等效性以及变压器中自我注意力(SA)的全球聚合能力被完全利用用于特定的局部环境和全球结构表示。基于雨水分布揭示降解位置和程度的观察,我们在帮助背景恢复之前引入退化,并因此呈现关联细化方案。提出了一种新型的多输入注意模块(MAM),以将降雨的去除和背景恢复关联。此外,我们为模型配备了有效的深度可分离卷积,以学习特定的特征表示并权衡计算复杂性。广泛的实验表明,我们提出的方法(称为ELF)的表现平均比最先进的方法(MPRNET)优于0.25 dB,但仅占其计算成本和参数的11.7 \%和42.1 \%。源代码可从https://github.com/kuijiang94/magic-elf获得。
translated by 谷歌翻译
最近的变形金刚和多层Perceptron(MLP)模型的进展为计算机视觉任务提供了新的网络架构设计。虽然这些模型在许多愿景任务中被证明是有效的,但在图像识别之类的愿景中,仍然存在挑战,使他们适应低级视觉。支持高分辨率图像和本地注意力的局限性的不灵活性可能是使用变压器和MLP在图像恢复中的主要瓶颈。在这项工作中,我们介绍了一个多轴MLP基于MARIC的架构,称为Maxim,可用作用于图像处理任务的高效和灵活的通用视觉骨干。 Maxim使用UNET形的分层结构,并支持由空间门控MLP启用的远程交互。具体而言,Maxim包含两个基于MLP的构建块:多轴门控MLP,允许局部和全球视觉线索的高效和可扩展的空间混合,以及交叉栅栏,替代跨关注的替代方案 - 细分互补。这两个模块都仅基于MLP,而且还受益于全局和“全卷积”,两个属性对于图像处理是可取的。我们广泛的实验结果表明,所提出的Maxim模型在一系列图像处理任务中实现了十多个基准的最先进的性能,包括去噪,失败,派热,脱落和增强,同时需要更少或相当的数量参数和拖鞋而不是竞争模型。
translated by 谷歌翻译
高光谱图像(HSI)没有额外辅助图像的超分辨率仍然是由于其高维光谱图案的恒定挑战,其中学习有效的空间和光谱表示是基本问题。最近,隐式的神经表示(INR)正在进行进步,作为新颖且有效的代表,特别是在重建任务中。因此,在这项工作中,我们提出了一种基于INR的新颖的HSI重建模型,其通过将空间坐标映射到其对应的光谱辐射值值的连续函数来表示HSI。特别地,作为INR的特定实现,参数模型的参数是通过使用卷积网络在特征提取的超通知来预测的。它使连续功能以内容感知方式将空间坐标映射到像素值。此外,周期性空间编码与重建过程深度集成,这使得我们的模型能够恢复更高的频率细节。为了验证我们模型的功效,我们在三个HSI数据集(洞穴,NUS和NTIRE2018)上进行实验。实验结果表明,与最先进的方法相比,该建议的模型可以实现竞争重建性能。此外,我们提供了对我们模型各个组件的效果的消融研究。我们希望本文可以服务器作为未来研究的效率参考。
translated by 谷歌翻译
最近的作品在使用卷积神经网络(CNN)的双像素数据基于defocus Deblurring任务方面取得了出色的成果,而数据的稀缺性限制了视觉变压器在此任务中的探索和尝试。此外,现有作品还使用固定参数和网络体系结构来删除具有不同分布和内容信息的图像,这也影响了模型的概括能力。在本文中,我们提出了一个动态多尺度网络,名为DMTNET,用于双像素图像Defocus DeBlurring。 DMTNET主要包含两个模块:特征提取模块和重建模块。该特征提取模块由几个视觉变压器块组成,该模块使用其强大的特征提取能力来获得更丰富的功能并改善模型的鲁棒性。重建模块由几个动态多尺度子重构模块(DMSSRM)组成。 DMSSRM可以根据输入图像的模糊分布和内容信息自适应地分配权重来恢复图像。 DMTNET结合了变压器和CNN的优势,其中视觉变压器改善了CNN的性能上限,并且CNN的电感偏置使变压器能够在不依赖大量数据的情况下提取更强大的功能。 DMTNET可能是首次使用视觉变压器来恢复模糊图像以清晰的尝试。通过与CNN结合,视觉变压器可以在小数据集上实现更好的性能。对流行基准测试的实验结果表明,我们的DMTNET显着优于最先进的方法。
translated by 谷歌翻译
在恶劣天气下的图像修复是一项艰巨的任务。过去的大多数作品都集中在消除图像中的雨水和阴霾现象。但是,雪也是一种极为普遍的大气现象,它将严重影响高级计算机视觉任务的性能,例如对象检测和语义分割。最近,已经提出了一些用于降雪的方法,大多数方法直接将雪图像作为优化对象。但是,雪地点和形状的分布很复杂。因此,未能有效地检测雪花 /雪连胜将影响降雪并限制模型性能。为了解决这些问题,我们提出了一个雪地掩模的自适应残留网络(SMGARN)。具体而言,SMGARN由三个部分组成,即Mask-Net,Guidance-Fusion Network(GF-NET)和重建-NET。首先,我们构建了一个以自像素的注意(SA)和跨像素的注意(CA),以捕获雪花的特征并准确地定位了雪的位置,从而预测了准确的雪山。其次,预测的雪面被发送到专门设计的GF-NET中,以适应指导模型去除雪。最后,使用有效的重建网络来消除面纱效果并纠正图像以重建最终的无雪图像。广泛的实验表明,我们的SMGARN数值优于所有现有的降雪方法,并且重建的图像在视觉对比度上更清晰。所有代码都将可用。
translated by 谷歌翻译
随着移动设备的快速开发,现代使用的手机通常允许用户捕获4K分辨率(即超高定义)图像。然而,对于图像进行示范,在低级视觉中,一项艰巨的任务,现有作品通常是在低分辨率或合成图像上进行的。因此,这些方法对4K分辨率图像的有效性仍然未知。在本文中,我们探索了Moire模式的删除,以进行超高定义图像。为此,我们提出了第一个超高定义的演示数据集(UHDM),其中包含5,000个现实世界4K分辨率图像对,并对当前最新方法进行基准研究。此外,我们提出了一个有效的基线模型ESDNET来解决4K Moire图像,其中我们构建了一个语义对准的比例感知模块来解决Moire模式的尺度变化。广泛的实验表明了我们的方法的有效性,这可以超过最轻巧的优于最先进的方法。代码和数据集可在https://xinyu-andy.github.io/uhdm-page上找到。
translated by 谷歌翻译
卷积神经网络(CNNS)成功地进行了压缩图像感测。然而,由于局部性和重量共享的归纳偏差,卷积操作证明了建模远程依赖性的内在限制。变压器,最初作为序列到序列模型设计,在捕获由于基于自我关注的架构而捕获的全局背景中,即使它可以配备有限的本地化能力。本文提出了一种混合框架,一个混合框架,其集成了从CNN提供的借用的优点以及变压器提供的全局上下文,以获得增强的表示学习。所提出的方法是由自适应采样和恢复组成的端到端压缩图像感测方法。在采样模块中,通过学习的采样矩阵测量图像逐块。在重建阶段,将测量投射到双杆中。一个是用于通过卷积建模邻域关系的CNN杆,另一个是用于采用全球自我关注机制的变压器杆。双分支结构是并发,并且本地特征和全局表示在不同的分辨率下融合,以最大化功能的互补性。此外,我们探索一个渐进的战略和基于窗口的变压器块,以降低参数和计算复杂性。实验结果表明了基于专用变压器的架构进行压缩感测的有效性,与不同数据集的最先进方法相比,实现了卓越的性能。
translated by 谷歌翻译
派生是一个重要而基本的计算机视觉任务,旨在消除在下雨天捕获的图像或视频中的雨条纹和累积。现有的派威方法通常会使雨水模型的启发式假设,这迫使它们采用复杂的优化或迭代细化以获得高回收质量。然而,这导致耗时的方法,并影响解决从假设偏离的雨水模式的有效性。在本文中,我们通过在没有复杂的雨水模型假设的情况下,通过在没有复杂的雨水模型假设的情况下制定污染作为预测滤波问题的简单而有效的污染方法。具体地,我们识别通过深网络自适应地预测适当的核的空间变型预测滤波(SPFILT以过滤不同的各个像素。由于滤波可以通过加速卷积来实现,因此我们的方法可以显着效率。我们进一步提出了eFderain +,其中包含三个主要贡献来解决残留的雨迹,多尺度和多样化的雨水模式而不会损害效率。首先,我们提出了不确定感知的级联预测滤波(UC-PFILT),其可以通过预测的内核来识别重建清洁像素的困难,并有效地移除残留的雨水迹线。其次,我们设计重量共享多尺度扩张过滤(WS-MS-DFILT),以处理多尺度雨条纹,而不会损害效率。第三,消除各种雨水模式的差距,我们提出了一种新颖的数据增强方法(即Rainmix)来培养我们的深层模型。通过对不同变体的复杂分析的所有贡献相结合,我们的最终方法在恢复质量和速度方面优于四个单像辐照数据集和一个视频派威数据集的基线方法。
translated by 谷歌翻译
Face Restoration (FR) aims to restore High-Quality (HQ) faces from Low-Quality (LQ) input images, which is a domain-specific image restoration problem in the low-level computer vision area. The early face restoration methods mainly use statistic priors and degradation models, which are difficult to meet the requirements of real-world applications in practice. In recent years, face restoration has witnessed great progress after stepping into the deep learning era. However, there are few works to study deep learning-based face restoration methods systematically. Thus, this paper comprehensively surveys recent advances in deep learning techniques for face restoration. Specifically, we first summarize different problem formulations and analyze the characteristic of the face image. Second, we discuss the challenges of face restoration. Concerning these challenges, we present a comprehensive review of existing FR methods, including prior based methods and deep learning-based methods. Then, we explore developed techniques in the task of FR covering network architectures, loss functions, and benchmark datasets. We also conduct a systematic benchmark evaluation on representative methods. Finally, we discuss future directions, including network designs, metrics, benchmark datasets, applications,etc. We also provide an open-source repository for all the discussed methods, which is available at https://github.com/TaoWangzj/Awesome-Face-Restoration.
translated by 谷歌翻译