虽然对图像背景恢复的研究从常规大小的降级图像恢复已经取得了显着的进步,但由于计算复杂性和记忆使用情况的爆炸式增长以及缺陷,恢复超高分辨率(例如4K)图像仍然是一项极具挑战性的任务。带注释的数据。在本文中,我们提出了一种用于超高分辨率图像恢复的新型模型,称为全局逐步生成网络(GLSGN),该模型采用涉及四个恢复途径的逐步恢复策略:三个局部途径和一条全球途径。本地途径着重于以局部但高分辨率的图像贴片的细粒度进行图像恢复,而全球途径则在缩放尺寸但完整的图像上执行图像恢复,以在全球视图中为本地途径提供线索包括语义和噪声模式。为了平滑这四个途径之间的相互协作,我们的GLSGN旨在确保在低级内容,感知注意力,恢复强度和高级语义方面的四个方面的跨道路一致性。作为这项工作的另一个主要贡献,我们还介绍了迄今为止的第一个超高分辨率数据集,以删除反射和降雨条纹,包括4,670个现实世界和合成图像。跨三个典型的图像背景修复任务进行的广泛实验,包括删除图像反射,删除图像雨条和图像去悬来表明我们的GLSGN始终优于最先进的方法。
translated by 谷歌翻译
虽然变压器在各种高级视觉任务中取得了显着性能,但它仍然具有挑战性地利用变压器在图像恢复中的全部潜力。 CRUX在典型的编码器 - 解码器框架中应用了有限的应用变压器,用于图像恢复,从层次的不同深度(尺度)的繁重的自我关注计算负荷和低效通信产生。在本文中,我们为图像恢复提供了一种深度和有效的变换器网络,称为U2-iner,能够使用变压器作为核心操作以在深度编码和解码空间中执行图像恢复。具体地,它利用嵌套的U形结构来促进不同层的不同层的相互作用。此外,我们通过引入要压缩令牌表示的特征过滤机制来优化基本变压器块的计算效率。除了典型的图像恢复方式外,我们的U2-ider还在多个方面进行对比学习,以进一步与背景图像分离噪声分量。对各种图像恢复任务的广泛实验,分别包括反射去除,雨串去除和除去,证明了所提出的U2-inter的有效性。
translated by 谷歌翻译
现实世界图像Denoising是一个实用的图像恢复问题,旨在从野外嘈杂的输入中获取干净的图像。最近,Vision Transformer(VIT)表现出强大的捕获远程依赖性的能力,许多研究人员试图将VIT应用于图像DeNosing任务。但是,现实世界的图像是一个孤立的框架,它使VIT构建了内部贴片的远程依赖性,该依赖性将图像分为贴片并混乱噪声模式和梯度连续性。在本文中,我们建议通过使用连续的小波滑动转换器来解决此问题,该小波滑动转换器在现实世界中构建频率对应关系,称为dnswin。具体而言,我们首先使用CNN编码器从嘈杂的输入图像中提取底部功能。 DNSWIN的关键是将高频和低频信息与功能和构建频率依赖性分开。为此,我们提出了小波滑动窗口变压器,该变压器利用离散的小波变换,自我注意力和逆离散小波变换来提取深度特征。最后,我们使用CNN解码器将深度特征重建为DeNo的图像。对现实世界的基准测试的定量和定性评估都表明,拟议的DNSWIN对最新方法的表现良好。
translated by 谷歌翻译
Image restoration tasks demand a complex balance between spatial details and high-level contextualized information while recovering images. In this paper, we propose a novel synergistic design that can optimally balance these competing goals. Our main proposal is a multi-stage architecture, that progressively learns restoration functions for the degraded inputs, thereby breaking down the overall recovery process into more manageable steps. Specifically, our model first learns the contextualized features using encoder-decoder architectures and later combines them with a high-resolution branch that retains local information. At each stage, we introduce a novel per-pixel adaptive design that leverages in-situ supervised attention to reweight the local features. A key ingredient in such a multi-stage architecture is the information exchange between different stages. To this end, we propose a twofaceted approach where the information is not only exchanged sequentially from early to late stages, but lateral connections between feature processing blocks also exist to avoid any loss of information. The resulting tightly interlinked multi-stage architecture, named as MPRNet, delivers strong performance gains on ten datasets across a range of tasks including image deraining, deblurring, and denoising. The source code and pre-trained models are available at https://github.com/swz30/MPRNet.
translated by 谷歌翻译
随着移动设备的快速开发,现代使用的手机通常允许用户捕获4K分辨率(即超高定义)图像。然而,对于图像进行示范,在低级视觉中,一项艰巨的任务,现有作品通常是在低分辨率或合成图像上进行的。因此,这些方法对4K分辨率图像的有效性仍然未知。在本文中,我们探索了Moire模式的删除,以进行超高定义图像。为此,我们提出了第一个超高定义的演示数据集(UHDM),其中包含5,000个现实世界4K分辨率图像对,并对当前最新方法进行基准研究。此外,我们提出了一个有效的基线模型ESDNET来解决4K Moire图像,其中我们构建了一个语义对准的比例感知模块来解决Moire模式的尺度变化。广泛的实验表明了我们的方法的有效性,这可以超过最轻巧的优于最先进的方法。代码和数据集可在https://xinyu-andy.github.io/uhdm-page上找到。
translated by 谷歌翻译
否决单图是一项普遍但又具有挑战性的任务。复杂的降雪降解和各种降解量表需要强大的代表能力。为了使否定的网络看到各种降雪并建模本地细节和全球信息的上下文相互作用,我们提出了一种称为Snowformer的功能强大的建筑。首先,它在编码器中执行比例感知功能聚合,以捕获各种降解的丰富积雪信息。其次,为了解决大规模降级,它使用了解码器中的新颖上下文交互变压器块,该互动器块在全球上下文交互中从前范围内的局部细节和全局信息进行了上下文交互。并引入本地上下文互动可改善场景细节的恢复。第三,我们设计了一个异质的特征投影头,该功能投影头逐渐融合了编码器和解码器的特征,并将精制功能投影到干净的图像中。广泛的实验表明,所提出的雪诺形雪孔比其他SOTA方法取得了重大改进。与SOTA单图像HDCW-NET相比,它在CSD测试集上将PSNR度量提高了9.2dB。此外,与一般图像恢复体系结构NAFNET相比,PSNR的增加5.13db,这验证了我们的雪诺形雪地降雪任务的强大表示能力。该代码在\ url {https://github.com/ephemeral182/snowformer}中发布。
translated by 谷歌翻译
Face Restoration (FR) aims to restore High-Quality (HQ) faces from Low-Quality (LQ) input images, which is a domain-specific image restoration problem in the low-level computer vision area. The early face restoration methods mainly use statistic priors and degradation models, which are difficult to meet the requirements of real-world applications in practice. In recent years, face restoration has witnessed great progress after stepping into the deep learning era. However, there are few works to study deep learning-based face restoration methods systematically. Thus, this paper comprehensively surveys recent advances in deep learning techniques for face restoration. Specifically, we first summarize different problem formulations and analyze the characteristic of the face image. Second, we discuss the challenges of face restoration. Concerning these challenges, we present a comprehensive review of existing FR methods, including prior based methods and deep learning-based methods. Then, we explore developed techniques in the task of FR covering network architectures, loss functions, and benchmark datasets. We also conduct a systematic benchmark evaluation on representative methods. Finally, we discuss future directions, including network designs, metrics, benchmark datasets, applications,etc. We also provide an open-source repository for all the discussed methods, which is available at https://github.com/TaoWangzj/Awesome-Face-Restoration.
translated by 谷歌翻译
雨是最常见的天气之一,可以完全降低图像质量并干扰许多计算机视觉任务的执行,尤其是在大雨条件下。我们观察到:(i)雨是雨水和雨淋的混合物; (ii)场景的深度决定了雨条的强度以及变成多雨的阴霾的强度; (iii)大多数现有的DERANE方法仅在合成雨图像上进行训练,因此对现实世界的场景概括不佳。在这些观察结果的激励下,我们提出了一种新的半监督,清除降雨生成的对抗网络(半密集),该混合物由四个关键模块组成:(i)新的注意力深度预测网络以提供精确的深度估计; (ii)上下文特征预测网络由几个精心设计的详细残留块组成,以产生详细的图像上下文特征; (iii)金字塔深度引导的非本地网络,以有效地将图像上下文与深度信息整合在一起,并产生最终的无雨图像; (iv)全面的半监督损失函数,使该模型不限于合成数据集,而是平稳地将其概括为现实世界中的大雨场景。广泛的实验表明,在合成和现实世界中,我们的二十多种代表性的最先进的方法对我们的方法进行了明显的改进。
translated by 谷歌翻译
最近的变形金刚和多层Perceptron(MLP)模型的进展为计算机视觉任务提供了新的网络架构设计。虽然这些模型在许多愿景任务中被证明是有效的,但在图像识别之类的愿景中,仍然存在挑战,使他们适应低级视觉。支持高分辨率图像和本地注意力的局限性的不灵活性可能是使用变压器和MLP在图像恢复中的主要瓶颈。在这项工作中,我们介绍了一个多轴MLP基于MARIC的架构,称为Maxim,可用作用于图像处理任务的高效和灵活的通用视觉骨干。 Maxim使用UNET形的分层结构,并支持由空间门控MLP启用的远程交互。具体而言,Maxim包含两个基于MLP的构建块:多轴门控MLP,允许局部和全球视觉线索的高效和可扩展的空间混合,以及交叉栅栏,替代跨关注的替代方案 - 细分互补。这两个模块都仅基于MLP,而且还受益于全局和“全卷积”,两个属性对于图像处理是可取的。我们广泛的实验结果表明,所提出的Maxim模型在一系列图像处理任务中实现了十多个基准的最先进的性能,包括去噪,失败,派热,脱落和增强,同时需要更少或相当的数量参数和拖鞋而不是竞争模型。
translated by 谷歌翻译
使用注意机制的深度卷积神经网络(CNN)在动态场景中取得了巨大的成功。在大多数这些网络中,只能通过注意图精炼的功能传递到下一层,并且不同层的注意力图彼此分开,这并不能充分利用来自CNN中不同层的注意信息。为了解决这个问题,我们引入了一种新的连续跨层注意传播(CCLAT)机制,该机制可以利用所有卷积层的分层注意信息。基于CCLAT机制,我们使用非常简单的注意模块来构建一个新型残留的密集注意融合块(RDAFB)。在RDAFB中,从上述RDAFB的输出中推断出的注意图和每一层直接连接到后续的映射,从而导致CRLAT机制。以RDAFB为基础,我们为动态场景Deblurring设计了一个名为RDAFNET的有效体系结构。基准数据集上的实验表明,所提出的模型的表现优于最先进的脱毛方法,并证明了CCLAT机制的有效性。源代码可在以下网址提供:https://github.com/xjmz6/rdafnet。
translated by 谷歌翻译
在本文中,我们研究了现实世界图像脱毛的问题,并考虑了改善深度图像脱布模型的性能的两个关键因素,即培训数据综合和网络体系结构设计。经过现有合成数据集训练的脱毛模型在由于域移位引起的真实模糊图像上的表现较差。为了减少合成和真实域之间的域间隙,我们提出了一种新颖的现实模糊合成管道来模拟摄像机成像过程。由于我们提出的合成方法,可以使现有的Deblurring模型更强大,以处理现实世界的模糊。此外,我们开发了一个有效的脱蓝色模型,该模型同时捕获特征域中的非本地依赖性和局部上下文。具体而言,我们将多路径变压器模块介绍给UNET架构,以进行丰富的多尺度功能学习。在三个现实世界数据集上进行的全面实验表明,所提出的Deblurring模型的性能优于最新方法。
translated by 谷歌翻译
受监管的基于学习的方法屈服于强大的去噪结果,但它们本质上受到大规模清洁/嘈杂配对数据集的需要。另一方面,使用无监督的脱言机需要更详细地了解潜在的图像统计数据。特别是,众所周知,在高频频带上,清洁和嘈杂的图像之间的表观差异是最突出的,证明使用低通滤波器作为传统图像预处理步骤的一部分。然而,基于大多数基于学习的去噪方法在不考虑频域信息的情况下仅利用来自空间域的片面信息。为了解决这一限制,在本研究中,我们提出了一种频率敏感的无监督去噪方法。为此,使用生成的对抗性网络(GaN)作为基础结构。随后,我们包括光谱鉴别器和频率重建损失,以将频率知识传输到发电机中。使用自然和合成数据集的结果表明,我们无监督的学习方法增强了频率信息,实现了最先进的去噪能力,表明频域信息可能是提高无监督基于学习的方法的整体性能的可行因素。
translated by 谷歌翻译
眼科医生已经使用眼底图像筛选和诊断眼病。然而,不同的设备和眼科医生对眼底图像的质量产生了大的变化。低质量(LQ)降级的眼底图像在临床筛查中容易导致不确定性,并且通常会增加误诊的风险。因此,真实的眼底图像恢复值得研究。不幸的是,到目前为止,这项任务尚未探索真正的临床基准。在本文中,我们研究了真正的临床眼底图像恢复问题。首先,我们建立一个临床数据集,真实的眼底(RF),包括120个低质量和高质量(HQ)图像对。然后,我们提出了一种新型的变压器的生成对抗网络(RFRMANER)来恢复临床眼底图像的实际降级。我们网络中的关键组件是基于窗口的自我关注块(WSAB),其捕获非本地自我相似性和远程依赖性。为了产生更明显的令人愉悦的结果,介绍了一种基于变压器的鉴别器。在我们的临床基准测试中的广泛实验表明,所提出的rformer显着优于最先进的(SOTA)方法。此外,诸如船舶分割和光盘/杯子检测之类的下游任务的实验表明我们所提出的rformer益处临床眼底图像分析和应用。将发布数据集,代码和模型。
translated by 谷歌翻译
Image restoration under hazy weather condition, which is called single image dehazing, has been of significant interest for various computer vision applications. In recent years, deep learning-based methods have achieved success. However, existing image dehazing methods typically neglect the hierarchy of features in the neural network and fail to exploit their relationships fully. To this end, we propose an effective image dehazing method named Hierarchical Contrastive Dehazing (HCD), which is based on feature fusion and contrastive learning strategies. HCD consists of a hierarchical dehazing network (HDN) and a novel hierarchical contrastive loss (HCL). Specifically, the core design in the HDN is a Hierarchical Interaction Module, which utilizes multi-scale activation to revise the feature responses hierarchically. To cooperate with the training of HDN, we propose HCL which performs contrastive learning on hierarchically paired exemplars, facilitating haze removal. Extensive experiments on public datasets, RESIDE, HazeRD, and DENSE-HAZE, demonstrate that HCD quantitatively outperforms the state-of-the-art methods in terms of PSNR, SSIM and achieves better visual quality.
translated by 谷歌翻译
由于卷积神经网络(CNNS)在从大规模数据中进行了学习的可概括图像前沿执行井,因此这些模型已被广泛地应用于图像恢复和相关任务。最近,另一类神经架构,变形金刚表现出对自然语言和高级视觉任务的显着性能。虽然变压器模型减轻了CNNS的缺点(即,有限的接收领域并对输入内容而无关),但其计算复杂性以空间分辨率二次大转,因此可以对涉及高分辨率图像的大多数图像恢复任务应用得不可行。在这项工作中,我们通过在构建块(多头关注和前锋网络)中进行多个关键设计,提出了一种有效的变压器模型,使得它可以捕获远程像素相互作用,同时仍然适用于大图像。我们的模型,命名恢复变压器(RESTORMER),实现了最先进的结果,导致几种图像恢复任务,包括图像派生,单图像运动脱棕,散焦去纹(单图像和双像素数据)和图像去噪(高斯灰度/颜色去噪,真实的图像去噪)。源代码和预先训练的型号可在https://github.com/swz30/restormer上获得。
translated by 谷歌翻译
场景文本擦除,它在自然图像中替换了具有合理内容的文本区域,近年来在计算机视觉社区中造成了重大关注。场景文本删除中有两个潜在的子任务:文本检测和图像修复。两个子任务都需要相当多的数据来实现更好的性能;但是,缺乏大型现实世界场景文本删除数据集不允许现有方法实现其潜力。为了弥补缺乏成对的真实世界数据,我们在额外的增强后大大使用了合成文本,随后仅在改进的合成文本引擎生成的数据集上培训了我们的模型。我们所提出的网络包含一个笔划掩模预测模块和背景染色模块,可以从裁剪文本图像中提取文本笔划作为相对较小的孔,以维持更多的背景内容以获得更好的修复结果。该模型可以用边界框部分删除场景图像中的文本实例,或者使用现有场景文本检测器进行自动场景文本擦除。 SCUT-SYN,ICDAR2013和SCUT-ENSTEXT数据集的定性和定量评估的实验结果表明,即使在现实世界数据上培训,我们的方法也显着优于现有的最先进的方法。
translated by 谷歌翻译
基于补丁的方法和深度网络已经采用了解决图像染色问题,具有自己的优势和劣势。基于补丁的方法能够通过从未遮盖区域搜索最近的邻居修补程序来恢复具有高质量纹理的缺失区域。但是,这些方法在恢复大缺失区域时会带来问题内容。另一方面,深度网络显示有希望的成果完成大区域。尽管如此,结果往往缺乏类似周围地区的忠诚和尖锐的细节。通过汇集两个范式中,我们提出了一种新的深度染色框架,其中纹理生成是由从未掩蔽区域提取的补丁样本的纹理记忆引导的。该框架具有一种新颖的设计,允许使用深度修复网络训练纹理存储器检索。此外,我们还介绍了贴片分配损失,以鼓励高质量的贴片合成。所提出的方法在三个具有挑战性的图像基准测试中,即地位,Celeba-HQ和巴黎街道视图数据集来说,该方法显示出质量和定量的卓越性能。
translated by 谷歌翻译
尽管深度学习使图像介绍方面取得了巨大的飞跃,但当前的方法通常无法综合现实的高频细节。在本文中,我们建议将超分辨率应用于粗糙的重建输出,以高分辨率进行精炼,然后将输出降低到原始分辨率。通过将高分辨率图像引入改进网络,我们的框架能够重建更多的细节,这些细节通常由于光谱偏置而被平滑 - 神经网络倾向于比高频更好地重建低频。为了协助培训大型高度孔洞的改进网络,我们提出了一种渐进的学习技术,其中缺失区域的大小随着培训的进行而增加。我们的缩放,完善和缩放策略,结合了高分辨率的监督和渐进学习,构成了一种框架 - 不合时宜的方法,用于增强高频细节,可应用于任何基于CNN的涂层方法。我们提供定性和定量评估以及消融分析,以显示我们方法的有效性。这种看似简单但功能强大的方法优于最先进的介绍方法。我们的代码可在https://github.com/google/zoom-to-inpaint中找到
translated by 谷歌翻译
现有的DERANE方法主要集中于单个输入图像。只有单个输入图像,很难准确检测到雨条,去除雨条并恢复无雨图像。与单个2D图像相比,光场图像(LFI)通过通过元素摄像机记录每个事件射线的方向和位置,嵌入了广泛的3D结构和纹理信息,该镜头已成为计算机中的流行设备视觉和图形研究社区。在本文中,我们提出了一个新颖的网络4D-MGP-SRRNET,以从LFI中删除雨条。我们的方法将大雨LFI的所有子视图作为输入。为了充分利用LFI,我们采用4D卷积层来构建拟议的雨牛排清除网络,以同时处理LFI的所有子视图。在拟议的网络中,提出了带有新颖的多尺度自引导高斯工艺(MSGP)模块的雨水检测模型MGPDNET,以检测输入LFI的所有子视图中的雨条。引入了半监督的学习,以通过对虚拟世界LFI和现实世界中的LFI进行多个尺度上的虚拟世界LFI和现实世界中的LFI来准确检测雨季,这是通过计算现实世界中雨水条纹的伪地面真相。然后,所有减去预测的雨条的子视图都将馈送到4D残差模型中,以估计深度图。最后,所有子视图与相应的雨条和从估计的深度图转换的相应雨条和雾图都馈送到基于对抗性复发性神经网络的雨天LFI恢复模型,以逐步消除雨水条纹并恢复无雨的LFI LFI LFI。 。对合成LFI和现实世界LFI进行的广泛的定量和定性评估证明了我们提出的方法的有效性。
translated by 谷歌翻译
低光图像增强(LLIE)旨在提高在环境中捕获的图像的感知或解释性,较差的照明。该领域的最新进展由基于深度学习的解决方案为主,其中许多学习策略,网络结构,丢失功能,培训数据等已被采用。在本文中,我们提供了全面的调查,以涵盖从算法分类到开放问题的各个方面。为了检查现有方法的概括,我们提出了一个低光图像和视频数据集,其中图像和视频是在不同的照明条件下的不同移动电话的相机拍摄的。除此之外,我们首次提供统一的在线平台,涵盖许多流行的LLIE方法,其中结果可以通过用户友好的Web界面生产。除了在公开和我们拟议的数据集上对现有方法的定性和定量评估外,我们还验证了他们在黑暗中的脸部检测中的表现。这项调查与拟议的数据集和在线平台一起作为未来研究的参考来源和促进该研究领域的发展。拟议的平台和数据集以及收集的方法,数据集和评估指标是公开可用的,并将经常更新。
translated by 谷歌翻译