构建高质量的角色图像数据集很具有挑战性,因为现实世界图像通常受图像退化的影响。将当前图像恢复方法应用于此类现实世界字符图像时存在局限性,因为(i)字符图像中的噪声类别与一般图像中的噪声类别不同; (ii)现实世界字符图像通常包含更复杂的图像降解,例如不同噪声水平的混合噪声。为了解决这些问题,我们提出了一个现实世界角色恢复网络(RCRN),以有效恢复降级的角色图像,其中使用字符骨架信息和比例安装特征提取来获得更好的恢复性能。所提出的方法由骨架提取器(SENET)和角色图像修复器(CIRNET)组成。 Senet旨在保持角色的结构一致性并使复杂的噪声正常化。然后,Cirnet从降级的角色图像及其骨骼中重建了清洁图像。由于缺乏现实世界字符图像恢复的基准,我们构建了一个包含1,606个字符图像的数据集,这些图像具有现实世界中的降级,以评估所提出方法的有效性。实验结果表明,RCRN在定量和质量上优于最先进的方法。
translated by 谷歌翻译
降解的图像通常存在于字符图像的一般来源中,从而导致特征识别结果不令人满意。现有的方法有专门的努力来恢复降级的角色图像。但是,这些方法获得的降解结果似乎并不能提高字符识别性能。这主要是因为当前方法仅着眼于像素级信息,而忽略了角色的关键特征,例如其字形,从而在脱索过程中导致字符标志性损害。在本文中,我们介绍了一个基于字形融合和注意力机制(即Churformer)的新型通用框架,以精确地恢复角色图像而不改变其固有的字形。与现有的框架不同,Charformer引入了一个并行目标任务,用于捕获其他信息并将其注入DICONISE骨架的图像,这将在字符图像DeNoising期间保持角色字形的一致性。此外,我们利用基于注意力的网络进行全局本地特征交互,这将有助于处理盲目的denoising和增强deNoSising绩效。我们将Charformer与多个数据集上的最新方法进行比较。实验结果表明了杂形和质量上的优势。
translated by 谷歌翻译
现实世界图像Denoising是一个实用的图像恢复问题,旨在从野外嘈杂的输入中获取干净的图像。最近,Vision Transformer(VIT)表现出强大的捕获远程依赖性的能力,许多研究人员试图将VIT应用于图像DeNosing任务。但是,现实世界的图像是一个孤立的框架,它使VIT构建了内部贴片的远程依赖性,该依赖性将图像分为贴片并混乱噪声模式和梯度连续性。在本文中,我们建议通过使用连续的小波滑动转换器来解决此问题,该小波滑动转换器在现实世界中构建频率对应关系,称为dnswin。具体而言,我们首先使用CNN编码器从嘈杂的输入图像中提取底部功能。 DNSWIN的关键是将高频和低频信息与功能和构建频率依赖性分开。为此,我们提出了小波滑动窗口变压器,该变压器利用离散的小波变换,自我注意力和逆离散小波变换来提取深度特征。最后,我们使用CNN解码器将深度特征重建为DeNo的图像。对现实世界的基准测试的定量和定性评估都表明,拟议的DNSWIN对最新方法的表现良好。
translated by 谷歌翻译
Face Restoration (FR) aims to restore High-Quality (HQ) faces from Low-Quality (LQ) input images, which is a domain-specific image restoration problem in the low-level computer vision area. The early face restoration methods mainly use statistic priors and degradation models, which are difficult to meet the requirements of real-world applications in practice. In recent years, face restoration has witnessed great progress after stepping into the deep learning era. However, there are few works to study deep learning-based face restoration methods systematically. Thus, this paper comprehensively surveys recent advances in deep learning techniques for face restoration. Specifically, we first summarize different problem formulations and analyze the characteristic of the face image. Second, we discuss the challenges of face restoration. Concerning these challenges, we present a comprehensive review of existing FR methods, including prior based methods and deep learning-based methods. Then, we explore developed techniques in the task of FR covering network architectures, loss functions, and benchmark datasets. We also conduct a systematic benchmark evaluation on representative methods. Finally, we discuss future directions, including network designs, metrics, benchmark datasets, applications,etc. We also provide an open-source repository for all the discussed methods, which is available at https://github.com/TaoWangzj/Awesome-Face-Restoration.
translated by 谷歌翻译
With the development of convolutional neural networks, hundreds of deep learning based dehazing methods have been proposed. In this paper, we provide a comprehensive survey on supervised, semi-supervised, and unsupervised single image dehazing. We first discuss the physical model, datasets, network modules, loss functions, and evaluation metrics that are commonly used. Then, the main contributions of various dehazing algorithms are categorized and summarized. Further, quantitative and qualitative experiments of various baseline methods are carried out. Finally, the unsolved issues and challenges that can inspire the future research are pointed out. A collection of useful dehazing materials is available at \url{https://github.com/Xiaofeng-life/AwesomeDehazing}.
translated by 谷歌翻译
虽然对图像背景恢复的研究从常规大小的降级图像恢复已经取得了显着的进步,但由于计算复杂性和记忆使用情况的爆炸式增长以及缺陷,恢复超高分辨率(例如4K)图像仍然是一项极具挑战性的任务。带注释的数据。在本文中,我们提出了一种用于超高分辨率图像恢复的新型模型,称为全局逐步生成网络(GLSGN),该模型采用涉及四个恢复途径的逐步恢复策略:三个局部途径和一条全球途径。本地途径着重于以局部但高分辨率的图像贴片的细粒度进行图像恢复,而全球途径则在缩放尺寸但完整的图像上执行图像恢复,以在全球视图中为本地途径提供线索包括语义和噪声模式。为了平滑这四个途径之间的相互协作,我们的GLSGN旨在确保在低级内容,感知注意力,恢复强度和高级语义方面的四个方面的跨道路一致性。作为这项工作的另一个主要贡献,我们还介绍了迄今为止的第一个超高分辨率数据集,以删除反射和降雨条纹,包括4,670个现实世界和合成图像。跨三个典型的图像背景修复任务进行的广泛实验,包括删除图像反射,删除图像雨条和图像去悬来表明我们的GLSGN始终优于最先进的方法。
translated by 谷歌翻译
如今,广泛使用了数字化文件,如科学文章,税务表,发票,合同文件和历史文本。由于各种原因,这些图像可能会劣化或损坏,包括捕获图像时的差的情况,阴影,扫描它们时,噪音和模糊,老化,墨水染色,通过,水印,印模等。文档图像增强和恢复在许多自动文档分析和识别任务中发挥至关重要的作用,例如使用光学字符识别(OCR)的内容提取。随着最近深入学习的进步,提出了许多方法来提高这些文档图像的质量。在本文中,我们审查了基于深入的学习方法,数据集和指标,用于不同的文档图像增强问题。我们提供全面概述六种不同文档图像增强任务的基于深度学习的方法,包括二值化,脱落,去噪,偏差,水印去除和暗影去除。我们总结了每个任务的主要最先进的工作,并讨论其特征,挑战和局限性。我们介绍了多个文件图像增强任务,这些任务不仅仅是注意力,包括在曝光和暴露校正和漏洞中,并识别未来研究的其他一些有前途的研究方向和机会。
translated by 谷歌翻译
在过去几年中,深度卷积神经网络在低光图像增强中取得了令人印象深刻的成功。深度学习方法大多通过堆叠网络结构并加深网络深度来提高特征提取的能力。在单个时导致更多的运行时间成本为了减少推理时间,在完全提取本地特征和全局特征的同时,我们通过SGN定期,我们提出了基于广泛的自我引导网络(Absgn)的现实世界低灯图像增强。策略是一种广泛的策略处理不同曝光的噪音。所提出的网络被许多主流基准验证.Aditional实验结果表明,所提出的网络优于最先进的低光图像增强解决方案。
translated by 谷歌翻译
在许多计算机视觉子域中,图像降级仍然是一个具有挑战性的问题。最近的研究表明,在有监督的环境中取得了重大改进。但是,很少有挑战(例如空间忠诚度和类似卡通的平滑度)仍未解决或果断地忽略。我们的研究提出了一个简单而有效的架构,用于解决上述问题的降级问题。所提出的体系结构重新审视了模块化串联的概念,而不是长时间和更深的级联连接,以恢复给定图像的更清洁近似。我们发现不同的模块可以捕获多功能表示形式,而串联表示为低级图像恢复创造了更丰富的子空间。所提出的架构的参数数量仍然小于以前的大多数网络的数量,并且仍然对当前最新网络进行了重大改进。
translated by 谷歌翻译
受监管的基于学习的方法屈服于强大的去噪结果,但它们本质上受到大规模清洁/嘈杂配对数据集的需要。另一方面,使用无监督的脱言机需要更详细地了解潜在的图像统计数据。特别是,众所周知,在高频频带上,清洁和嘈杂的图像之间的表观差异是最突出的,证明使用低通滤波器作为传统图像预处理步骤的一部分。然而,基于大多数基于学习的去噪方法在不考虑频域信息的情况下仅利用来自空间域的片面信息。为了解决这一限制,在本研究中,我们提出了一种频率敏感的无监督去噪方法。为此,使用生成的对抗性网络(GaN)作为基础结构。随后,我们包括光谱鉴别器和频率重建损失,以将频率知识传输到发电机中。使用自然和合成数据集的结果表明,我们无监督的学习方法增强了频率信息,实现了最先进的去噪能力,表明频域信息可能是提高无监督基于学习的方法的整体性能的可行因素。
translated by 谷歌翻译
最近,基于深度学习的图像降级方法在测试数据上具有与训练集相同的测试数据的有希望的性能,在该数据中,已经学习了基于合成或收集的现实世界训练数据的各种denoising模型。但是,在处理真实世界的嘈杂图像时,Denoising的性能仍然受到限制。在本文中,我们提出了一种简单而有效的贝叶斯深集合(BDE)方法,用于真实世界图像denoising,其中可以融合使用各种训练数据设置进行预训练的几位代表性的深层Denoiser,以提高稳健性。 BDE的基础是,现实世界的图像噪声高度取决于信号依赖性,并且在现实世界中的嘈杂图像中的异质噪声可以由不同的Deoisiser分别处理。特别是,我们将受过良好训练的CBDNET,NBNET,HINET,UFORFORMER和GMSNET进入Denoiser池,并采用U-NET来预测Pixel的加权图以融合这些DeOisiser。引入了贝叶斯深度学习策略,而不是仅仅学习像素的加权地图,而是为了预测加权不确定性和加权图,可以通过该策略来建模预测差异,以改善现实世界中的嘈杂图像的鲁棒性。广泛的实验表明,可以通过融合现有的DINOISER而不是训练一个以昂贵的成本来训练一个大的Denoiser来更好地消除现实世界的噪音。在DND数据集上,我们的BDE实现了 +0.28〜dB PSNR的增益,而不是最先进的denoising方法。此外,我们注意到,在应用于现实世界嘈杂的图像时,基于不同高斯噪声水平的BDE Denoiser优于最先进的CBDNET。此外,我们的BDE可以扩展到其他图像恢复任务,并在基准数据集上获得 +0.30dB, +0.18dB和 +0.12dB PSNR的收益,以分别用于图像去除图像,图像降低和单个图像超级分辨率。
translated by 谷歌翻译
雨是最常见的天气之一,可以完全降低图像质量并干扰许多计算机视觉任务的执行,尤其是在大雨条件下。我们观察到:(i)雨是雨水和雨淋的混合物; (ii)场景的深度决定了雨条的强度以及变成多雨的阴霾的强度; (iii)大多数现有的DERANE方法仅在合成雨图像上进行训练,因此对现实世界的场景概括不佳。在这些观察结果的激励下,我们提出了一种新的半监督,清除降雨生成的对抗网络(半密集),该混合物由四个关键模块组成:(i)新的注意力深度预测网络以提供精确的深度估计; (ii)上下文特征预测网络由几个精心设计的详细残留块组成,以产生详细的图像上下文特征; (iii)金字塔深度引导的非本地网络,以有效地将图像上下文与深度信息整合在一起,并产生最终的无雨图像; (iv)全面的半监督损失函数,使该模型不限于合成数据集,而是平稳地将其概括为现实世界中的大雨场景。广泛的实验表明,在合成和现实世界中,我们的二十多种代表性的最先进的方法对我们的方法进行了明显的改进。
translated by 谷歌翻译
派生是一个重要而基本的计算机视觉任务,旨在消除在下雨天捕获的图像或视频中的雨条纹和累积。现有的派威方法通常会使雨水模型的启发式假设,这迫使它们采用复杂的优化或迭代细化以获得高回收质量。然而,这导致耗时的方法,并影响解决从假设偏离的雨水模式的有效性。在本文中,我们通过在没有复杂的雨水模型假设的情况下,通过在没有复杂的雨水模型假设的情况下制定污染作为预测滤波问题的简单而有效的污染方法。具体地,我们识别通过深网络自适应地预测适当的核的空间变型预测滤波(SPFILT以过滤不同的各个像素。由于滤波可以通过加速卷积来实现,因此我们的方法可以显着效率。我们进一步提出了eFderain +,其中包含三个主要贡献来解决残留的雨迹,多尺度和多样化的雨水模式而不会损害效率。首先,我们提出了不确定感知的级联预测滤波(UC-PFILT),其可以通过预测的内核来识别重建清洁像素的困难,并有效地移除残留的雨水迹线。其次,我们设计重量共享多尺度扩张过滤(WS-MS-DFILT),以处理多尺度雨条纹,而不会损害效率。第三,消除各种雨水模式的差距,我们提出了一种新颖的数据增强方法(即Rainmix)来培养我们的深层模型。通过对不同变体的复杂分析的所有贡献相结合,我们的最终方法在恢复质量和速度方面优于四个单像辐照数据集和一个视频派威数据集的基线方法。
translated by 谷歌翻译
我们提出了有效的结构性先验引导的生成对抗变压器(SPGAT)来解决低光图像增强。我们的SPGAT主要包含一个具有两个鉴别器和一个结构性估计器(SPE)的发生器。发电机基于U形变压器,该变压器用于探索非本地信息,以更好地清晰图像恢复。 SPE用于探索来自图像的有用结构,以引导发电机以进行更好的结构细节估计。为了生成更真实的图像,我们通过在发生器和歧视器之间建立跳过连接来开发一种新的结构性对手学习方法,以便歧视者可以更好地区分真实功能和虚假功能。最后,我们提出了一个基于Windows的SWIN Transformer块,以汇总不同级别的层次特征,以进行高质量的图像恢复。实验结果表明,所提出的SPGAT在合成数据集和现实世界中的最新方法中表现出色。
translated by 谷歌翻译
放映摄像头(UDC)为全屏智能手机提供了优雅的解决方案。但是,由于传感器位于显示屏下,UDC捕获的图像遭受了严重的降解。尽管可以通过图像恢复网络解决此问题,但这些网络需要大规模的图像对进行培训。为此,我们提出了一个模块化网络,称为MPGNET,该网络使用生成对抗网络(GAN)框架来模拟UDC成像。具体而言,我们注意到UDC成像降解过程包含亮度衰减,模糊和噪声损坏。因此,我们将每个降解与特征相关的模块化网络建模,并将所有模块化网络级联成型以形成生成器。加上像素的歧视器和受监督的损失,我们可以训练发电机以模拟UDC成像降解过程。此外,我们提出了一个用于UDC图像恢复的Dwformer的变压器式网络。出于实际目的,我们使用深度卷积而不是多头自我注意力来汇总本地空间信息。此外,我们提出了一个新型的渠道注意模块来汇总全局信息,这对于亮度恢复至关重要。我们对UDC基准进行了评估,我们的方法在P-Oled轨道上超过了先前的最新模型和T-Oled轨道上的0.71 dB。
translated by 谷歌翻译
盲图修复(IR)是计算机视觉中常见但充满挑战的问题。基于经典模型的方法和最新的深度学习(DL)方法代表了有关此问题的两种不同方法,每种方法都有自己的优点和缺点。在本文中,我们提出了一种新颖的盲图恢复方法,旨在整合它们的两种优势。具体而言,我们为盲IR构建了一个普通的贝叶斯生成模型,该模型明确描绘了降解过程。在此提出的模型中,PICEL的非I.I.D。高斯分布用于适合图像噪声。它的灵活性比简单的I.I.D。在大多数常规方法中采用的高斯或拉普拉斯分布,以处理图像降解中包含的更复杂的噪声类型。为了解决该模型,我们设计了一个变异推理算法,其中所有预期的后验分布都被参数化为深神经网络,以提高其模型能力。值得注意的是,这种推论算法诱导统一的框架共同处理退化估计和图像恢复的任务。此外,利用了前一种任务中估计的降解信息来指导后一种红外过程。对两项典型的盲型IR任务进行实验,即图像降解和超分辨率,表明所提出的方法比当前最新的方法实现了卓越的性能。
translated by 谷歌翻译
为了获得下游图像信号过程(ISP)的高质量的原始图像,在本文中,我们提出了一个有效的本地乘法变压器,称为ELMFORMER,用于原始图像恢复。 Elmformer包含两个核心设计,尤其是针对原始属性是单渠道的原始图像。第一个设计是双向融合投影(BFP)模块,我们考虑了原始图像的颜色特征和单渠道的空间结构。第二个是我们提出了一个本地乘法自我注意力(L-MSA)方案,以有效地从当地空间传递信息到相关部分。 Elmformer可以有效地减少计算消耗,并在原始图像恢复任务上表现良好。通过这两种核心设计,Elmformer提高了最高的性能,并且与最先进的机构相比,原始DeNoising和原始Deblurring基准测试最低。广泛的实验证明了Elmformer的优势和概括能力。在SIDD基准测试中,我们的方法比基于ISP的方法具有更好的降解性能,这些方法需要大量的额外的SRGB培训图像。这些代码在https://github.com/leonmakise/elmformer上发布。
translated by 谷歌翻译
现有的视频denoising方法通常假设嘈杂的视频通过添加高斯噪声从干净的视频中降低。但是,经过这种降解假设训练的深层模型将不可避免地导致由于退化不匹配而导致的真实视频的性能差。尽管一些研究试图在摄像机捕获的嘈杂和无噪声视频对上训练深层模型,但此类模型只能对特定的相机很好地工作,并且对其他视频的推广不佳。在本文中,我们建议提高此限制,并专注于一般真实视频的问题,目的是在看不见的现实世界视频上概括。我们首先调查视频噪音的共同行为来解决这个问题,并观察两个重要特征:1)缩减有助于降低空间空间中的噪声水平; 2)来自相邻框架的信息有助于消除时间上的当前框架的噪声空间。在这两个观察结果的推动下,我们通过充分利用上述两个特征提出了多尺度的复发架构。其次,我们通过随机调整不同的噪声类型来训练Denoising模型来提出合成真实的噪声降解模型。借助合成和丰富的降解空间,我们的退化模型可以帮助弥合训练数据和现实世界数据之间的分布差距。广泛的实验表明,与现有方法相比,我们所提出的方法实现了最先进的性能和更好的概括能力,而在合成高斯denoising和实用的真实视频denoisising方面都具有现有方法。
translated by 谷歌翻译
本文提出了图像恢复的新变异推理框架和一个卷积神经网络(CNN)结构,该结构可以解决所提出的框架所描述的恢复问题。较早的基于CNN的图像恢复方法主要集中在网络体系结构设计或培训策略上,具有非盲方案,其中已知或假定降解模型。为了更接近现实世界的应用程序,CNN还接受了整个数据集的盲目培训,包括各种降解。然而,给定有多样化的图像的高质量图像的条件分布太复杂了,无法通过单个CNN学习。因此,也有一些方法可以提供其他先验信息来培训CNN。与以前的方法不同,我们更多地专注于基于贝叶斯观点以及如何重新重新重构目标的恢复目标。具体而言,我们的方法放松了原始的后推理问题,以更好地管理子问题,因此表现得像分裂和互动方案。结果,与以前的框架相比,提出的框架提高了几个恢复问题的性能。具体而言,我们的方法在高斯denoising,现实世界中的降噪,盲图超级分辨率和JPEG压缩伪像减少方面提供了最先进的性能。
translated by 谷歌翻译
随着移动设备的快速开发,现代使用的手机通常允许用户捕获4K分辨率(即超高定义)图像。然而,对于图像进行示范,在低级视觉中,一项艰巨的任务,现有作品通常是在低分辨率或合成图像上进行的。因此,这些方法对4K分辨率图像的有效性仍然未知。在本文中,我们探索了Moire模式的删除,以进行超高定义图像。为此,我们提出了第一个超高定义的演示数据集(UHDM),其中包含5,000个现实世界4K分辨率图像对,并对当前最新方法进行基准研究。此外,我们提出了一个有效的基线模型ESDNET来解决4K Moire图像,其中我们构建了一个语义对准的比例感知模块来解决Moire模式的尺度变化。广泛的实验表明了我们的方法的有效性,这可以超过最轻巧的优于最先进的方法。代码和数据集可在https://xinyu-andy.github.io/uhdm-page上找到。
translated by 谷歌翻译