智能论文笔记

A Survey on Deep learning based Document Image Enhancement

Zahra Anvari , Vassilis Athitsos

分类：计算机视觉 | 机器学习

2021-12-06

如今，广泛使用了数字化文件，如科学文章，税务表，发票，合同文件和历史文本。由于各种原因，这些图像可能会劣化或损坏，包括捕获图像时的差的情况，阴影，扫描它们时，噪音和模糊，老化，墨水染色，通过，水印，印模等。文档图像增强和恢复在许多自动文档分析和识别任务中发挥至关重要的作用，例如使用光学字符识别（OCR）的内容提取。随着最近深入学习的进步，提出了许多方法来提高这些文档图像的质量。在本文中，我们审查了基于深入的学习方法，数据集和指标，用于不同的文档图像增强问题。我们提供全面概述六种不同文档图像增强任务的基于深度学习的方法，包括二值化，脱落，去噪，偏差，水印去除和暗影去除。我们总结了每个任务的主要最先进的工作，并讨论其特征，挑战和局限性。我们介绍了多个文件图像增强任务，这些任务不仅仅是注意力，包括在曝光和暴露校正和漏洞中，并识别未来研究的其他一些有前途的研究方向和机会。

translated by 谷歌翻译

A Survey of Deep Face Restoration: Denoise, Super-Resolution, Deblur, Artifact Removal

Tao Wang , Kaihao Zhang , Xuanxi Chen , Wenhan Luo , Jiankang Deng , Tong Lu , Xiaochun Cao , Wei Liu , Hongdong Li , Stefanos Zafeiriou

分类：计算机视觉

2022-11-05

Face Restoration (FR) aims to restore High-Quality (HQ) faces from Low-Quality (LQ) input images, which is a domain-specific image restoration problem in the low-level computer vision area. The early face restoration methods mainly use statistic priors and degradation models, which are difficult to meet the requirements of real-world applications in practice. In recent years, face restoration has witnessed great progress after stepping into the deep learning era. However, there are few works to study deep learning-based face restoration methods systematically. Thus, this paper comprehensively surveys recent advances in deep learning techniques for face restoration. Specifically, we first summarize different problem formulations and analyze the characteristic of the face image. Second, we discuss the challenges of face restoration. Concerning these challenges, we present a comprehensive review of existing FR methods, including prior based methods and deep learning-based methods. Then, we explore developed techniques in the task of FR covering network architectures, loss functions, and benchmark datasets. We also conduct a systematic benchmark evaluation on representative methods. Finally, we discuss future directions, including network designs, metrics, benchmark datasets, applications,etc. We also provide an open-source repository for all the discussed methods, which is available at https://github.com/TaoWangzj/Awesome-Face-Restoration.

translated by 谷歌翻译

Burst Photography for Learning to Enhance Extremely Dark Images

Ahmet Serdar Karadeniz , Erkut Erdem , Aykut Erdem

分类：计算机视觉

2020-06-17

在极低光线条件下捕获图像会对标准相机管道带来重大挑战。图像变得太黑了，太吵了，这使得传统的增强技术几乎不可能申请。最近，基于学习的方法已经为此任务显示了非常有希望的结果，因为它们具有更大的表现力能力来允许提高质量。这些研究中的激励，在本文中，我们的目标是利用爆破摄影来提高性能，并从极端暗的原始图像获得更加锐利和更准确的RGB图像。我们提出的框架的骨干是一种新颖的粗良好网络架构，逐步产生高质量的输出。粗略网络预测了低分辨率，去噪的原始图像，然后将其馈送到精细网络以恢复微尺的细节和逼真的纹理。为了进一步降低噪声水平并提高颜色精度，我们将该网络扩展到置换不变结构，使得它作为输入突发为低光图像，并在特征级别地合并来自多个图像的信息。我们的实验表明，我们的方法通过生产更详细和相当更高的质量的图像来引起比最先进的方法更令人愉悦的结果。

translated by 谷歌翻译

Three-stage binarization of color document images based on discrete wavelet transform and generative adversarial networks

Yu-Shian Lin , Rui-Yang Ju , Chih-Chia Chen , Ting-Yu Lin , Jen-Shiun Chiang

分类：计算机视觉

2022-11-29

The efficient segmentation of foreground text information from the background in degraded color document images is a hot research topic. Due to the imperfect preservation of ancient documents over a long period of time, various types of degradation, including staining, yellowing, and ink seepage, have seriously affected the results of image binarization. In this paper, a three-stage method is proposed for image enhancement and binarization of degraded color document images by using discrete wavelet transform (DWT) and generative adversarial network (GAN). In Stage-1, we use DWT and retain the LL subband images to achieve the image enhancement. In Stage-2, the original input image is split into four (Red, Green, Blue and Gray) single-channel images, each of which trains the independent adversarial networks. The trained adversarial network models are used to extract the color foreground information from the images. In Stage-3, in order to combine global and local features, the output image from Stage-2 and the original input image are used to train the independent adversarial networks for document binarization. The experimental results demonstrate that our proposed method outperforms many classical and state-of-the-art (SOTA) methods on the Document Image Binarization Contest (DIBCO) dataset. We release our implementation code at https://github.com/abcpp12383/ThreeStageBinarization.

translated by 谷歌翻译

Text-DIAE: A Self-Supervised Degradation Invariant Autoencoders for Text Recognition and Document Enhancement

Mohamed Ali Souibgui , Sanket Biswas , Andres Mafla , Ali Furkan Biten , Alicia Fornés , Yousri Kessentini , Josep Lladós , Lluis Gomez , Dimosthenis Karatzas

分类：计算机视觉

2022-03-09

在本文中，我们提出了一个文本降低不变的自动编码器（Text-Diae），这是一种旨在解决两个任务的自我监督模型，即文本识别（手写或场景文本）和文档图像增强。我们首先采用基于变压器的体系结构，该体系结构将三个借口任务作为学习目标，在预训练期间必须在不使用标签数据的情况下进行优化。每个借口目标都是专门针对最终下游任务量身定制的。我们进行了几项消融实验，以确认所选借口任务的设计选择。重要的是，所提出的模型并未基于对比损失表现出先前最新方法的局限性，而同时需要更少的数据样本来收敛。最后，我们证明我们的方法超过了手写和场景文本识别和文档图像增强的现有监督和自我监督的设置中的最新设置。我们的代码和训练有素的模型将在〜\ url {http：// on_accepters}上公开提供。

translated by 谷歌翻译

Progressive Joint Low-light Enhancement and Noise Removal for Raw Images

Yucheng Lu , Seung-Won Jung

分类：计算机视觉

2021-06-28

移动设备上的低光成像通常是由于不足的孔径穿过相对较小的孔径而挑战，导致信噪比较低。以前的大多数关于低光图像处理的作品仅关注单个任务，例如照明调整，颜色增强或删除噪声；或在密切依赖于从特定的摄像机模型中收集的长时间曝光图像对的关节照明调整和降解任务上，因此，这些方法在需要摄像机特定的关节增强和恢复的现实环境中不太实用且可推广。为了解决这个问题，在本文中，我们提出了一个低光图像处理框架，该框架可以执行关节照明调整，增强色彩和降解性。考虑到模型特异性数据收集的难度和捕获图像的超高定义，我们设计了两个分支：系数估计分支以及关节增强和denoising分支。系数估计分支在低分辨率空间中起作用，并预测通过双边学习增强的系数，而关节增强和去核分支在全分辨率空间中工作，并逐步执行关节增强和脱氧。与现有方法相反，我们的框架在适应另一个摄像机模型时不需要回忆大量数据，这大大减少了微调我们用于实际使用方法所需的努力。通过广泛的实验，与当前的最新方法相比，我们在现实世界中的低光成像应用中证明了它的巨大潜力。

translated by 谷歌翻译

Deep Learning for HDR Imaging: State-of-the-Art and Future Trends

Lin Wang , Kuk-Jin Yoon

分类：计算机视觉 | 机器学习

2021-10-20

高动态范围（HDR）成像是一种允许广泛的动态曝光范围的技术，这在图像处理，计算机图形和计算机视觉中很重要。近年来，使用深度学习（DL），HDR成像有重大进展。本研究对深层HDR成像方法的最新发展进行了综合和富有洞察力的调查和分析。在分层和结构上，将现有的深层HDR成像方法基于（1）输入曝光的数量/域，（2）学习任务数，（3）新传感器数据，（4）新的学习策略，（5）应用程序。重要的是，我们对关于其潜在和挑战的每个类别提供建设性的讨论。此外，我们审查了深度HDR成像的一些关键方面，例如数据集和评估指标。最后，我们突出了一些打开的问题，并指出了未来的研究方向。

translated by 谷歌翻译

Low-Light Image and Video Enhancement Using Deep Learning: A Survey

Chongyi Li , Chunle Guo , Linghao Han , Jun Jiang , Ming-Ming Cheng , Jinwei Gu , Chen Change Loy

分类：计算机视觉

2021-04-21

低光图像增强（LLIE）旨在提高在环境中捕获的图像的感知或解释性，较差的照明。该领域的最新进展由基于深度学习的解决方案为主，其中许多学习策略，网络结构，丢失功能，培训数据等已被采用。在本文中，我们提供了全面的调查，以涵盖从算法分类到开放问题的各个方面。为了检查现有方法的概括，我们提出了一个低光图像和视频数据集，其中图像和视频是在不同的照明条件下的不同移动电话的相机拍摄的。除此之外，我们首次提供统一的在线平台，涵盖许多流行的LLIE方法，其中结果可以通过用户友好的Web界面生产。除了在公开和我们拟议的数据集上对现有方法的定性和定量评估外，我们还验证了他们在黑暗中的脸部检测中的表现。这项调查与拟议的数据集和在线平台一起作为未来研究的参考来源和促进该研究领域的发展。拟议的平台和数据集以及收集的方法，数据集和评估指标是公开可用的，并将经常更新。

translated by 谷歌翻译

A Comprehensive Review of Deep Learning-based Single Image Super-resolution

Syed Muhammad Arsalan Bashir , Yi Wang , Mahrukh Khan , Yilong Niu

分类：计算机视觉 | 机器学习

2021-02-18

图像超分辨率（SR）是重要的图像处理方法之一，可改善计算机视野领域的图像分辨率。在过去的二十年中，在超级分辨率领域取得了重大进展，尤其是通过使用深度学习方法。这项调查是为了在深度学习的角度进行详细的调查，对单像超分辨率的最新进展进行详细的调查，同时还将告知图像超分辨率的初始经典方法。该调查将图像SR方法分类为四个类别，即经典方法，基于学习的方法，无监督学习的方法和特定领域的SR方法。我们还介绍了SR的问题，以提供有关图像质量指标，可用参考数据集和SR挑战的直觉。使用参考数据集评估基于深度学习的方法。一些审查的最先进的图像SR方法包括增强的深SR网络（EDSR），周期循环gan（Cincgan），多尺度残留网络（MSRN），Meta残留密度网络（META-RDN），反复反射网络（RBPN），二阶注意网络（SAN），SR反馈网络（SRFBN）和基于小波的残留注意网络（WRAN）。最后，这项调查以研究人员将解决SR的未来方向和趋势和开放问题的未来方向和趋势。

translated by 谷歌翻译

ShaDocNet: Learning Spatial-Aware Tokens in Transformer for Document Shadow Removal

Xuhang Chen , Xiaodong Cun , Chi-Man Pun , Shuqiang Wang

分类：计算机视觉

2022-11-30

Shadow removal improves the visual quality and legibility of digital copies of documents. However, document shadow removal remains an unresolved subject. Traditional techniques rely on heuristics that vary from situation to situation. Given the quality and quantity of current public datasets, the majority of neural network models are ill-equipped for this task. In this paper, we propose a Transformer-based model for document shadow removal that utilizes shadow context encoding and decoding in both shadow and shadow-free regions. Additionally, shadow detection and pixel-level enhancement are included in the whole coarse-to-fine process. On the basis of comprehensive benchmark evaluations, it is competitive with state-of-the-art methods.

translated by 谷歌翻译

ISP-Agnostic Image Reconstruction for Under-Display Cameras

Miao Qi , Yuqi Li , Wolfgang Heidrich

分类：计算机视觉

2021-11-02

近年来已经提出了显示屏下的显示器，作为减少移动设备的形状因子的方式，同时最大化屏幕区域。不幸的是，将相机放在屏幕后面导致显着的图像扭曲，包括对比度，模糊，噪音，色移，散射伪像和降低光敏性的损失。在本文中，我们提出了一种图像恢复管道，其是ISP-Annostic，即它可以与任何传统ISP组合，以产生使用相同的ISP与常规相机外观匹配的最终图像。这是通过执行Raw-Raw Image Restoration的深度学习方法来实现的。为了获得具有足够对比度和场景多样性的大量实际展示摄像机培训数据，我们还开发利用HDR监视器的数据捕获方法，以及数据增强方法以产生合适的HDR内容。监视器数据补充有现实世界的数据，该数据具有较少的场景分集，但允许我们实现细节恢复而不受监视器分辨率的限制。在一起，这种方法成功地恢复了颜色和对比度以及图像细节。

translated by 谷歌翻译

CharFormer: A Glyph Fusion based Attentive Framework for High-precision Character Image Denoising

Daqian Shi , Xiaolei Diao , Lida Shi , Hao Tang , Yang Chi , Chuntao Li , Hao Xu

分类：计算机视觉

2022-07-16

降解的图像通常存在于字符图像的一般来源中，从而导致特征识别结果不令人满意。现有的方法有专门的努力来恢复降级的角色图像。但是，这些方法获得的降解结果似乎并不能提高字符识别性能。这主要是因为当前方法仅着眼于像素级信息，而忽略了角色的关键特征，例如其字形，从而在脱索过程中导致字符标志性损害。在本文中，我们介绍了一个基于字形融合和注意力机制（即Churformer）的新型通用框架，以精确地恢复角色图像而不改变其固有的字形。与现有的框架不同，Charformer引入了一个并行目标任务，用于捕获其他信息并将其注入DICONISE骨架的图像，这将在字符图像DeNoising期间保持角色字形的一致性。此外，我们利用基于注意力的网络进行全局本地特征交互，这将有助于处理盲目的denoising和增强deNoSising绩效。我们将Charformer与多个数据集上的最新方法进行比较。实验结果表明了杂形和质量上的优势。

translated by 谷歌翻译

U-shape Transformer for Underwater Image Enhancement

Lintao Peng , Chunli Zhu , Liheng Bian

分类：计算机视觉

2021-11-23

水下杂质的光吸收和散射导致水下较差的水下成像质量。现有的基于数据驱动的基于数据的水下图像增强（UIE）技术缺乏包含各种水下场景和高保真参考图像的大规模数据集。此外，不同颜色通道和空间区域的不一致衰减不完全考虑提升增强。在这项工作中，我们构建了一个大规模的水下图像（LSUI）数据集，包括5004个图像对，并报告了一个U形变压器网络，其中变压器模型首次引入UIE任务。 U形变压器与通道 - 方面的多尺度特征融合变压器（CMSFFT）模块和空间全局功能建模变压器（SGFMT）模块集成在一起，可使用更多地加强网络对色频道和空间区域的关注严重衰减。同时，为了进一步提高对比度和饱和度，在人类视觉原理之后，设计了组合RGB，实验室和LCH颜色空间的新型损失函数。可用数据集的广泛实验验证了报告的技术的最先进性能，具有超过2dB的优势。

translated by 谷歌翻译

LEDNet: Joint Low-light Enhancement and Deblurring in the Dark

Shangchen Zhou , Chongyi Li , Chen Change Loy

分类：计算机视觉

2022-02-07

夜间摄影通常由于昏暗的环境和长期使用而遭受弱光和模糊问题。尽管现有的光增强和脱毛方法可以单独解决每个问题，但一系列此类方法不能和谐地适应可见性和纹理的共同降解。训练端到端网络也是不可行的，因为没有配对数据可以表征低光和模糊的共存。我们通过引入新的数据合成管道来解决该问题，该管道对现实的低光模糊降解进行建模。使用管道，我们介绍了第一个用于关节低光增强和去皮的大型数据集。数据集，LOL-BLUR，包含12,000个低Blur/正常出现的对，在不同的情况下具有不同的黑暗和运动模糊。我们进一步提出了一个名为LEDNET的有效网络，以执行关节弱光增强和脱毛。我们的网络是独一无二的，因为它是专门设计的，目的是考虑两个相互连接的任务之间的协同作用。拟议的数据集和网络都为这项具有挑战性的联合任务奠定了基础。广泛的实验证明了我们方法对合成和现实数据集的有效性。

translated by 谷歌翻译

Deep Variational Network Toward Blind Image Restoration

Zongsheng Yue , Hongwei Yong , Qian Zhao , Lei Zhang , Deyu Meng , Kwan-Yen K. Wong

分类：计算机视觉

2020-08-25

盲图修复（IR）是计算机视觉中常见但充满挑战的问题。基于经典模型的方法和最新的深度学习（DL）方法代表了有关此问题的两种不同方法，每种方法都有自己的优点和缺点。在本文中，我们提出了一种新颖的盲图恢复方法，旨在整合它们的两种优势。具体而言，我们为盲IR构建了一个普通的贝叶斯生成模型，该模型明确描绘了降解过程。在此提出的模型中，PICEL的非I.I.D。高斯分布用于适合图像噪声。它的灵活性比简单的I.I.D。在大多数常规方法中采用的高斯或拉普拉斯分布，以处理图像降解中包含的更复杂的噪声类型。为了解决该模型，我们设计了一个变异推理算法，其中所有预期的后验分布都被参数化为深神经网络，以提高其模型能力。值得注意的是，这种推论算法诱导统一的框架共同处理退化估计和图像恢复的任务。此外，利用了前一种任务中估计的降解信息来指导后一种红外过程。对两项典型的盲型IR任务进行实验，即图像降解和超分辨率，表明所提出的方法比当前最新的方法实现了卓越的性能。

translated by 谷歌翻译

Deep Learning-based Face Super-Resolution: A Survey

Junjun Jiang , Chenyang Wang , Xianming Liu , Jiayi Ma

分类：计算机视觉

2021-01-11

面部超分辨率（FSR），也称为面部幻觉，其旨在增强低分辨率（LR）面部图像以产生高分辨率（HR）面部图像的分辨率，是特定于域的图像超分辨率问题。最近，FSR获得了相当大的关注，并目睹了深度学习技术的发展炫目。迄今为止，有很少有基于深入学习的FSR的研究摘要。在本次调查中，我们以系统的方式对基于深度学习的FSR方法进行了全面审查。首先，我们总结了FSR的问题制定，并引入了流行的评估度量和损失功能。其次，我们详细说明了FSR中使用的面部特征和流行数据集。第三，我们根据面部特征的利用大致分类了现有方法。在每个类别中，我们从设计原则的一般描述开始，然后概述代表方法，然后讨论其中的利弊。第四，我们评估了一些最先进的方法的表现。第五，联合FSR和其他任务以及与FSR相关的申请大致介绍。最后，我们设想了这一领域进一步的技术进步的前景。在\ URL {https://github.com/junjun-jiang/face-hallucination-benchmark}上有一个策划的文件和资源的策划文件和资源清单

translated by 谷歌翻译

RCRN: Real-world Character Image Restoration Network via Skeleton Extraction

Daqian Shi , Xiaolei Diao , Hao Tang , Xiaomin Li , Hao Xing , Hao Xu

分类：计算机视觉

2022-07-16

构建高质量的角色图像数据集很具有挑战性，因为现实世界图像通常受图像退化的影响。将当前图像恢复方法应用于此类现实世界字符图像时存在局限性，因为（i）字符图像中的噪声类别与一般图像中的噪声类别不同；（ii）现实世界字符图像通常包含更复杂的图像降解，例如不同噪声水平的混合噪声。为了解决这些问题，我们提出了一个现实世界角色恢复网络（RCRN），以有效恢复降级的角色图像，其中使用字符骨架信息和比例安装特征提取来获得更好的恢复性能。所提出的方法由骨架提取器（SENET）和角色图像修复器（CIRNET）组成。 Senet旨在保持角色的结构一致性并使复杂的噪声正常化。然后，Cirnet从降级的角色图像及其骨骼中重建了清洁图像。由于缺乏现实世界字符图像恢复的基准，我们构建了一个包含1,606个字符图像的数据集，这些图像具有现实世界中的降级，以评估所提出方法的有效性。实验结果表明，RCRN在定量和质量上优于最先进的方法。

translated by 谷歌翻译

FMD-cGAN: Fast Motion Deblurring using Conditional Generative Adversarial Networks

Jatin Kumar , Indra Deep Mastan , Shanmuganathan Raman

分类：计算机视觉

2021-11-30

在本文中，我们介绍了一种快速运动脱棕色条件的生成对抗网络（FMD-CGAN），其有助于单个图像的盲运动去纹理。 FMD-CGAN在去修改图像后提供令人印象深刻的结构相似性和视觉外观。与其他深度神经网络架构一样，GAN也遭受大型模型大小（参数）和计算。在诸如移动设备和机器人等资源约束设备上部署模型并不容易。借助MobileNet基于MobileNet的架构，包括深度可分离卷积，我们降低了模型大小和推理时间，而不会丢失图像的质量。更具体地说，我们将模型大小与最近的竞争对手相比将3-60倍。由此产生的压缩去掩盖CGAN比其最接近的竞争对手更快，甚至定性和定量结果优于各种最近提出的最先进的盲运动去误紧模型。我们还可以使用我们的模型进行实时映像解擦干任务。标准数据集的当前实验显示了该方法的有效性。

translated by 谷歌翻译

A Novel Hybrid Endoscopic Dataset for Evaluating Machine Learning-based Photometric Image Enhancement Models

Axel Garcia-Vega , Ricardo Espinosa , Gilberto Ochoa-Ruiz , Thomas Bazin , Luis Eduardo Falcon-Morales , Dominique Lamarque , Christian Daul

分类：计算机视觉

2022-07-06

内窥镜检查是空心器官内最广泛使用的癌症和息肉检测的医疗技术。但是，由于启蒙源方向，内窥镜获得的图像经常受到照明人工制品的影响。当内窥镜的光源姿势突然变化时，存在两个主要问题：产生过度曝光和不受欢迎的组织区域。这两种情况可能导致因影响区域缺乏信息而导致误诊，或者在非侵入性检查过程中使用了各种计算机视觉方法的性能（例如，大满贯，运动结构，光流，光流）。这项工作的目的是两倍：i）引入一种由生成对抗技术生成的新合成生成的数据集和ii），并探索在过度暴露和未渗透的照明中探索基于浅层和深度学习的基于浅的基于学习的图像增强方法条件。除了在7.6 fps左右的运行时间外，还通过基于深网的LMSPEC方法获得了最佳定量结果（即基于公制的结果）

translated by 谷歌翻译

Adaptive Uncertainty Distribution in Deep Learning for Unsupervised Underwater Image Enhancement

Alzayat Saleh , Marcus Sheaves , Dean Jerry , Mostafa Rahimi Azghadi

分类：计算机视觉

2022-12-18

One of the main challenges in deep learning-based underwater image enhancement is the limited availability of high-quality training data. Underwater images are difficult to capture and are often of poor quality due to the distortion and loss of colour and contrast in water. This makes it difficult to train supervised deep learning models on large and diverse datasets, which can limit the model's performance. In this paper, we explore an alternative approach to supervised underwater image enhancement. Specifically, we propose a novel unsupervised underwater image enhancement framework that employs a conditional variational autoencoder (cVAE) to train a deep learning model with probabilistic adaptive instance normalization (PAdaIN) and statistically guided multi-colour space stretch that produces realistic underwater images. The resulting framework is composed of a U-Net as a feature extractor and a PAdaIN to encode the uncertainty, which we call UDnet. To improve the visual quality of the images generated by UDnet, we use a statistically guided multi-colour space stretch module that ensures visual consistency with the input image and provides an alternative to training using a ground truth image. The proposed model does not need manual human annotation and can learn with a limited amount of data and achieves state-of-the-art results on underwater images. We evaluated our proposed framework on eight publicly-available datasets. The results show that our proposed framework yields competitive performance compared to other state-of-the-art approaches in quantitative as well as qualitative metrics. Code available at https://github.com/alzayats/UDnet .

translated by 谷歌翻译