智能论文笔记

Document Image Binarization in JPEG Compressed Domain using Dual Discriminator Generative Adversarial Networks

Bulla Rajesh , Manav Kamlesh Agrawal , Milan Bhuva , Kisalaya Kishore , Mohammed Javed

分类：计算机视觉 | 人工智能 | 机器学习

2022-09-13

图像二进制技术通常用于增强嘈杂和/或退化的图像来迎合不同文档图像Anlaysis（DIA）应用（如单词斑点，文档检索和OCR）。大多数现有技术都集中在将像素图像馈送到卷积神经网络中以完成文档二进制化，这在使用不完全减压的情况下需要处理的压缩图像时可能不会产生有效的结果。因此，在本研究论文中，通过使用双重鉴别器生成对抗网络（DD-GAN），提出了使用JPEG压缩图像的文档图像二进制的想法。在这里，两个歧视者网络 - 全球和本地工作在不同的图像比率上，并将焦点损失用作发电机损失。提出的模型已通过不同版本的DIBCO数据集进行了彻底的测试，该数据集具有诸如孔，擦除或弄脏的墨水，灰尘和放错地方的挑战。在时间和空间复杂性方面，该模型被证明是高度鲁棒，有效的，并且还导致了JPEG压缩域中的最新性能。

translated by 谷歌翻译

Three-stage binarization of color document images based on discrete wavelet transform and generative adversarial networks

Yu-Shian Lin , Rui-Yang Ju , Chih-Chia Chen , Ting-Yu Lin , Jen-Shiun Chiang

分类：计算机视觉

2022-11-29

The efficient segmentation of foreground text information from the background in degraded color document images is a hot research topic. Due to the imperfect preservation of ancient documents over a long period of time, various types of degradation, including staining, yellowing, and ink seepage, have seriously affected the results of image binarization. In this paper, a three-stage method is proposed for image enhancement and binarization of degraded color document images by using discrete wavelet transform (DWT) and generative adversarial network (GAN). In Stage-1, we use DWT and retain the LL subband images to achieve the image enhancement. In Stage-2, the original input image is split into four (Red, Green, Blue and Gray) single-channel images, each of which trains the independent adversarial networks. The trained adversarial network models are used to extract the color foreground information from the images. In Stage-3, in order to combine global and local features, the output image from Stage-2 and the original input image are used to train the independent adversarial networks for document binarization. The experimental results demonstrate that our proposed method outperforms many classical and state-of-the-art (SOTA) methods on the Document Image Binarization Contest (DIBCO) dataset. We release our implementation code at https://github.com/abcpp12383/ThreeStageBinarization.

translated by 谷歌翻译

MM811 Project Report: Cloud Detection and Removal in Satellite Images

Dale Chen-Song , Erfan Khalaji , Vaishali Rani

分类：计算机视觉 | 机器学习

2022-12-21

For satellite images, the presence of clouds presents a problem as clouds obscure more than half to two-thirds of the ground information. This problem causes many issues for reliability in a noise-free environment to communicate data and other applications that need seamless monitoring. Removing the clouds from the images while keeping the background pixels intact can help address the mentioned issues. Recently, deep learning methods have become popular for researching cloud removal by demonstrating promising results, among which Generative Adversarial Networks (GAN) have shown considerably better performance. In this project, we aim to address cloud removal from satellite images using AttentionGAN and then compare our results by reproducing the results obtained using traditional GANs and auto-encoders. We use RICE dataset. The outcome of this project can be used to develop applications that require cloud-free satellite images. Moreover, our results could be helpful for making further research improvements.

translated by 谷歌翻译

A Survey on Deep learning based Document Image Enhancement

Zahra Anvari , Vassilis Athitsos

分类：计算机视觉 | 机器学习

2021-12-06

如今，广泛使用了数字化文件，如科学文章，税务表，发票，合同文件和历史文本。由于各种原因，这些图像可能会劣化或损坏，包括捕获图像时的差的情况，阴影，扫描它们时，噪音和模糊，老化，墨水染色，通过，水印，印模等。文档图像增强和恢复在许多自动文档分析和识别任务中发挥至关重要的作用，例如使用光学字符识别（OCR）的内容提取。随着最近深入学习的进步，提出了许多方法来提高这些文档图像的质量。在本文中，我们审查了基于深入的学习方法，数据集和指标，用于不同的文档图像增强问题。我们提供全面概述六种不同文档图像增强任务的基于深度学习的方法，包括二值化，脱落，去噪，偏差，水印去除和暗影去除。我们总结了每个任务的主要最先进的工作，并讨论其特征，挑战和局限性。我们介绍了多个文件图像增强任务，这些任务不仅仅是注意力，包括在曝光和暴露校正和漏洞中，并识别未来研究的其他一些有前途的研究方向和机会。

translated by 谷歌翻译

Two Decades of Bengali Handwritten Digit Recognition: A Survey

A. B. M. Ashikur Rahman , Md. Bakhtiar Hasan , Sabbir Ahmed , Tasnim Ahmed , Md. Hamjajul Ashmafee , Mohammad Ridwan Kabir , Md. Hasanul Kabir

分类：计算机视觉

2022-06-05

手写数字识别（HDR）是光学特征识别（OCR）领域中最具挑战性的任务之一。不管语言如何，HDR都存在一些固有的挑战，这主要是由于个人跨个人的写作风格的变化，编写媒介和环境的变化，无法在反复编写任何数字等时保持相同的笔触。除此之外，特定语言数字的结构复杂性可能会导致HDR的模棱两可。多年来，研究人员开发了许多离线和在线HDR管道，其中不同的图像处理技术与传统的机器学习（ML）基于基于的和/或基于深度学习（DL）的体系结构相结合。尽管文献中存在有关HDR的广泛审查研究的证据，例如：英语，阿拉伯语，印度，法尔西，中文等，但几乎没有对孟加拉人HDR（BHDR）的调查，这缺乏对孟加拉语HDR（BHDR）的研究，而这些调查缺乏对孟加拉语HDR（BHDR）的研究。挑战，基础识别过程以及可能的未来方向。在本文中，已经分析了孟加拉语手写数字的特征和固有的歧义，以及二十年来最先进的数据集的全面见解和离线BHDR的方法。此外，还详细讨论了一些涉及BHDR的现实应用特定研究。本文还将作为对离线BHDR背后科学感兴趣的研究人员的汇编，煽动了对相关研究的新途径的探索，这可能会进一步导致在不同应用领域对孟加拉语手写数字进行更好的离线认识。

translated by 谷歌翻译

TIC: Text-Guided Image Colorization

Subhankar Ghosh , Prasun Roy , Saumik Bhattacharya , Umapada Pal , Michael Blumenstein

分类：计算机视觉

2022-08-04

图像着色是计算机视觉中的一个众所周知的问题。但是，由于任务的性质不足，图像着色本质上是具有挑战性的。尽管研究人员已经进行了几次尝试制作着色管道自动化，但由于缺乏调理，这些过程通常会产生不切实际的结果。在这项工作中，我们试图将文本描述与要着色的灰度图像一起集成为辅助条件，以提高着色过程的忠诚度。据我们所知，这是将文本条件纳入着色管道中的首次尝试之一。为此，我们提出了一个新颖的深网，该网络采用了两个输入（灰度图像和相应的编码文本描述），并试图预测相关的颜色范围。由于各自的文本描述包含场景中存在的对象的颜色信息，因此文本编码有助于提高预测颜色的整体质量。我们已经使用不同的指标评估了我们提出的模型，并发现它在定性和定量上都优于最先进的着色算法。

translated by 谷歌翻译

Hybrid Parallel Imaging and Compressed Sensing MRI Reconstruction with GRAPPA Integrated Multi-loss Supervised GAN

Farhan Sadik , Md. Kamrul Hasan

分类：计算机视觉

2022-09-19

目的：并行成像通过用一系列接收器线圈获取其他灵敏度信息，从而加速了磁共振成像（MRI）数据，从而降低了相位编码步骤。压缩传感磁共振成像（CS-MRI）在医学成像领域中获得了普及，因为其数据要求较少，而不是平行成像。并行成像和压缩传感（CS）均通过最大程度地减少K空间中捕获的数据量来加快传统MRI获取。由于采集时间与样品的数量成反比，因此从缩短的K空间样品中的图像的反向形成会导致收购更快，但具有混乱的伪像。本文提出了一种新型的生成对抗网络（GAN），即雷德格尔（Recgan-gr）受到多模式损失的监督，以消除重建的图像。方法：与现有的GAN网络相反，我们提出的方法引入了一种新型的发电机网络，即与双域损耗函数集成的弹药网络，包括加权幅度和相位损耗函数以及基于平行成像的损失，即Grappa一致性损失。提出了K空间校正块，以使GAN网络自动化生成不必要的数据，从而使重建过程的收敛性更快。结果：全面的结果表明，拟议的Recgan-GR在基于GAN的方法中的PSNR有4 dB的改善，并且在文献中可用的传统最先进的CNN方法中有2 dB的改进。结论和意义：拟议的工作有助于显着改善低保留数据的图像质量，从而更快地获取了5倍或10倍。

translated by 谷歌翻译

Edge-Enhanced Dual Discriminator Generative Adversarial Network for Fast MRI with Parallel Imaging Using Multi-view Information

Jiahao Huang , Weiping Ding , Jun Lv , Jingwen Yang , Hao Dong , Javier Del Ser , Jun Xia , Tiaojuan Ren , Stephen Wong , Guang Yang

分类：人工智能 | 计算机视觉 | 机器学习

2021-12-10

在临床医学中，磁共振成像（MRI）是诊断，分类，预后和治疗计划中最重要的工具之一。然而，MRI遭受了固有的慢数据采集过程，因为数据在k空间中顺序收集。近年来，大多数MRI重建方法在文献中侧重于整体图像重建而不是增强边缘信息。这项工作通过详细说明了对边缘信息的提高来阐述了这一趋势。具体地，我们通过结合多视图信息介绍一种用于快速多通道MRI重建的新型并行成像耦合双鉴别器生成的对抗网络（PIDD-GaN）。双判别设计旨在改善MRI重建中的边缘信息。一个鉴别器用于整体图像重建，而另一个鉴别器是负责增强边缘信息的负责。为发电机提出了一种具有本地和全局剩余学习的改进的U-Net。频率通道注意块（FCA块）嵌入在发电机中以结合注意力机制。引入内容损耗以培训发电机以获得更好的重建质量。我们对Calgary-Campinas公共大脑MR DataSet进行了全面的实验，并将我们的方法与最先进的MRI重建方法进行了比较。在MICCAI13数据集上进行了对剩余学习的消融研究，以验证所提出的模块。结果表明，我们的PIDD-GaN提供高质量的重建MR图像，具有良好的边缘信息。单图像重建的时间低于5ms，符合加快处理的需求。

translated by 谷歌翻译

Explicit Use of Fourier Spectrum in Generative Adversarial Networks

Soroush Sheikh Gargar

分类：计算机视觉 | 机器学习

2022-08-02

生成的对抗网络由于研究人员的最新性能在生成新图像时仅使用目标分布的数据集，因此引起了研究人员的关注。已经表明，真实图像的频谱和假图像之间存在差异。由于傅立叶变换是一种徒图映射，因此说该模型在学习原始分布方面有一个重大问题是一个公平的结论。在这项工作中，我们研究了当前gan的架构和数学理论中提到的缺点的可能原因。然后，我们提出了一个新模型，以减少实际图像和假图像频谱之间的差异。为此，我们使用几何深度学习的蓝图为频域设计了一个全新的架构。然后，我们通过将原始数据的傅立叶域表示作为训练过程中的主要特征来表明生成图像的质量的有希望的改善。

translated by 谷歌翻译

A Comprehensive Review of Deep Learning-based Single Image Super-resolution

Syed Muhammad Arsalan Bashir , Yi Wang , Mahrukh Khan , Yilong Niu

分类：计算机视觉 | 机器学习

2021-02-18

图像超分辨率（SR）是重要的图像处理方法之一，可改善计算机视野领域的图像分辨率。在过去的二十年中，在超级分辨率领域取得了重大进展，尤其是通过使用深度学习方法。这项调查是为了在深度学习的角度进行详细的调查，对单像超分辨率的最新进展进行详细的调查，同时还将告知图像超分辨率的初始经典方法。该调查将图像SR方法分类为四个类别，即经典方法，基于学习的方法，无监督学习的方法和特定领域的SR方法。我们还介绍了SR的问题，以提供有关图像质量指标，可用参考数据集和SR挑战的直觉。使用参考数据集评估基于深度学习的方法。一些审查的最先进的图像SR方法包括增强的深SR网络（EDSR），周期循环gan（Cincgan），多尺度残留网络（MSRN），Meta残留密度网络（META-RDN），反复反射网络（RBPN），二阶注意网络（SAN），SR反馈网络（SRFBN）和基于小波的残留注意网络（WRAN）。最后，这项调查以研究人员将解决SR的未来方向和趋势和开放问题的未来方向和趋势。

translated by 谷歌翻译

Structure-guided Image Outpainting

Xi Wang , Weixi Cheng , Wenliang Jia

分类：计算机视觉 | 人工智能

2022-12-21

Deep learning techniques have made considerable progress in image inpainting, restoration, and reconstruction in the last few years. Image outpainting, also known as image extrapolation, lacks attention and practical approaches to be fulfilled, owing to difficulties caused by large-scale area loss and less legitimate neighboring information. These difficulties have made outpainted images handled by most of the existing models unrealistic to human eyes and spatially inconsistent. When upsampling through deconvolution to generate fake content, the naive generation methods may lead to results lacking high-frequency details and structural authenticity. Therefore, as our novelties to handle image outpainting problems, we introduce structural prior as a condition to optimize the generation quality and a new semantic embedding term to enhance perceptual sanity. we propose a deep learning method based on Generative Adversarial Network (GAN) and condition edges as structural prior in order to assist the generation. We use a multi-phase adversarial training scheme that comprises edge inference training, contents inpainting training, and joint training. The newly added semantic embedding loss is proved effective in practice.

translated by 谷歌翻译

V-LinkNet: Learning Contextual Inpainting Across Latent Space of Generative Adversarial Network

Jireh Jam , Connah Kendrick , Vincent Drouard , Kevin Walker , Moi Hoon Yap

分类：计算机视觉

2022-01-02

深度学习方法在图像染色中优于传统方法。为了生成上下文纹理，研究人员仍在努力改进现有方法，并提出可以提取，传播和重建类似于地面真实区域的特征的模型。此外，更深层的缺乏高质量的特征传递机制有助于对所产生的染色区域有助于持久的像差。为了解决这些限制，我们提出了V-Linknet跨空间学习策略网络。为了改善语境化功能的学习，我们设计了一种使用两个编码器的损失模型。此外，我们提出了递归残留过渡层（RSTL）。 RSTL提取高电平语义信息并将其传播为下层。最后，我们将在与不同面具的同一面孔和不同面部面上的相同面上进行了比较的措施。为了提高图像修复再现性，我们提出了一种标准协议来克服各种掩模和图像的偏差。我们使用实验方法调查V-LinkNet组件。当使用标准协议时，在Celeba-HQ上评估时，我们的结果超越了现有技术。此外，我们的模型可以在Paris Street View上评估时概括良好，以及具有标准协议的Parume2数据集。

translated by 谷歌翻译

Less is More: Accelerating Faster Neural Networks Straight from JPEG

Samuel Felipe dos Santos , Jurandy Almeida

分类：计算机视觉

2021-04-01

大多数可用的图像数据通常以压缩格式存储，JPEG从中最广泛地存储。为了在卷积神经网络（CNN）上提供这些数据，需要进行初步解码过程才能获得RGB像素，要求高计算负载和内存使用。因此，近年来，用于处理JPEG压缩数据的CNN的设计引起了人们的关注。在大多数现有作品中，典型的CNN体系结构都可以通过DCT系数而不是RGB像素来促进学习。尽管它们是有效的，但其建筑变化要么提高了计算成本，要么从DCT输入中忽略了相关信息。在本文中，我们研究了为DCT输入而设计的CNN的不同方法，从而利用学习策略来通过充分利用DCT输入来降低计算复杂性。我们的实验是在Imagenet数据集上进行的。结果表明，学习如何以数据驱动的方式组合所有DCT输入比手工丢弃它们更好，并且它与减少层的结合已被证明可以有效地降低计算成本，同时保持准确性。

translated by 谷歌翻译

Joint Learning of Deep Texture and High-Frequency Features for Computer-Generated Image Detection

Qiang Xu , Shan Jia , Xinghao Jiang , Tanfeng Sun , Zhe Wang , Hong Yan

分类：计算机视觉

2022-09-07

区分计算机生成（CG）和自然摄影图像（PG）图像对于验证数字图像的真实性和独创性至关重要。但是，最近的尖端生成方法使CG图像中的合成质量很高，这使得这项具有挑战性的任务变得更加棘手。为了解决这个问题，提出了具有深层质地和高频特征的联合学习策略，以进行CG图像检测。我们首先制定并深入分析CG和PG图像的不同采集过程。基于这样的发现，即图像采集中的多个不同模块将导致对图像中基于卷积神经网络（CNN）渲染的不同敏感性不一致，我们提出了一个深层纹理渲染模块，以增强纹理差异和歧视性纹理表示。具体而言，生成语义分割图来指导仿射转换操作，该操作用于恢复输入图像不同区域中的纹理。然后，原始图像和原始图像和渲染图像的高频组件的组合被馈入配备了注意机制的多支球神经网络，该神经网络分别优化了中间特征，并分别促进了空间和通道维度的痕量探索。在两个公共数据集和一个具有更现实和多样化图像的新构建的数据集上进行的广泛实验表明，所提出的方法的表现优于现有方法，从而明确的余量。此外，结果还证明了拟议方法后处理操作和生成对抗网络（GAN）生成的图像的检测鲁棒性和泛化能力。

translated by 谷歌翻译

HWRCNet: Handwritten Word Recognition in JPEG Compressed Domain using CNN-BiLSTM Network

Mudit Goyal , Abhishek Kumar Gupta , Shiv Kumar , Karan Chatwani , Shiv Ram Dubey , Satish Kumar Singh

分类：计算机视觉

2022-01-04

使用深度学习的图像的手写词识别是一个有希望性能的活跃研究区域。IT实际情况，由于安全原因，可能需要在压缩域中处理手写图像。然而，对于压缩图像的处理仍然非常有限的深度学习的利用。通过在深度学习中的最新进展中，在压缩域中处理文档图像的需要，我们提出了一个HWRCNET模型，用于JPEG压缩域中的手写字识别。所提出的模型结合了基于卷积神经网络（CNN）和双向长短期存储器（BILSTM）的经常性神经网络（RNN）。基本上，我们使用压缩域图像训练模型，并遵守89.05％字识别精度和13.37％的字符错误率非常有吸引力的性能。

translated by 谷歌翻译

Generative Image Inpainting with Contextual Attention

Jiahui Yu , Zhe Lin , Jimei Yang , Xiaohui Shen , Xin Lu , Thomas S. Huang

分类：

2018-01-24

Figure 1: Example inpainting results of our method on images of natural scene, face and texture. Missing regions are shown in white. In each pair, the left is input image and right is the direct output of our trained generative neural networks without any post-processing.

translated by 谷歌翻译

A-ESRGAN: Training Real-World Blind Super-Resolution with Attention U-Net Discriminators

Zihao Wei , Yidong Huang , Yuang Chen , Chenhao Zheng , Jinnan Gao

分类：计算机视觉 | 机器学习

2021-12-19

盲目图像超分辨率（SR）是CV的长期任务，旨在恢复患有未知和复杂扭曲的低分辨率图像。最近的工作主要集中在采用更复杂的退化模型来模拟真实世界的降级。由此产生的模型在感知损失和产量感知令人信服的结果取得了突破性。然而，电流生成的对抗性网络结构所带来的限制仍然是显着的：处理像素同样地导致图像的结构特征的无知，并且导致性能缺点，例如扭曲线和背景过度锐化或模糊。在本文中，我们提出了A-ESRAN，用于盲人SR任务的GAN模型，其特色是基于U-NET的U-NET的多尺度鉴别器，可以与其他发电机无缝集成。据我们所知，这是第一项介绍U-Net结构作为GaN解决盲人问题的鉴别者的工作。本文还给出了对模型的多规模注意力突破的机制的解释。通过对现有作品的比较实验，我们的模型在非参考自然图像质量评估员度量上提出了最先进的水平性能。我们的消融研究表明，利用我们的鉴别器，基于RRDB的发电机可以利用多种尺度中图像的结构特征，因此与先前作品相比，更加感知地产生了感知的高分辨率图像。

translated by 谷歌翻译

PeQuENet: Perceptual Quality Enhancement of Compressed Video with Adaptation- and Attention-based Network

Saiping Zhang , Luis Herranz , Marta Mrak , Marc Gorriz Blanch , Shuai Wan , Fuzheng Yang

分类：计算机视觉

2022-06-16

在本文中，我们提出了一个生成的对抗网络（GAN）框架，以增强压缩视频的感知质量。我们的框架包括单个模型中对不同量化参数（QP）的注意和适应。注意模块利用了可以捕获和对齐连续框架之间的远程相关性的全球接收场，这可能有益于提高视频感知质量。要增强的框架与其相邻的框架一起馈入深网，并在第一阶段的特征中提取不同深度的特征。然后提取的特征被馈入注意力块以探索全局的时间相关性，然后进行一系列上采样和卷积层。最后，通过利用相应的QP信息的QP条件适应模块处理所得的功能。这样，单个模型可用于增强对各种QP的适应性，而无需针对每个QP值的多个模型，同时具有相似的性能。实验结果表明，与最先进的压缩视频质量增强算法相比，所提出的PEQUENET的表现出色。

translated by 谷歌翻译

Deep Feature Fusion for Mitosis Counting

Robin Elizabeth Yancey

分类：计算机视觉 | 机器学习 | (统计)机器学习

2020-02-01

居住在美国的每个妇女在8次发育侵袭性乳腺癌的可能性下有大约1。有丝分裂细胞计数是评估乳腺癌侵袭性或等级最常见的测试之一。在该预后，必须通过病理学家使用高分辨率显微镜检查组织病理学图像以计算细胞。不幸的是，可以是一种完整的任务，可重复性差，特别是对于非专家来说。最近深入学习网络适用于能够自动定位这些感兴趣区域的医学应用。然而，这些基于区域的网络缺乏利用通常用作唯一检测方法的完整图像CNN产生的分割特征的能力。因此，所提出的方法利用更快的RCNN进行对象检测，同时使用RGB图像特征的UNET产生的分割特征，以实现在Mitos-Atypia 2014分数上的F分数为0.508，计数数据集，优于最先进的攻击方法。

translated by 谷歌翻译

Human Treelike Tubular Structure Segmentation: A Comprehensive Review and Future Perspectives

Hao Li , Zeyu Tang , Yang Nan , Guang Yang

分类：计算机视觉 | 机器学习

2022-07-12

人类生理学中的各种结构遵循特异性形态，通常在非常细的尺度上表达复杂性。这种结构的例子是胸前气道，视网膜血管和肝血管。可以观察到可以观察到可以观察到可以观察到可以观察到空间排列的磁共振成像（MRI），计算机断层扫描（CT），光学相干断层扫描（OCT）等医学成像模式（MRI），计算机断层扫描（CT），可以观察到空间排列的大量2D和3D图像的集合。这些结构在医学成像中的分割非常重要，因为对结构的分析提供了对疾病诊断，治疗计划和预后的见解。放射科医生手动标记广泛的数据通常是耗时且容易出错的。结果，在过去的二十年中，自动化或半自动化的计算模型已成为医学成像的流行研究领域，迄今为止，许多计算模型已经开发出来。在这项调查中，我们旨在对当前公开可用的数据集，细分算法和评估指标进行全面审查。此外，讨论了当前的挑战和未来的研究方向。

translated by 谷歌翻译