由于其在隐私保护,文档修复和文本编辑方面的各种应用,因此删除文本引起了越来越多的关注。它显示出深度神经网络的重大进展。但是,大多数现有方法通常会为复杂的背景产生不一致的结果。为了解决此问题,我们提出了一个上下文引导的文本删除网络,称为CTRNET。 Ctrnet探索了低级结构和高级判别上下文特征,作为指导背景恢复过程的先验知识。我们进一步提出了具有CNNS和Transformer-编码器的局部全球含量建模(LGCM)块,以捕获局部特征并在全球像素之间建立长期关系。最后,我们将LGCM与特征建模和解码的上下文指南合并。在基准数据集,Scut-Enstext和Scut-Syn上进行的实验表明,CTRNET显着胜过现有的最新方法。此外,关于考试论文的定性实验也证明了我们方法的概括能力。代码和补充材料可在https://github.com/lcy0604/ctrnet上获得。
translated by 谷歌翻译
场景文本擦除,它在自然图像中替换了具有合理内容的文本区域,近年来在计算机视觉社区中造成了重大关注。场景文本删除中有两个潜在的子任务:文本检测和图像修复。两个子任务都需要相当多的数据来实现更好的性能;但是,缺乏大型现实世界场景文本删除数据集不允许现有方法实现其潜力。为了弥补缺乏成对的真实世界数据,我们在额外的增强后大大使用了合成文本,随后仅在改进的合成文本引擎生成的数据集上培训了我们的模型。我们所提出的网络包含一个笔划掩模预测模块和背景染色模块,可以从裁剪文本图像中提取文本笔划作为相对较小的孔,以维持更多的背景内容以获得更好的修复结果。该模型可以用边界框部分删除场景图像中的文本实例,或者使用现有场景文本检测器进行自动场景文本擦除。 SCUT-SYN,ICDAR2013和SCUT-ENSTEXT数据集的定性和定量评估的实验结果表明,即使在现实世界数据上培训,我们的方法也显着优于现有的最先进的方法。
translated by 谷歌翻译
场景文本擦除旨在从场景图像中删除文本内容,而当前的最新文本擦除模型经过大规模合成数据的培训。尽管数据合成引擎可以提供大量注释的训练样本,但合成数据和现实世界数据之间存在差异。在本文中,我们在未标记的现实世界场景文本图像上采用自我审视来进行特征表示。一项新颖的借口任务旨在在图像变体的文本蒙版之间保持一致。我们设计了渐进式擦除网络,以删除剩余文本。场景文本通过利用中间生成的结果逐渐消除,这为随后的更高质量结果奠定了基础。实验表明,我们的方法显着改善了文本擦除任务的概括,并在公共基准上实现了最先进的性能。
translated by 谷歌翻译
在图像中恢复任意缺失区域的合理和现实内容是一个重要而挑战性的任务。尽管最近的图像批量模型在生动的视觉细节方面取得了重大进展,但它们仍然可以导致纹理模糊或由于在处理更复杂的场景时由于上下文模糊而导致的结构扭曲。为了解决这个问题,我们提出了通过学习来自特定借口任务的多尺度语义代理的想法激励的语义金字塔网络(SPN)可以大大使图像中局部缺失内容的恢复极大地利益。 SPN由两个组件组成。首先,它将语义前视图从托管模型蒸馏到多尺度特征金字塔,实现对全局背景和局部结构的一致了解。在现有的学习者内,我们提供了一个可选模块,用于变分推理,以实现由各种学习的前沿驱动的概率图像染色。 SPN的第二组件是完全上下文感知的图像生成器,其在与(随机)先前金字塔一起自适应地和逐渐地改进低级视觉表示。我们将先前的学习者和图像发生器培训为统一模型,而无需任何后处理。我们的方法在多个数据集中实现了本领域的最先进,包括在确定性和概率的侵略设置下,包括Parket2,Paris Streetview,Celeba和Celeba-HQ。
translated by 谷歌翻译
基于补丁的方法和深度网络已经采用了解决图像染色问题,具有自己的优势和劣势。基于补丁的方法能够通过从未遮盖区域搜索最近的邻居修补程序来恢复具有高质量纹理的缺失区域。但是,这些方法在恢复大缺失区域时会带来问题内容。另一方面,深度网络显示有希望的成果完成大区域。尽管如此,结果往往缺乏类似周围地区的忠诚和尖锐的细节。通过汇集两个范式中,我们提出了一种新的深度染色框架,其中纹理生成是由从未掩蔽区域提取的补丁样本的纹理记忆引导的。该框架具有一种新颖的设计,允许使用深度修复网络训练纹理存储器检索。此外,我们还介绍了贴片分配损失,以鼓励高质量的贴片合成。所提出的方法在三个具有挑战性的图像基准测试中,即地位,Celeba-HQ和巴黎街道视图数据集来说,该方法显示出质量和定量的卓越性能。
translated by 谷歌翻译
最近在图像染色的作品表明,结构信息在恢复视觉上令人愉悦的结果方面发挥着重要作用。在本文中,我们提出了由基于两个并行发射机的流组成的端到端架构:主流(MS)和结构流(SS)。在SS的帮助下,MS可以产生具有合理结构和现实细节的合理结果。具体地,MS通过同时推断丢失的结构和纹理来重建详细图像,并且SS仅通过从MS的编码器处理分层信息来恢复丢失的结构。通过在培训过程中与SS进行互动,可以暗示MS可以暗示利用结构性提示。为了帮助SS专注于结构并防止MS中的纹理受到影响,提出了一种门控单元来抑制MS和SS之间的信息流中的结构无关激活。此外,SS中的多尺度结构特征映射用于明确指导通过融合块的MS的解码器中的结构合理的图像重建。在Celeba,Paris Streetview和Parume2数据集上进行了广泛的实验表明我们所提出的方法优于最先进的方法。
translated by 谷歌翻译
图像介入是将图像的掩盖或未知区域填充具有视觉上现实内容的任务,最近,深层神经网络(DNNS)极大地改善了图像。从本质上讲,作为一个反问题,内部介绍面临着在没有纹理伪像的情况下重建语义相干结果的根本挑战。以前的许多努力是通过利用注意机制和先验知识(例如边缘和语义分割)做出的。但是,这些作品在实践中仍然受到可学习的先验参数和刺激性计算负担的限制。为此,我们提出了一个新颖的模型 - 轴向镶嵌网络(WAIN)中的小波事先注意学习,其发电机包含编码器,解码器以及小波图像的两个关键组件先验注意力(WPA)和堆叠的多层层轴向转化器(ATS)。特别是,WPA指导多尺度频域中的高级特征聚集,从而减轻了文本伪像。堆叠的ATS采用未掩盖的线索来帮助建模合理的功能以及水平和垂直轴的低级特征,从而提高语义连贯性。对Celeba-HQ和Place2数据集进行了广泛的定量和定性实验,以验证我们的Wain可以在竞争对手上实现最新的性能。代码和模型将发布。
translated by 谷歌翻译
深度学习方法在图像染色中优于传统方法。为了生成上下文纹理,研究人员仍在努力改进现有方法,并提出可以提取,传播和重建类似于地面真实区域的特征的模型。此外,更深层的缺乏高质量的特征传递机制有助于对所产生的染色区域有助于持久的像差。为了解决这些限制,我们提出了V-Linknet跨空间学习策略网络。为了改善语境化功能的学习,我们设计了一种使用两个编码器的损失模型。此外,我们提出了递归残留过渡层(RSTL)。 RSTL提取高电平语义信息并将其传播为下层。最后,我们将在与不同面具的同一面孔和不同面部面上的相同面上进行了比较的措施。为了提高图像修复再现性,我们提出了一种标准协议来克服各种掩模和图像的偏差。我们使用实验方法调查V-LinkNet组件。当使用标准协议时,在Celeba-HQ上评估时,我们的结果超越了现有技术。此外,我们的模型可以在Paris Street View上评估时概括良好,以及具有标准协议的Parume2数据集。
translated by 谷歌翻译
语义图像编辑利用本地语义标签图来生成所需的内容。最近的工作借用了Spade Block来实现语义图像编辑。但是,由于编辑区域和周围像素之间的样式差异,它无法产生令人愉悦的结果。我们将其归因于以下事实:Spade仅使用与图像无关的局部语义布局,但忽略了已知像素中包含的图像特定样式。为了解决此问题,我们提出了一个样式保存的调制(SPM),其中包括两个调制过程:第一个调制包含上下文样式和语义布局,然后生成两个融合的调制参数。第二次调制采用融合参数来调制特征图。通过使用这两种调制,SPM可以在保留特定图像的上下文样式的同时注入给定的语义布局。此外,我们设计了一种渐进式体系结构,以粗到精细的方式生成编辑的内容。提出的方法可以获得上下文一致的结果,并显着减轻生成区域和已知像素之间的不愉快边界。
translated by 谷歌翻译
图像介入是一个不适的问题,可以基于带有遮罩的不完整图像来恢复缺失或损坏的图像内容。以前的作品通常可以预测辅助结构(例如边缘,分割和轮廓),以帮助以多阶段的方式填充视觉逼真的斑块。但是,不精确的辅助先验可能会产生有偏见的成分结果。此外,对于复杂的神经网络的多个阶段来实现的某些方法是耗时的。为了解决此问题,我们开发了一个端到端的多模式引导的变压器网络,包括一个镶嵌分支和两个用于语义分割和边缘纹理的辅助分支。在每个变压器块中,提出的多尺度空间感知注意模块可以通过辅助构成规范有效地学习多模式结构特征。与以前依赖于偏见先验的直接指导的方法不同,我们的方法基于来自多种模式的判别性相互作用信息,在图像中具有语义一致的上下文。关于几个具有挑战性的图像镶嵌数据集的全面实验表明,我们的方法实现了最先进的性能,以有效地处理各种常规/不规则面具。
translated by 谷歌翻译
最近的研究表明,在介绍问题中建模长期相互作用的重要性。为了实现这一目标,现有方法利用独立的注意技术或变压器,但考虑到计算成本,通常在低分辨率下。在本文中,我们提出了一个基于变压器的新型模型,用于大孔介入,该模型统一了变压器和卷积的优点,以有效地处理高分辨率图像。我们仔细设计框架的每个组件,以确保恢复图像的高保真度和多样性。具体而言,我们自定义了一个面向内部的变压器块,其中注意模块仅从部分有效令牌中汇总非本地信息,该信息由动态掩码表示。广泛的实验证明了在多个基准数据集上新模型的最新性能。代码在https://github.com/fenglinglwb/mat上发布。
translated by 谷歌翻译
Deep learning techniques have made considerable progress in image inpainting, restoration, and reconstruction in the last few years. Image outpainting, also known as image extrapolation, lacks attention and practical approaches to be fulfilled, owing to difficulties caused by large-scale area loss and less legitimate neighboring information. These difficulties have made outpainted images handled by most of the existing models unrealistic to human eyes and spatially inconsistent. When upsampling through deconvolution to generate fake content, the naive generation methods may lead to results lacking high-frequency details and structural authenticity. Therefore, as our novelties to handle image outpainting problems, we introduce structural prior as a condition to optimize the generation quality and a new semantic embedding term to enhance perceptual sanity. we propose a deep learning method based on Generative Adversarial Network (GAN) and condition edges as structural prior in order to assist the generation. We use a multi-phase adversarial training scheme that comprises edge inference training, contents inpainting training, and joint training. The newly added semantic embedding loss is proved effective in practice.
translated by 谷歌翻译
胸部X射线(CXR)图像中的肺结节检测是肺癌的早期筛查。基于深度学习的计算机辅助诊断(CAD)系统可以支持放射线医生在CXR中进行结节筛选。但是,它需要具有高质量注释的大规模和多样化的医学数据,以训练这种强大而准确的CAD。为了减轻此类数据集的有限可用性,为了增加数据增强而提出了肺结核合成方法。然而,以前的方法缺乏产生结节的能力,这些结节与检测器所需的大小属性相关。为了解决这个问题,我们在本文中介绍了一种新颖的肺结综合框架,该框架分别将结节属性分为三个主要方面,包括形状,大小和纹理。基于GAN的形状生成器首先通过产生各种形状掩模来建模结节形状。然后,以下大小调制可以对像素级粒度中生成的结节形状的直径进行定量控制。一条粗到细门的卷积卷积纹理发生器最终合成了以调制形状掩模为条件的视觉上合理的结节纹理。此外,我们建议通过控制数据增强的分离结节属性来合成结节CXR图像,以便更好地补偿检测任务中容易错过的结节。我们的实验证明了所提出的肺结构合成框架的图像质量,多样性和可控性的增强。我们还验证了数据增强对大大改善结节检测性能的有效性。
translated by 谷歌翻译
桥接全球上下文交互正确对大面具的高保真图像完成非常重要。先前的方法通过深或大的接收领域(RF)卷积无法逃离附近互动的主导地位,这可能是劣等的。在本文中,我们建议将图像完成视为无缝的序列到序列预测任务,并部署变压器以直接捕获编码器中的远程依赖性。至关重要,我们使用具有小而非重叠的RF的限制性CNN,用于加权令牌表示,这允许变压器明确地模拟所有层中的相同重要性,而在使用较大的RF时,没有隐含地混淆邻居令牌。为了改善可见区域之间的外观一致性,引入了一种新的注意力层(aal)以更好地利用远方相关的高频功能。总体而言,与若干数据集上的最先进方法相比,大量实验表现出卓越的性能。
translated by 谷歌翻译
去除阴影的关键是通过非阴影区域的指导恢复阴影区域的内容。由于远程建模不足,基于CNN的方法无法彻底研究非阴影地区的信息。为了解决这个问题,我们提出了一个新颖的清洁效果图网络(CNSNET),并具有面向阴影的自适应归一化(SOAN)模块,并根据阴影蒙版带有带有变压器(SAAT)模块的阴影吸引的聚合。在影子面罩的指导下,Soan模块制定了非阴影区域的统计数据,并将它们适应到阴影区域以进行区域修复。 SAAT模块利用阴影面膜来精确指导每个阴影像素的修复,通过考虑来自无阴影区域的高度相关像素以进行全球像素恢复。在三个基准数据集(ISTD,ISTD+和SRD)上进行了广泛的实验表明,我们的方法可实现出色的脱落性能。
translated by 谷歌翻译
大多数现代脸部完成方法采用AutoEncoder或其变体来恢复面部图像中缺失的区域。编码器通常用于学习强大的表现,在满足复杂的学习任务的挑战方面发挥着重要作用。具体地,各种掩模通常在野外的面部图像中呈现,形成复杂的图案,特别是在Covid-19的艰难时期。编码器很难在这种复杂的情况下捕捉如此强大的陈述。为了解决这一挑战,我们提出了一个自我监督的暹罗推论网络,以改善编码器的泛化和鲁棒性。它可以从全分辨率图像编码上下文语义并获得更多辨别性表示。为了处理面部图像的几何变型,将密集的对应字段集成到网络中。我们进一步提出了一种具有新型双重关注融合模块(DAF)的多尺度解码器,其可以以自适应方式将恢复和已知区域组合。这种多尺度架构有利于解码器利用从编码器学习到图像中的辨别性表示。广泛的实验清楚地表明,与最先进的方法相比,拟议的方法不仅可以实现更具吸引力的结果,而且还提高了蒙面的面部识别的性能。
translated by 谷歌翻译
深层图像介绍取得了令人印象深刻的进步,随着图像产生和处理算法的最新进展。我们声称,可以通过生成的结构和纹理更好地判断介入算法的性能。结构是指孔中生成的对象边界或新的几何结构,而纹理是指高频细节,尤其是在结构区域内填充的人造重复模式。我们认为,更好的结构通常是从基于粗糙的GAN的发电机网络中获得的,而如今重复模式可以通过最新的高频快速快速傅立叶卷积层进行更好的建模。在本文中,我们提出了一个新颖的介绍网络,结合了这两种设计的优势。因此,我们的模型具有出色的视觉质量,可以匹配结构生成和使用单个网络重复纹理合成的最新性能。广泛的实验证明了该方法的有效性,我们的结论进一步突出了图像覆盖质量,结构和纹理的两个关键因素,即未来的设计方向。
translated by 谷歌翻译
近年来,面部语义指导(包括面部地标,面部热图和面部解析图)和面部生成对抗网络(GAN)近年来已广泛用于盲面修复(BFR)。尽管现有的BFR方法在普通案例中取得了良好的性能,但这些解决方案在面对严重降解和姿势变化的图像时具有有限的弹性(例如,在现实世界情景中看起来右,左看,笑等)。在这项工作中,我们提出了一个精心设计的盲人面部修复网络,具有生成性面部先验。所提出的网络主要由非对称编解码器和stylegan2先验网络组成。在非对称编解码器中,我们采用混合的多路残留块(MMRB)来逐渐提取输入图像的弱纹理特征,从而可以更好地保留原始面部特征并避免过多的幻想。 MMRB也可以在其他网络中插入插件。此外,多亏了StyleGAN2模型的富裕和多样化的面部先验,我们采用了微调的方法来灵活地恢复自然和现实的面部细节。此外,一种新颖的自我监督训练策略是专门设计用于面部修复任务的,以使分配更接近目标并保持训练稳定性。关于合成和现实世界数据集的广泛实验表明,我们的模型在面部恢复和面部超分辨率任务方面取得了卓越的表现。
translated by 谷歌翻译
Face Restoration (FR) aims to restore High-Quality (HQ) faces from Low-Quality (LQ) input images, which is a domain-specific image restoration problem in the low-level computer vision area. The early face restoration methods mainly use statistic priors and degradation models, which are difficult to meet the requirements of real-world applications in practice. In recent years, face restoration has witnessed great progress after stepping into the deep learning era. However, there are few works to study deep learning-based face restoration methods systematically. Thus, this paper comprehensively surveys recent advances in deep learning techniques for face restoration. Specifically, we first summarize different problem formulations and analyze the characteristic of the face image. Second, we discuss the challenges of face restoration. Concerning these challenges, we present a comprehensive review of existing FR methods, including prior based methods and deep learning-based methods. Then, we explore developed techniques in the task of FR covering network architectures, loss functions, and benchmark datasets. We also conduct a systematic benchmark evaluation on representative methods. Finally, we discuss future directions, including network designs, metrics, benchmark datasets, applications,etc. We also provide an open-source repository for all the discussed methods, which is available at https://github.com/TaoWangzj/Awesome-Face-Restoration.
translated by 谷歌翻译
虽然对图像背景恢复的研究从常规大小的降级图像恢复已经取得了显着的进步,但由于计算复杂性和记忆使用情况的爆炸式增长以及缺陷,恢复超高分辨率(例如4K)图像仍然是一项极具挑战性的任务。带注释的数据。在本文中,我们提出了一种用于超高分辨率图像恢复的新型模型,称为全局逐步生成网络(GLSGN),该模型采用涉及四个恢复途径的逐步恢复策略:三个局部途径和一条全球途径。本地途径着重于以局部但高分辨率的图像贴片的细粒度进行图像恢复,而全球途径则在缩放尺寸但完整的图像上执行图像恢复,以在全球视图中为本地途径提供线索包括语义和噪声模式。为了平滑这四个途径之间的相互协作,我们的GLSGN旨在确保在低级内容,感知注意力,恢复强度和高级语义方面的四个方面的跨道路一致性。作为这项工作的另一个主要贡献,我们还介绍了迄今为止的第一个超高分辨率数据集,以删除反射和降雨条纹,包括4,670个现实世界和合成图像。跨三个典型的图像背景修复任务进行的广泛实验,包括删除图像反射,删除图像雨条和图像去悬来表明我们的GLSGN始终优于最先进的方法。
translated by 谷歌翻译