Automatic colorization of anime line drawing has attracted much attention in recent years since it can substantially benefit the animation industry. User-hint based methods are the mainstream approach for line drawing colorization, while reference-based methods offer a more intuitive approach. Nevertheless, although reference-based methods can improve feature aggregation of the reference image and the line drawing, the colorization results are not compelling in terms of color consistency or semantic correspondence. In this paper, we introduce an attention-based model for anime line drawing colorization, in which a channel-wise and spatial-wise Convolutional Attention module is used to improve the ability of the encoder for feature extraction and key area perception, and a Stop-Gradient Attention module with cross-attention and self-attention is used to tackle the cross-domain long-range dependency problem. Extensive experiments show that our method outperforms other SOTA methods, with more accurate line structure and semantic color information.
translated by 谷歌翻译
基于参考的线路上色是计算机视觉中的一项具有挑战性的任务。颜色,纹理和阴影是根据抽象草图渲染的,该草图在很大程度上依赖于草图和参考之间的精确远程依赖模型。桥接跨模式信息并建模远程依赖性的流行技术采用了注意机制。但是,在基于参考的线路颜色化的背景下,几种技术将加剧现有的注意力训练困难,例如,自我监督的培训方案和基于GAN的损失。为了了解训练的不稳定,我们检测到注意力的梯度流并观察到注意力分支之间的梯度冲突。这种现象激发了我们通过在消除冲突阶段的同时保留主导梯度分支来减轻梯度问题。我们提出了一种使用这种训练策略,定格梯度注意(SGA)的新型注意机制,通过较大的边缘和更好的训练稳定性优于基线。与最新的线艺术色彩中的最新模块相比,我们的方法表明,FR \'Echet Inception距离(FID,最高27.21%)和结构相似性指数量度(SSIM,高达25.67%)的显着改善。几个基准。 SGA代码可从https://github.com/kunkun0w0/sga获得。
translated by 谷歌翻译
可控的人图像合成任务可以通过对身体姿势和外观的明确控制来实现广泛的应用。在本文中,我们提出了一个基于跨注意的样式分布模块,该模块在源语义样式和目标姿势转移的目标姿势之间计算。该模块故意选择每个语义表示的样式,并根据目标姿势分配它们。交叉注意的注意力矩阵表达了目标姿势与所有语义的源样式之间的动态相似性。因此,可以利用它来从源图像路由颜色和纹理,并受到目标解析图的进一步限制,以实现更清晰的目标。同时,为了准确编码源外观,还添加了不同语义样式之间的自我注意力。我们的模型的有效性在姿势转移和虚拟的尝试任务上进行了定量和质量验证。
translated by 谷歌翻译
基于对抗性学习的图像抑制方法,由于其出色的性能,已经在计算机视觉中进行了广泛的研究。但是,大多数现有方法对实际情况的质量功能有限,因为它们在相同场景的透明和合成的雾化图像上进行了培训。此外,它们在保留鲜艳的色彩和丰富的文本细节方面存在局限性。为了解决这些问题,我们开发了一个新颖的生成对抗网络,称为整体注意力融合对抗网络(HAAN),用于单个图像。 Haan由Fog2FogFogre块和FogFree2Fog块组成。在每个块中,有三个基于学习的模块,即雾除雾,颜色纹理恢复和雾合成,它们相互限制以生成高质量的图像。 Haan旨在通过学习雾图图像之间的整体通道空间特征相关性及其几个派生图像之间的整体通道空间特征相关性来利用纹理和结构信息的自相似性。此外,在雾合成模块中,我们利用大气散射模型来指导它,以通过新颖的天空分割网络专注于大气光优化来提高生成质量。关于合成和现实世界数据集的广泛实验表明,就定量准确性和主观的视觉质量而言,Haan的表现优于最先进的脱落方法。
translated by 谷歌翻译
人物图像的旨在在源图像上执行非刚性变形,这通常需要未对准数据对进行培训。最近,自我监督的方法通过合并自我重建的解除印章表达来表达这项任务的巨大前景。然而,这些方法未能利用解除戒断功能之间的空间相关性。在本文中,我们提出了一种自我监督的相关挖掘网络(SCM-NET)来重新排列特征空间中的源图像,其中两种协作模块是集成的,分解的样式编码器(DSE)和相关挖掘模块(CMM)。具体地,DSE首先在特征级别创建未对齐的对。然后,CMM建立用于特征重新排列的空间相关领域。最终,翻译模块将重新排列的功能转换为逼真的结果。同时,为了提高跨尺度姿态变换的保真度,我们提出了一种基于曲线图的体结构保持损失(BSR损耗),以保持半体上的合理的身体结构到全身。与Deepfashion DataSet进行的广泛实验表明了与其他监督和无监督和无监督的方法相比的方法的优势。此外,对面部的令人满意的结果显示了我们在其他变形任务中的方法的多功能性。
translated by 谷歌翻译
由于波长依赖性的光衰减,折射和散射,水下图像通常遭受颜色变形和模糊的细节。然而,由于具有未变形图像的数量有限数量的图像作为参考,培训用于各种降解类型的深度增强模型非常困难。为了提高数据驱动方法的性能,必须建立更有效的学习机制,使得富裕监督来自有限培训的示例资源的信息。在本文中,我们提出了一种新的水下图像增强网络,称为Sguie-net,其中我们将语义信息引入了共享常见语义区域的不同图像的高级指导。因此,我们提出了语义区域 - 明智的增强模块,以感知不同语义区域从多个尺度的劣化,并将其送回从其原始比例提取的全局注意功能。该策略有助于实现不同的语义对象的强大和视觉上令人愉快的增强功能,这应该由于对差异化增强的语义信息的指导应该。更重要的是,对于在训练样本分布中不常见的那些劣化类型,指导根据其语义相关性与已经良好的学习类型连接。对公共数据集的广泛实验和我们拟议的数据集展示了Sguie-Net的令人印象深刻的表现。代码和建议的数据集可用于:https://trentqq.github.io/sguie-net.html
translated by 谷歌翻译
Face Restoration (FR) aims to restore High-Quality (HQ) faces from Low-Quality (LQ) input images, which is a domain-specific image restoration problem in the low-level computer vision area. The early face restoration methods mainly use statistic priors and degradation models, which are difficult to meet the requirements of real-world applications in practice. In recent years, face restoration has witnessed great progress after stepping into the deep learning era. However, there are few works to study deep learning-based face restoration methods systematically. Thus, this paper comprehensively surveys recent advances in deep learning techniques for face restoration. Specifically, we first summarize different problem formulations and analyze the characteristic of the face image. Second, we discuss the challenges of face restoration. Concerning these challenges, we present a comprehensive review of existing FR methods, including prior based methods and deep learning-based methods. Then, we explore developed techniques in the task of FR covering network architectures, loss functions, and benchmark datasets. We also conduct a systematic benchmark evaluation on representative methods. Finally, we discuss future directions, including network designs, metrics, benchmark datasets, applications,etc. We also provide an open-source repository for all the discussed methods, which is available at https://github.com/TaoWangzj/Awesome-Face-Restoration.
translated by 谷歌翻译
示例引导图像生成的一个关键挑战在于在输入图像和引导图像之间建立细粒度的对应关系。尽管结果有令人鼓舞,但先前的方法还是依赖于对计算每点匹配的密集关注的依赖。在本文中,我们提出了一个动态稀疏注意的变压器模型,称为动态稀疏变压器(Dynast),以实现具有优惠效率的优质匹配。我们方法的核心是一个新颖的动态注意事项单元,致力于涵盖最佳代币数量的差异。具体而言,Dynast利用变压器结构的多层性质,并以级联的方式执行动态注意力方案,以完善匹配结果并合成视觉上令人愉悦的输出。此外,我们还为Dynast引入了一个统一的培训目标,使其成为监督和无监督场景的广泛参考图像翻译框架。对三种应用,姿势引导的人形象产生,基于边缘的面部合成以及未变形的图像样式转移的广泛实验表明,朝代在本地细节中实现了卓越的性能,超过了最新的技术,同时降低了计算成本。我们的代码可从https://github.com/huage001/dynast获得
translated by 谷歌翻译
面部去夹旨在从模糊的输入图像恢复清晰的面部图像,具有更明确的结构和面部细节。然而,大多数传统的图像和面部去夹方法的重点是整个产生的图像分辨率,而不考虑特殊的面部纹理并且通常产生无充气的细节。考虑到面部和背景具有不同的分布信息,在本研究中,我们设计了一种基于可分离的归一化和自适应非规范化(SnAdnet)的有效面部去孔网络。首先,我们微调面部解析网络以获得精确的面部结构。然后,我们将脸部解析功能划分为面部前景和背景。此外,我们构建了一种新的特征自适应非规范化,以将FAYCIAL结构规则为辅助的条件,以产生更加和谐的面部结构。另外,我们提出了一种纹理提取器和多贴片鉴别器,以增强所生成的面部纹理信息。 Celeba和Celeba-HQ数据集的实验结果表明,所提出的面部去孔网络以更具面部细节恢复面部结构,并在结构相似性索引方法(SSIM),峰值信号方面对最先进的方法进行有利的方法。信噪比(PSNR),Frechet Inception距离(FID)和L1以及定性比较。
translated by 谷歌翻译
基于示例的基于彩色方法依赖于参考图像来为目标灰度图像提供合理的颜色。基于示例的颜色的关键和难度是在这两个图像之间建立准确的对应关系。以前的方法已经尝试构建这种对应关系,而是面临两个障碍。首先,使用用于计算对应的亮度通道是不准确的。其次,它们构建的密集信件引入了错误的匹配结果并提高了计算负担。为了解决这两个问题,我们提出了语义 - 稀疏的彩色网络(SSCN)以粗细的方式将全局图像样式和详细的语义相关颜色传输到灰度图像。我们的网络可以完全平衡全局和本地颜色,同时减轻了暧昧的匹配问题。实验表明,我们的方法优于定量和定性评估的现有方法,实现了最先进的性能。
translated by 谷歌翻译
Automatic image colorization is a particularly challenging problem. Due to the high illness of the problem and multi-modal uncertainty, directly training a deep neural network usually leads to incorrect semantic colors and low color richness. Existing transformer-based methods can deliver better results but highly depend on hand-crafted dataset-level empirical distribution priors. In this work, we propose DDColor, a new end-to-end method with dual decoders, for image colorization. More specifically, we design a multi-scale image decoder and a transformer-based color decoder. The former manages to restore the spatial resolution of the image, while the latter establishes the correlation between semantic representations and color queries via cross-attention. The two decoders incorporate to learn semantic-aware color embedding by leveraging the multi-scale visual features. With the help of these two decoders, our method succeeds in producing semantically consistent and visually plausible colorization results without any additional priors. In addition, a simple but effective colorfulness loss is introduced to further improve the color richness of generated results. Our extensive experiments demonstrate that the proposed DDColor achieves significantly superior performance to existing state-of-the-art works both quantitatively and qualitatively. Codes will be made publicly available.
translated by 谷歌翻译
基于参考的图像超分辨率(REFSR)旨在利用辅助参考(REF)图像为超溶解的低分辨率(LR)图像。最近,RefSR引起了极大的关注,因为它提供了超越单图SR的替代方法。但是,解决REFSR问题有两个关键的挑战:(i)当它们显着不同时,很难匹配LR和Ref图像之间的对应关系; (ii)如何将相关纹理从参考图像转移以补偿LR图像的细节非常具有挑战性。为了解决RefSR的这些问题,本文提出了一个可变形的注意变压器,即DATSR,具有多个尺度,每个尺度由纹理特征编码器(TFE)模块组成,基于参考的可变形注意(RDA)模块和残差功能聚合(RFA)模块。具体而言,TFE首先提取图像转换(例如,亮度)不敏感的LR和REF图像,RDA可以利用多个相关纹理来补偿更多的LR功能信息,而RFA最终汇总了LR功能和相关纹理,以获得更愉快的宜人的质地结果。广泛的实验表明,我们的DATSR在定量和质量上实现了基准数据集上的最新性能。
translated by 谷歌翻译
近年来,面部语义指导(包括面部地标,面部热图和面部解析图)和面部生成对抗网络(GAN)近年来已广泛用于盲面修复(BFR)。尽管现有的BFR方法在普通案例中取得了良好的性能,但这些解决方案在面对严重降解和姿势变化的图像时具有有限的弹性(例如,在现实世界情景中看起来右,左看,笑等)。在这项工作中,我们提出了一个精心设计的盲人面部修复网络,具有生成性面部先验。所提出的网络主要由非对称编解码器和stylegan2先验网络组成。在非对称编解码器中,我们采用混合的多路残留块(MMRB)来逐渐提取输入图像的弱纹理特征,从而可以更好地保留原始面部特征并避免过多的幻想。 MMRB也可以在其他网络中插入插件。此外,多亏了StyleGAN2模型的富裕和多样化的面部先验,我们采用了微调的方法来灵活地恢复自然和现实的面部细节。此外,一种新颖的自我监督训练策略是专门设计用于面部修复任务的,以使分配更接近目标并保持训练稳定性。关于合成和现实世界数据集的广泛实验表明,我们的模型在面部恢复和面部超分辨率任务方面取得了卓越的表现。
translated by 谷歌翻译
本文的目标是对面部素描合成(FSS)问题进行全面的研究。然而,由于获得了手绘草图数据集的高成本,因此缺乏完整的基准,用于评估过去十年的FSS算法的开发。因此,我们首先向FSS引入高质量的数据集,名为FS2K,其中包括2,104个图像素描对,跨越三种类型的草图样式,图像背景,照明条件,肤色和面部属性。 FS2K与以前的FSS数据集不同于难度,多样性和可扩展性,因此应促进FSS研究的进展。其次,我们通过调查139种古典方法,包括34个手工特征的面部素描合成方法,37个一般的神经式传输方法,43个深映像到图像翻译方法,以及35个图像 - 素描方法。此外,我们详细说明了现有的19个尖端模型的综合实验。第三,我们为FSS提供了一个简单的基准,名为FSGAN。只有两个直截了当的组件,即面部感知屏蔽和风格矢量扩展,FSGAN将超越所提出的FS2K数据集的所有先前最先进模型的性能,通过大边距。最后,我们在过去几年中汲取的经验教训,并指出了几个未解决的挑战。我们的开源代码可在https://github.com/dengpingfan/fsgan中获得。
translated by 谷歌翻译
化妆传输不仅要提取参考图像的化妆风格,还要将化妆样式渲染到目标图像的语义对应位置。然而,大多数现有方法都侧重于前者并忽略后者,导致未能达到所需的结果。为了解决上述问题,我们提出了一个统一的对称语义感知变压器(SSAT)网络,其包括语义对应学习,以实现同时实现化妆和移除。在SSAT中,提出了一种新的对称语义对应特征传输(SSCFT)模块和弱监督的语义损失来模拟和促进建立准确的语义对应。在生成过程中,提取的化妆功能通过SSCFT在空间扭转,以实现与目标图像的语义对齐,然后将失真的化妆功能与未修改的化妆无关功能组合以产生最终结果。实验表明,我们的方法获得了更多可视精确的化妆转移结果,与其他最先进的化妆方法相比的用户学习反映了我们方法的优越性。此外,我们验证了所提出的方法在表达式和姿势的差异,对象遮挡场景中的鲁棒性,并将其扩展到视频化妆传输。代码将在https://gitee.com/sunzhaoyang0304/ssat-msp上获得。
translated by 谷歌翻译
在过去几年中,深度卷积神经网络在低光图像增强中取得了令人印象深刻的成功。深度学习方法大多通过堆叠网络结构并加深网络深度来提高特征提取的能力。在单个时导致更多的运行时间成本为了减少推理时间,在完全提取本地特征和全局特征的同时,我们通过SGN定期,我们提出了基于广泛的自我引导网络(Absgn)的现实世界低灯图像增强。策略是一种广泛的策略处理不同曝光的噪音。所提出的网络被许多主流基准验证.Aditional实验结果表明,所提出的网络优于最先进的低光图像增强解决方案。
translated by 谷歌翻译
大多数现代脸部完成方法采用AutoEncoder或其变体来恢复面部图像中缺失的区域。编码器通常用于学习强大的表现,在满足复杂的学习任务的挑战方面发挥着重要作用。具体地,各种掩模通常在野外的面部图像中呈现,形成复杂的图案,特别是在Covid-19的艰难时期。编码器很难在这种复杂的情况下捕捉如此强大的陈述。为了解决这一挑战,我们提出了一个自我监督的暹罗推论网络,以改善编码器的泛化和鲁棒性。它可以从全分辨率图像编码上下文语义并获得更多辨别性表示。为了处理面部图像的几何变型,将密集的对应字段集成到网络中。我们进一步提出了一种具有新型双重关注融合模块(DAF)的多尺度解码器,其可以以自适应方式将恢复和已知区域组合。这种多尺度架构有利于解码器利用从编码器学习到图像中的辨别性表示。广泛的实验清楚地表明,与最先进的方法相比,拟议的方法不仅可以实现更具吸引力的结果,而且还提高了蒙面的面部识别的性能。
translated by 谷歌翻译
近年来,着色吸引了越来越多的兴趣。经典的基于参考的方法通常依靠外部颜色图像来获得合理的结果。检索此类示例不可避免地需要大型图像数据库或在线搜索引擎。最近的基于深度学习的方法可以自动以低成本为图像着色。但是,总是伴随着不满意的文物和不连贯的颜色。在这项工作中,我们提出了GCP颜色化,以利用预审前的生成对抗网络(GAN)封装的丰富和多样化的颜色先验进行自动着色。具体而言,我们首先通过GAN编码器“检索”匹配的功能(类似于示例),然后将这些功能与功能调制量合并到着色过程中。得益于强大的生成颜色先验(GCP)和精致的设计,我们的GCP颜色可以通过单个前向传球产生生动的颜色。此外,通过修改GAN潜在代码获得多样化的结果非常方便。 GCP颜色还继承了可解释的gan的功能,并可以通过穿过甘恩潜在空间来实现可控制和平滑的过渡。广泛的实验和用户研究表明,GCP颜色比以前的作品具有出色的性能。代码可在https://github.com/tothebeginning/gcp-colorization上找到。
translated by 谷歌翻译
We study on image super-resolution (SR), which aims to recover realistic textures from a low-resolution (LR) image. Recent progress has been made by taking high-resolution images as references (Ref), so that relevant textures can be transferred to LR images. However, existing SR approaches neglect to use attention mechanisms to transfer high-resolution (HR) textures from Ref images, which limits these approaches in challenging cases. In this paper, we propose a novel Texture Transformer Network for Image Super-Resolution (TTSR), in which the LR and Ref images are formulated as queries and keys in a transformer, respectively. TTSR consists of four closely-related modules optimized for image generation tasks, including a learnable texture extractor by DNN, a relevance embedding module, a hard-attention module for texture transfer, and a softattention module for texture synthesis. Such a design encourages joint feature learning across LR and Ref images, in which deep feature correspondences can be discovered by attention, and thus accurate texture features can be transferred. The proposed texture transformer can be further stacked in a cross-scale way, which enables texture recovery from different levels (e.g., from 1× to 4× magnification). Extensive experiments show that TTSR achieves significant improvements over state-of-the-art approaches on both quantitative and qualitative evaluations. The source code can be downloaded at https://github.com/ researchmm/TTSR.
translated by 谷歌翻译
深度学习方法在图像染色中优于传统方法。为了生成上下文纹理,研究人员仍在努力改进现有方法,并提出可以提取,传播和重建类似于地面真实区域的特征的模型。此外,更深层的缺乏高质量的特征传递机制有助于对所产生的染色区域有助于持久的像差。为了解决这些限制,我们提出了V-Linknet跨空间学习策略网络。为了改善语境化功能的学习,我们设计了一种使用两个编码器的损失模型。此外,我们提出了递归残留过渡层(RSTL)。 RSTL提取高电平语义信息并将其传播为下层。最后,我们将在与不同面具的同一面孔和不同面部面上的相同面上进行了比较的措施。为了提高图像修复再现性,我们提出了一种标准协议来克服各种掩模和图像的偏差。我们使用实验方法调查V-LinkNet组件。当使用标准协议时,在Celeba-HQ上评估时,我们的结果超越了现有技术。此外,我们的模型可以在Paris Street View上评估时概括良好,以及具有标准协议的Parume2数据集。
translated by 谷歌翻译