Image harmonization task aims at harmonizing different composite foreground regions according to specific background image. Previous methods would rather focus on improving the reconstruction ability of the generator by some internal enhancements such as attention, adaptive normalization and light adjustment, $etc.$. However, they pay less attention to discriminating the foreground and background appearance features within a restricted generator, which becomes a new challenge in image harmonization task. In this paper, we propose a novel image harmonization framework with external style fusion and region-wise contrastive learning scheme. For the external style fusion, we leverage the external background appearance from the encoder as the style reference to generate harmonized foreground in the decoder. This approach enhances the harmonization ability of the decoder by external background guidance. Moreover, for the contrastive learning scheme, we design a region-wise contrastive loss function for image harmonization task. Specifically, we first introduce a straight-forward samples generation method that selects negative samples from the output harmonized foreground region and selects positive samples from the ground-truth background region. Our method attempts to bring together corresponding positive and negative samples by maximizing the mutual information between the foreground and background styles, which desirably makes our harmonization network more robust to discriminate the foreground and background style features when harmonizing composite images. Extensive experiments on the benchmark datasets show that our method can achieve a clear improvement in harmonization quality and demonstrate the good generalization capability in real-scenario applications.
translated by 谷歌翻译
图像协调旨在根据具体背景修改复合区域的颜色。以前的工作模型是使用Unet系列结构的像素-ID映像转换。然而,模型大小和计算成本限制了模型在边缘设备和更高分辨率图像上的能力。为此,我们首次提出了一种新的空间分离曲线渲染网络(S $ ^ 2 $ CRNET),首次进行高效和高分辨率的图像协调。在S $ ^ 2 $ CRNET中,我们首先将屏蔽前景和背景的缩略图中提取空间分离的嵌入物。然后,我们设计一种曲线渲染模块(CRM),其使用线性层学习并结合空间特定知识,以生成前景区域中的方向曲线映射的参数。最后,我们使用学习的颜色曲线直接渲染原始的高分辨率图像。此外,我们还通过Cascaded-CRM和语义CRM分别进行了两个框架的延伸,分别用于级联细化和语义指导。实验表明,与以前的方法相比,该方法降低了90%以上的参数,但仍然达到了合成的iHarmony4和现实世界DIH测试集的最先进的性能。此外,我们的方法可以在0.1秒内在更高分辨率图像(例如,2048美元\ times2048 $)上顺利工作,而不是所有现有方法的GPU计算资源。代码将在\ url {http://github.com/stefanleong/s2crnet}中提供。
translated by 谷歌翻译
对比学习在各种高级任务中取得了显着的成功,但是为低级任务提出了较少的方法。采用VANILLA对比学习技术采用直接为低级视觉任务提出的VANILLA对比度学习技术,因为所获得的全局视觉表现不足以用于需要丰富的纹理和上下文信息的低级任务。在本文中,我们提出了一种用于单图像超分辨率(SISR)的新型对比学习框架。我们从两个视角调查基于对比的学习的SISR:样品施工和特征嵌入。现有方法提出了一些天真的样本施工方法(例如,考虑到作为负样本的低质量输入以及作为正样品的地面真理),并且它们采用了先前的模型(例如,预先训练的VGG模型)来获得该特征嵌入而不是探索任务友好的。为此,我们向SISR提出了一个实用的对比学习框架,涉及在频率空间中产生许多信息丰富的正负样本。我们不是利用其他预先训练的网络,我们设计了一种从鉴别器网络继承的简单但有效的嵌入网络,并且可以用主SR网络迭代优化,使其成为任务最通报。最后,我们对我们的方法进行了广泛的实验评估,与基准方法相比,在目前的最先进的SISR方法中显示出高达0.21 dB的显着增益。
translated by 谷歌翻译
Image restoration under hazy weather condition, which is called single image dehazing, has been of significant interest for various computer vision applications. In recent years, deep learning-based methods have achieved success. However, existing image dehazing methods typically neglect the hierarchy of features in the neural network and fail to exploit their relationships fully. To this end, we propose an effective image dehazing method named Hierarchical Contrastive Dehazing (HCD), which is based on feature fusion and contrastive learning strategies. HCD consists of a hierarchical dehazing network (HDN) and a novel hierarchical contrastive loss (HCL). Specifically, the core design in the HDN is a Hierarchical Interaction Module, which utilizes multi-scale activation to revise the feature responses hierarchically. To cooperate with the training of HDN, we propose HCL which performs contrastive learning on hierarchically paired exemplars, facilitating haze removal. Extensive experiments on public datasets, RESIDE, HazeRD, and DENSE-HAZE, demonstrate that HCD quantitatively outperforms the state-of-the-art methods in terms of PSNR, SSIM and achieves better visual quality.
translated by 谷歌翻译
Automatic font generation without human experts is a practical and significant problem, especially for some languages that consist of a large number of characters. Existing methods for font generation are often in supervised learning. They require a large number of paired data, which are labor-intensive and expensive to collect. In contrast, common unsupervised image-to-image translation methods are not applicable to font generation, as they often define style as the set of textures and colors. In this work, we propose a robust deformable generative network for unsupervised font generation (abbreviated as DGFont++). We introduce a feature deformation skip connection (FDSC) to learn local patterns and geometric transformations between fonts. The FDSC predicts pairs of displacement maps and employs the predicted maps to apply deformable convolution to the low-level content feature maps. The outputs of FDSC are fed into a mixer to generate final results. Moreover, we introduce contrastive self-supervised learning to learn a robust style representation for fonts by understanding the similarity and dissimilarities of fonts. To distinguish different styles, we train our model with a multi-task discriminator, which ensures that each style can be discriminated independently. In addition to adversarial loss, another two reconstruction losses are adopted to constrain the domain-invariant characteristics between generated images and content images. Taking advantage of FDSC and the adopted loss functions, our model is able to maintain spatial information and generates high-quality character images in an unsupervised manner. Experiments demonstrate that our model is able to generate character images of higher quality than state-of-the-art methods.
translated by 谷歌翻译
先前的协调方法着重于基于输入掩码的图像中调整一个无量子区域。在处理不同语义区域的不同扰动时,他们可能会遇到问题,而没有可用的输入口罩。为了处理一个图像粘贴到来自不同图像的几个前景的问题,需要将它们朝着不同的域方向进行协调,而无需任何掩码作为输入,我们提出了一个新的语义引导的多掩码图像和谐任务。与以前的单掩模图像协调任务不同,每个非火山图像都根据语义分割掩码的方式扰动不同的方法。分别基于$ 150 $和19美元的语义类别构建了两个具有挑战性的基准HSCENE和HLIP。此外,以前的基线专注于回归统一图像的每个像素的确切值。生成的结果在“黑匣子”中,无法编辑。在这项工作中,我们提出了一种新颖的方式来通过预测一系列操作员面具来编辑inharmonious图像。掩模表示应用特定尺寸的亮度,饱和度和颜色的水平和位置。操作员蒙版为用户提供了更大的灵活性,可以进一步编辑图像。广泛的实验验证了基于操作员掩模的网络可以进一步改善那些最新的方法,这些方法在扰动是结构性时直接回归RGB图像。已经在我们的构造基准上进行了实验,以验证我们所提出的基于掩护的框架可以在更复杂的场景中定位和修改inharmonious区域。我们的代码和模型可在https://github.com/xuqianren/semantic-guided-multi-mask-image-harmonization.git上找到。
translated by 谷歌翻译
In image-to-image translation, each patch in the output should reflect the content of the corresponding patch in the input, independent of domain. We propose a straightforward method for doing so -maximizing mutual information between the two, using a framework based on contrastive learning. The method encourages two elements (corresponding patches) to map to a similar point in a learned feature space, relative to other elements (other patches) in the dataset, referred to as negatives. We explore several critical design choices for making contrastive learning effective in the image synthesis setting. Notably, we use a multilayer, patch-based approach, rather than operate on entire images. Furthermore, we draw negatives from within the input image itself, rather than from the rest of the dataset. We demonstrate that our framework enables one-sided translation in the unpaired image-to-image translation setting, while improving quality and reducing training time. In addition, our method can even be extended to the training setting where each "domain" is only a single image.
translated by 谷歌翻译
大多数现代脸部完成方法采用AutoEncoder或其变体来恢复面部图像中缺失的区域。编码器通常用于学习强大的表现,在满足复杂的学习任务的挑战方面发挥着重要作用。具体地,各种掩模通常在野外的面部图像中呈现,形成复杂的图案,特别是在Covid-19的艰难时期。编码器很难在这种复杂的情况下捕捉如此强大的陈述。为了解决这一挑战,我们提出了一个自我监督的暹罗推论网络,以改善编码器的泛化和鲁棒性。它可以从全分辨率图像编码上下文语义并获得更多辨别性表示。为了处理面部图像的几何变型,将密集的对应字段集成到网络中。我们进一步提出了一种具有新型双重关注融合模块(DAF)的多尺度解码器,其可以以自适应方式将恢复和已知区域组合。这种多尺度架构有利于解码器利用从编码器学习到图像中的辨别性表示。广泛的实验清楚地表明,与最先进的方法相比,拟议的方法不仅可以实现更具吸引力的结果,而且还提高了蒙面的面部识别的性能。
translated by 谷歌翻译
作为一个常见的图像编辑操作,图像组成旨在将前景从一个图像切割并粘贴在另一个图像上,从而产生复合图像。但是,有许多问题可能使复合图像不现实。这些问题可以总结为前景和背景之间的不一致,包括外观不一致(例如,不兼容的照明),几何不一致(例如不合理的大小)和语义不一致(例如,不匹配的语义上下文)。先前的作品将图像组成任务分为多个子任务,其中每个子任务在一个或多个问题上目标。具体而言,对象放置旨在为前景找到合理的比例,位置和形状。图像混合旨在解决前景和背景之间的不自然边界。图像协调旨在调整前景的照明统计数据。影子生成旨在为前景产生合理的阴影。通过将所有上述努力放在一起,我们可以获取现实的复合图像。据我们所知,以前没有关于图像组成的调查。在本文中,我们对图像组成的子任务进行了全面的调查。对于每个子任务,我们总结了传统方法,基于深度学习的方法,数据集和评估。我们还指出了每个子任务中现有方法的局限性以及整个图像组成任务的问题。图像组合的数据集和代码在https://github.com/bcmi/awesome-image-composition上进行了总结。
translated by 谷歌翻译
Image harmonization aims to produce visually harmonious composite images by adjusting the foreground appearance to be compatible with the background. When the composite image has photographic foreground and painterly background, the task is called painterly image harmonization. There are only few works on this task, which are either time-consuming or weak in generating well-harmonized results. In this work, we propose a novel painterly harmonization network consisting of a dual-domain generator and a dual-domain discriminator, which harmonizes the composite image in both spatial domain and frequency domain. The dual-domain generator performs harmonization by using AdaIn modules in the spatial domain and our proposed ResFFT modules in the frequency domain. The dual-domain discriminator attempts to distinguish the inharmonious patches based on the spatial feature and frequency feature of each patch, which can enhance the ability of generator in an adversarial manner. Extensive experiments on the benchmark dataset show the effectiveness of our method. Our code and model are available at https://github.com/bcmi/PHDNet-Painterly-Image-Harmonization.
translated by 谷歌翻译
由于波长依赖性的光衰减,折射和散射,水下图像通常遭受颜色变形和模糊的细节。然而,由于具有未变形图像的数量有限数量的图像作为参考,培训用于各种降解类型的深度增强模型非常困难。为了提高数据驱动方法的性能,必须建立更有效的学习机制,使得富裕监督来自有限培训的示例资源的信息。在本文中,我们提出了一种新的水下图像增强网络,称为Sguie-net,其中我们将语义信息引入了共享常见语义区域的不同图像的高级指导。因此,我们提出了语义区域 - 明智的增强模块,以感知不同语义区域从多个尺度的劣化,并将其送回从其原始比例提取的全局注意功能。该策略有助于实现不同的语义对象的强大和视觉上令人愉快的增强功能,这应该由于对差异化增强的语义信息的指导应该。更重要的是,对于在训练样本分布中不常见的那些劣化类型,指导根据其语义相关性与已经良好的学习类型连接。对公共数据集的广泛实验和我们拟议的数据集展示了Sguie-Net的令人印象深刻的表现。代码和建议的数据集可用于:https://trentqq.github.io/sguie-net.html
translated by 谷歌翻译
未配对的图像到图像翻译旨在找到源域和目标域之间的映射。为了减轻缺乏源图像的监督标签的问题,通过假设未配对的图像之间的可逆关系,已经提出了基于周期矛盾的方法来保存图像结构。但是,此假设仅使用图像对之间的有限对应关系。最近,使用基于贴片的正/负学习,对比度学习(CL)已被用来进一步研究未配对图像翻译中的图像对应关系。基于贴片的对比例程通过自相似度计算获得阳性,并将其余的斑块视为负面。这种灵活的学习范式以低成本获得辅助上下文化信息。由于负面的样本人数令人印象深刻,因此我们有好奇心,我们基于一个问题进行了调查:是否需要所有负面的对比度学习?与以前的CL方法不同,在本文中,我们从信息理论的角度研究了负面因素,并通过稀疏和对补丁进行排名来引入一种新的负面修剪技术,以用于未配对的图像到图像翻译(PUT) 。所提出的算法是有效的,灵活的,并使模型能够稳定地学习相应贴片之间的基本信息。通过将质量置于数量上,只需要几个负贴片即可获得更好的结果。最后,我们通过比较实验验证了模型的优势,稳定性和多功能性。
translated by 谷歌翻译
场景文本擦除旨在从场景图像中删除文本内容,而当前的最新文本擦除模型经过大规模合成数据的培训。尽管数据合成引擎可以提供大量注释的训练样本,但合成数据和现实世界数据之间存在差异。在本文中,我们在未标记的现实世界场景文本图像上采用自我审视来进行特征表示。一项新颖的借口任务旨在在图像变体的文本蒙版之间保持一致。我们设计了渐进式擦除网络,以删除剩余文本。场景文本通过利用中间生成的结果逐渐消除,这为随后的更高质量结果奠定了基础。实验表明,我们的方法显着改善了文本擦除任务的概括,并在公共基准上实现了最先进的性能。
translated by 谷歌翻译
我们从一组未配对的清晰和朦胧的图像中提供了实用的基于学习的图像飞行网络。本文提供了一种新的观点,可以将图像除去作为两类分离的因子分离任务,即清晰图像重建的任务相关因素以及与雾霾相关的分布的任务含量。为了在深度特征空间中实现这两类因素的分离,将对比度学习引入了一个自行车框架中,以通过指导与潜在因素相关的生成的图像来学习分离的表示形式。通过这种表述,提出的对比度拆除的脱掩护方法(CDD-GAN)采用负面发电机与编码器网络合作以交替进行更新,以产生挑战性负面对手的队列。然后,这些负面的对手是端到端训练的,以及骨干代表网络,以通过最大化对抗性对比损失来增强歧视性信息并促进因素分离性能。在培训期间,我们进一步表明,硬性负面例子可以抑制任务 - 无关紧要的因素和未配对的清晰景象可以增强与任务相关的因素,以便更好地促进雾霾去除并帮助图像恢复。对合成和现实世界数据集的广泛实验表明,我们的方法对现有的未配对飞行基线的表现良好。
translated by 谷歌翻译
虽然变压器在各种高级视觉任务中取得了显着性能,但它仍然具有挑战性地利用变压器在图像恢复中的全部潜力。 CRUX在典型的编码器 - 解码器框架中应用了有限的应用变压器,用于图像恢复,从层次的不同深度(尺度)的繁重的自我关注计算负荷和低效通信产生。在本文中,我们为图像恢复提供了一种深度和有效的变换器网络,称为U2-iner,能够使用变压器作为核心操作以在深度编码和解码空间中执行图像恢复。具体地,它利用嵌套的U形结构来促进不同层的不同层的相互作用。此外,我们通过引入要压缩令牌表示的特征过滤机制来优化基本变压器块的计算效率。除了典型的图像恢复方式外,我们的U2-ider还在多个方面进行对比学习,以进一步与背景图像分离噪声分量。对各种图像恢复任务的广泛实验,分别包括反射去除,雨串去除和除去,证明了所提出的U2-inter的有效性。
translated by 谷歌翻译
在低灯条件下捕获的图像遭受低可视性和各种成像伪影,例如真实噪音。现有的监督启示算法需要大量的像素对齐的训练图像对,这很难在实践中准备。虽然弱监督或无人监督的方法可以缓解这些挑战,但不使用配对的训练图像,由于缺乏相应的监督,一些现实世界的文物不可避免地被错误地放大。在本文中,而不是使用完美的对齐图像进行培训,我们创造性地使用未对准的现实世界图像作为指导,这很容易收集。具体地,我们提出了一个交叉图像解剖线程(CIDN),以分别提取来自低/常光图像的交叉图像亮度和图像特定内容特征。基于此,CIDN可以同时校正特征域中的亮度和抑制图像伪像,其在很大程度上将鲁棒性增加到像素偏移。此外,我们收集了一个新的低光图像增强数据集,包括具有现实世界腐败的未对准培训图像。实验结果表明,我们的模型在新建议的数据集和其他流行的低光数据集中实现了最先进的表演。
translated by 谷歌翻译
从医用试剂染色图像中分割牙齿斑块为诊断和确定随访治疗计划提供了宝贵的信息。但是,准确的牙菌斑分割是一项具有挑战性的任务,需要识别牙齿和牙齿斑块受到语义腔区域的影响(即,在牙齿和牙齿斑块之间的边界区域中存在困惑的边界)以及实例形状的复杂变化,这些变化均未完全解决。现有方法。因此,我们提出了一个语义分解网络(SDNET),该网络介绍了两个单任务分支,以分别解决牙齿和牙齿斑块的分割,并设计了其他约束,以学习每个分支的特定类别特征,从而促进语义分解并改善该类别的特征牙齿分割的性能。具体而言,SDNET以分裂方式学习了两个单独的分割分支和牙齿的牙齿,以解除它们之间的纠缠关系。指定类别的每个分支都倾向于产生准确的分割。为了帮助这两个分支更好地关注特定类别的特征,进一步提出了两个约束模块:1)通过最大化不同类别表示之间的距离来学习判别特征表示,以了解判别特征表示形式,以减少减少负面影响关于特征提取的语义腔区域; 2)结构约束模块(SCM)通过监督边界感知的几何约束提供完整的结构信息,以提供各种形状的牙菌斑。此外,我们构建了一个大规模的开源染色牙菌斑分割数据集(SDPSEG),该数据集为牙齿和牙齿提供高质量的注释。 SDPSEG数据集的实验结果显示SDNET达到了最新的性能。
translated by 谷歌翻译
基于深度学习的低光图像增强方法通常需要巨大的配对训练数据,这对于在现实世界的场景中捕获是不切实际的。最近,已经探索了无监督的方法来消除对成对训练数据的依赖。然而,由于没有前衣,它们在不同的现实情景中表现得不稳定。为了解决这个问题,我们提出了一种基于先前(HEP)的有效预期直方图均衡的无监督的低光图像增强方法。我们的作品受到了有趣的观察,即直方图均衡增强图像的特征图和地面真理是相似的。具体而言,我们制定了HEP,提供了丰富的纹理和亮度信息。嵌入一​​个亮度模块(LUM),它有助于将低光图像分解为照明和反射率图,并且反射率图可以被视为恢复的图像。然而,基于Retinex理论的推导揭示了反射率图被噪声污染。我们介绍了一个噪声解剖学模块(NDM),以解除反射率图中的噪声和内容,具有不配对清洁图像的可靠帮助。通过直方图均衡的先前和噪声解剖,我们的方法可以恢复更精细的细节,更有能力抑制现实世界低光场景中的噪声。广泛的实验表明,我们的方法对最先进的无监督的低光增强算法有利地表现出甚至与最先进的监督算法匹配。
translated by 谷歌翻译
视频突出对象检测旨在在视频中找到最具视觉上的对象。为了探索时间依赖性,现有方法通常是恢复性的神经网络或光学流量。然而,这些方法需要高计算成本,并且往往会随着时间的推移积累不准确性。在本文中,我们提出了一种带有注意模块的网络,以学习视频突出物体检测的对比特征,而没有高计算时间建模技术。我们开发了非本地自我关注方案,以捕获视频帧中的全局信息。共注意配方用于结合低级和高级功能。我们进一步应用了对比学学习以改善来自相同视频的前景区域对的特征表示,并将前景 - 背景区域对被推除在潜在的空间中。帧内对比损失有助于将前景和背景特征分开,并且帧间的对比损失提高了时间的稠度。我们对多个基准数据集进行广泛的实验,用于视频突出对象检测和无监督的视频对象分割,并表明所提出的方法需要较少的计算,并且对最先进的方法进行有利地执行。
translated by 谷歌翻译
灰度图像着色是AI在信息恢复中的引人入胜的应用。该问题的天生性质不良的性质使其更具挑战性,因为输出可能是多模式的。目前正在使用的基于学习的方法为直接情况产生可接受的结果,但在没有明确的图形分离的情况下通常无法恢复上下文信息。同样,由于在完整图像特征上训练的单个模型不足以学习各种数据模式,因此图像遭受了颜色出血和饱和背景。为了解决这些问题,我们提出了一个基于GAN的配色框架。在我们的方法中,每个量身定制的GAN管道都会使前景(使用对象级特征)或背景(使用全图像功能)着色。前景管道采用了一个具有自我注意事项的残留无UNET作为其发电机,使用了全图像功能和可可数据集中的相应对象级特征训练。背景管道依赖于该位置数据集的全图像功能和其他培训示例。我们设计了一个基于密集的融合网络,以通过基于特征的融合来获得最终的有色图像。我们显示了通常用于评估多模式问题(例如图像着色)并使用多个感知指标对我们的框架进行广泛的绩效评估的非感知评估指标的缺点。我们的方法的表现优于大多数基于学习的方法,并且产生的结果与最新的方法相当。此外,我们进行了运行时分析,并获得了每个图像的平均推理时间24ms。
translated by 谷歌翻译