神经风格转移的领域经历了大量的研究,探索了不同的途径,从基于优化的方法和馈送模型到元学习方法。开发的技术不仅取得了风格转移领域的发展,而且还导致了其他计算机视觉领域的突破,例如所有视觉合成。但是,虽然定量评估和基准测试已成为计算机视觉研究的支柱,但仍缺乏对样式转移模型的可再现的定量评估。即使与存在广泛使用指标的其他视觉合成领域相比,样式转移的定量评估仍然落后。为了支持不同样式转移方法的自动比较并研究其各自的优势和劣势,该领域将从定量测量样式性能中受益匪浅。因此,我们提出了一种补充当前主要是定性评估方案的方法。我们提供广泛的评估和一项大规模的用户研究,以表明拟议的度量与人类的判断力强烈一致。
translated by 谷歌翻译
The mechanism of existing style transfer algorithms is by minimizing a hybrid loss function to push the generated image toward high similarities in both content and style. However, this type of approach cannot guarantee visual fidelity, i.e., the generated artworks should be indistinguishable from real ones. In this paper, we devise a new style transfer framework called QuantArt for high visual-fidelity stylization. QuantArt pushes the latent representation of the generated artwork toward the centroids of the real artwork distribution with vector quantization. By fusing the quantized and continuous latent representations, QuantArt allows flexible control over the generated artworks in terms of content preservation, style similarity, and visual fidelity. Experiments on various style transfer settings show that our QuantArt framework achieves significantly higher visual fidelity compared with the existing style transfer methods.
translated by 谷歌翻译
任意神经风格转移是一个重要的主题,具有研究价值和工业应用前景,该主题旨在使用另一个样式呈现一个图像的结构。最近的研究已致力于任意风格转移(AST)的任务,以提高风格化质量。但是,关于AST图像的质量评估的探索很少,即使它可以指导不同算法的设计。在本文中,我们首先构建了一个新的AST图像质量评估数据库(AST-IQAD),该数据库包括150个内容样式的图像对以及由八种典型AST算法产生的相应的1200个风格化图像。然后,在我们的AST-IQAD数据库上进行了一项主观研究,该研究获得了三种主观评估(即内容保存(CP),样式相似(SR)和整体视觉(OV),该数据库获得了所有风格化图像的主观评分评分。 。为了定量测量AST图像的质量,我们提出了一个新的基于稀疏表示的图像质量评估度量(SRQE),该指标(SRQE)使用稀疏特征相似性来计算质量。 AST-IQAD的实验结果证明了该方法的优越性。数据集和源代码将在https://github.com/hangwei-chen/ast-iqad-srqe上发布
translated by 谷歌翻译
现有的神经样式传输方法需要参考样式图像来将样式图像的纹理信息传输到内容图像。然而,在许多实际情况中,用户可能没有参考样式图像,但仍然有兴趣通过想象它们来传输样式。为了处理此类应用程序,我们提出了一个新的框架,它可以实现样式转移`没有'风格图像,但仅使用所需风格的文本描述。使用预先训练的文本图像嵌入模型的剪辑,我们仅通过单个文本条件展示了内容图像样式的调制。具体而言,我们提出了一种针对现实纹理传输的多视图增强的修补程序文本图像匹配丢失。广泛的实验结果证实了具有反映语义查询文本的现实纹理的成功图像风格转移。
translated by 谷歌翻译
Gatys et al. recently introduced a neural algorithm that renders a content image in the style of another image, achieving so-called style transfer. However, their framework requires a slow iterative optimization process, which limits its practical application. Fast approximations with feed-forward neural networks have been proposed to speed up neural style transfer. Unfortunately, the speed improvement comes at a cost: the network is usually tied to a fixed set of styles and cannot adapt to arbitrary new styles. In this paper, we present a simple yet effective approach that for the first time enables arbitrary style transfer in real-time. At the heart of our method is a novel adaptive instance normalization (AdaIN) layer that aligns the mean and variance of the content features with those of the style features. Our method achieves speed comparable to the fastest existing approach, without the restriction to a pre-defined set of styles. In addition, our approach allows flexible user controls such as content-style trade-off, style interpolation, color & spatial controls, all using a single feed-forward neural network.
translated by 谷歌翻译
任意样式转移生成了艺术图像,该图像仅使用一个训练有素的网络结合了内容图像的结构和艺术风格的结合。此方法中使用的图像表示包含内容结构表示和样式模式表示形式,这通常是预训练的分类网络中高级表示的特征表示。但是,传统的分类网络是为分类而设计的,该分类通常集中在高级功能上并忽略其他功能。结果,风格化的图像在整个图像中均匀地分布了样式元素,并使整体图像结构无法识别。为了解决这个问题,我们通过结合全球和局部损失,引入了一种新型的任意风格转移方法,并通过结构增强。局部结构细节由LapStyle表示,全局结构由图像深度控制。实验结果表明,与其他最新方法相比,我们的方法可以在几个常见数据集中生成具有令人印象深刻的视觉效果的更高质量图像。
translated by 谷歌翻译
回想一下,大多数当前图像样式转移方法要求用户给出特定样式的图像,然后提取该样式功能和纹理以生成图像的样式,但仍然存在一些问题:用户可能没有一个参考样式图像,或者很难用一个图像总结所需的样式。最近提议的夹板解决了此问题,该问题仅根据提供的样式图像的描述来执行样式转移。尽管当景观或肖像单独出现时,ClipStyler可以取得良好的性能,但它可能会模糊人民并在人和风景共存时失去原始语义。基于这些问题,我们演示了一个新颖的框架,该框架使用了预训练的剪辑文本图像嵌入模型,并通过FCN语义分割网络指导图像样式传输。具体而言,我们解决了与人类主题相机的自拍照和现实世界的肖像过度风格的问题,增强了肖像和景观风格转移效果之间的对比,并使不同语义部分的图像风格转移程度完全可控。我们的生成工匠解决了夹具的失败案例,并产生定性和定量方法,以证明我们在自拍照和人类受试者照片中的自拍照和现实世界景观中的剪贴画的结果要好得多。这种改进使我们可以将我们的业务场景框架(例如修饰图形软件)进行商业化。
translated by 谷歌翻译
在本文中,我们旨在设计一种能够共同执行艺术,照片现实和视频风格转移的通用风格的转移方法,而无需在培训期间看到视频。以前的单帧方法对整个图像进行了强大的限制,以维持时间一致性,在许多情况下可能会违反。取而代之的是,我们做出了一个温和而合理的假设,即全球不一致是由局部不一致所支配的,并设计了应用于本地斑块的一般对比度连贯性损失(CCPL)。 CCPL可以在样式传输过程中保留内容源的连贯性,而不会降低样式化。此外,它拥有一种邻居调节机制,从而大大减少了局部扭曲和大量视觉质量的改善。除了其在多功能风格转移方面的出色性能外,它还可以轻松地扩展到其他任务,例如图像到图像翻译。此外,为了更好地融合内容和样式功能,我们提出了简单的协方差转换(SCT),以有效地将内容功能的二阶统计数据与样式功能保持一致。实验证明了使用CCPL武装时,所得模型对于多功能风格转移的有效性。
translated by 谷歌翻译
Generating new fonts is a time-consuming and labor-intensive, especially in a language with a huge amount of characters like Chinese. Various deep learning models have demonstrated the ability to efficiently generate new fonts with a few reference characters of that style. This project aims to develop a few-shot cross-lingual font generator based on AGIS-Net and improve the performance metrics mentioned. Our approaches include redesigning the encoder and the loss function. We will validate our method on multiple languages and datasets mentioned.
translated by 谷歌翻译
近年来,双相面孔皮草草图合成的显着进展随着生成的对抗性网络(GAN)的发展。双相面孔光学素材合成可以应用于数字娱乐和执法等宽范围的领域。然而,由于实际场景中的草图和复杂的照片变化,产生现实照片和不同的草图遭受了极大的挑战。为此,我们提出了一种新颖的语义驱动生成的对抗网络来解决上述问题,与图形表示学习合作。具体而言,我们将Class-Wise语义布局注入发电机以提供基于样式的空间监督,用于合成面部照片和草图。此外,为了提高生成的结果的保真度,我们利用语义布局来构造两种类型的代表性图,该图表示综合图像的类内语义特征和级别的结构特征。此外,我们基于所提出的代表性图设计了两种类型的约束,其便于保存生成的面部照片和草图中的细节。此外,为了进一步增强合成图像的感知质量,我们提出了一种新的双相培训策略,致力于通过迭代周期培训来细化所产生的结果。在CUFS和CUFSF数据集上进行了广泛的实验,以证明我们提出的方法实现了最先进的性能的突出能力。
translated by 谷歌翻译
在生成的对抗网络中,改进鉴别器是生成性能的关键组件之一。由于图像分类器偏向纹理和脱扎,提高了准确性,我们调查1)如果判别者被偏见,而且2)如果脱位鉴别者将提高发电表现。实际上,我们发现实证证据证明鉴别者对图像的风格(\ equeg。,纹理和颜色)敏感。作为一个补救措施,我们提出了功能统计混合正常化(FSMR),鼓励鉴别者的预测不变于输入图像的样式。具体地,我们在鉴别者的特征空间中生成原始的混合特征和参考图像,并且我们应用正则化,使得混合特征的预测与原始图像的预测一致。我们进行了广泛的实验,以证明我们的正则化导致对风格的敏感性降低,一致地提高了九个数据集上各种GAN架构的性能。此外,将FSMR添加到最近提出的基于增强的GaN方法进一步提高了图像质量。代码将在线公开提供研究界。
translated by 谷歌翻译
我们提出了COGS,这是一种新颖的方法,用于图像的样式条件,素描驱动的合成。 COGS可以为给定的草图对象探索各种外观可能性,从而对输出的结构和外观进行了脱钩的控制。通过输入草图和基于变压器的草图和样式编码器的示例“样式”调理图像启用了对物体结构和外观的粗粒粒度控制,以生成离散的代码簿表示。我们将代码簿表示形式映射到度量空间中,从而在通过量化量化的GAN(VQGAN)解码器生成图像之前,可以对多个合成选项之间的选择和插值进行细粒度的控制和插值。我们的框架因此统一了搜索和综合任务,因为草图和样式对可以用于运行初始合成,该合成可以通过结合结合在搜索语料库中结合使用,以使图像更加与用户的意图更匹配。我们表明,我们的模型对新创建的Pseudosketches数据集的125个对象类培训,能够生产出多种语义内容和外观样式的范围。
translated by 谷歌翻译
大规模训练的出现产生了强大的视觉识别模型的聚宝盆。然而,传统上以无人监督的方式从划痕训练的生成模型。可以利用来自一大堆预用的视觉模型的集体“知识”来改善GaN培训吗?如果是这样,有这么多的模型可供选择,应该选择哪一个,并且以什么方式最有效?我们发现预磨削的计算机视觉模型可以在鉴别器的集合中使用时显着提高性能。值得注意的是,所选模型的特定子集极大地影响性能。我们提出了一种有效的选择机制,通过探测预训练模型嵌入的实际和假样本之间的线性可分性,选择最准确的模型,并逐步将其添加到鉴别器集合中。有趣的是,我们的方法可以在有限的数据和大规模设置中提高GaN培训。只有10K培训样本,我们的LSUN猫的FID与1.6M图像培训的风格挂牌匹配。在完整的数据集上,我们的方法将FID提高了1.5倍的LSUN猫,教堂和马类的2倍。
translated by 谷歌翻译
图像转换是一类视觉和图形问题,其目标是学习输入图像和输出图像之间的映射,在深神网络的背景下迅速发展。在计算机视觉(CV)中,许多问题可以被视为图像转换任务,例如语义分割和样式转移。这些作品具有不同的主题和动机,使图像转换任务蓬勃发展。一些调查仅回顾有关样式转移或图像到图像翻译的研究,所有这些都只是图像转换的一个分支。但是,没有一项调查总结这些调查在我们最佳知识的统一框架中共同起作用。本文提出了一个新颖的学习框架,包括独立学习,指导学习和合作学习,称为IGC学习框架。我们讨论的图像转换主要涉及有关深神经网络的一般图像到图像翻译和样式转移。从这个框架的角度来看,我们回顾了这些子任务,并对各种情况进行统一的解释。我们根据相似的开发趋势对图像转换的相关子任务进行分类。此外,已经进行了实验以验证IGC学习的有效性。最后,讨论了新的研究方向和开放问题,以供将来的研究。
translated by 谷歌翻译
本文的目标是对面部素描合成(FSS)问题进行全面的研究。然而,由于获得了手绘草图数据集的高成本,因此缺乏完整的基准,用于评估过去十年的FSS算法的开发。因此,我们首先向FSS引入高质量的数据集,名为FS2K,其中包括2,104个图像素描对,跨越三种类型的草图样式,图像背景,照明条件,肤色和面部属性。 FS2K与以前的FSS数据集不同于难度,多样性和可扩展性,因此应促进FSS研究的进展。其次,我们通过调查139种古典方法,包括34个手工特征的面部素描合成方法,37个一般的神经式传输方法,43个深映像到图像翻译方法,以及35个图像 - 素描方法。此外,我们详细说明了现有的19个尖端模型的综合实验。第三,我们为FSS提供了一个简单的基准,名为FSGAN。只有两个直截了当的组件,即面部感知屏蔽和风格矢量扩展,FSGAN将超越所提出的FS2K数据集的所有先前最先进模型的性能,通过大边距。最后,我们在过去几年中汲取的经验教训,并指出了几个未解决的挑战。我们的开源代码可在https://github.com/dengpingfan/fsgan中获得。
translated by 谷歌翻译
我们提出Hypernst;基于超网络和stylegan2体系结构的图像艺术风格的神经风格转移(NST)技术。我们的贡献是一种新颖的方法,用于诱导通过度量空间进行参数化的样式转移,并预先训练基于样式的视觉搜索(SBV)。我们首次证明可以使用此类空间来驱动NST,从而从SBVS系统中启用样式的应用程序和插值。技术贡献是一个超网络,可以预测对型号的stylegan2的重量更新,而在各种各样的艺术内容(肖像)上,可以使用面部区域的语义图在每个区域量身定制样式参数化。我们在保留良好的风格转移性能的同时,在内容保存方面显示了超越最高的内容。
translated by 谷歌翻译
最新的馈送前向神经方法的任意图像样式转移主要使用的编码特征映射到其二阶统计数据,即线性转换内容图像的编码特征映射,以具有相同的均值和方差(或协方差)(或协方差)功能图。在这项工作中,我们将二阶统计特征匹配扩展到一般分布匹配,以理解图像的样式由接收场的响应分布表示表示。对于此概括,首先,我们提出了一个新的特征转换层,该层与内容图像的特征映射分布完全匹配到目标样式图像的特征图层。其次,我们分析了与我们的新功能变换层一致的最新样式损失,以训练一个解码器网络,该网络生成了从变换的功能映射传输图像的样式。根据我们的实验结果,证明使用我们的方法获得的风格化图像与所有现有样式测量中的目标样式图像更相似,而不会丢失内容清晰度。
translated by 谷歌翻译
Unsupervised image-to-image translation is an important and challenging problem in computer vision. Given an image in the source domain, the goal is to learn the conditional distribution of corresponding images in the target domain, without seeing any examples of corresponding image pairs. While this conditional distribution is inherently multimodal, existing approaches make an overly simplified assumption, modeling it as a deterministic one-to-one mapping. As a result, they fail to generate diverse outputs from a given source domain image. To address this limitation, we propose a Multimodal Unsupervised Image-to-image Translation (MUNIT) framework. We assume that the image representation can be decomposed into a content code that is domain-invariant, and a style code that captures domain-specific properties. To translate an image to another domain, we recombine its content code with a random style code sampled from the style space of the target domain. We analyze the proposed framework and establish several theoretical results. Extensive experiments with comparisons to state-of-the-art approaches further demonstrate the advantage of the proposed framework. Moreover, our framework allows users to control the style of translation outputs by providing an example style image. Code and pretrained models are available at https://github.com/nvlabs/MUNIT.
translated by 谷歌翻译
在偏置数据集上培训的分类模型通常在分发外部的外部样本上表现不佳,因为偏置的表示嵌入到模型中。最近,已经提出了各种脱叠方法来解除偏见的表示,但仅丢弃偏见的特征是具有挑战性的,而不会改变其他相关信息。在本文中,我们提出了一种新的扩展方法,该方法使用不同标记图像的纹理表示明确地生成附加图像来放大训练数据集,并在训练分类器时减轻偏差效果。每个新的生成图像包含来自源图像的类似内容信息,同时从具有不同标签的目标图像传送纹理。我们的模型包括纹理共发生损耗,该损耗确定生成的图像的纹理是否与目标的纹理类似,以及确定所生成和源图像之间的内容细节是否保留的内容细节的空间自相似性丢失。生成和原始训练图像都进一步用于训练能够改善抗偏置表示的鲁棒性的分类器。我们使用具有已知偏差的五个不同的人工设计数据集来展示我们的方法缓解偏差信息的能力。对于所有情况,我们的方法表现优于现有的现有最先进的方法。代码可用:https://github.com/myeongkyunkang/i2i4debias
translated by 谷歌翻译
神经风格转移(NST)与视觉媒体的艺术风格有关。它可以描述为将艺术图像风格转移到普通照片上的过程。最近,许多研究考虑了NST算法的深度保护功能的增强,以解决当输入内容图像包含许多深度的众多对象时发生的不希望的效果。我们的方法使用了一个深层残留卷积网络,并使用实例归一化层,该层利用高级深度预测网络将深度保存作为内容和样式的附加损失函数集成。我们展示了有效保留内容图像的深度和全局结构的结果。三个不同的评估过程表明,我们的系统能够保留风格化结果的结构,同时表现出样式捕捉功能和美学质量,或与最先进的方法相当或优越。项目页面:https://ioannoue.github.io/depth-aware-nst-using-in.html。
translated by 谷歌翻译