Arbitrary Style Transfer is a technique used to produce a new image from two images: a content image, and a style image. The newly produced image is unseen and is generated from the algorithm itself. Balancing the structure and style components has been the major challenge that other state-of-the-art algorithms have tried to solve. Despite all the efforts, it's still a major challenge to apply the artistic style that was originally created on top of the structure of the content image while maintaining consistency. In this work, we solved these problems by using a Deep Learning approach using Convolutional Neural Networks. Our implementation will first extract foreground from the background using the pre-trained Detectron 2 model from the content image, and then apply the Arbitrary Style Transfer technique that is used in SANet. Once we have the two styled images, we will stitch the two chunks of images after the process of style transfer for the complete end piece.
translated by 谷歌翻译
Gatys et al. recently introduced a neural algorithm that renders a content image in the style of another image, achieving so-called style transfer. However, their framework requires a slow iterative optimization process, which limits its practical application. Fast approximations with feed-forward neural networks have been proposed to speed up neural style transfer. Unfortunately, the speed improvement comes at a cost: the network is usually tied to a fixed set of styles and cannot adapt to arbitrary new styles. In this paper, we present a simple yet effective approach that for the first time enables arbitrary style transfer in real-time. At the heart of our method is a novel adaptive instance normalization (AdaIN) layer that aligns the mean and variance of the content features with those of the style features. Our method achieves speed comparable to the fastest existing approach, without the restriction to a pre-defined set of styles. In addition, our approach allows flexible user controls such as content-style trade-off, style interpolation, color & spatial controls, all using a single feed-forward neural network.
translated by 谷歌翻译
任意样式转移生成了艺术图像,该图像仅使用一个训练有素的网络结合了内容图像的结构和艺术风格的结合。此方法中使用的图像表示包含内容结构表示和样式模式表示形式,这通常是预训练的分类网络中高级表示的特征表示。但是,传统的分类网络是为分类而设计的,该分类通常集中在高级功能上并忽略其他功能。结果,风格化的图像在整个图像中均匀地分布了样式元素,并使整体图像结构无法识别。为了解决这个问题,我们通过结合全球和局部损失,引入了一种新型的任意风格转移方法,并通过结构增强。局部结构细节由LapStyle表示,全局结构由图像深度控制。实验结果表明,与其他最新方法相比,我们的方法可以在几个常见数据集中生成具有令人印象深刻的视觉效果的更高质量图像。
translated by 谷歌翻译
In recent years, arbitrary image style transfer has attracted more and more attention. Given a pair of content and style images, a stylized one is hoped that retains the content from the former while catching style patterns from the latter. However, it is difficult to simultaneously keep well the trade-off between the content details and the style features. To stylize the image with sufficient style patterns, the content details may be damaged and sometimes the objects of images can not be distinguished clearly. For this reason, we present a new transformer-based method named STT for image style transfer and an edge loss which can enhance the content details apparently to avoid generating blurred results for excessive rendering on style features. Qualitative and quantitative experiments demonstrate that STT achieves comparable performance to state-of-the-art image style transfer methods while alleviating the content leak problem.
translated by 谷歌翻译
STYLE TRANSED引起了大量的关注,因为它可以在保留图像结构的同时将给定图像更改为一个壮观的艺术风格。然而,常规方法容易丢失图像细节,并且在风格转移期间倾向于产生令人不快的伪影。在本文中,为了解决这些问题,提出了一种具有目标特征调色板的新颖艺术程式化方法,可以准确地传递关键特征。具体而言,我们的方法包含两个模块,即特征调色板组成(FPC)和注意着色(AC)模块。 FPC模块基于K-means群集捕获代表特征,并生成特征目标调色板。以下AC模块计算内容和样式图像之间的注意力映射,并根据注意力映射和目标调色板传输颜色和模式。这些模块使提出的程式化能够专注于关键功能并生成合理的传输图像。因此,所提出的方法的贡献是提出一种新的深度学习的样式转移方法和当前目标特征调色板和注意着色模块,并通过详尽的消融研究提供对所提出的方法的深入分析和洞察。定性和定量结果表明,我们的程式化图像具有最先进的性能,具有保护核心结构和内容图像的细节。
translated by 谷歌翻译
现有的神经样式传输方法需要参考样式图像来将样式图像的纹理信息传输到内容图像。然而,在许多实际情况中,用户可能没有参考样式图像,但仍然有兴趣通过想象它们来传输样式。为了处理此类应用程序,我们提出了一个新的框架,它可以实现样式转移`没有'风格图像,但仅使用所需风格的文本描述。使用预先训练的文本图像嵌入模型的剪辑,我们仅通过单个文本条件展示了内容图像样式的调制。具体而言,我们提出了一种针对现实纹理传输的多视图增强的修补程序文本图像匹配丢失。广泛的实验结果证实了具有反映语义查询文本的现实纹理的成功图像风格转移。
translated by 谷歌翻译
最近的研究表明,通用风格转移的成功取得了巨大的成功,将任意视觉样式转移到内容图像中。但是,现有的方法遭受了审美的非现实主义问题,该问题引入了不和谐的模式和明显的人工制品,从而使结果很容易从真实的绘画中发现。为了解决这一限制,我们提出了一种新颖的美学增强风格转移方法,可以在美学上为任意风格产生更现实和令人愉悦的结果。具体而言,我们的方法引入了一种审美歧视者,以从大量的艺术家创造的绘画中学习通用的人类自愿美学特征。然后,合并了美学特征,以通过新颖的美学感知样式(AESSA)模块来增强样式转移过程。这样的AESSA模块使我们的Aesust能够根据样式图像的全局美学通道分布和内容图像的局部语义空间分布有效而灵活地集成样式模式。此外,我们还开发了一种新的两阶段转移培训策略,并通过两种审美正规化来更有效地训练我们的模型,从而进一步改善风格化的性能。广泛的实验和用户研究表明,我们的方法比艺术的状态综合了美学上更加和谐和现实的结果,从而大大缩小了真正的艺术家创造的绘画的差异。我们的代码可在https://github.com/endywon/aesust上找到。
translated by 谷歌翻译
回想一下,大多数当前图像样式转移方法要求用户给出特定样式的图像,然后提取该样式功能和纹理以生成图像的样式,但仍然存在一些问题:用户可能没有一个参考样式图像,或者很难用一个图像总结所需的样式。最近提议的夹板解决了此问题,该问题仅根据提供的样式图像的描述来执行样式转移。尽管当景观或肖像单独出现时,ClipStyler可以取得良好的性能,但它可能会模糊人民并在人和风景共存时失去原始语义。基于这些问题,我们演示了一个新颖的框架,该框架使用了预训练的剪辑文本图像嵌入模型,并通过FCN语义分割网络指导图像样式传输。具体而言,我们解决了与人类主题相机的自拍照和现实世界的肖像过度风格的问题,增强了肖像和景观风格转移效果之间的对比,并使不同语义部分的图像风格转移程度完全可控。我们的生成工匠解决了夹具的失败案例,并产生定性和定量方法,以证明我们在自拍照和人类受试者照片中的自拍照和现实世界景观中的剪贴画的结果要好得多。这种改进使我们可以将我们的业务场景框架(例如修饰图形软件)进行商业化。
translated by 谷歌翻译
最近,提出了注意力任意样式转移方法来实现细粒度的结果,其操纵内容和风格特征之间的点亮相似性。然而,基于特征点的注意机构忽略了特征多歧管分布,其中每个特征歧管对应于图像中的语义区域。因此,通过来自各种样式语义区域的高度不同模式来呈现均匀内容语义区域,通过视觉伪像产生不一致的程式化结果。我们提出了逐步的注意力歧管对齐(PAMA)来缓解这个问题,这反复应用关注操作和空间感知的插值。根据内容特征的空间分布,注意操作重新排列风格特性。这使得内容和样式歧管对应于特征映射。然后,空间感知插值自适应地在相应的内容和样式歧管之间插入以增加它们的相似性。通过逐步将内容歧管对准风格歧管,所提出的PAMA实现了最先进的性能,同时避免了语义区域的不一致。代码可在https://github.com/computer-vision2022/pama获得。
translated by 谷歌翻译
建筑摄影是一种摄影类型,重点是捕获前景中带有戏剧性照明的建筑物或结构。受图像到图像翻译方法的成功启发,我们旨在为建筑照片执行风格转移。但是,建筑摄影中的特殊构图对这类照片中的样式转移构成了巨大挑战。现有的神经风格转移方法将建筑图像视为单个实体,它将产生与原始建筑的几何特征,产生不切实际的照明,错误的颜色演绎以及可视化伪影,例如幽灵,外观失真或颜色不匹配。在本文中,我们专门针对建筑摄影的神经风格转移方法。我们的方法解决了两个分支神经网络中建筑照片中前景和背景的组成,该神经网络分别考虑了前景和背景的样式转移。我们的方法包括一个分割模块,基于学习的图像到图像翻译模块和图像混合优化模块。我们使用了一天中不同的魔术时代捕获的不受限制的户外建筑照片的新数据集培训了图像到图像的翻译神经网络,利用其他语义信息,以更好地匹配和几何形状保存。我们的实验表明,我们的方法可以在前景和背景上产生逼真的照明和颜色演绎,并且在定量和定性上都优于一般图像到图像转换和任意样式转移基线。我们的代码和数据可在https://github.com/hkust-vgd/architectural_style_transfer上获得。
translated by 谷歌翻译
在本文中,我们旨在设计一种能够共同执行艺术,照片现实和视频风格转移的通用风格的转移方法,而无需在培训期间看到视频。以前的单帧方法对整个图像进行了强大的限制,以维持时间一致性,在许多情况下可能会违反。取而代之的是,我们做出了一个温和而合理的假设,即全球不一致是由局部不一致所支配的,并设计了应用于本地斑块的一般对比度连贯性损失(CCPL)。 CCPL可以在样式传输过程中保留内容源的连贯性,而不会降低样式化。此外,它拥有一种邻居调节机制,从而大大减少了局部扭曲和大量视觉质量的改善。除了其在多功能风格转移方面的出色性能外,它还可以轻松地扩展到其他任务,例如图像到图像翻译。此外,为了更好地融合内容和样式功能,我们提出了简单的协方差转换(SCT),以有效地将内容功能的二阶统计数据与样式功能保持一致。实验证明了使用CCPL武装时,所得模型对于多功能风格转移的有效性。
translated by 谷歌翻译
Image harmonization aims to produce visually harmonious composite images by adjusting the foreground appearance to be compatible with the background. When the composite image has photographic foreground and painterly background, the task is called painterly image harmonization. There are only few works on this task, which are either time-consuming or weak in generating well-harmonized results. In this work, we propose a novel painterly harmonization network consisting of a dual-domain generator and a dual-domain discriminator, which harmonizes the composite image in both spatial domain and frequency domain. The dual-domain generator performs harmonization by using AdaIn modules in the spatial domain and our proposed ResFFT modules in the frequency domain. The dual-domain discriminator attempts to distinguish the inharmonious patches based on the spatial feature and frequency feature of each patch, which can enhance the ability of generator in an adversarial manner. Extensive experiments on the benchmark dataset show the effectiveness of our method. Our code and model are available at https://github.com/bcmi/PHDNet-Painterly-Image-Harmonization.
translated by 谷歌翻译
未配对的图像到图像转换的目标是产生反映目标域样式的输出图像,同时保持输入源图像的不相关内容不变。但是,由于缺乏对现有方法的内容变化的关注,来自源图像的语义信息遭受翻译期间的降级。在论文中,为了解决这个问题,我们介绍了一种新颖的方法,全局和局部对齐网络(GLA-NET)。全局对齐网络旨在将输入图像从源域传输到目标域。要有效地这样做,我们通过使用MLP-MILLER基于MATY编码器将多元高斯分布的参数(均值和标准偏差)作为样式特征学习。要更准确地传输样式,我们在编码器中使用自适应实例归一化层,具有目标多功能高斯分布的参数作为输入。我们还采用正常化和可能性损失,以进一步降低领域差距并产生高质量的产出。另外,我们介绍了局部对准网络,该网络采用预磨平的自我监督模型来通过新颖的局部对准丢失来产生注意图,确保翻译网络专注于相关像素。在五个公共数据集上进行的广泛实验表明,我们的方法有效地产生比现有方法更锐利和更现实的图像。我们的代码可在https://github.com/ygjwd12345/glanet获得。
translated by 谷歌翻译
最先进的参数和非参数样式转移方法容易导致由于全局统计的对准而导致的本地样式模式,或者由于补丁不匹配而导致的不愉快的人工制品。在本文中,我们研究了一种新型的半参数神经风格转移框架,可减轻参数和非参数风格的缺乏。我们方法的核心思想是使用图神经网络(GNN)建立准确且细粒的内容样式对应关系。为此,我们开发了一个详细的GNN模型,其中包含内容和样式的本地补丁作为图形顶点。然后,将样式转移过程建模为基于注意力的异质消息,以可学习的方式在样式和内容节点之间传递,从而导致本地补丁级别的自适应多一对一风格的相关性。此外,引入了详细的可变形图卷积操作,以进行跨尺度样式符合匹配。实验结果表明,所提出的半参数图像样式化方法可为具有挑战性的样式模式产生令人鼓舞的结果,从而保留了全球外观和精美的细节。此外,通过控制推理阶段的边缘数量,提出的方法还触发了新的功能,例如使用单个模型的多元化基于斑块的风格化。
translated by 谷歌翻译
我们介绍了一种用于将一个自然形象的视觉外观转移到另一个自然形象的方法。具体地,我们的目标是生成一个图像,其中源结构图像中的对象是“绘制”的目标外观图像中的语义相关对象的视觉外观。我们的方法通过训练一个单个结构/外观映像对给出一个发电机作为输入。将语义信息集成到我们的框架中 - 解决此任务的关键组件 - 我们的主要思想是利用作为外部语义的预训练和固定视觉变压器(VIT)模型。具体而言,我们从深毒性特征中提取的结构和外观的新颖表示,从学习的自我关注模块中解开它们。然后,我们建立一个客观函数,即接头所需的结构和外观表示,在vit特征的空间中相互交互。我们术语“拼接”的框架不涉及对抗性培训,也不需要任何额外的输入信息,例如语义分割或通信,并且可以产生高分辨率结果,例如,在高清中工作。我们在物体数量,姿势和外观的显着变化下,我们展示了各种内野图像对的高质量结果。
translated by 谷歌翻译
Arbitrary style transfer (AST) transfers arbitrary artistic styles onto content images. Despite the recent rapid progress, existing AST methods are either incapable or too slow to run at ultra-resolutions (e.g., 4K) with limited resources, which heavily hinders their further applications. In this paper, we tackle this dilemma by learning a straightforward and lightweight model, dubbed MicroAST. The key insight is to completely abandon the use of cumbersome pre-trained Deep Convolutional Neural Networks (e.g., VGG) at inference. Instead, we design two micro encoders (content and style encoders) and one micro decoder for style transfer. The content encoder aims at extracting the main structure of the content image. The style encoder, coupled with a modulator, encodes the style image into learnable dual-modulation signals that modulate both intermediate features and convolutional filters of the decoder, thus injecting more sophisticated and flexible style signals to guide the stylizations. In addition, to boost the ability of the style encoder to extract more distinct and representative style signals, we also introduce a new style signal contrastive loss in our model. Compared to the state of the art, our MicroAST not only produces visually superior results but also is 5-73 times smaller and 6-18 times faster, for the first time enabling super-fast (about 0.5 seconds) AST at 4K ultra-resolutions. Code is available at https://github.com/EndyWon/MicroAST.
translated by 谷歌翻译
This paper presents a new hierarchical vision Transformer for image style transfer, called Strips Window Attention Transformer (S2WAT), which serves as an encoder of encoder-transfer-decoder architecture. With hierarchical features, S2WAT can leverage proven techniques in other fields of computer vision, such as feature pyramid networks (FPN) or U-Net, to image style transfer in future works. However, the existing window-based Transformers will cause a problem that the stylized images will be grid-like when introduced into image style transfer directly. To solve this problem, we propose S2WAT whose representation is computed with Strips Window Attention (SpW Attention). The SpW Attention can integrate both local information and long-range dependencies in horizontal and vertical directions by a novel feature fusion scheme named Attn Merge. Qualitative and quantitative experiments demonstrate that S2WAT achieves comparable performance to state-of-the-art CNN-based, Flow-based, and Transformer-based approaches. The code and models are available at https://github.com/AlienZhang1996/S2WAT.
translated by 谷歌翻译
本文提出了运动拼图,这是一个新型的运动风格转移网络,在几个重要方面都可以提高最先进的方式。运动难题是第一个可以控制各个身体部位运动样式的动作,从而可以进行本地样式编辑并大大增加风格化运动的范围。我们的框架旨在保持人的运动学结构,从多种样式运动中提取了风格的特征,用于不同的身体部位,并将其本地转移到目标身体部位。另一个主要优点是,它可以通过整合自适应实例正常化和注意力模块,同时保持骨骼拓扑结构,从而传递全球和本地运动风格的特征。因此,它可以捕获动态运动所表现出的样式,例如拍打和惊人,比以前的工作要好得多。此外,我们的框架允许使用样式标签或运动配对的数据集进行任意运动样式传输,从而使许多公开的运动数据集可用于培训。我们的框架可以轻松地与运动生成框架集成,以创建许多应用程序,例如实时运动传输。我们通过许多示例和以前的工作比较来证明我们的框架的优势。
translated by 谷歌翻译
基于图像的艺术渲染可以使用算法图像过滤合成各种表达式。与基于深度学习的方法相反,这些基于启发式的过滤技术可以在高分辨率图像上运行,可以解释,并且可以根据各个设计方面进行参数化。但是,适应或扩展这些技术生产新样式通常是一项乏味且容易出错的任务,需要专家知识。我们提出了一个新的范式来减轻此问题:实现算法图像过滤技术作为可区分的操作,可以学习与某些参考样式一致的参数化。为此,我们提出了明智的,这是一个基于示例的图像处理系统,可以在公共框架内处理多种风格化技术,例如水彩,油或卡通风格。通过训练全局和本地滤波器参数化的参数预测网络,我们可以同时适应参考样式和图像内容,例如增强面部特征。我们的方法可以在样式转移框架中进行优化,也可以在用于图像到图像翻译的生成对流设置中学习。我们证明,共同训练XDOG滤波器和用于后处理的CNN可以与基于GAN的最新方法获得可比的结果。
translated by 谷歌翻译
最新的馈送前向神经方法的任意图像样式转移主要使用的编码特征映射到其二阶统计数据,即线性转换内容图像的编码特征映射,以具有相同的均值和方差(或协方差)(或协方差)功能图。在这项工作中,我们将二阶统计特征匹配扩展到一般分布匹配,以理解图像的样式由接收场的响应分布表示表示。对于此概括,首先,我们提出了一个新的特征转换层,该层与内容图像的特征映射分布完全匹配到目标样式图像的特征图层。其次,我们分析了与我们的新功能变换层一致的最新样式损失,以训练一个解码器网络,该网络生成了从变换的功能映射传输图像的样式。根据我们的实验结果,证明使用我们的方法获得的风格化图像与所有现有样式测量中的目标样式图像更相似,而不会丢失内容清晰度。
translated by 谷歌翻译