最近,提出了注意力任意样式转移方法来实现细粒度的结果,其操纵内容和风格特征之间的点亮相似性。然而,基于特征点的注意机构忽略了特征多歧管分布,其中每个特征歧管对应于图像中的语义区域。因此,通过来自各种样式语义区域的高度不同模式来呈现均匀内容语义区域,通过视觉伪像产生不一致的程式化结果。我们提出了逐步的注意力歧管对齐(PAMA)来缓解这个问题,这反复应用关注操作和空间感知的插值。根据内容特征的空间分布,注意操作重新排列风格特性。这使得内容和样式歧管对应于特征映射。然后,空间感知插值自适应地在相应的内容和样式歧管之间插入以增加它们的相似性。通过逐步将内容歧管对准风格歧管,所提出的PAMA实现了最先进的性能,同时避免了语义区域的不一致。代码可在https://github.com/computer-vision2022/pama获得。
translated by 谷歌翻译
任意样式转移生成了艺术图像,该图像仅使用一个训练有素的网络结合了内容图像的结构和艺术风格的结合。此方法中使用的图像表示包含内容结构表示和样式模式表示形式,这通常是预训练的分类网络中高级表示的特征表示。但是,传统的分类网络是为分类而设计的,该分类通常集中在高级功能上并忽略其他功能。结果,风格化的图像在整个图像中均匀地分布了样式元素,并使整体图像结构无法识别。为了解决这个问题,我们通过结合全球和局部损失,引入了一种新型的任意风格转移方法,并通过结构增强。局部结构细节由LapStyle表示,全局结构由图像深度控制。实验结果表明,与其他最新方法相比,我们的方法可以在几个常见数据集中生成具有令人印象深刻的视觉效果的更高质量图像。
translated by 谷歌翻译
Attention-based arbitrary style transfer studies have shown promising performance in synthesizing vivid local style details. They typically use the all-to-all attention mechanism: each position of content features is fully matched to all positions of style features. However, all-to-all attention tends to generate distorted style patterns and has quadratic complexity. It virtually limits both the effectiveness and efficiency of arbitrary style transfer. In this paper, we rethink what kind of attention mechanism is more appropriate for arbitrary style transfer. Our answer is a novel all-to-key attention mechanism: each position of content features is matched to key positions of style features. Specifically, it integrates two newly proposed attention forms: distributed and progressive attention. Distributed attention assigns attention to multiple key positions; Progressive attention pays attention from coarse to fine. All-to-key attention promotes the matching of diverse and reasonable style patterns and has linear complexity. The resultant module, dubbed StyA2K, has fine properties in rendering reasonable style textures and maintaining consistent local structure. Qualitative and quantitative experiments demonstrate that our method achieves superior results than state-of-the-art approaches.
translated by 谷歌翻译
最近的研究表明,通用风格转移的成功取得了巨大的成功,将任意视觉样式转移到内容图像中。但是,现有的方法遭受了审美的非现实主义问题,该问题引入了不和谐的模式和明显的人工制品,从而使结果很容易从真实的绘画中发现。为了解决这一限制,我们提出了一种新颖的美学增强风格转移方法,可以在美学上为任意风格产生更现实和令人愉悦的结果。具体而言,我们的方法引入了一种审美歧视者,以从大量的艺术家创造的绘画中学习通用的人类自愿美学特征。然后,合并了美学特征,以通过新颖的美学感知样式(AESSA)模块来增强样式转移过程。这样的AESSA模块使我们的Aesust能够根据样式图像的全局美学通道分布和内容图像的局部语义空间分布有效而灵活地集成样式模式。此外,我们还开发了一种新的两阶段转移培训策略,并通过两种审美正规化来更有效地训练我们的模型,从而进一步改善风格化的性能。广泛的实验和用户研究表明,我们的方法比艺术的状态综合了美学上更加和谐和现实的结果,从而大大缩小了真正的艺术家创造的绘画的差异。我们的代码可在https://github.com/endywon/aesust上找到。
translated by 谷歌翻译
STYLE TRANSED引起了大量的关注,因为它可以在保留图像结构的同时将给定图像更改为一个壮观的艺术风格。然而,常规方法容易丢失图像细节,并且在风格转移期间倾向于产生令人不快的伪影。在本文中,为了解决这些问题,提出了一种具有目标特征调色板的新颖艺术程式化方法,可以准确地传递关键特征。具体而言,我们的方法包含两个模块,即特征调色板组成(FPC)和注意着色(AC)模块。 FPC模块基于K-means群集捕获代表特征,并生成特征目标调色板。以下AC模块计算内容和样式图像之间的注意力映射,并根据注意力映射和目标调色板传输颜色和模式。这些模块使提出的程式化能够专注于关键功能并生成合理的传输图像。因此,所提出的方法的贡献是提出一种新的深度学习的样式转移方法和当前目标特征调色板和注意着色模块,并通过详尽的消融研究提供对所提出的方法的深入分析和洞察。定性和定量结果表明,我们的程式化图像具有最先进的性能,具有保护核心结构和内容图像的细节。
translated by 谷歌翻译
Gatys et al. recently introduced a neural algorithm that renders a content image in the style of another image, achieving so-called style transfer. However, their framework requires a slow iterative optimization process, which limits its practical application. Fast approximations with feed-forward neural networks have been proposed to speed up neural style transfer. Unfortunately, the speed improvement comes at a cost: the network is usually tied to a fixed set of styles and cannot adapt to arbitrary new styles. In this paper, we present a simple yet effective approach that for the first time enables arbitrary style transfer in real-time. At the heart of our method is a novel adaptive instance normalization (AdaIN) layer that aligns the mean and variance of the content features with those of the style features. Our method achieves speed comparable to the fastest existing approach, without the restriction to a pre-defined set of styles. In addition, our approach allows flexible user controls such as content-style trade-off, style interpolation, color & spatial controls, all using a single feed-forward neural network.
translated by 谷歌翻译
Photo-realistic style transfer aims at migrating the artistic style from an exemplar style image to a content image, producing a result image without spatial distortions or unrealistic artifacts. Impressive results have been achieved by recent deep models. However, deep neural network based methods are too expensive to run in real-time. Meanwhile, bilateral grid based methods are much faster but still contain artifacts like overexposure. In this work, we propose the \textbf{Adaptive ColorMLP (AdaCM)}, an effective and efficient framework for universal photo-realistic style transfer. First, we find the complex non-linear color mapping between input and target domain can be efficiently modeled by a small multi-layer perceptron (ColorMLP) model. Then, in \textbf{AdaCM}, we adopt a CNN encoder to adaptively predict all parameters for the ColorMLP conditioned on each input content and style image pair. Experimental results demonstrate that AdaCM can generate vivid and high-quality stylization results. Meanwhile, our AdaCM is ultrafast and can process a 4K resolution image in 6ms on one V100 GPU.
translated by 谷歌翻译
最新的馈送前向神经方法的任意图像样式转移主要使用的编码特征映射到其二阶统计数据,即线性转换内容图像的编码特征映射,以具有相同的均值和方差(或协方差)(或协方差)功能图。在这项工作中,我们将二阶统计特征匹配扩展到一般分布匹配,以理解图像的样式由接收场的响应分布表示表示。对于此概括,首先,我们提出了一个新的特征转换层,该层与内容图像的特征映射分布完全匹配到目标样式图像的特征图层。其次,我们分析了与我们的新功能变换层一致的最新样式损失,以训练一个解码器网络,该网络生成了从变换的功能映射传输图像的样式。根据我们的实验结果,证明使用我们的方法获得的风格化图像与所有现有样式测量中的目标样式图像更相似,而不会丢失内容清晰度。
translated by 谷歌翻译
在本文中,我们旨在设计一种能够共同执行艺术,照片现实和视频风格转移的通用风格的转移方法,而无需在培训期间看到视频。以前的单帧方法对整个图像进行了强大的限制,以维持时间一致性,在许多情况下可能会违反。取而代之的是,我们做出了一个温和而合理的假设,即全球不一致是由局部不一致所支配的,并设计了应用于本地斑块的一般对比度连贯性损失(CCPL)。 CCPL可以在样式传输过程中保留内容源的连贯性,而不会降低样式化。此外,它拥有一种邻居调节机制,从而大大减少了局部扭曲和大量视觉质量的改善。除了其在多功能风格转移方面的出色性能外,它还可以轻松地扩展到其他任务,例如图像到图像翻译。此外,为了更好地融合内容和样式功能,我们提出了简单的协方差转换(SCT),以有效地将内容功能的二阶统计数据与样式功能保持一致。实验证明了使用CCPL武装时,所得模型对于多功能风格转移的有效性。
translated by 谷歌翻译
Arbitrary Style Transfer is a technique used to produce a new image from two images: a content image, and a style image. The newly produced image is unseen and is generated from the algorithm itself. Balancing the structure and style components has been the major challenge that other state-of-the-art algorithms have tried to solve. Despite all the efforts, it's still a major challenge to apply the artistic style that was originally created on top of the structure of the content image while maintaining consistency. In this work, we solved these problems by using a Deep Learning approach using Convolutional Neural Networks. Our implementation will first extract foreground from the background using the pre-trained Detectron 2 model from the content image, and then apply the Arbitrary Style Transfer technique that is used in SANet. Once we have the two styled images, we will stitch the two chunks of images after the process of style transfer for the complete end piece.
translated by 谷歌翻译
In recent years, arbitrary image style transfer has attracted more and more attention. Given a pair of content and style images, a stylized one is hoped that retains the content from the former while catching style patterns from the latter. However, it is difficult to simultaneously keep well the trade-off between the content details and the style features. To stylize the image with sufficient style patterns, the content details may be damaged and sometimes the objects of images can not be distinguished clearly. For this reason, we present a new transformer-based method named STT for image style transfer and an edge loss which can enhance the content details apparently to avoid generating blurred results for excessive rendering on style features. Qualitative and quantitative experiments demonstrate that STT achieves comparable performance to state-of-the-art image style transfer methods while alleviating the content leak problem.
translated by 谷歌翻译
任意神经风格转移是一个重要的主题,具有研究价值和工业应用前景,该主题旨在使用另一个样式呈现一个图像的结构。最近的研究已致力于任意风格转移(AST)的任务,以提高风格化质量。但是,关于AST图像的质量评估的探索很少,即使它可以指导不同算法的设计。在本文中,我们首先构建了一个新的AST图像质量评估数据库(AST-IQAD),该数据库包括150个内容样式的图像对以及由八种典型AST算法产生的相应的1200个风格化图像。然后,在我们的AST-IQAD数据库上进行了一项主观研究,该研究获得了三种主观评估(即内容保存(CP),样式相似(SR)和整体视觉(OV),该数据库获得了所有风格化图像的主观评分评分。 。为了定量测量AST图像的质量,我们提出了一个新的基于稀疏表示的图像质量评估度量(SRQE),该指标(SRQE)使用稀疏特征相似性来计算质量。 AST-IQAD的实验结果证明了该方法的优越性。数据集和源代码将在https://github.com/hangwei-chen/ast-iqad-srqe上发布
translated by 谷歌翻译
示例引导图像生成的一个关键挑战在于在输入图像和引导图像之间建立细粒度的对应关系。尽管结果有令人鼓舞,但先前的方法还是依赖于对计算每点匹配的密集关注的依赖。在本文中,我们提出了一个动态稀疏注意的变压器模型,称为动态稀疏变压器(Dynast),以实现具有优惠效率的优质匹配。我们方法的核心是一个新颖的动态注意事项单元,致力于涵盖最佳代币数量的差异。具体而言,Dynast利用变压器结构的多层性质,并以级联的方式执行动态注意力方案,以完善匹配结果并合成视觉上令人愉悦的输出。此外,我们还为Dynast引入了一个统一的培训目标,使其成为监督和无监督场景的广泛参考图像翻译框架。对三种应用,姿势引导的人形象产生,基于边缘的面部合成以及未变形的图像样式转移的广泛实验表明,朝代在本地细节中实现了卓越的性能,超过了最新的技术,同时降低了计算成本。我们的代码可从https://github.com/huage001/dynast获得
translated by 谷歌翻译
我们提出了一种将任意样式图像的艺术特征转移到3D场景的方法。在点云或网格上执行3D风格的先前方法对复杂的现实世界场景的几何重建错误敏感。取而代之的是,我们建议对更健壮的辐射场字段表示。我们发现,常用的基于克矩阵的损失倾向于在没有忠实笔触的情况下产生模糊的结果,并引入了最近的基于邻居的损失,该损失非常有效地捕获样式的细节,同时保持多视图一致性。我们还提出了一种新颖的递延后传播方法,以使用在全分辨率渲染图像上定义的样式损失来优化记忆密集型辐射场。我们广泛的评估表明,我们的方法通过产生与样式图像更相似的艺术外观来优于基线。请检查我们的项目页面以获取视频结果和开源实现:https://www.cs.cornell.edu/projects/arf/。
translated by 谷歌翻译
基于示例的基于彩色方法依赖于参考图像来为目标灰度图像提供合理的颜色。基于示例的颜色的关键和难度是在这两个图像之间建立准确的对应关系。以前的方法已经尝试构建这种对应关系,而是面临两个障碍。首先,使用用于计算对应的亮度通道是不准确的。其次,它们构建的密集信件引入了错误的匹配结果并提高了计算负担。为了解决这两个问题,我们提出了语义 - 稀疏的彩色网络(SSCN)以粗细的方式将全局图像样式和详细的语义相关颜色传输到灰度图像。我们的网络可以完全平衡全局和本地颜色,同时减轻了暧昧的匹配问题。实验表明,我们的方法优于定量和定性评估的现有方法,实现了最先进的性能。
translated by 谷歌翻译
This paper presents a new hierarchical vision Transformer for image style transfer, called Strips Window Attention Transformer (S2WAT), which serves as an encoder of encoder-transfer-decoder architecture. With hierarchical features, S2WAT can leverage proven techniques in other fields of computer vision, such as feature pyramid networks (FPN) or U-Net, to image style transfer in future works. However, the existing window-based Transformers will cause a problem that the stylized images will be grid-like when introduced into image style transfer directly. To solve this problem, we propose S2WAT whose representation is computed with Strips Window Attention (SpW Attention). The SpW Attention can integrate both local information and long-range dependencies in horizontal and vertical directions by a novel feature fusion scheme named Attn Merge. Qualitative and quantitative experiments demonstrate that S2WAT achieves comparable performance to state-of-the-art CNN-based, Flow-based, and Transformer-based approaches. The code and models are available at https://github.com/AlienZhang1996/S2WAT.
translated by 谷歌翻译
在移动摄影和AR / VR中,视觉内容创建刺激了飙升的兴趣。作为两个代表性任务的样式转移和单像3D摄影迄今为止独立发展。在本文中,我们在两者之间进行了联系,并解决了3D照片风格化的具有挑战性的任务 - 从单个图像中生成了一个任意映像的程式化的小说视图。我们的关键直观是,风格转移和视图综合必须为此任务共同建模。为此,我们提出了一个深入的模型,可以从场景的点云表示,从场景的点云表示,学习几何风格感知内容特征,从而导致跨视图一致的高质量风格化图像。此外,我们介绍了一种新颖的训练协议,以使学习仅使用2D图像。我们通过广泛的定性和定量研究展示了我们的方法的优越性,以及鉴于从2D图像资产的3D内容创建的需求不断增长,展示我们方法的关键应用。
translated by 谷歌翻译
大多数现有方法将化妆转移视为不同面部区域的颜色分布,而忽略了眼影和腮红等细节。此外,它们仅在预定义的固定区域内实现可控的转移。本文强调了化妆细节和朝着更灵活的控制措施的转移。为此,我们提出了精致且本地可编辑的gan化妆转移(优雅)。它将面部属性编码为锥体特征图,以保留高频信息。它利用注意力从参考中提取化妆特征并将其调整到源面上,我们引入了一个新颖的SOW意见模块,该模块将注意力应用于移动的重叠窗口中以降低计算成本。此外,Elegant是第一个通过在功能地图上进行对应编辑在任意区域内实现定制本地编辑的人。广泛的实验表明,Elegant可以通过精美的细节生成逼真的妆容面孔,并实现最先进的表现。该代码可从https://github.com/chenyu-yang-2000/elegant获得。
translated by 谷歌翻译
最先进的参数和非参数样式转移方法容易导致由于全局统计的对准而导致的本地样式模式,或者由于补丁不匹配而导致的不愉快的人工制品。在本文中,我们研究了一种新型的半参数神经风格转移框架,可减轻参数和非参数风格的缺乏。我们方法的核心思想是使用图神经网络(GNN)建立准确且细粒的内容样式对应关系。为此,我们开发了一个详细的GNN模型,其中包含内容和样式的本地补丁作为图形顶点。然后,将样式转移过程建模为基于注意力的异质消息,以可学习的方式在样式和内容节点之间传递,从而导致本地补丁级别的自适应多一对一风格的相关性。此外,引入了详细的可变形图卷积操作,以进行跨尺度样式符合匹配。实验结果表明,所提出的半参数图像样式化方法可为具有挑战性的样式模式产生令人鼓舞的结果,从而保留了全球外观和精美的细节。此外,通过控制推理阶段的边缘数量,提出的方法还触发了新的功能,例如使用单个模型的多元化基于斑块的风格化。
translated by 谷歌翻译
现有的神经样式传输方法需要参考样式图像来将样式图像的纹理信息传输到内容图像。然而,在许多实际情况中,用户可能没有参考样式图像,但仍然有兴趣通过想象它们来传输样式。为了处理此类应用程序,我们提出了一个新的框架,它可以实现样式转移`没有'风格图像,但仅使用所需风格的文本描述。使用预先训练的文本图像嵌入模型的剪辑,我们仅通过单个文本条件展示了内容图像样式的调制。具体而言,我们提出了一种针对现实纹理传输的多视图增强的修补程序文本图像匹配丢失。广泛的实验结果证实了具有反映语义查询文本的现实纹理的成功图像风格转移。
translated by 谷歌翻译