智能论文笔记

Texture Reformer: Towards Fast and Universal Interactive Texture Transfer

Zhizhong Wang , Lei Zhao , Haibo Chen , Ailin Li , Zhiwen Zuo , Wei Xing , Dongming Lu

分类：计算机视觉 | 人工智能

2021-12-06

在本文中，我们介绍了纹理改革器，一个快速和通用的神经基础框架，用于使用用户指定的指导进行交互式纹理传输。挑战在三个方面：1）任务的多样性，2）引导图的简单性，以及3）执行效率。为了解决这些挑战，我们的主要思想是使用由i）全球视图结构对准阶段，ii）局部视图纹理细化阶段和III）的新的前馈多视图和多级合成程序。效果增强阶段用相干结构合成高质量结果，并以粗略的方式进行细纹细节。此外，我们还介绍了一种新颖的无学习视图特定的纹理改革（VSTR）操作，具有新的语义地图指导策略，以实现更准确的语义引导和结构保存的纹理传输。关于各种应用场景的实验结果展示了我们框架的有效性和优越性。并与最先进的交互式纹理转移算法相比，它不仅可以实现更高的质量结果，而且更加显着，也是更快的2-5个数量级。代码可在https://github.com/endywon/texture --reformer中找到。

translated by 谷歌翻译

AesUST: Towards Aesthetic-Enhanced Universal Style Transfer

Zhizhong Wang , Zhanjie Zhang , Lei Zhao , Zhiwen Zuo , Ailin Li , Wei Xing , Dongming Lu

分类：计算机视觉

2022-08-27

最近的研究表明，通用风格转移的成功取得了巨大的成功，将任意视觉样式转移到内容图像中。但是，现有的方法遭受了审美的非现实主义问题，该问题引入了不和谐的模式和明显的人工制品，从而使结果很容易从真实的绘画中发现。为了解决这一限制，我们提出了一种新颖的美学增强风格转移方法，可以在美学上为任意风格产生更现实和令人愉悦的结果。具体而言，我们的方法引入了一种审美歧视者，以从大量的艺术家创造的绘画中学习通用的人类自愿美学特征。然后，合并了美学特征，以通过新颖的美学感知样式（AESSA）模块来增强样式转移过程。这样的AESSA模块使我们的Aesust能够根据样式图像的全局美学通道分布和内容图像的局部语义空间分布有效而灵活地集成样式模式。此外，我们还开发了一种新的两阶段转移培训策略，并通过两种审美正规化来更有效地训练我们的模型，从而进一步改善风格化的性能。广泛的实验和用户研究表明，我们的方法比艺术的状态综合了美学上更加和谐和现实的结果，从而大大缩小了真正的艺术家创造的绘画的差异。我们的代码可在https://github.com/endywon/aesust上找到。

translated by 谷歌翻译

MicroAST: Towards Super-Fast Ultra-Resolution Arbitrary Style Transfer

Zhizhong Wang , Lei Zhao , Zhiwen Zuo , Ailin Li , Haibo Chen , Wei Xing , Dongming Lu

分类：计算机视觉 | 人工智能

2022-11-28

Arbitrary style transfer (AST) transfers arbitrary artistic styles onto content images. Despite the recent rapid progress, existing AST methods are either incapable or too slow to run at ultra-resolutions (e.g., 4K) with limited resources, which heavily hinders their further applications. In this paper, we tackle this dilemma by learning a straightforward and lightweight model, dubbed MicroAST. The key insight is to completely abandon the use of cumbersome pre-trained Deep Convolutional Neural Networks (e.g., VGG) at inference. Instead, we design two micro encoders (content and style encoders) and one micro decoder for style transfer. The content encoder aims at extracting the main structure of the content image. The style encoder, coupled with a modulator, encodes the style image into learnable dual-modulation signals that modulate both intermediate features and convolutional filters of the decoder, thus injecting more sophisticated and flexible style signals to guide the stylizations. In addition, to boost the ability of the style encoder to extract more distinct and representative style signals, we also introduce a new style signal contrastive loss in our model. Compared to the state of the art, our MicroAST not only produces visually superior results but also is 5-73 times smaller and 6-18 times faster, for the first time enabling super-fast (about 0.5 seconds) AST at 4K ultra-resolutions. Code is available at https://github.com/EndyWon/MicroAST.

translated by 谷歌翻译

Deep Facial Synthesis: A New Challenge

Deng-Ping Fan , Ziling Huang , Peng Zheng , Hong Liu , Xuebin Qin , Luc Van Gool

分类：计算机视觉

2021-12-31

本文的目标是对面部素描合成（FSS）问题进行全面的研究。然而，由于获得了手绘草图数据集的高成本，因此缺乏完整的基准，用于评估过去十年的FSS算法的开发。因此，我们首先向FSS引入高质量的数据集，名为FS2K，其中包括2,104个图像素描对，跨越三种类型的草图样式，图像背景，照明条件，肤色和面部属性。 FS2K与以前的FSS数据集不同于难度，多样性和可扩展性，因此应促进FSS研究的进展。其次，我们通过调查139种古典方法，包括34个手工特征的面部素描合成方法，37个一般的神经式传输方法，43个深映像到图像翻译方法，以及35个图像 - 素描方法。此外，我们详细说明了现有的19个尖端模型的综合实验。第三，我们为FSS提供了一个简单的基准，名为FSGAN。只有两个直截了当的组件，即面部感知屏蔽和风格矢量扩展，FSGAN将超越所提出的FS2K数据集的所有先前最先进模型的性能，通过大边距。最后，我们在过去几年中汲取的经验教训，并指出了几个未解决的挑战。我们的开源代码可在https://github.com/dengpingfan/fsgan中获得。

translated by 谷歌翻译

Arbitrary Style Transfer in Real-time with Adaptive Instance Normalization

Xun Huang , Serge Belongie

分类：

2017-03-20

Gatys et al. recently introduced a neural algorithm that renders a content image in the style of another image, achieving so-called style transfer. However, their framework requires a slow iterative optimization process, which limits its practical application. Fast approximations with feed-forward neural networks have been proposed to speed up neural style transfer. Unfortunately, the speed improvement comes at a cost: the network is usually tied to a fixed set of styles and cannot adapt to arbitrary new styles. In this paper, we present a simple yet effective approach that for the first time enables arbitrary style transfer in real-time. At the heart of our method is a novel adaptive instance normalization (AdaIN) layer that aligns the mean and variance of the content features with those of the style features. Our method achieves speed comparable to the fastest existing approach, without the restriction to a pre-defined set of styles. In addition, our approach allows flexible user controls such as content-style trade-off, style interpolation, color & spatial controls, all using a single feed-forward neural network.

translated by 谷歌翻译

AdaCM: Adaptive ColorMLP for Real-Time Universal Photo-realistic Style Transfer

Tianwei Lin , Honglin Lin , Fu Li , Dongliang He , Wenhao Wu , Meiling Wang , Xin Li , Yong Liu

分类：计算机视觉

2022-12-03

Photo-realistic style transfer aims at migrating the artistic style from an exemplar style image to a content image, producing a result image without spatial distortions or unrealistic artifacts. Impressive results have been achieved by recent deep models. However, deep neural network based methods are too expensive to run in real-time. Meanwhile, bilateral grid based methods are much faster but still contain artifacts like overexposure. In this work, we propose the \textbf{Adaptive ColorMLP (AdaCM)}, an effective and efficient framework for universal photo-realistic style transfer. First, we find the complex non-linear color mapping between input and target domain can be efficiently modeled by a small multi-layer perceptron (ColorMLP) model. Then, in \textbf{AdaCM}, we adopt a CNN encoder to adaptively predict all parameters for the ColorMLP conditioned on each input content and style image pair. Experimental results demonstrate that AdaCM can generate vivid and high-quality stylization results. Meanwhile, our AdaCM is ultrafast and can process a 4K resolution image in 6ms on one V100 GPU.

translated by 谷歌翻译

SeamlessGAN: Self-Supervised Synthesis of Tileable Texture Maps

Carlos Rodriguez-Pardo , Elena Garces

分类：计算机视觉 | 机器学习

2022-01-13

我们呈现SeveryGan，一种能够从单个输入示例自动生成砖纹理映射的方法。与大多数现有方法相比，专注于解决合成问题，我们的工作同时解决问题，合成和涤纶性。我们的关键思想是认识到，通过越野落扩展技术训练的生成网络内的潜伏空间产生具有在接缝交叉点的连续性的输出，然后可以通过裁剪中心区域进入彩色图像。由于不是潜在空间的每个值都有有效的来产生高质量的输出，因此我们利用鉴别者作为能够在采样过程中识别无伪纹理的感知误差度量。此外，与之前的深度纹理合成的工作相比，我们的模型设计和优化，以便使用多层纹理表示，使由多个地图组成的纹理，例如Albedo，法线等。我们广泛地测试网络的设计选择架构，丢失功能和采样参数。我们在定性和定量上展示我们的方法优于以前的方法和适用于不同类型的纹理。

translated by 谷歌翻译

CLIPstyler: Image Style Transfer with a Single Text Condition

Gihyun Kwon , Jong Chul Ye

分类：计算机视觉 | 自然语言处理

2021-12-01

现有的神经样式传输方法需要参考样式图像来将样式图像的纹理信息传输到内容图像。然而，在许多实际情况中，用户可能没有参考样式图像，但仍然有兴趣通过想象它们来传输样式。为了处理此类应用程序，我们提出了一个新的框架，它可以实现样式转移`没有'风格图像，但仅使用所需风格的文本描述。使用预先训练的文本图像嵌入模型的剪辑，我们仅通过单个文本条件展示了内容图像样式的调制。具体而言，我们提出了一种针对现实纹理传输的多视图增强的修补程序文本图像匹配丢失。广泛的实验结果证实了具有反映语义查询文本的现实纹理的成功图像风格转移。

translated by 谷歌翻译

Arbitrary Style Transfer with Structure Enhancement by Combining the Global and Local Loss

Lizhen Long , Chi-Man Pun

分类：计算机视觉

2022-07-23

任意样式转移生成了艺术图像，该图像仅使用一个训练有素的网络结合了内容图像的结构和艺术风格的结合。此方法中使用的图像表示包含内容结构表示和样式模式表示形式，这通常是预训练的分类网络中高级表示的特征表示。但是，传统的分类网络是为分类而设计的，该分类通常集中在高级功能上并忽略其他功能。结果，风格化的图像在整个图像中均匀地分布了样式元素，并使整体图像结构无法识别。为了解决这个问题，我们通过结合全球和局部损失，引入了一种新型的任意风格转移方法，并通过结构增强。局部结构细节由LapStyle表示，全局结构由图像深度控制。实验结果表明，与其他最新方法相比，我们的方法可以在几个常见数据集中生成具有令人印象深刻的视觉效果的更高质量图像。

translated by 谷歌翻译

Texture Memory-Augmented Deep Patch-Based Image Inpainting

Rui Xu , Minghao Guo , Jiaqi Wang , Xiaoxiao Li , Bolei Zhou , Chen Change Loy

分类：计算机视觉 | 机器学习

2020-09-28

基于补丁的方法和深度网络已经采用了解决图像染色问题，具有自己的优势和劣势。基于补丁的方法能够通过从未遮盖区域搜索最近的邻居修补程序来恢复具有高质量纹理的缺失区域。但是，这些方法在恢复大缺失区域时会带来问题内容。另一方面，深度网络显示有希望的成果完成大区域。尽管如此，结果往往缺乏类似周围地区的忠诚和尖锐的细节。通过汇集两个范式中，我们提出了一种新的深度染色框架，其中纹理生成是由从未掩蔽区域提取的补丁样本的纹理记忆引导的。该框架具有一种新颖的设计，允许使用深度修复网络训练纹理存储器检索。此外，我们还介绍了贴片分配损失，以鼓励高质量的贴片合成。所提出的方法在三个具有挑战性的图像基准测试中，即地位，Celeba-HQ和巴黎街道视图数据集来说，该方法显示出质量和定量的卓越性能。

translated by 谷歌翻译

Deep Translation Prior: Test-time Training for Photorealistic Style Transfer

Sunwoo Kim , Soohyun Kim , Seungryong Kim

分类：计算机视觉

2021-12-12

最近求解深卷积神经网络（CNNS）内的光致风格转移的技术通常需要大规模数据集的密集训练，从而具有有限的适用性和揭示图像或风格的普遍性能力差。为了克服这一点，我们提出了一种新颖的框架，称为深度翻译（DTP），通过对给定输入图像对的测试时间训练来实现光致风格转移，与未经培训的网络一起学习特定于图像对的翻译，从而更好地产生性能和泛化。为风格转移进行此类测试时间培训量身定制，我们提出了新颖的网络架构，具有两个对应和生成模块的子模块，以及由对比含量，样式和循环一致性损耗组成的损耗功能。我们的框架不需要离线培训阶段进行风格转移，这是现有方法中的主要挑战之一，但网络将在测试期间仅了解。实验结果证明我们的框架具有更好的概念图像对的概括能力，甚至优于最先进的方法。

translated by 谷歌翻译

Precomputed Real-Time Texture Synthesis with Markovian Generative Adversarial Networks

Chuan Li , Michael Wand

分类：

2016-04-15

This paper proposes Markovian Generative Adversarial Networks (MGANs), a method for training generative neural networks for efficient texture synthesis. While deep neural network approaches have recently demonstrated remarkable results in terms of synthesis quality, they still come at considerable computational costs (minutes of run-time for low-res images). Our paper addresses this efficiency issue. Instead of a numerical deconvolution in previous work, we precompute a feedforward, strided convolutional network that captures the feature statistics of Markovian patches and is able to directly generate outputs of arbitrary dimensions. Such network can directly decode brown noise to realistic texture, or photos to artistic paintings. With adversarial training, we obtain quality comparable to recent neural texture synthesis methods. As no optimization is required any longer at generation time, our run-time performance (0.25M pixel images at 25Hz) surpasses previous neural texture synthesizers by a significant margin (at least 500 times faster). We apply this idea to texture synthesis, style transfer, and video stylization.

translated by 谷歌翻译

VToonify: Controllable High-Resolution Portrait Video Style Transfer

Shuai Yang , Liming Jiang , Ziwei Liu , Chen Change Loy

分类：计算机视觉 | 机器学习

2022-09-22

生成高质量的艺术肖像视频是计算机图形和愿景中的一项重要且理想的任务。尽管已经提出了一系列成功的肖像图像图像模型模型，但这些面向图像的方法在应用于视频（例如固定框架尺寸，面部对齐的要求，缺失的非种族细节和缺失的非种族细节和缺失的要求）时，具有明显的限制。时间不一致。在这项工作中，我们通过引入一个新颖的Vtoonify框架来研究具有挑战性的可控高分辨率肖像视频风格转移。具体而言，Vtoonify利用了Stylegan的中高分辨率层，以基于编码器提取的多尺度内容功能来渲染高质量的艺术肖像，以更好地保留框架细节。由此产生的完全卷积体系结构接受可变大小的视频中的非对齐面孔作为输入，从而有助于完整的面部区域，并在输出中自然动作。我们的框架与现有的基于Stylegan的图像图像模型兼容，以将其扩展到视频化，并继承了这些模型的吸引力，以进行柔性风格控制颜色和强度。这项工作分别为基于收藏和基于示例的肖像视频风格转移而建立在Toonify和DualStylegan的基于Toonify和Dualstylegan的Vtoonify的两个实例化。广泛的实验结果证明了我们提出的VTOONIFY框架对现有方法的有效性在生成具有灵活风格控件的高质量和临时艺术肖像视频方面的有效性。

translated by 谷歌翻译

CCPL: Contrastive Coherence Preserving Loss for Versatile Style Transfer

Zijie Wu , Zhen Zhu , Junping Du , Xiang Bai

分类：计算机视觉

2022-07-11

在本文中，我们旨在设计一种能够共同执行艺术，照片现实和视频风格转移的通用风格的转移方法，而无需在培训期间看到视频。以前的单帧方法对整个图像进行了强大的限制，以维持时间一致性，在许多情况下可能会违反。取而代之的是，我们做出了一个温和而合理的假设，即全球不一致是由局部不一致所支配的，并设计了应用于本地斑块的一般对比度连贯性损失（CCPL）。 CCPL可以在样式传输过程中保留内容源的连贯性，而不会降低样式化。此外，它拥有一种邻居调节机制，从而大大减少了局部扭曲和大量视觉质量的改善。除了其在多功能风格转移方面的出色性能外，它还可以轻松地扩展到其他任务，例如图像到图像翻译。此外，为了更好地融合内容和样式功能，我们提出了简单的协方差转换（SCT），以有效地将内容功能的二阶统计数据与样式功能保持一致。实验证明了使用CCPL武装时，所得模型对于多功能风格转移的有效性。

translated by 谷歌翻译

Bi-level Feature Alignment for Versatile Image Translation and Manipulation

Fangneng Zhan , Yingchen Yu , Rongliang Wu , Jiahui Zhang , Kaiwen Cui , Aoran Xiao , Shijian Lu , Chunyan Miao

分类：计算机视觉

2021-07-07

生成的对抗网络（GAN）在图像翻译和操纵方面取得了巨大成功。但是，具有忠实风格控制的高保真形象生成仍然是计算机视觉中的巨大挑战。本文提出了一种多功能的图像翻译和操纵框架，该框架通过明确构建信件来实现图像生成中准确的语义和样式指导。为了处理通过构建密集的对应关系产生的二次复杂性，我们引入了双层功能对齐策略，该策略采用顶部$ k $操作来对块构成块的功能进行排名，然后在块功能之间进行密集的关注，从而降低了内存成本的降低。由于顶部$ k $操作涉及索引交换，从而排除了梯度传播，因此我们近似具有正则地球搬运工问题的非差异上的顶部$ K $操作，以便可以有效地向后传播其梯度。此外，我们设计了一个新颖的语义位置编码机制，该机制为每个单个语义区域建立坐标，以在建立对应关系时保持纹理结构。此外，我们设计了一种新颖的置信度注入模块，该模块通过根据内置对应关系的可靠性适应特征来减轻不匹配问题。广泛的实验表明，与最先进的方法相比，我们的方法在定性和定量上取得了出色的性能。

translated by 谷歌翻译

An Overview of Color Transfer and Style Transfer for Images and Videos

Shiguang Liu

分类：计算机视觉

2022-04-28

图像或视频外观特征（例如颜色，纹理，音调，照明等）反映了一个人的视觉感知和对图像或视频的直接印象。给定的源图像（视频）和目标图像（视频），图像（视频）颜色传输技术旨在处理源图像或视频的颜色（请注意，源图像或视频也引用了参考图像或一些文献中的视频）使它看起来像目标图像或视频的视频，即将目标图像或视频的外观传输到源图像或视频的外观，从而可以改变对源图像或视频的感知。作为色彩传输的扩展，样式转移是指以风格样本或通过样式传输模型的样式样本或一组图像的艺术家的样式呈现目标图像或视频的内容。作为一个新兴领域，对风格转移的研究吸引了许多研究人员的注意。经过数十年的发展，它已成为一项高度的跨学科研究，并可以实现各种艺术表达方式。本文概述了过去几年的色彩传输和样式转移方法。

translated by 谷歌翻译

Style Transfer with Target Feature Palette and Attention Coloring

Suhyeon Ha , Guisik Kim , Junseok Kwon

分类：计算机视觉

2021-11-07

STYLE TRANSED引起了大量的关注，因为它可以在保留图像结构的同时将给定图像更改为一个壮观的艺术风格。然而，常规方法容易丢失图像细节，并且在风格转移期间倾向于产生令人不快的伪影。在本文中，为了解决这些问题，提出了一种具有目标特征调色板的新颖艺术程式化方法，可以准确地传递关键特征。具体而言，我们的方法包含两个模块，即特征调色板组成（FPC）和注意着色（AC）模块。 FPC模块基于K-means群集捕获代表特征，并生成特征目标调色板。以下AC模块计算内容和样式图像之间的注意力映射，并根据注意力映射和目标调色板传输颜色和模式。这些模块使提出的程式化能够专注于关键功能并生成合理的传输图像。因此，所提出的方法的贡献是提出一种新的深度学习的样式转移方法和当前目标特征调色板和注意着色模块，并通过详尽的消融研究提供对所提出的方法的深入分析和洞察。定性和定量结果表明，我们的程式化图像具有最先进的性能，具有保护核心结构和内容图像的细节。

translated by 谷歌翻译

PASTA-GAN++: A Versatile Framework for High-Resolution Unpaired Virtual Try-on

Zhenyu Xie , Zaiyu Huang , Fuwei Zhao , Haoye Dong , Michael Kampffmeyer , Xin Dong , Feida Zhu , Xiaodan Liang

分类：计算机视觉

2022-07-27

基于图像的虚拟试验是以人为中心的现实潜力，是以人为中心的图像生成的最有希望的应用之一。在这项工作中，我们迈出了一步，探索多功能的虚拟尝试解决方案，我们认为这应该具有三个主要属性，即，它们应支持无监督的培训，任意服装类别和可控的服装编辑。为此，我们提出了一个特征性的端到端网络，即用空间自适应的斑点适应性GAN ++（Pasta-gan ++），以实现用于高分辨率不合规的虚拟试验的多功能系统。具体而言，我们的意大利面++由一个创新的贴布贴片的拆卸模块组成，可以将完整的服装切换为归一化贴剂，该贴片能够保留服装样式信息，同时消除服装空间信息，从而减轻在未受监督训练期间过度适应的问题。此外，面食++引入了基于贴片的服装表示和一个贴片引导的解析合成块，使其可以处理任意服装类别并支持本地服装编辑。最后，为了获得具有逼真的纹理细节的尝试结果，面食gan ++结合了一种新型的空间自适应残留模块，以将粗翘曲的服装功能注入发电机。对我们新收集的未配对的虚拟试验（UPT）数据集进行了广泛的实验，证明了面食gan ++比现有SOTA的优越性及其可控服装编辑的能力。

translated by 谷歌翻译

Style Your Hair: Latent Optimization for Pose-Invariant Hairstyle Transfer via Local-Style-Aware Hair Alignment

Taewoo Kim , Chaeyeon Chung , Yoonseo Kim , Sunghyun Park , Kangyeol Kim , Jaegul Choo

分类：计算机视觉

2022-08-16

由于发型的复杂性和美味，编辑发型是独一无二的，而且具有挑战性。尽管最近的方法显着改善了头发的细节，但是当源图像的姿势与目标头发图像的姿势大不相同时，这些模型通常会产生不良的输出，从而限制了其真实世界的应用。发型是一种姿势不变的发型转移模型，可以减轻这种限制，但在保留精致的头发质地方面仍然表现出不令人满意的质量。为了解决这些局限性，我们提出了配备潜在优化和新呈现的局部匹配损失的高性能姿势不变的发型转移模型。在stylegan2潜在空间中，我们首先探索目标头发的姿势对准的潜在代码，并根据本地风格匹配保留了详细纹理。然后，我们的模型对源的遮挡构成了对齐的目标头发的遮挡，并将两个图像混合在一起以产生最终输出。实验结果表明，我们的模型在在较大的姿势差异和保留局部发型纹理下转移发型方面具有优势。

translated by 谷歌翻译

UniColor: A Unified Framework for Multi-Modal Colorization with Transformer

Zhitong Huang , Nanxuan Zhao , Jing Liao

分类：计算机视觉

2022-09-22

我们提出了第一个统一的框架Unicolor，以支持多种方式的着色，包括无条件和条件性的框架，例如中风，示例，文本，甚至是它们的混合。我们没有为每种类型的条件学习单独的模型，而是引入了一个两阶段的着色框架，以将各种条件纳入单个模型。在第一阶段，多模式条件将转换为提示点的共同表示。特别是，我们提出了一种基于剪辑的新方法，将文本转换为提示点。在第二阶段，我们提出了一个基于变压器的网络，该网络由Chroma-vqgan和Hybrid-Transformer组成，以生成以提示点为条件的多样化和高质量的着色结果。定性和定量比较都表明，我们的方法在每种控制方式中都优于最先进的方法，并进一步实现了以前不可行的多模式着色。此外，我们设计了一个交互式界面，显示了我们统一框架在实际用法中的有效性，包括自动着色，混合控制着色，局部再现和迭代色彩编辑。我们的代码和型号可在https://luckyhzt.github.io/unicolor上找到。

translated by 谷歌翻译