几乎没有零件分割的目的是仅给出几个带注释的样本,将对象的不同部分分开。由于数据有限的挑战,现有的作品主要集中在学习分类器上,而不是预先训练的功能,无法学习针对零件细分的任务特定功能。在本文中,我们建议在“预训练” - “微调”范式中学习特定于任务的功能。我们进行及时设计以减少预训练任务(即图像生成)与下游任务(即部分分段)之间的差距,以便可以利用生成的GAN先验进行分割。这是通过将零件分割图投影到RGB空间中并在RGB分割图和原始图像之间进行插值来实现的。具体而言,我们设计了一种微调策略,以逐步将图像发生器调整到分割生成器中,在该机构中,生成器的监督通过插值从图像到分割图各不等。此外,我们提出了一个两流体系结构,即一个分割流以生成特定于任务的特征,以及一个图像流以提供空间约束。图像流可以视为自我监管的自动编码器,这使我们的模型能够从大规模的支持图像中受益。总体而言,这项工作是试图通过及时设计来探索一代任务和感知任务之间的内部相关性。广泛的实验表明,我们的模型可以在几个部分分割数据集上实现最新性能。
translated by 谷歌翻译
最近,在蒙版的图像建模中取得了重大进展,以赶上掩盖语言建模。但是,与NLP中的单词不同,图像的语义分解仍然使视觉和语言之间的掩盖自动编码(MAE)不同。在本文中,我们探讨了单词的潜在视觉类似物,即语义部分,并通过提出语义引导的掩盖策略将语义信息集成到MAE的训练过程中。与广泛采用的随机掩蔽相比,我们的掩蔽策略可以逐渐指导网络学习各种信息,即从部分内部模式到零件之间的关系。特别是,我们通过两个步骤实现这一目标。 1)语义部分学习:我们设计了一种自制的部分学习方法,通过利用和完善基于VIT的编码器的多头注意来获得语义部分。 2)语义引导的MAE(SEMMAE)训练:我们设计了一种掩盖策略,该策略从掩盖每个部分中的一部分贴片到掩盖图像中的一部分(整个)部分。关于各种视觉任务的广泛实验表明,Semmae可以通过集成语义信息来学习更好的图像表示。特别是,Semmae在Imagenet-1k上达到了84.5%的微调精度,这使香草Mae的表现优于1.4%。在语义细分和细粒度的识别任务中,Semmae还带来了重大改进并产生最先进的性能。
translated by 谷歌翻译
基于GAN的生成建模的进展是,社区的推动是为了发现超出图像生成和编辑任务的使用。特别是,最近的几项工作表明,可以重新用诸如零件分割的判别任务重新用来重新用,尤其是当训练数据有限时。但这些改进如何解决自我监督学习的最新进展情况?由此引起这种激励,我们提出了一种基于对比学习的替代方法,并比较它们对标准的几次射击部分分割基准的性能。我们的实验表明,不仅GAN的方法不提供显着的性能优势,它们的多步训练很复杂,几乎是数量级较慢,并且可以引入额外的偏差。这些实验表明,由使用对比学习训练的标准前馈网络捕获的生成模型的感应偏差,例如它们的解开形状和纹理的能力。这些实验表明,目前生成模型中存在的电感偏差,例如它们的解开形状和纹理的能力,通过使用对比学习训练的标准前馈网络充分捕获。
translated by 谷歌翻译
带有像素天标签的注释图像是耗时和昂贵的过程。最近,DataSetGan展示了有希望的替代方案 - 通过利用一小组手动标记的GaN生成的图像来通过生成的对抗网络(GAN)来综合大型标记数据集。在这里,我们将DataSetGan缩放到ImageNet类别的规模。我们从ImageNet上训练的类条件生成模型中拍摄图像样本,并为所有1K类手动注释每个类的5张图像。通过在Biggan之上培训有效的特征分割架构,我们将Bigan转换为标记的DataSet生成器。我们进一步表明,VQGan可以类似地用作数据集生成器,利用已经注释的数据。我们通过在各种设置中标记一组8K实图像并在各种设置中评估分段性能来创建一个新的想象因基准。通过广泛的消融研究,我们展示了利用大型生成的数据集来培训在像素 - 明智的任务上培训不同的监督和自我监督的骨干模型的大增益。此外,我们证明,使用我们的合成数据集进行预培训,以改善在几个下游数据集上的标准Imagenet预培训,例如Pascal-VOC,MS-Coco,Citycapes和Chink X射线以及任务(检测,细分)。我们的基准将公开并维护一个具有挑战性的任务的排行榜。项目页面:https://nv-tlabs.github.io/big-dataseTgan/
translated by 谷歌翻译
与生成的对抗网(GAN)相比,降级扩散概率模型(DDPM)在各种图像生成任务中取得了显着成功。关于语义图像综合的最新工作主要遵循\ emph {de exto}基于gan的方法,这可能导致生成图像的质量或多样性不令人满意。在本文中,我们提出了一个基于DDPM的新型框架,用于语义图像合成。与先前的条件扩散模型不同,将语义布局和嘈杂的图像作为输入为U-NET结构,该结构可能无法完全利用输入语义掩码中的信息,我们的框架处理语义布局和嘈杂的图像不同。它将噪声图像馈送到U-NET结构的编码器时,而语义布局通过多层空间自适应归一化操作符将语义布局馈送到解码器。为了进一步提高语义图像合成中的发电质量和语义解释性,我们介绍了无分类器的指导采样策略,该策略承认采样过程的无条件模型的得分。在三个基准数据集上进行的广泛实验证明了我们提出的方法的有效性,从而在忠诚度(FID)和多样性〜(LPIPS)方面实现了最先进的性能。
translated by 谷歌翻译
随着信息中的各种方式存在于现实世界中的各种方式,多式联信息之间的有效互动和融合在计算机视觉和深度学习研究中的多模式数据的创造和感知中起着关键作用。通过卓越的功率,在多式联运信息中建模互动,多式联运图像合成和编辑近年来已成为一个热门研究主题。与传统的视觉指导不同,提供明确的线索,多式联路指南在图像合成和编辑方面提供直观和灵活的手段。另一方面,该领域也面临着具有固有的模态差距的特征的几个挑战,高分辨率图像的合成,忠实的评估度量等。在本调查中,我们全面地阐述了最近多式联运图像综合的进展根据数据模型和模型架构编辑和制定分类。我们从图像合成和编辑中的不同类型的引导方式开始介绍。然后,我们描述了多模式图像综合和编辑方法,其具有详细的框架,包括生成的对抗网络(GAN),GaN反转,变压器和其他方法,例如NERF和扩散模型。其次是在多模式图像合成和编辑中广泛采用的基准数据集和相应的评估度量的综合描述,以及分析各个优点和限制的不同合成方法的详细比较。最后,我们为目前的研究挑战和未来的研究方向提供了深入了解。与本调查相关的项目可在HTTPS://github.com/fnzhan/mise上获得
translated by 谷歌翻译
去噪扩散概率模型最近获得了很多研究的关注,因为它们优于GAN,以及目前提供最先进的生成性能。扩散模型的卓越性能使它们在若干应用中为它们提供了吸引人的工具,包括尿素,超分辨率和语义编辑。在本文中,我们证明扩散模型也可以用作语义分割的仪器,特别是当标记数据稀缺时的设置中。特别地,对于几种预训练的扩散模型,我们研究了从执行反向扩散过程的马尔可夫步骤的网络的中间激活。我们表明这些激活有效地捕获了来自输入图像的语义信息,并且看起来是分割问题的优异像素级表示。基于这些观察,我们描述了一种简单的分段方法,即使仅提供了几种训练图像也可以工作。我们的方法显着优于若干数据集的现有替代品,以获得相同数量的人类监督。
translated by 谷歌翻译
由于简单但有效的训练机制和出色的图像产生质量,生成的对抗网络(GAN)引起了极大的关注。具有生成照片现实的高分辨率(例如$ 1024 \ times1024 $)的能力,最近的GAN模型已大大缩小了生成的图像与真实图像之间的差距。因此,许多最近的作品表明,通过利用良好的潜在空间和博学的gan先验来利用预先训练的GAN模型的新兴兴趣。在本文中,我们简要回顾了从三个方面利用预先培训的大规模GAN模型的最新进展,即1)大规模生成对抗网络的培训,2)探索和理解预训练的GAN模型,以及预先培训的GAN模型,以及3)利用这些模型进行后续任务,例如图像恢复和编辑。有关相关方法和存储库的更多信息,请访问https://github.com/csmliu/pretretaining-gans。
translated by 谷歌翻译
We present an extension to masked autoencoders (MAE) which improves on the representations learnt by the model by explicitly encouraging the learning of higher scene-level features. We do this by: (i) the introduction of a perceptual similarity term between generated and real images (ii) incorporating several techniques from the adversarial training literature including multi-scale training and adaptive discriminator augmentation. The combination of these results in not only better pixel reconstruction but also representations which appear to capture better higher-level details within images. More consequentially, we show how our method, Perceptual MAE, leads to better performance when used for downstream tasks outperforming previous methods. We achieve 78.1% top-1 accuracy linear probing on ImageNet-1K and up to 88.1% when fine-tuning, with similar results for other downstream tasks, all without use of additional pre-trained models or data.
translated by 谷歌翻译
The success of state-of-the-art deep neural networks heavily relies on the presence of large-scale labelled datasets, which are extremely expensive and time-consuming to annotate. This paper focuses on tackling semi-supervised part segmentation tasks by generating high-quality images with a pre-trained GAN and labelling the generated images with an automatic annotator. In particular, we formulate the annotator learning as a learning-to-learn problem. Given a pre-trained GAN, the annotator learns to label object parts in a set of randomly generated images such that a part segmentation model trained on these synthetic images with their predicted labels obtains low segmentation error on a small validation set of manually labelled images. We further reduce this nested-loop optimization problem to a simple gradient matching problem and efficiently solve it with an iterative algorithm. We show that our method can learn annotators from a broad range of labelled images including real images, generated images, and even analytically rendered images. Our method is evaluated with semi-supervised part segmentation tasks and significantly outperforms other semi-supervised competitors when the amount of labelled examples is extremely limited.
translated by 谷歌翻译
Learning a good image prior is a long-term goal for image restoration and manipulation. While existing methods like deep image prior (DIP) capture low-level image statistics, there are still gaps toward an image prior that captures rich image semantics including color, spatial coherence, textures, and high-level concepts. This work presents an effective way to exploit the image prior captured by a generative adversarial network (GAN) trained on large-scale natural images. As shown in Fig. 1, the deep generative prior (DGP) provides compelling results to restore missing semantics, e.g., color, patch, resolution, of various degraded images. It also enables diverse image manipulation including random jittering, image morphing, and category transfer. Such highly flexible restoration and manipulation are made possible through relaxing the assumption of existing GAN-inversion methods, which tend to fix the generator. Notably, we allow the generator to be fine-tuned on-the-fly in a progressive manner regularized by feature distance obtained by the discriminator in GAN. We show that these easy-to-implement and practical changes help preserve the reconstruction to remain in the manifold of nature image, and thus lead to more precise and faithful reconstruction for real images. Code is available at https://github.com/XingangPan/deepgenerative-prior.
translated by 谷歌翻译
这项工作的目的是探索如何有效有效地将预训练的基础模型适应图像语义分割的各种下游任务。常规方法通常为每个特定数据集微调整个网络,并且存储这些网络的大量参数是繁重的。最近的一些作品试图将一些可训练的参数插入冷冻网络中,以学习有效调整的视觉提示。但是,这些作品显着修改了标准模块的原始结构,使其在许多现有的高速推理设备上无法使用,其中标准模块及其参数已嵌入。为了促进基于及时的语义细分,我们提出了一个新颖的阶段间及时匹配的框架,该框架保持基础模型的原始结构,同时自适应地生成视觉提示,以适应以任务为导向的调整。具体而言,首先将预训练的模型分为多个阶段,其参数被冷冻并共享所有语义分割任务。然后将称为语义意识的提示匹配器的轻巧模块在两个阶段之间介绍给层次上的插值,以在临时语义图的指导下学习每个特定任务的合理提示。这样,我们可以更好地刺激对冷冻模型的预训练的知识,以有效地学习下游数据集的语义概念。在五个基准上进行的广泛实验表明,所提出的方法可以实现参数效率和性能效率之间的有希望的权衡。
translated by 谷歌翻译
edu.hk (a) Image Reconstruction (b) Image Colorization (c) Image Super-Resolution (d) Image Denoising (e) Image Inpainting (f) Semantic Manipulation Figure 1: Multi-code GAN prior facilitates many image processing applications using the reconstruction from fixed PGGAN [23] models.
translated by 谷歌翻译
我们引入了一个自我监督的视觉表示模型BEIT,该模型代表来自图像变压器的双向编码器表示。在Bert在自然语言处理区域中开发后,我们提出了一项掩盖的图像建模任务,以预识视觉变压器。具体而言,每个图像在我们的预训练中具有两个视图,即图像贴片(例如16x16像素)和视觉令牌(即离散令牌)。我们首先将原始图像“将”“令牌化”到视觉令牌中。然后,我们随机掩盖了一些图像补丁并将其喂入骨干变压器中。预训练的目标是根据损坏的图像补丁恢复原始的视觉令牌。在预训练BEIT之后,我们通过将任务层附加在预审计的编码器上,直接通过将任务层附加到下游任务上的模型参数。图像分类和语义分割的实验结果表明,我们的模型通过以前的预训练方法实现了竞争结果。例如,基本大小的BEIT在Imagenet-1K上获得了83.2%的TOP-1精度,并以相同的设置优于划痕DEIT训练(81.8%)。此外,大尺寸的BEIT仅使用Imagenet-1K获得86.3%,即使在Imagenet-22K上进行预训练(85.2%),甚至超过了VIT-L。代码和预估计的模型可在https://aka.ms/beit上找到。
translated by 谷歌翻译
我们表明,诸如Stylegan和Biggan之类的预训练的生成对抗网络(GAN)可以用作潜在银行,以提高图像超分辨率的性能。尽管大多数现有面向感知的方法试图通过以对抗性损失学习来产生现实的产出,但我们的方法,即生成的潜在银行(GLEAN),通过直接利用预先训练的gan封装的丰富而多样的先验来超越现有实践。但是,与需要在运行时需要昂贵的图像特定优化的普遍的GAN反演方法不同,我们的方法只需要单个前向通行证才能修复。可以轻松地将Glean合并到具有多分辨率Skip连接的简单编码器银行decoder架构中。采用来自不同生成模型的先验,可以将收集到各种类别(例如人的面孔,猫,建筑物和汽车)。我们进一步提出了一个轻巧的Glean,名为Lightglean,该版本仅保留Glean中的关键组成部分。值得注意的是,Lightglean仅由21%的参数和35%的拖鞋组成,同时达到可比的图像质量。我们将方法扩展到不同的任务,包括图像着色和盲图恢复,广泛的实验表明,与现有方法相比,我们提出的模型表现出色。代码和模型可在https://github.com/open-mmlab/mmediting上找到。
translated by 谷歌翻译
3D感知最近的进展在了解3DACHAPES甚至场景的几何结构方面表现出令人印象深刻的进展。灵感来自这些进步的几何理解,我们旨在利用几何约束下学到的表示基于图像的感知。我们介绍一种基于多视图RGB-D数据学习View-Invariant的方法,用于网络预训练的网络预训练的几何感知表示,然后可以将其有效地传送到下游2D任务。我们建议在多视图IM-ysge约束和图像 - 几何约束下采用对比学习,以便在学习的2D表示中进行编码。这不仅仅是在几乎非仅对图像的语义分割,实例分段和对象检测的基于图像的基于图像的基于图像的TASK上学习而改进,而且,但是,在低数据方案中提供了显着的改进。我们对全数据的语义细分显示6.0%的显着提高,以及剪刀上的基线20%数据上的11.9%。
translated by 谷歌翻译
语义图像编辑利用本地语义标签图来生成所需的内容。最近的工作借用了Spade Block来实现语义图像编辑。但是,由于编辑区域和周围像素之间的样式差异,它无法产生令人愉悦的结果。我们将其归因于以下事实:Spade仅使用与图像无关的局部语义布局,但忽略了已知像素中包含的图像特定样式。为了解决此问题,我们提出了一个样式保存的调制(SPM),其中包括两个调制过程:第一个调制包含上下文样式和语义布局,然后生成两个融合的调制参数。第二次调制采用融合参数来调制特征图。通过使用这两种调制,SPM可以在保留特定图像的上下文样式的同时注入给定的语义布局。此外,我们设计了一种渐进式体系结构,以粗到精细的方式生成编辑的内容。提出的方法可以获得上下文一致的结果,并显着减轻生成区域和已知像素之间的不愉快边界。
translated by 谷歌翻译
Large-scale labeled data are generally required to train deep neural networks in order to obtain better performance in visual feature learning from images or videos for computer vision applications. To avoid extensive cost of collecting and annotating large-scale datasets, as a subset of unsupervised learning methods, self-supervised learning methods are proposed to learn general image and video features from large-scale unlabeled data without using any human-annotated labels. This paper provides an extensive review of deep learning-based self-supervised general visual feature learning methods from images or videos. First, the motivation, general pipeline, and terminologies of this field are described. Then the common deep neural network architectures that used for self-supervised learning are summarized. Next, the schema and evaluation metrics of self-supervised learning methods are reviewed followed by the commonly used image and video datasets and the existing self-supervised visual feature learning methods. Finally, quantitative performance comparisons of the reviewed methods on benchmark datasets are summarized and discussed for both image and video feature learning. At last, this paper is concluded and lists a set of promising future directions for self-supervised visual feature learning.
translated by 谷歌翻译
我们从完全不同的角度解决了不足的α效果问题。给定输入肖像图像,而不是估计相应的alpha哑光,我们专注于另一端,以巧妙地增强此输入,从而可以通过任何现有的均值模型轻松估算α哑光。这是通过探索GAN模型的潜在空间来完成的。可以证明可以在潜在空间中找到可解释的方向,它们对应于语义图像转换。我们在Alpha Matting中进一步探索了此属性。特别是,我们将输入肖像倒入StyleGan的潜在代码中,我们的目的是发现潜在空间中是否有增强版本,该版本与参考垫模型更兼容。我们在四个量身定制的损失下优化了潜在空间中的多尺度潜在媒介,从而确保了肖像画上的底漆特异性和微妙的修改。我们证明了所提出的方法可以为任意床上模型完善真实的肖像图像,从而使自动alpha matting的性能较大。此外,我们还利用了Stylegan的生成性能,并建议生成可以将其视为伪GT的增强的肖像数据。它解决了昂贵的Alpha Matte注释的问题,进一步增强了现有模型的底漆性能。代码可在〜\ url {https://github.com/cnnlstm/stylegan_matting}中获得。
translated by 谷歌翻译
我们建议在2D域中利用自我监督的技术来实现细粒度的3D形状分割任务。这是受到观察的启发:基于视图的表面表示比基于点云或体素占用率的3D对应物更有效地建模高分辨率表面细节和纹理。具体而言,给定3D形状,我们将其从多个视图中渲染,并在对比度学习框架内建立密集的对应学习任务。结果,与仅在2D或3D中使用自学的替代方案相比,学到的2D表示是视图不变和几何一致的,在对有限的标记形状进行培训时,可以更好地概括概括。对纹理(渲染peple)和未纹理(partnet)3D数据集的实验表明,我们的方法在细粒部分分割中优于最先进的替代方案。当仅一组稀疏的视图可供训练或形状纹理时,对基准的改进就会更大,这表明MVDecor受益于2D处理和3D几何推理。
translated by 谷歌翻译