由于特征陈述学习微妙对象细节的难度,无监督的细粒度类聚类是实用但具有挑战性的任务。我们介绍C3-GaN,一种通过应用对比学习来利用Infogan的分类推理能力的方法。我们的目标是学习鼓励数据在嵌入空间中形成不同的群集边界的特征表示,同时还可以最大化潜在代码和其观察之间的相互信息。我们的方法是培训用于推断群集的鉴别器,以优化对比损失,其中最大化互信息的图像潜在的成对被认为是正对,其余部分作为负对对。具体而言,我们映射从分类分布中采样的生成器的输入,以识别鉴别器的嵌入空间,并让它们充当群集质心。以这种方式,实现了C3-GaN,以了解一个聚类友好的嵌入空间,其中每个群集都是独特的分离的。实验结果表明,C3-GaN在四个细粒度的基准数据集上实现了最先进的聚类性能,同时还减轻了模式崩溃现象。
translated by 谷歌翻译
深度学习方法依赖于高质量的人类监督,这仍然昂贵,耗时和容易出错,特别是对于图像分割任务。在本文中,我们提出了一种用于自动综合成对的照片 - 现实图像和分割掩模的方法,以便使用前景背景分割网络。特别地,我们学习一种生成的对抗网络,其将图像分解为前景和背景层,并通过最大化生成的图像和潜在变量之间的互信息来避免微小分解。改进的分层GAN可以合成更高质量的数据集,可以从中学习更高性能的分段网络。此外,采用分割网络来稳定分层GAN的训练作为返回,其与层状导致进一步交替培训。关于各种单对象数据集的实验表明,与相关方法相比,我们的方法实现了竞争的发电质量和分割性能。
translated by 谷歌翻译
Unsupervised foreground-background segmentation aims at extracting salient objects from cluttered backgrounds, where Generative Adversarial Network (GAN) approaches, especially layered GANs, show great promise. However, without human annotations, they are typically prone to produce foreground and background layers with non-negligible semantic and visual confusion, dubbed "information leakage", resulting in notable degeneration of the generated segmentation mask. To alleviate this issue, we propose a simple-yet-effective explicit layer independence modeling approach, termed Independent Layer Synthesis GAN (ILSGAN), pursuing independent foreground-background layer generation by encouraging their discrepancy. Specifically, it targets minimizing the mutual information between visible and invisible regions of the foreground and background to spur interlayer independence. Through in-depth theoretical and experimental analyses, we justify that explicit layer independence modeling is critical to suppressing information leakage and contributes to impressive segmentation performance gains. Also, our ILSGAN achieves strong state-of-the-art generation quality and segmentation performance on complex real-world data.
translated by 谷歌翻译
生成的对抗网络(GANS)是在图像生成中最先进的驱动力。尽管他们能够合成高分辨率的照片真实图像,但在不同粒度的按需调节产生内容仍然是一个挑战。这一挑战通常是通过利用兴趣属性的大规模数据集,这是一个并不总是可行的选项的艰巨任务。因此,将控制进入无监督的生成模型的生成过程至关重要。在这项工作中,我们通过利用以无监督的时尚训练良好的GAN来专注于可控制的图像。为此,我们发现发电机的中间层的表示空间形成多个集群,该集群将数据分离为根据语义​​有意义的属性(例如,头发颜色和姿势)。通过在群集分配上调节,所提出的方法能够控制生成图像的语义类。我们的方法使通过隐式最大似然估计(IMLE)从每个集群中采样。我们使用不同的预先培训的生成模型展示我们对面孔(Celeba-HQ和FFHQ),动物(Imagenet)和物体(LSUN)的效果。结果突出了我们在面孔上像性,姿势和发型等属性的条件图像生成的能力,以及不同对象类别的各种功能。
translated by 谷歌翻译
前景感知的图像合成旨在生成图像及其前景面具。一种常见的方法是将图像制定为前景图像和背景图像的掩盖混合物。这是一个具有挑战性的问题,因为它容易到达琐碎的解决方案,在这些解决方案中,图像淹没了另一个图像,即面具变得完全充满或空,并且前景和背景没有有意义的分离。我们将Furrygan带有三个关键组成部分:1)施加前景图像和复合图像是现实的,2)将掩码设计为粗糙和细面膜的组合,以及3)通过在辅助掩码中引导发电机,并通过辅助掩码预测器中的辅助掩码预测器。歧视者。我们的方法生成了逼真的图像,并具有非常详细的α面膜,这些面膜以完全无监督的方式覆盖头发,皮毛和晶须。
translated by 谷歌翻译
具有集群潜在空间的生成对抗网络(GANS)可以以完全无监督的方式执行条件生成。在现实世界中,未标记数据的突出属性可能是不平衡的。但是,现有的大多数无监督的条件GAN不能正确地将这些数据的群集属于它们的潜在空间,因为它们假设属性的均匀分布。为了解决这个问题,我们理论上派生的斯坦潜在优化,提供了在连续潜在空间中之前的高斯混合物的潜在分布参数的重新传播参数的梯度估计。在结构上,我们引入了编码器网络和新颖的无监督条件对比丢失,以确保从单个混合组件生成的数据表示单个属性。我们确认,即使在没有属性信息的情况下。此外,我们证明可以使用少量探测数据来操纵所学习的属性。
translated by 谷歌翻译
我们提出了一种具有多个鉴别器的生成的对抗性网络,其中每个鉴别者都专门用于区分真实数据集的子集。这种方法有助于学习与底层数据分布重合的发电机,从而减轻慢性模式崩溃问题。从多项选择学习的灵感来看,我们引导每个判别者在整个数据的子集中具有专业知识,并允许发电机在没有监督训练示例和鉴别者的数量的情况下自动找到潜伏和真实数据空间之间的合理对应关系。尽管使用多种鉴别器,但骨干网络在鉴别器中共享,并且培训成本的增加最小化。我们使用多个评估指标展示了我们算法在标准数据集中的有效性。
translated by 谷歌翻译
Recently, unsupervised learning has made impressive progress on various tasks. Despite the dominance of discriminative models, increasing attention is drawn to representations learned by generative models and in particular, Generative Adversarial Networks (GANs). Previous works on the interpretation of GANs reveal that GANs encode semantics in feature maps in a linearly separable form. In this work, we further find that GAN's features can be well clustered with the linear separability assumption. We propose a novel clustering algorithm, named KLiSH, which leverages the linear separability to cluster GAN's features. KLiSH succeeds in extracting fine-grained semantics of GANs trained on datasets of various objects, e.g., car, portrait, animals, and so on. With KLiSH, we can sample images from GANs along with their segmentation masks and synthesize paired image-segmentation datasets. Using the synthesized datasets, we enable two downstream applications. First, we train semantic segmentation networks on these datasets and test them on real images, realizing unsupervised semantic segmentation. Second, we train image-to-image translation networks on the synthesized datasets, enabling semantic-conditional image synthesis without human annotations.
translated by 谷歌翻译
This paper proposes a novel self-supervised based Cut-and-Paste GAN to perform foreground object segmentation and generate realistic composite images without manual annotations. We accomplish this goal by a simple yet effective self-supervised approach coupled with the U-Net based discriminator. The proposed method extends the ability of the standard discriminators to learn not only the global data representations via classification (real/fake) but also learn semantic and structural information through pseudo labels created using the self-supervised task. The proposed method empowers the generator to create meaningful masks by forcing it to learn informative per-pixel as well as global image feedback from the discriminator. Our experiments demonstrate that our proposed method significantly outperforms the state-of-the-art methods on the standard benchmark datasets.
translated by 谷歌翻译
提供和渲染室内场景一直是室内设计的一项长期任务,艺术家为空间创建概念设计,建立3D模型的空间,装饰,然后执行渲染。尽管任务很重要,但它很乏味,需要巨大的努力。在本文中,我们引入了一个特定领域的室内场景图像合成的新问题,即神经场景装饰。鉴于一张空的室内空间的照片以及用户确定的布局列表,我们旨在合成具有所需的家具和装饰的相同空间的新图像。神经场景装饰可用于以简单而有效的方式创建概念室内设计。我们解决这个研究问题的尝试是一种新颖的场景生成体系结构,它将空的场景和对象布局转化为现实的场景照片。我们通过将其与有条件图像合成基线进行比较,以定性和定量的方式将其进行比较,证明了我们提出的方法的性能。我们进行广泛的实验,以进一步验证我们生成的场景的合理性和美学。我们的实现可在\ url {https://github.com/hkust-vgd/neural_scene_decoration}获得。
translated by 谷歌翻译
最近的研究表明,风格老年提供了对图像合成和编辑的下游任务的有希望的现有模型。然而,由于样式盖的潜在代码被设计为控制全球样式,因此很难实现对合成图像的细粒度控制。我们提出了SemanticStylegan,其中发电机训练以分别培训局部语义部件,并以组成方式合成图像。不同局部部件的结构和纹理由相应的潜在码控制。实验结果表明,我们的模型在不同空间区域之间提供了强烈的解剖。当与为样式器设计的编辑方法结合使用时,它可以实现更细粒度的控制,以编辑合成或真实图像。该模型也可以通过传输学习扩展到其他域。因此,作为具有内置解剖学的通用先前模型,它可以促进基于GaN的应用的发展并实现更多潜在的下游任务。
translated by 谷歌翻译
We introduce a new method for diverse foreground generation with explicit control over various factors. Existing image inpainting based foreground generation methods often struggle to generate diverse results and rarely allow users to explicitly control specific factors of variation (e.g., varying the facial identity or expression for face inpainting results). We leverage contrastive learning with latent codes to generate diverse foreground results for the same masked input. Specifically, we define two sets of latent codes, where one controls a pre-defined factor (``known''), and the other controls the remaining factors (``unknown''). The sampled latent codes from the two sets jointly bi-modulate the convolution kernels to guide the generator to synthesize diverse results. Experiments demonstrate the superiority of our method over state-of-the-arts in result diversity and generation controllability.
translated by 谷歌翻译
由于其通过深层神经网络的共同表示学习和聚类的能力,近年来,深层聚类引起了人们的关注。在其最新发展中,对比度学习已成为一种有效的技术,可实质性地提高深度聚类的性能。但是,现有的基于学习的基于对比的深层聚类算法主要集中于一些精心设计的增强(通常具有有限的转换以保留结构),被称为薄弱的增强,但不能超越弱化的增强,以探索更多的机会(随着更具侵略性的转变甚至严重的扭曲)。在本文中,我们提出了一种被称为强烈增强的对比聚类(SACC)的端到端深群集方法,该方法将传统的两夸大视图范式扩展到多种视图,并共同利用强大而弱的增强,以增强深层聚类。特别是,我们利用具有三重共享权重的骨干网络,在该网络中,强烈的增强视图和两个弱化的视图均融合在一起。基于主链产生的表示,弱进行弱化的视图对和强力视图对同时被利用用于实例级的对比度学习(通过实例投影仪)和群集级的对比度学习(通过群集投影仪),与主链一起可以以纯监督的方式共同优化。五个具有挑战性的图像数据集的实验结果表明,我们的SACC方法优于最先进的方法。该代码可在https://github.com/dengxiaozhi/sacc上找到。
translated by 谷歌翻译
现有的深度聚类方法依赖于对比学习的对比学习,这需要否定例子来形成嵌入空间,其中所有情况都处于良好分离状态。但是,否定的例子不可避免地引起阶级碰撞问题,损害了群集的表示学习。在本文中,我们探讨了对深度聚类的非对比表示学习,被称为NCC,其基于Byol,一种没有负例的代表性方法。首先,我们建议将一个增强的实例与嵌入空间中的另一个视图的邻居对齐,称为正抽样策略,该域避免了由否定示例引起的类碰撞问题,从而提高了集群内的紧凑性。其次,我们建议鼓励在所有原型中的一个原型和均匀性的两个增强视图之间的对准,命名的原型是原型的对比损失或protocl,这可以最大化簇间距离。此外,我们在期望 - 最大化(EM)框架中制定了NCC,其中E-Step利用球面K手段来估计实例的伪标签和来自目标网络的原型的分布,并且M-Step利用了所提出的损失优化在线网络。结果,NCC形成了一个嵌入空间,其中所有集群都处于分离良好,而内部示例都很紧凑。在包括ImageNet-1K的几个聚类基准数据集上的实验结果证明了NCC优于最先进的方法,通过显着的余量。
translated by 谷歌翻译
在深度学习研究中,自学学习(SSL)引起了极大的关注,引起了计算机视觉和遥感社区的兴趣。尽管计算机视觉取得了很大的成功,但SSL在地球观测领域的大部分潜力仍然锁定。在本文中,我们对在遥感的背景下为计算机视觉的SSL概念和最新发展提供了介绍,并回顾了SSL中的概念和最新发展。此外,我们在流行的遥感数据集上提供了现代SSL算法的初步基准,从而验证了SSL在遥感中的潜力,并提供了有关数据增强的扩展研究。最后,我们确定了SSL未来研究的有希望的方向的地球观察(SSL4EO),以铺平了两个领域的富有成效的相互作用。
translated by 谷歌翻译
生成的对抗网络(GAN)已受过培训,成为能够创作出令人惊叹的艺术品(例如面部生成和图像样式转移)的专业艺术家。在本文中,我们专注于现实的业务方案:具有所需的移动应用程序和主题样式的可自定义图标的自动生成。我们首先引入一个主题应用图标数据集,称为Appicon,每个图标都有两个正交主题和应用标签。通过研究强大的基线样式,我们观察到由正交标签的纠缠引起的模式崩溃。为了解决这一挑战,我们提出了由有条件的发电机和双重歧视器组成的ICONGAN,具有正交扩大,并且进一步设计了对比的特征分离策略,以使两个歧视器的特征空间正常。与其他方法相比,ICONGAN在Appicon基准测试中表明了优势。进一步的分析还证明了解开应用程序和主题表示的有效性。我们的项目将在以下网址发布:https://github.com/architect-road/icongan。
translated by 谷歌翻译
This paper presents Prototypical Contrastive Learning (PCL), an unsupervised representation learning method that bridges contrastive learning with clustering. PCL not only learns low-level features for the task of instance discrimination, but more importantly, it encodes semantic structures discovered by clustering into the learned embedding space. Specifically, we introduce prototypes as latent variables to help find the maximum-likelihood estimation of the network parameters in an Expectation-Maximization framework. We iteratively perform E-step as finding the distribution of prototypes via clustering and M-step as optimizing the network via contrastive learning. We propose ProtoNCE loss, a generalized version of the InfoNCE loss for contrastive learning, which encourages representations to be closer to their assigned prototypes. PCL outperforms state-of-the-art instance-wise contrastive learning methods on multiple benchmarks with substantial improvement in low-resource transfer learning. Code and pretrained models are available at https://github.com/salesforce/PCL.
translated by 谷歌翻译
我们在本文中解决了广义类别发现(GCD)的问题,即从一组可见的类中利用信息的未标记的图像,其中未标记的图像可以包含可见的类和看不见的类。可以将所见类看作是类的隐式标准,这使得此设置不同于无监督的聚类,而集群标准可能模棱两可。我们主要关注在细粒数据集中发现类别的问题,因为它是类别发现的最直接应用程序之一,即帮助专家使用所见类规定的隐性标准在未标记的数据集中发现新颖概念。通用类别发现的最新方法杠杆对比度学习以学习表示形式,但是较大的类间相似性和阶层内差异对方法提出了挑战,因为负面示例可能包含无关的线索,以识别类别因此,算法可能会收敛到局部微米。我们提出了一种名为“专家对抗性学习(XCON)”的新颖方法,可以通过将数据集使用K-均值聚类将数据集划分为子数据库,然后对每个子数据集进行对比度学习,从而帮助模型从图像中挖掘有用的信息。学习细粒度的判别特征。在细粒度数据集上的实验表明,与以前的最佳方法相比,性能明显改善,表明我们方法的有效性。
translated by 谷歌翻译
自我监督的视觉表现学习的目标是学习强大,可转让的图像表示,其中大多数研究专注于物体或场景水平。另一方面,在部分级别的代表学习得到了显着的关注。在本文中,我们向对象部分发现和分割提出了一个无人监督的方法,并进行三个贡献。首先,我们通过一系列目标构建一个代理任务,鼓励模型将图像的有意义分解成其部件。其次,先前的工作争辩地用于重建或聚类预先计算的功能作为代理的代理;我们凭经验展示了这一点,这种情况不太可能找到有意义的部分;主要是因为它们的低分辨率和分类网络到空间涂抹信息的趋势。我们建议像素水平的图像重建可以缓解这个问题,充当互补的提示。最后,我们表明基于Keypoint回归的标准评估与分割质量不符合良好,因此引入不同的指标,NMI和ARI,更好地表征对象的分解成零件。我们的方法产生了一致的细粒度但视觉上不同的类别的语义部分,优于三个基准数据集的现有技术。代码可在项目页面上找到:https://www.robots.ox.ac.uk/~vgg/research/unsup-parts/
translated by 谷歌翻译
机器学习模型通常会遇到与训练分布不同的样本。无法识别分布(OOD)样本,因此将该样本分配给课堂标签会显着损害模​​型的可靠性。由于其对在开放世界中的安全部署模型的重要性,该问题引起了重大关注。由于对所有可能的未知分布进行建模的棘手性,检测OOD样品是具有挑战性的。迄今为止,一些研究领域解决了检测陌生样本的问题,包括异常检测,新颖性检测,一级学习,开放式识别识别和分布外检测。尽管有相似和共同的概念,但分别分布,开放式检测和异常检测已被独立研究。因此,这些研究途径尚未交叉授粉,创造了研究障碍。尽管某些调查打算概述这些方法,但它们似乎仅关注特定领域,而无需检查不同领域之间的关系。这项调查旨在在确定其共同点的同时,对各个领域的众多著名作品进行跨域和全面的审查。研究人员可以从不同领域的研究进展概述中受益,并协同发展未来的方法。此外,据我们所知,虽然进行异常检测或单级学习进行了调查,但没有关于分布外检测的全面或最新的调查,我们的调查可广泛涵盖。最后,有了统一的跨域视角,我们讨论并阐明了未来的研究线,打算将这些领域更加紧密地融为一体。
translated by 谷歌翻译