将图像分段为其部件是频繁预处理,用于高级视觉任务,例如图像编辑。然而,用于监督培训的注释面具是昂贵的。存在弱监督和无监督的方法,但它们依赖于图像对的比较,例如来自多视图,视频帧和单个图像的图像转换,这限制了它们的适用性。为了解决这个问题,我们提出了一种基于GAN的方法,可以在潜在掩模上生成图像,从而减轻了先前方法所需的完整或弱注释。我们表明,当在明确地定义零件位置的潜在关键点上以分层方式调节掩模时,可以忠实地学习这种掩模条件的图像生成。在不需要监督掩模或点的情况下,该策略增加了对观点和对象位置变化的鲁棒性。它还允许我们生成用于训练分段网络的图像掩码对,这优于已建立的基准的最先进的无监督的分段方法。
translated by 谷歌翻译
生成的对抗网络(GANS)已经实现了图像生成的照片逼真品质。但是,如何最好地控制图像内容仍然是一个开放的挑战。我们介绍了莱特基照片,这是一个两级GaN,它在古典GAN目标上训练了训练,在一组空间关键点上有内部调节。这些关键点具有相关的外观嵌入,分别控制生成对象的位置和样式及其部件。我们使用合适的网络架构和培训方案地址的一个主要困难在没有领域知识和监督信号的情况下将图像解开到空间和外观因素中。我们展示了莱特基点提供可解释的潜在空间,可用于通过重新定位和交换Keypoint Embedding来重新安排生成的图像,例如通过组合来自不同图像的眼睛,鼻子和嘴巴来产生肖像。此外,关键点和匹配图像的显式生成启用了一种用于无监督的关键点检测的新的GaN的方法。
translated by 谷歌翻译
诸如关键点之类的结构化表示形式被广泛用于姿势传输,条件图像生成,动画和3D重建。但是,他们的监督学习需要每个目标域的昂贵注释。我们提出了一种自我监督的方法,该方法学会从外观上脱离对象结构,并用直边链接的2D关键点的图形。只有描绘同一对象类的图像集合,都学会了关键点的位置及其成对边缘权重。该图是可以解释的,例如,当应用于显示人的图像时,自动链接会恢复人类骨架拓扑。我们的关键要素是i)一个编码器,该编码器可预测输入图像中的关键点位置,ii)共享图作为一个潜在变量,该图形在每个图像中链接了相同的对键点,iii)一个中间边缘映射,结合了潜在图形边缘权重和关键点的位置以柔软,可区分的方式以及iv)在随机掩盖的图像上的介入目标。尽管更简单,但自动链接在已建立的关键点上优于现有的自我监督方法,并构成估计基准,并为更多样化的数据集上的结构调节生成模型铺平了道路。
translated by 谷歌翻译
自我监督的视觉表现学习的目标是学习强大,可转让的图像表示,其中大多数研究专注于物体或场景水平。另一方面,在部分级别的代表学习得到了显着的关注。在本文中,我们向对象部分发现和分割提出了一个无人监督的方法,并进行三个贡献。首先,我们通过一系列目标构建一个代理任务,鼓励模型将图像的有意义分解成其部件。其次,先前的工作争辩地用于重建或聚类预先计算的功能作为代理的代理;我们凭经验展示了这一点,这种情况不太可能找到有意义的部分;主要是因为它们的低分辨率和分类网络到空间涂抹信息的趋势。我们建议像素水平的图像重建可以缓解这个问题,充当互补的提示。最后,我们表明基于Keypoint回归的标准评估与分割质量不符合良好,因此引入不同的指标,NMI和ARI,更好地表征对象的分解成零件。我们的方法产生了一致的细粒度但视觉上不同的类别的语义部分,优于三个基准数据集的现有技术。代码可在项目页面上找到:https://www.robots.ox.ac.uk/~vgg/research/unsup-parts/
translated by 谷歌翻译
现有的无监督方法用于关键点学习的方法在很大程度上取决于以下假设:特定关键点类型(例如肘部,数字,抽象几何形状)仅在图像中出现一次。这极大地限制了它们的适用性,因为在应用未经讨论或评估的方法之前必须隔离每个实例。因此,我们提出了一种新的方法来学习任务无关的,无监督的关键点(Tusk),可以处理多个实例。为了实现这一目标,我们使用单个热图检测,而不是常用的多个热图的常用策略,而是专门针对特定的关键点类型,并通过群集实现了对关键点类型的无监督学习。具体来说,我们通过教导它们从一组稀疏的关键点及其描述符中重建图像来编码语义,并在其中被迫在学术原型中形成特征空间中的不同簇。这使我们的方法适合于更广泛的任务范围,而不是以前的任何无监督关键点方法:我们显示了有关多种现实检测和分类,对象发现和地标检测的实验 - 与艺术状况相同的无监督性能,同时也能够处理多个实例。
translated by 谷歌翻译
Image animation consists of generating a video sequence so that an object in a source image is animated according to the motion of a driving video. Our framework addresses this problem without using any annotation or prior information about the specific object to animate. Once trained on a set of videos depicting objects of the same category (e.g. faces, human bodies), our method can be applied to any object of this class. To achieve this, we decouple appearance and motion information using a self-supervised formulation. To support complex motions, we use a representation consisting of a set of learned keypoints along with their local affine transformations. A generator network models occlusions arising during target motions and combines the appearance extracted from the source image and the motion derived from the driving video. Our framework scores best on diverse benchmarks and on a variety of object categories. Our source code is publicly available 1 .
translated by 谷歌翻译
我们提出了一种无监督的方法,用于对铰接对象的3D几何形式表示学习,其中不使用图像置态对或前景口罩进行训练。尽管可以通过现有的3D神经表示的明确姿势控制铰接物体的影像图像,但这些方法需要地面真相3D姿势和前景口罩进行训练,这是昂贵的。我们通过学习GAN培训来学习表示形式来消除这种需求。该发电机经过训练,可以通过对抗训练从随机姿势和潜在向量产生逼真的铰接物体图像。为了避免GAN培训的高计算成本,我们提出了基于三平面的铰接对象的有效神经表示形式,然后为其无监督培训提供了基于GAN的框架。实验证明了我们方法的效率,并表明基于GAN的培训可以在没有配对监督的情况下学习可控的3D表示。
translated by 谷歌翻译
我们通过无监督学习的角度探索语义对应估计。我们使用标准化的评估协议彻底评估了最近提出的几种跨多个挑战数据集的无监督方法,在该协议中,我们会改变诸如骨干架构,预训练策略以及预训练和填充数据集等因素。为了更好地了解这些方法的故障模式,并为了提供更清晰的改进途径,我们提供了一个新的诊断框架以及一个新的性能指标,该指标更适合于语义匹配任务。最后,我们引入了一种新的无监督的对应方法,该方法利用了预训练的功能的强度,同时鼓励在训练过程中进行更好的比赛。与当前的最新方法相比,这会导致匹配性能明显更好。
translated by 谷歌翻译
Understanding the 3D world without supervision is currently a major challenge in computer vision as the annotations required to supervise deep networks for tasks in this domain are expensive to obtain on a large scale. In this paper, we address the problem of unsupervised viewpoint estimation. We formulate this as a self-supervised learning task, where image reconstruction provides the supervision needed to predict the camera viewpoint. Specifically, we make use of pairs of images of the same object at training time, from unknown viewpoints, to self-supervise training by combining the viewpoint information from one image with the appearance information from the other. We demonstrate that using a perspective spatial transformer allows efficient viewpoint learning, outperforming existing unsupervised approaches on synthetic data, and obtains competitive results on the challenging PASCAL3D+ dataset.
translated by 谷歌翻译
我们提出了Gan监督的学习,一个学习歧视模型的框架及其GAN生成的培训数据结束结束。我们将框架应用于密集的视觉调整问题。灵感来自经典的凝固方法,我们的甘蓝算法列举了空间变压器来将随机样本从受过协调的数据训练到常见的共同学习的目标模式。我们在八个数据集上显示结果,所有这些都证明了我们的方法成功对齐复杂数据并发现密集的对应。甘蓝显着优于过去自我监督的对应算法,并在几个数据集上与(有时超过)最先进的监督对应算法进行了近几个数据集 - 而不利用任何通信监督或数据增强,尽管仅仅是完全培训在GaN生成的数据上。对于精确的对应,我们通过最先进的受监管方法提高了3倍。我们展示了我们对下游GaN训练的图像数据集的增强现实,图像编辑和自动预处理的应用。
translated by 谷歌翻译
我们提出了一个新的视觉数据表示形式,该数据将对象位置从外观上删除。我们的方法称为深潜粒子(DLP),将视觉输入分解为低维的潜在``粒子'',其中每个粒子都用其周围区域的空间位置和特征来描述。为了学习这种表示形式,我们遵循一种基于VAE的方法,并根据空间 - 软构建结构引入了粒子位置的先验位置,并修改了受粒子之间倒角距离启发的证据下限损失。我们证明,我们的DLP表示形式可用于下游任务,例如无监督关键点(KP)检测,图像操纵和针对由多个动态对象组成的场景的视频预测。此外,我们表明,我们对问题的概率解释自然提供了粒子位置的不确定性估计,可用于模型选择以及其他任务。可用视频和代码:https://taldatech.github.io/deep-latent-particles-web/
translated by 谷歌翻译
我们引入分层可控的视频生成,在没有任何监督的情况下,将视频的初始帧分解为前景和背景层,用户可以通过简单地操纵前景掩模来控制视频生成过程。关键挑战是无监督的前景背景分离,这是模糊的,并且能够预测用户操作,可以访问未获得原始视频序列。我们通过提出两阶段学习程序来解决这些挑战。在第一阶段,随着丰富的损失和动态前景大小,我们学习如何将帧分离为前景和背景图层,并在这些图层上调节,如何使用VQ-VAE发生器生成下一帧。在第二阶段,我们通过将(参数化)控制从未来框架拟合(参数化)控制来进行该网络来预测对掩码的编辑。我们展示了该学习的有效性和更粒度的控制机制,同时说明了在两个基准数据集上的最先进的性能。我们提供了一个视频摘要以及HTTPS://gabriel-中的视频结果.Github.io/layered_controllable_video_generation
translated by 谷歌翻译
前景感知的图像合成旨在生成图像及其前景面具。一种常见的方法是将图像制定为前景图像和背景图像的掩盖混合物。这是一个具有挑战性的问题,因为它容易到达琐碎的解决方案,在这些解决方案中,图像淹没了另一个图像,即面具变得完全充满或空,并且前景和背景没有有意义的分离。我们将Furrygan带有三个关键组成部分:1)施加前景图像和复合图像是现实的,2)将掩码设计为粗糙和细面膜的组合,以及3)通过在辅助掩码中引导发电机,并通过辅助掩码预测器中的辅助掩码预测器。歧视者。我们的方法生成了逼真的图像,并具有非常详细的α面膜,这些面膜以完全无监督的方式覆盖头发,皮毛和晶须。
translated by 谷歌翻译
2 Lambda Labs 3 Twitter Figure 1. HoloGAN learns to separate pose from identity (shape and appearance) only from unlabelled 2D images without sacrificing the visual fidelity of the generated images. All results shown here are sampled from HoloGAN for the same identities in each row but in different poses.
translated by 谷歌翻译
Our goal with this survey is to provide an overview of the state of the art deep learning technologies for face generation and editing. We will cover popular latest architectures and discuss key ideas that make them work, such as inversion, latent representation, loss functions, training procedures, editing methods, and cross domain style transfer. We particularly focus on GAN-based architectures that have culminated in the StyleGAN approaches, which allow generation of high-quality face images and offer rich interfaces for controllable semantics editing and preserving photo quality. We aim to provide an entry point into the field for readers that have basic knowledge about the field of deep learning and are looking for an accessible introduction and overview.
translated by 谷歌翻译
从单眼图像中恢复纹理的3D网格是高度挑战的,尤其是对于缺乏3D地面真理的野外物体。在这项工作中,我们提出了网络文化,这是一个新的框架,可通过利用3D GAN预先训练的3D纹理网格合成的3D GAN的生成性先验。重建是通过在3D GAN中搜索最类似于目标网格的潜在空间来实现重建。由于预先训练的GAN以网状几何形状和纹理封装了丰富的3D语义,因此在GAN歧管内进行搜索,因此自然地使重建的真实性和忠诚度正常。重要的是,这种正则化直接应用于3D空间,从而提供了在2D空间中未观察到的网格零件的关键指导。标准基准测试的实验表明,我们的框架获得了忠实的3D重建,并在观察到的部分和未观察到的部分中都具有一致的几何形状和纹理。此外,它可以很好地推广到不太常见的网格中,例如可变形物体的扩展表达。代码在https://github.com/junzhezhang/mesh-inversion上发布
translated by 谷歌翻译
The neural radiance field (NeRF) has shown promising results in preserving the fine details of objects and scenes. However, unlike mesh-based representations, it remains an open problem to build dense correspondences across different NeRFs of the same category, which is essential in many downstream tasks. The main difficulties of this problem lie in the implicit nature of NeRF and the lack of ground-truth correspondence annotations. In this paper, we show it is possible to bypass these challenges by leveraging the rich semantics and structural priors encapsulated in a pre-trained NeRF-based GAN. Specifically, we exploit such priors from three aspects, namely 1) a dual deformation field that takes latent codes as global structural indicators, 2) a learning objective that regards generator features as geometric-aware local descriptors, and 3) a source of infinite object-specific NeRF samples. Our experiments demonstrate that such priors lead to 3D dense correspondence that is accurate, smooth, and robust. We also show that established dense correspondence across NeRFs can effectively enable many NeRF-based downstream applications such as texture transfer.
translated by 谷歌翻译
强大的模拟器高度降低了在培训和评估自动车辆时对真实测试的需求。数据驱动的模拟器蓬勃发展,最近有条件生成对冲网络(CGANS)的进步,提供高保真图像。主要挑战是在施加约束之后的同时合成光量造型图像。在这项工作中,我们建议通过重新思考鉴别者架构来提高所生成的图像的质量。重点是在给定对语义输入生成图像的问题类上,例如场景分段图或人体姿势。我们建立成功的CGAN模型,提出了一种新的语义感知鉴别器,更好地指导发电机。我们的目标是学习一个共享的潜在表示,编码足够的信息,共同进行语义分割,内容重建以及粗糙的粒度的对抗性推理。实现的改进是通用的,并且可以应用于任何条件图像合成的任何架构。我们展示了我们在场景,建筑和人类综合任务上的方法,跨越三个不同的数据集。代码可在https://github.com/vita-epfl/semdisc上获得。
translated by 谷歌翻译
生成对抗网络(GAN)的最近成功在面部动画任务方面取得了很大进展。然而,面部图像的复杂场景结构仍然使得产生具有显着偏离源图像的面部姿势的视频的挑战。一方面,在不知道面部几何结构的情况下,生成的面部图像可能被扭曲不当。另一方面,所生成的图像的一些区域可以在源图像中封闭,这使得GaN难以产生现实的外观。为了解决这些问题,我们提出了一种结构意识的面部动画(SAFA)方法,其构造特定的几何结构,以模拟面部图像的不同组件。在识别良好的基于​​运动的面部动画技术之后,我们使用3D可变模型(3dmm)来模拟面部,多个仿射变换,以模拟其他前景组件,如头发和胡须,以及模拟背景的身份变换。 3DMM几何嵌入不仅有助于为驾驶场景产生现实结构,而且有助于更好地感知所生成的图像中的遮挡区域。此外,我们进一步建议利用广泛研究的初探技术忠实地恢复封闭的图像区域。定量和定性实验结果都显示出我们方法的优越性。代码可在https://github.com/qiulin-w/safa获得。
translated by 谷歌翻译
最近已经示出了从2D图像中提取隐式3D表示的生成神经辐射场(GNERF)模型,以产生代表刚性物体的现实图像,例如人面或汽车。然而,他们通常难以产生代表非刚性物体的高质量图像,例如人体,这对许多计算机图形应用具有很大的兴趣。本文提出了一种用于人类图像综合的3D感知语义导向生成模型(3D-SAGGA),其集成了GNERF和纹理发生器。前者学习人体的隐式3D表示,并输出一组2D语义分段掩模。后者将这些语义面部掩模转化为真实的图像,为人类的外观添加了逼真的纹理。如果不需要额外的3D信息,我们的模型可以使用照片现实可控生成学习3D人类表示。我们在Deepfashion DataSet上的实验表明,3D-SAGGAN显着优于最近的基线。
translated by 谷歌翻译