我们介绍了本地重新考虑的任务,该任务通过打开和关闭图像中可见的光源来改变场景的照片。这项新任务与传统的图像重新确定问题不同,因为它引入了检测光源并推断出从它们中散发出的光模式的挑战。我们提出了一种用于本地重新考虑的方法,该方法通过使用另一个模型的合成生成的图像对来训练模型,而无需监督任何新型图像数据集。具体而言,我们从样式空间操纵的gan中收集了配对的训练图像;然后,我们使用这些图像来训练有条件的图像到图像模型。为了基于本地重新测试,我们介绍了Lonoff,这是一个在室内空间中拍摄的306张精确对齐图像的集合,其中灯的不同组合打开了。我们表明,我们的方法显着优于基于GAN倒置的基线方法。最后,我们演示了分别控制不同光源的方法的扩展。我们邀请社区解决这项新的当地重新任务。
translated by 谷歌翻译
我们为场景的生成模型提出了一个无监督的中级表示。该表示是中等水平的,因为它既不是人均也不是每图像。相反,场景被建模为一系列空间,深度订购的特征“斑点”。斑点分化在特征网格上,该特征网格被生成对抗网络解码为图像。由于斑点的空间均匀性和卷积固有的局部性,我们的网络学会了将不同的斑点与场景中的不同实体相关联,并安排这些斑点以捕获场景布局。我们通过证明,尽管没有任何监督训练,但我们的方法启用了诸如场景中的物体(例如,移动,卸下和修复家具),创建可行场景(例如,可靠的,Plaausible(例如,可靠),我们的方法可以轻松地操纵对象(例如,可行的情况)来证明这种紧急行为。带抽屉在特定位置的房间),将现实世界图像解析为组成部分。在充满挑战的室内场景的多类数据集上,Blobgan在FID测量的图像质量中优于图像质量。有关视频结果和交互式演示,请参见我们的项目页面:https://www.dave.ml/blobgan
translated by 谷歌翻译
我们提出了一个新的照明估计和编辑框架,以从单个有限视野(LFOV)图像中生成高动力范围(HDR)室内全景照明,该图像由低动力范围(LDR)摄像机捕获。现有的照明估计方法要么直接回归照明表示参数,要么将此问题分解为LFOV到panorama和LDR-TO-HDR照明子任务。但是,由于部分观察,高动力范围的照明以及场景的内在歧义,照明估计仍然是一项艰巨的任务。为了解决这个问题,我们建议将LDR和HDR Panorama合成融合到统一框架中,提出了一个耦合的双式全景全景合成网络(Stylelight)。 LDR和HDR Panorama合成共享类似的发电机,但具有单独的歧视器。在推断期间,给定LDR LFOV图像,我们提出了一种焦点掩盖的GAN反转方法,以通过LDR Panorama合成分支找到其潜在代码,然后通过HDR Panorama合成分支合成HDR Panorama。 Stylelight将LFOV-TO-PANORAMA和LDR-HDR LIGHTING GENTARTION带入统一的框架,从而大大改善了照明估计。广泛的实验表明,我们的框架在室内照明估计上实现了优于最先进方法的表现。值得注意的是,Stylelight还可以在室内HDR Panoramas上进行直观的照明编辑,这适用于现实世界中的应用。代码可从https://style-light.github.io获得。
translated by 谷歌翻译
与Stylegan的图像操纵近年来一直是越来越多的问题。由于这些潜在空间中的语义和空间操纵精度有限,而且由于这些潜在空间中的语义和空间操纵精度有限,而且,则在分析几个语义潜在空间方面取得了巨大成功。然而,由于这些潜在空间中的语义和空间操纵精度有限,现有的努力被击败在细粒度的样式图像操作中,即本地属性翻译。要解决此问题,我们发现特定于属性的控制单元,该单元由多个特征映射和调制样式组成。具体而言,我们协同处理调制样式通道,并以控制单元而不是单独的方式映射,以获得语义和空间解除态控制。此外,我们提出了一种简单但有效的方法来检测特定于属性的控制单元。我们沿着特定稀疏方向向量移动调制样式,并更换用于计算要素映射的滤波器方号以操纵这些控制单元。我们在各种面部属性操纵任务中评估我们所提出的方法。广泛的定性和定量结果表明,我们的提出方法对最先进的方法有利地表现出。实图像的操纵结果进一步显示了我们方法的有效性。
translated by 谷歌翻译
现在,使用最近的生成对抗网络(GAN)可以使用高现实主义的不受约束图像产生。但是,用给定的一组属性生成图像非常具有挑战性。最近的方法使用基于样式的GAN模型来执行图像编辑,通过利用发电机层中存在的语义层次结构。我们提出了一些基于潜在的属性操纵和编辑(火焰),这是一个简单而有效的框架,可通过潜在空间操纵执行高度控制的图像编辑。具体而言,我们估计了控制生成图像中语义属性的潜在空间(预训练样式的)中的线性方向。与以前的方法相反,这些方法依赖于大规模属性标记的数据集或属性分类器,而火焰则使用一些策划的图像对的最小监督来估算删除的编辑指示。火焰可以在保留身份的同时,在各种图像集上同时进行高精度和顺序编辑。此外,我们提出了一项新颖的属性样式操纵任务,以生成各种样式的眼镜和头发等属性。我们首先编码相同身份的一组合成图像,但在潜在空间中具有不同的属性样式,以估计属性样式歧管。从该歧管中采样新的潜在将导致生成图像中的新属性样式。我们提出了一种新颖的抽样方法,以从歧管中采样潜在的样品,使我们能够生成各种属性样式,而不是训练集中存在的样式。火焰可以以分离的方式生成多种属性样式。我们通过广泛的定性和定量比较来说明火焰与先前的图像编辑方法相对于先前的图像编辑方法的卓越性能。火焰在多个数据集(例如汽车和教堂)上也很好地概括了。
translated by 谷歌翻译
我们提出了一种从单个图像中推断360 {\ deg}视野的方法,该图像允许用户控制的综合外部绘制内容。为此,我们建议改进现有的基于GAN的镶嵌体系结构,以进行底漆全景图表。我们的方法获得了最先进的结果,并且优于标准图像质量指标的先前方法。为了允许受控的外部修饰的合成,我们引入了一个新型的指导共调整框架,该框架通过常见的鉴别模型驱动图像生成过程。这样做可以保持生成的全景图的高视觉质量,同时在推断的视野中启用用户控制的语义内容。我们在定性和定量上展示了我们方法的最新方法,从而提供了对我们新颖的编辑功能的彻底分析。最后,我们证明我们的方法受益于在照片中对高光泽对象的影片虚拟插入。
translated by 谷歌翻译
Our goal with this survey is to provide an overview of the state of the art deep learning technologies for face generation and editing. We will cover popular latest architectures and discuss key ideas that make them work, such as inversion, latent representation, loss functions, training procedures, editing methods, and cross domain style transfer. We particularly focus on GAN-based architectures that have culminated in the StyleGAN approaches, which allow generation of high-quality face images and offer rich interfaces for controllable semantics editing and preserving photo quality. We aim to provide an entry point into the field for readers that have basic knowledge about the field of deep learning and are looking for an accessible introduction and overview.
translated by 谷歌翻译
Recent 3D-aware GANs rely on volumetric rendering techniques to disentangle the pose and appearance of objects, de facto generating entire 3D volumes rather than single-view 2D images from a latent code. Complex image editing tasks can be performed in standard 2D-based GANs (e.g., StyleGAN models) as manipulation of latent dimensions. However, to the best of our knowledge, similar properties have only been partially explored for 3D-aware GAN models. This work aims to fill this gap by showing the limitations of existing methods and proposing LatentSwap3D, a model-agnostic approach designed to enable attribute editing in the latent space of pre-trained 3D-aware GANs. We first identify the most relevant dimensions in the latent space of the model controlling the targeted attribute by relying on the feature importance ranking of a random forest classifier. Then, to apply the transformation, we swap the top-K most relevant latent dimensions of the image being edited with an image exhibiting the desired attribute. Despite its simplicity, LatentSwap3D provides remarkable semantic edits in a disentangled manner and outperforms alternative approaches both qualitatively and quantitatively. We demonstrate our semantic edit approach on various 3D-aware generative models such as pi-GAN, GIRAFFE, StyleSDF, MVCGAN, EG3D and VolumeGAN, and on diverse datasets, such as FFHQ, AFHQ, Cats, MetFaces, and CompCars. The project page can be found: \url{https://enisimsar.github.io/latentswap3d/}.
translated by 谷歌翻译
由于生成对抗网络(GAN)的突破,3D可控制的肖像合成已大大提高。但是,用精确的3D控制操纵现有的面部图像仍然具有挑战性。虽然连接gan倒置和3D感知,但噪声到图像是一种直接的解决方案,但它效率低下,可能导致编辑质量明显下降。为了填补这一空白,我们提出了3D-FM GAN,这是一个专门为3D可控制的面部操作设计的新型有条件GAN框架,并且在端到端学习阶段后不需要任何调整。通过小心地编码输入面图像和3D编辑的基于物理的渲染,我们的图像生成器提供了高质量,具有身份的3D控制面部操纵。为了有效地学习这种新颖的框架,我们制定了两种基本的训练策略和一种新颖的乘法共同调制体系结构,可在天真的方案上显着改善。通过广泛的评估,我们表明我们的方法在各种任务上的表现优于先前的艺术,具有更好的编辑性,更强的身份保存和更高的照片真实性。此外,我们在大型姿势编辑和室外图像上展示了设计更好的概括性。
translated by 谷歌翻译
最近,大型预磨损模型(例如,BERT,STYLEGAN,CLIP)在其域内的各种下游任务中表现出很好的知识转移和泛化能力。在这些努力的启发中,在本文中,我们提出了一个统一模型,用于开放域图像编辑,重点是开放式域图像的颜色和音调调整,同时保持原始内容和结构。我们的模型了解许多现有照片编辑软件中使用的操作空间(例如,对比度,亮度,颜色曲线)更具语义,直观,易于操作的统一编辑空间。我们的模型属于图像到图像转换框架,由图像编码器和解码器组成,并且在图像之前和图像的成对上培训以产生多模式输出。我们认为,通过将图像对反馈到学习编辑空间的潜在代码中,我们的模型可以利用各种下游编辑任务,例如语言引导图像编辑,个性化编辑,编辑式聚类,检索等。我们广泛地研究实验中编辑空间的独特属性,并在上述任务上展示了卓越的性能。
translated by 谷歌翻译
最近的研究表明,风格老年提供了对图像合成和编辑的下游任务的有希望的现有模型。然而,由于样式盖的潜在代码被设计为控制全球样式,因此很难实现对合成图像的细粒度控制。我们提出了SemanticStylegan,其中发电机训练以分别培训局部语义部件,并以组成方式合成图像。不同局部部件的结构和纹理由相应的潜在码控制。实验结果表明,我们的模型在不同空间区域之间提供了强烈的解剖。当与为样式器设计的编辑方法结合使用时,它可以实现更细粒度的控制,以编辑合成或真实图像。该模型也可以通过传输学习扩展到其他域。因此,作为具有内置解剖学的通用先前模型,它可以促进基于GaN的应用的发展并实现更多潜在的下游任务。
translated by 谷歌翻译
Figure 1. The proposed pixel2style2pixel framework can be used to solve a wide variety of image-to-image translation tasks. Here we show results of pSp on StyleGAN inversion, multi-modal conditional image synthesis, facial frontalization, inpainting and super-resolution.
translated by 谷歌翻译
生成的对抗网络(GANS)已经实现了图像生成的照片逼真品质。但是,如何最好地控制图像内容仍然是一个开放的挑战。我们介绍了莱特基照片,这是一个两级GaN,它在古典GAN目标上训练了训练,在一组空间关键点上有内部调节。这些关键点具有相关的外观嵌入,分别控制生成对象的位置和样式及其部件。我们使用合适的网络架构和培训方案地址的一个主要困难在没有领域知识和监督信号的情况下将图像解开到空间和外观因素中。我们展示了莱特基点提供可解释的潜在空间,可用于通过重新定位和交换Keypoint Embedding来重新安排生成的图像,例如通过组合来自不同图像的眼睛,鼻子和嘴巴来产生肖像。此外,关键点和匹配图像的显式生成启用了一种用于无监督的关键点检测的新的GaN的方法。
translated by 谷歌翻译
图像翻译和操纵随着深层生成模型的快速发展而引起了越来越多的关注。尽管现有的方法带来了令人印象深刻的结果,但它们主要在2D空间中运行。鉴于基于NERF的3D感知生成模型的最新进展,我们介绍了一项新的任务,语义到网络翻译,旨在重建由NERF模型的3D场景,该场景以一个单视语义掩码作为输入为条件。为了启动这项新颖的任务,我们提出了SEM2NERF框架。特别是,SEM2NERF通过将语义面膜编码到控制预训练的解码器的3D场景表示形式中来解决高度挑战的任务。为了进一步提高映射的准确性,我们将新的区域感知学习策略集成到编码器和解码器的设计中。我们验证了提出的SEM2NERF的功效,并证明它在两个基准数据集上的表现优于几个强基础。代码和视频可从https://donydchen.github.io/sem2nerf/获得
translated by 谷歌翻译
现有的GAN倒置和编辑方法适用于具有干净背景的对齐物体,例如肖像和动物面孔,但通常会为更加困难的类别而苦苦挣扎,具有复杂的场景布局和物体遮挡,例如汽车,动物和室外图像。我们提出了一种新方法,以在gan的潜在空间(例如stylegan2)中倒转和编辑复杂的图像。我们的关键想法是用一系列层的集合探索反演,从而将反转过程适应图像的难度。我们学会预测不同图像段的“可逆性”,并将每个段投影到潜在层。更容易的区域可以倒入发电机潜在空间中的较早层,而更具挑战性的区域可以倒入更晚的特征空间。实验表明,与最新的复杂类别的方法相比,我们的方法获得了更好的反转结果,同时保持下游的编辑性。请参阅我们的项目页面,网址为https://www.cs.cmu.edu/~saminversion。
translated by 谷歌翻译
尽管最近通过生成对抗网络(GAN)操纵面部属性最近取得了非常成功的成功,但在明确控制姿势,表达,照明等特征的明确控制方面仍然存在一些挑战。最近的方法通过结合2D生成模型来实现对2D图像的明确控制和3dmm。但是,由于3DMM缺乏现实主义和纹理重建的清晰度,因此合成图像与3DMM的渲染图像之间存在域间隙。由于渲染的3DMM图像仅包含面部区域,因此直接计算这两个域之间的损失是不理想的,因此训练有素的模型将是偏差的。在这项研究中,我们建议通过控制3DMM的参数来明确编辑验证样式的潜在空间。为了解决域间隙问题,我们提出了一个名为“地图和编辑”的新网络,以及一种简单但有效的属性编辑方法,以避免渲染和合成图像之间的直接损失计算。此外,由于我们的模型可以准确地生成多视图的面部图像,而身份保持不变。作为副产品,结合可见性掩模,我们提出的模型还可以生成质地丰富和高分辨率的紫外面部纹理。我们的模型依赖于验证的样式,并且提出的模型以自我监督的方式进行了训练,而无需任何手动注释或数据集训练。
translated by 谷歌翻译
尽管在预验证的GAN模型的潜在空间中表现出的编辑能力,但倒置现实世界的图像被陷入困境,即重建不能忠于原始输入。这样做的主要原因是,训练和现实世界数据之间的分布未对准,因此,对于真实图像编辑而言,它不稳定。在本文中,我们提出了一个基于GAN的新型编辑框架,以通过组成分解范式解决室外反转问题。特别是,在构图阶段,我们引入了一个差分激活模块,用于从全局角度\ ie(IE)检测语义变化,这是编辑和未编辑图像的特征之间的相对差距。借助生成的diff-cam掩模,配对的原始图像和编辑图像可以直观地进行粗糙的重建。这样,几乎整体可以生存属性,而这种中间结果的质量仍然受到不可避免的幽灵效果的限制。因此,在分解阶段,我们进一步提出了一个基于GAN的基于GAN的DEGHOSTING网络,用于将最终的精细编辑图像与粗糙重建分开。在定性和定量评估方面,广泛的实验比最新方法具有优势。我们方法的鲁棒性和灵活性在两个属性和多属性操作的方案上也得到了验证。
translated by 谷歌翻译
深层生成模型通过自动化基于收集的数据集的多样性,现实内容的综合,使新手用户更容易访问视觉内容。但是,当前的机器学习方法错过了创作过程的关键要素 - 综合远远超出数据分配和日常体验的东西的能力。为了开始解决此问题,我们可以通过仅编辑一些具有所需几何变化的原始模型输出来“扭曲”给定模型。我们的方法将低级更新应用于单个模型层以重建编辑的示例。此外,为了打击过度拟合,我们建议一种基于样式混合的潜在空间增强方法。我们的方法允许用户创建一个模型,该模型可以通过定义的几何更改合成无尽的对象,从而可以创建新的生成模型,而无需策划大规模数据集。我们还证明可以组成编辑的模型以实现汇总效果,并提出了一个交互式界面,以使用户能够通过组合创建新的模型。对多个测试案例的经验测量表明,我们方法对最近的GAN微调方法的优势。最后,我们使用编辑的模型展示了多个应用程序,包括潜在空间插值和图像编辑。
translated by 谷歌翻译
最近已经示出了从2D图像中提取隐式3D表示的生成神经辐射场(GNERF)模型,以产生代表刚性物体的现实图像,例如人面或汽车。然而,他们通常难以产生代表非刚性物体的高质量图像,例如人体,这对许多计算机图形应用具有很大的兴趣。本文提出了一种用于人类图像综合的3D感知语义导向生成模型(3D-SAGGA),其集成了GNERF和纹理发生器。前者学习人体的隐式3D表示,并输出一组2D语义分段掩模。后者将这些语义面部掩模转化为真实的图像,为人类的外观添加了逼真的纹理。如果不需要额外的3D信息,我们的模型可以使用照片现实可控生成学习3D人类表示。我们在Deepfashion DataSet上的实验表明,3D-SAGGAN显着优于最近的基线。
translated by 谷歌翻译