由于其语义上的理解和用户友好的可控性,通过三维引导,通过三维引导的面部图像操纵已广泛应用于各种交互式场景。然而,现有的基于3D形式模型的操作方法不可直接适用于域名面,例如非黑色素化绘画,卡通肖像,甚至是动物,主要是由于构建每个模型的强大困难具体面部域。为了克服这一挑战,据我们所知,我们建议使用人为3DMM操纵任意域名的第一种方法。这是通过两个主要步骤实现的:1)从3DMM参数解开映射到潜在的STYLEGO2的潜在空间嵌入,可确保每个语义属性的解除响应和精确的控制; 2)通过实施一致的潜空间嵌入,桥接域差异并使人类3DMM适用于域外面的人类3DMM。实验和比较展示了我们高质量的语义操作方法在各种面部域中的优越性,所有主要3D面部属性可控姿势,表达,形状,反照镜和照明。此外,我们开发了直观的编辑界面,以支持用户友好的控制和即时反馈。我们的项目页面是https://cassiepython.github.io/cddfm3d/index.html
translated by 谷歌翻译
已经提出了几种用于在预训练的GANS的潜在空间中发现可解释方向的方法。由于不使用预先训练的属性分类器,无监督方法发现的潜在语义比监督方法相对不诚实。我们提出了使用自我监督培训的规模排名估算器(SRE)。SRE在现有无监督的解剖技术获得的方向上增强了解剖学。这些方向被更新以保留潜伏空间中每个方向内的变化的排序。对发现的方向的定性和定量评估表明,我们的提出方法显着改善了各种数据集中的解剖。我们还表明学习的SRE可用于执行基于属性的图像检索任务,而无需进一步培训。
translated by 谷歌翻译
最近在图像编辑中找到了生成的对抗网络(GANS)。但是,大多数基于GaN的图像编辑方法通常需要具有用于训练的语义分段注释的大规模数据集,只提供高级控制,或者仅在不同图像之间插入。在这里,我们提出了EditGan,一种用于高质量,高精度语义图像编辑的新方法,允许用户通过修改高度详细的部分分割面罩,例如,为汽车前灯绘制新掩模来编辑图像。编辑登上的GAN框架上建立联合模型图像及其语义分割,只需要少数标记的示例,使其成为编辑的可扩展工具。具体地,我们将图像嵌入GaN潜在空间中,并根据分割编辑执行条件潜代码优化,这有效地修改了图像。算优化优化,我们发现在实现编辑的潜在空间中找到编辑向量。该框架允许我们学习任意数量的编辑向量,然后可以直接应用于交互式速率的其他图像。我们通过实验表明,EditGan可以用前所未有的细节和自由来操纵图像,同时保留完整的图像质量。我们还可以轻松地组合多个编辑并执行超出EditGan训练数据的合理编辑。我们在各种图像类型上展示编辑,并定量优于标准编辑基准任务的几种先前编辑方法。
translated by 谷歌翻译
在GAN的潜在空间中发现有意义的方向来操纵语义属性通常需要大量标记的数据。最近的工作旨在通过利用对比语言图像预训练(CLIP),联合文本图像模型来克服这种限制。在有希望的同时,这些方法需要几个小时的预处理或培训来达到所需的操纵。在本文中,我们展示了Stylemc,一种快速有效的文本驱动图像生成和操纵方法。 Stylemc使用基于剪辑的丢失和身份丢失来通过单个文本提示来操纵图像,而不会显着影响其他属性。与现有工作不同,Stylemc只需要几秒钟的每个文本提示培训,以找到稳定的全局方向,不需要提示工程,可以与任何预先训练的样式模型一起使用。我们展示了我们方法的有效性,并将其与最先进的方法进行比较。我们的代码可以在http://catlab-team.github.io/stylemc找到。
translated by 谷歌翻译
生成的对抗网络(GANS)是在图像生成中最先进的驱动力。尽管他们能够合成高分辨率的照片真实图像,但在不同粒度的按需调节产生内容仍然是一个挑战。这一挑战通常是通过利用兴趣属性的大规模数据集,这是一个并不总是可行的选项的艰巨任务。因此,将控制进入无监督的生成模型的生成过程至关重要。在这项工作中,我们通过利用以无监督的时尚训练良好的GAN来专注于可控制的图像。为此,我们发现发电机的中间层的表示空间形成多个集群,该集群将数据分离为根据语义​​有意义的属性(例如,头发颜色和姿势)。通过在群集分配上调节,所提出的方法能够控制生成图像的语义类。我们的方法使通过隐式最大似然估计(IMLE)从每个集群中采样。我们使用不同的预先培训的生成模型展示我们对面孔(Celeba-HQ和FFHQ),动物(Imagenet)和物体(LSUN)的效果。结果突出了我们在面孔上像性,姿势和发型等属性的条件图像生成的能力,以及不同对象类别的各种功能。
translated by 谷歌翻译
Stylegan的成功使得在合成和真实图像上启用了前所未有的语义编辑能力。然而,这种编辑操作要么是使用人类指导的语义监督或描述的培训。在另一个开发中,剪辑架构已被互联网级图像和文本配对培训,并且已被示出在几个零拍摄学习设置中有用。在这项工作中,我们调查了如何有效地链接样式登录和剪辑的预训练潜空间,这反过来允许我们从Stylegan,查找和命名有意义的编辑操作自动提取语义标记的编辑方向,而无需任何额外的人类指导。从技术上讲,我们提出了两块新颖的建筑块;一个用于查找有趣的夹子方向,一个用于在CLIP潜在空间中标记任意方向。安装程序不假设任何预定的标签,因此我们不需要任何其他监督文本/属性来构建编辑框架。我们评估所提出的方法的有效性,并证明了解标记标记的样式编辑方向的提取确实可能,并揭示了有趣和非琐碎的编辑方向。
translated by 谷歌翻译
现代生成型号在包括图像或文本生成和化学分子建模的各种任务中获得优异的品质。然而,现有方法往往缺乏通过所要求的属性产生实例的基本能力,例如照片中的人的年龄或产生的分子的重量。包含此类额外的调节因子将需要重建整个架构并从头开始优化参数。此外,难以解除选定的属性,以便仅在将其他属性中执行不变的同时执行编辑。为了克服这些限制,我们提出插件(插件生成网络),这是一种简单而有效的生成技术,可以用作预先训练的生成模型的插件。我们的方法背后的想法是使用基于流的模块将纠缠潜在的潜在表示转换为多维空间,其中每个属性的值被建模为独立的一维分布。因此,插件可以生成具有所需属性的新样本,以及操作现有示例的标记属性。由于潜在代表的解散,我们甚至能够在数据集中的稀有或看不见的属性组合生成样本,例如具有灰色头发的年轻人,有妆容的男性或胡须的女性。我们将插入与GaN和VAE模型组合并将其应用于图像和化学分子建模的条件生成和操纵。实验表明,插件保留了骨干型号的质量,同时添加控制标记属性值的能力。
translated by 谷歌翻译
与Stylegan的图像操纵近年来一直是越来越多的问题。由于这些潜在空间中的语义和空间操纵精度有限,而且由于这些潜在空间中的语义和空间操纵精度有限,而且,则在分析几个语义潜在空间方面取得了巨大成功。然而,由于这些潜在空间中的语义和空间操纵精度有限,现有的努力被击败在细粒度的样式图像操作中,即本地属性翻译。要解决此问题,我们发现特定于属性的控制单元,该单元由多个特征映射和调制样式组成。具体而言,我们协同处理调制样式通道,并以控制单元而不是单独的方式映射,以获得语义和空间解除态控制。此外,我们提出了一种简单但有效的方法来检测特定于属性的控制单元。我们沿着特定稀疏方向向量移动调制样式,并更换用于计算要素映射的滤波器方号以操纵这些控制单元。我们在各种面部属性操纵任务中评估我们所提出的方法。广泛的定性和定量结果表明,我们的提出方法对最先进的方法有利地表现出。实图像的操纵结果进一步显示了我们方法的有效性。
translated by 谷歌翻译
可控生成是成功采用现实世界应用中深度生成模型的关键要求之一,但它仍然是一个巨大的挑战。特别地,产生新颖概念组合的组成能力对于大多数目前的模型来说是遥不可及的。在这项工作中,我们使用基于能量的模型(EBMS)来处理一组属性上的组成生成。为了使它们可扩展到高分辨率图像生成,我们在培训的前期生成模型等潜在空间中引入eBM,例如样式。我们提出了一种新的EBM制剂,代表数据和属性的联合分布在一起,我们展示了如何对其进行采样作为解决常规方程(ODE)。考虑到预先训练的生成器,我们需要可控生成的所有都是训练属性分类器。使用ODES采样是有效的在潜在的空间中完成,并且对HyperParameter具有稳健性。因此,我们的方法简单,速度快,并有效地样本。实验结果表明,我们的方法在条件采样和顺序编辑中表明了最先进的。在组成生成中,我们的方法在零拍摄生成的不均义属性组合中卓越。此外,通过用逻辑运算符组成能量函数,这项工作是第一个实现在发电量1024x1024的光处理图像中实现这种组成性的。代码可在https://github.com/nvlabs/lace中获得。
translated by 谷歌翻译
本文解决了在预训练的生成对抗网络(GANS)的潜在空间中找到可解释方向的问题,以便于可控的图像合成。这种可解释的方向对应于可以影响合成图像的样式和几何体的变换。然而,利用线性技术来查找这些变换的现有方法通常无法提供直观的方式来分离这两个变化源。为了解决这个问题,我们建议a)对中间表示的张量进行多线性分解,b)使用基于张量的回归来利用该分解对潜在空间的映射方向。我们的方案允许与张量的各个模式相对应的线性编辑,并且非线性的编辑模型它们之间的乘法相互作用。我们通过实验显示我们可以利用前者与基于几何的转换更好的单独的风格,以及与现有作品相比,后者产生一组可能的变换。与目前的最先进,我们展示了我们的方法的效果和定性。
translated by 谷歌翻译
最近的研究表明,风格老年提供了对图像合成和编辑的下游任务的有希望的现有模型。然而,由于样式盖的潜在代码被设计为控制全球样式,因此很难实现对合成图像的细粒度控制。我们提出了SemanticStylegan,其中发电机训练以分别培训局部语义部件,并以组成方式合成图像。不同局部部件的结构和纹理由相应的潜在码控制。实验结果表明,我们的模型在不同空间区域之间提供了强烈的解剖。当与为样式器设计的编辑方法结合使用时,它可以实现更细粒度的控制,以编辑合成或真实图像。该模型也可以通过传输学习扩展到其他域。因此,作为具有内置解剖学的通用先前模型,它可以促进基于GaN的应用的发展并实现更多潜在的下游任务。
translated by 谷歌翻译
低估和控制生成模型的潜像是一个复杂的任务。在本文中,我们提出了一种新的学习方法,用于在预先训练的GaN的潜在空间中控制任何所需属性,以便相应地编辑合成和现实世界数据样本。我们执行SIM2REAL学习,依靠最小的样品来实现无限量的连续精确编辑。我们介绍了一种基于AutoEncoder的模型,该模型学习以编码图像之间的变化的语义作为编辑稍后编辑新样本的基础,实现了精确的期望结果 - 图1所示的示例。虽然先前的编辑方法依赖于潜伏的已知结构空格(例如,样式中的某些语义的线性),我们的方法本身不需要任何结构约束。我们在面部图像的域中演示了我们的方法:编辑不同的表达式,姿势和照明属性,实现最先进的结果。
translated by 谷歌翻译
已经显示了生成的对抗网络(GaN)的潜在空间在某些子空间内编码丰富的语义。为了识别这些子空间,研究人员通常从合成数据的集合分析统计信息,并且所识别的子空间倾向于在全局控制图像属性(即,操纵属性导致整个图像的变化)。相比之下,这项工作引入了低秩的子空间,使得GaN生成更精确地控制。具体地,给定任意图像和一个感兴趣区域(例如,面部图像的眼睛),我们设法将潜在空间与雅各比矩阵相关联,然后使用低秩分解来发现可转向潜在子空间。我们的方法有三种可区分优势,可以恰当地称为低利纳诺。首先,与现有工作中的分析算法相比,我们的雅各比人的低级别分解能够找到属性歧管的低维表示,使图像编辑更精确和可控。其次,低级别分子化自然地产生空间的属性,使得在其内移动潜在的代码仅影响感兴趣的外部区域。因此,可以通过将属性向量投影到空空间中来简单地实现本地图像编辑,而不依赖于现有方法所做的空间掩模。第三,我们的方法可以从一个图像中鲁布布地与本地区域一起使用,以进行分析,但概括到其他图像,在实践中易于使用。关于各种数据集培训的最先进的GaN模型(包括Stylegan2和Biggan)的大量实验证明了我们的LowRankaN的有效性。
translated by 谷歌翻译
生成的对抗网络(GANS)已经实现了图像生成的照片逼真品质。但是,如何最好地控制图像内容仍然是一个开放的挑战。我们介绍了莱特基照片,这是一个两级GaN,它在古典GAN目标上训练了训练,在一组空间关键点上有内部调节。这些关键点具有相关的外观嵌入,分别控制生成对象的位置和样式及其部件。我们使用合适的网络架构和培训方案地址的一个主要困难在没有领域知识和监督信号的情况下将图像解开到空间和外观因素中。我们展示了莱特基点提供可解释的潜在空间,可用于通过重新定位和交换Keypoint Embedding来重新安排生成的图像,例如通过组合来自不同图像的眼睛,鼻子和嘴巴来产生肖像。此外,关键点和匹配图像的显式生成启用了一种用于无监督的关键点检测的新的GaN的方法。
translated by 谷歌翻译
生成对抗性网络(GANS)的最新进展导致了面部图像合成的显着成果。虽然使用基于样式的GAN的方法可以产生尖锐的照片拟真的面部图像,但是通常难以以有意义和解开的方式控制所产生的面的特性。之前的方法旨在在先前培训的GaN的潜在空间内实现此类语义控制和解剖。相比之下,我们提出了一个框架,即明确地提出了诸如3D形状,反玻璃,姿势和照明的面部的身体属性,从而通过设计提供解剖。我们的方法,大多数GaN,与非线性3D可变模型的物理解剖和灵活性集成了基于风格的GAN的表现力和质感,我们与最先进的2D头发操纵网络相结合。大多数GaN通过完全解散的3D控制来实现肖像图像的照片拟理性操纵,从而实现了光线,面部表情和姿势变化的极端操作,直到完整的档案视图。
translated by 谷歌翻译
本文的目标是对面部素描合成(FSS)问题进行全面的研究。然而,由于获得了手绘草图数据集的高成本,因此缺乏完整的基准,用于评估过去十年的FSS算法的开发。因此,我们首先向FSS引入高质量的数据集,名为FS2K,其中包括2,104个图像素描对,跨越三种类型的草图样式,图像背景,照明条件,肤色和面部属性。 FS2K与以前的FSS数据集不同于难度,多样性和可扩展性,因此应促进FSS研究的进展。其次,我们通过调查139种古典方法,包括34个手工特征的面部素描合成方法,37个一般的神经式传输方法,43个深映像到图像翻译方法,以及35个图像 - 素描方法。此外,我们详细说明了现有的19个尖端模型的综合实验。第三,我们为FSS提供了一个简单的基准,名为FSGAN。只有两个直截了当的组件,即面部感知屏蔽和风格矢量扩展,FSGAN将超越所提出的FS2K数据集的所有先前最先进模型的性能,通过大边距。最后,我们在过去几年中汲取的经验教训,并指出了几个未解决的挑战。我们的开源代码可在https://github.com/dengpingfan/fsgan中获得。
translated by 谷歌翻译
头发编辑是计算机视觉和图形中有趣和挑战的问题。许多现有方法需要粗略的草图或掩码作为用于编辑的条件输入,但是这些交互既不直接也不高效。为了从繁琐的相互作用过程中获取用户,本文提出了一种新的头发编辑交互模式,其能够基于用户提供的文本或参考图像单独地或共同地操纵头发属性。为此目的,我们通过利用对比语言图像预训练(剪辑)模型的强大图像文本表示能力来编码共享嵌入空间中的图像和文本条件,并提出统一的头发编辑框架。通过精心设计的网络结构和丢失功能,我们的框架可以以脱谕方式执行高质量的头发编辑。广泛的实验在操纵准确性,编辑结果的视觉现实主义和无关的属性保存方面表现出我们的方法的优越性。项目repo是https://github.com/wty-ustc/hairclip。
translated by 谷歌翻译
基于生成的对抗网络(GaN)的本地化图像编辑可以在语义属性之间遭受模糊性。因此,我们提出了一种新颖的目标函数来评估图像编辑的局部性。通过从预先训练的分段网络引入监督并优化目标函数,我们的框架称为局部有效的潜空间方向(LELD),适用于任何数据集和GAN架构。我们的方法也在计算上快速并且展示了高度的解剖学,这允许用户在图像上交互地执行一系列编辑。我们对GaN生成和真实图像的实验定性地展示了我们方法的高质量和优势。
translated by 谷歌翻译
由于基于图像的“部件控制器”,因此人造形状图像的形状操纵,例如调整椅子的靠背或更换杯柄的大小,因为缺少基于图像的部分控制器,这是不直观的。为了解决这个问题,我们呈现风格栏,这是一种框架,它通过利用图像和3D形状的生成模型来实现图像的直接形状操纵。我们的主要贡献是一种形状一致的潜在映射函数,可以连接图像生成潜像和3D人造形状潜伏空间。我们的方法将图像内容“向前映射到其对应的3D形状属性,其中可以容易地操纵形状部分。然后,被操纵的3D形状的属性代码被“向后映射”到图像潜在代码以获得最终操纵图像。我们通过各种操纵任务展示了我们的方法,包括部分替代,零件调整大小和观点操纵,并通过广泛的消融研究评估其有效性。
translated by 谷歌翻译
鉴于部署更可靠的机器学习系统的重要性,研究界内的机器学习模型的解释性得到了相当大的关注。在计算机视觉应用中,生成反事实方法表示如何扰乱模型的输入来改变其预测,提供有关模型决策的详细信息。目前的方法倾向于产生关于模型决策的琐碎的反事实,因为它们通常建议夸大或消除所分类的属性的存在。对于机器学习从业者,这些类型的反事件提供了很少的价值,因为它们没有提供有关不期望的模型或数据偏差的新信息。在这项工作中,我们确定了琐碎的反事实生成问题,我们建议潜水以缓解它。潜水在使用多样性强制损失限制的解除印章潜在空间中学习扰动,以发现关于模型预测的多个有价值的解释。此外,我们介绍一种机制,以防止模型产生微不足道的解释。 Celeba和Synbols的实验表明,与先前的最先进的方法相比,我们的模型提高了生产高质量有价值解释的成功率。代码可在https://github.com/elementai/beyond- trial-explanations获得。
translated by 谷歌翻译