图像合成中的评估指标起着测量生成模型的性能的关键作用。但是,大多数指标主要集中于图像保真度。现有的多样性指标是通过比较分布来得出的,因此它们无法量化每个生成图像的多样性或稀有程度。在这项工作中,我们提出了一个新的评估度量,称为“稀有分数”,以测量通过生成模型合成的每个图像的稀有性。我们首先表明经验观察表明,共同样品彼此接近,并且在特征空间最近的邻居距离处,稀有的样本彼此遥远。然后,我们使用我们的指标来证明可以有效比较不同生成模型产生稀有图像的程度。我们还提出了一种比较共享相同概念(例如Celeba-HQ和FFHQ)的数据集之间的稀有度的方法。最后,我们分析了在特征空间的不同设计中的指标的使用,以更好地了解特征空间和产生的稀疏图像之间的关系。代码将在网上公开用于研究社区。
translated by 谷歌翻译
The ability to automatically estimate the quality and coverage of the samples produced by a generative model is a vital requirement for driving algorithm research. We present an evaluation metric that can separately and reliably measure both of these aspects in image generation tasks by forming explicit, non-parametric representations of the manifolds of real and generated data. We demonstrate the effectiveness of our metric in StyleGAN and BigGAN by providing several illustrative examples where existing metrics yield uninformative or contradictory results. Furthermore, we analyze multiple design variants of StyleGAN to better understand the relationships between the model architecture, training methods, and the properties of the resulting sample distribution. In the process, we identify new variants that improve the state-of-the-art. We also perform the first principled analysis of truncation methods and identify an improved method. Finally, we extend our metric to estimate the perceptual quality of individual samples, and use this to study latent space interpolations.
translated by 谷歌翻译
尽管对生成对冲网络(GANS)的图像生成性能有重大改进,但仍然观察到具有低视觉保真度的代。随着GAN的广泛使用指标,更多地关注模型的整体性能,对个体代的质量或缺陷代的检测的评估是具有挑战性的。虽然最近的研究试图检测导致伪像和评估单个样本的特派团映射单元,但这些方法需要额外的资源,例如外部网络或许多训练数据来近似真实数据歧管。在这项工作中,我们提出了本地激活的概念,并设计了本地激活的度量,以检测没有额外监督的工件代。我们经验验证我们的方法可以从带有各种数据集的GAN检测和纠正工件代。最后,我们讨论了几何分析,以部分揭示所提出的概念和低视力忠诚之间的关系。
translated by 谷歌翻译
GAN的进展使高分辨率的感性质量形象产生了产生。 stylegans允许通过数学操作对W/W+空间中的潜在样式向量进行数学操作进行引人入胜的属性修改,从而有效调节生成器的丰富层次结构表示。最近,此类操作已被推广到原始StyleGan纸中的属性交换之外,以包括插值。尽管StyleGans有许多重大改进,但仍被认为会产生不自然的图像。生成的图像的质量基于两个假设。 (a)生成器学到的层次表示的丰富性,以及(b)样式空间的线性和平滑度。在这项工作中,我们提出了一个层次的语义正常化程序(HSR),该层次正常化程序将生成器学到的层次表示与大量数据学到的相应的强大功能保持一致。 HSR不仅可以改善发电机的表示,还可以改善潜在风格空间的线性和平滑度,从而导致产生更自然的样式编辑的图像。为了证明线性改善,我们提出了一种新型的度量 - 属性线性评分(ALS)。通过改善感知路径长度(PPL)度量的改善,在不同的标准数据集中平均16.19%的不自然图像的生成显着降低,同时改善了属性编辑任务中属性变化的线性变化。
translated by 谷歌翻译
生成对抗网络(GAN)是现实图像合成的最新生成模型之一。虽然培训和评估GAN变得越来越重要,但当前的GAN研究生态系统并未提供可靠的基准,以始终如一地进行评估。此外,由于GAN实施很少,因此研究人员将大量时间用于重现基线。我们研究了GAN方法的分类法,并提出了一个名为Studiogan的新开源库。 Studiogan支持7种GAN体系结构,9种调理方法,4种对抗损失,13个正则化模块,3个可区分的增强,7个评估指标和5个评估骨干。通过我们的培训和评估协议,我们使用各种数据集(CIFAR10,ImageNet,AFHQV2,FFHQ和Baby/Papa/Granpa-Imagenet)和3个不同的评估骨干(InceptionV3,Swav,Swav和Swin Transformer)提出了大规模的基准。与GAN社区中使用的其他基准不同,我们在统一的培训管道中培训了包括Biggan,stylegan2和stylegan3在内的代表GAN,并使用7个评估指标量化了生成性能。基准测试评估其他尖端生成模型(例如,stylegan-xl,adm,maskgit和rq-transformer)。 Studiogan提供了预先训练的权重的GAN实现,培训和评估脚本。 Studiogan可从https://github.com/postech-cvlab/pytorch-studiogan获得。
translated by 谷歌翻译
评估图像生成模型(例如生成对抗网络(GAN))是一个具有挑战性的问题。一种常见的方法是比较地面真相图像集和生成的测试图像集的分布。 Frech \'Et启动距离是评估gan的最广泛使用的指标之一,该指标假定一组图像的训练有素的启动模型中的特征遵循正态分布。在本文中,我们认为这是一个过度简化的假设,这可能会导致不可靠的评估结果,并且可以使用截断的广义正态分布来实现更准确的密度估计。基于此,我们提出了一个新的度量,以准确评估gan,称为趋势(截断了截断的正常密度估计,对嵌入植物的嵌入)。我们证明我们的方法大大减少了密度估计的错误,因此消除了评估结果错误的风险。此外,我们表明所提出的指标可显着提高评估结果的鲁棒性,以防止图像样品数量变化。
translated by 谷歌翻译
我们提出了一种具有多个鉴别器的生成的对抗性网络,其中每个鉴别者都专门用于区分真实数据集的子集。这种方法有助于学习与底层数据分布重合的发电机,从而减轻慢性模式崩溃问题。从多项选择学习的灵感来看,我们引导每个判别者在整个数据的子集中具有专业知识,并允许发电机在没有监督训练示例和鉴别者的数量的情况下自动找到潜伏和真实数据空间之间的合理对应关系。尽管使用多种鉴别器,但骨干网络在鉴别器中共享,并且培训成本的增加最小化。我们使用多个评估指标展示了我们算法在标准数据集中的有效性。
translated by 谷歌翻译
尽管对生成对抗网络(GAN)进行了广泛的研究,但如何可靠地从其潜在空间中可靠地采样高质量的图像仍然是一个不足的主题。在本文中,我们通过探索和利用GAN潜伏分布的中心先验来提出一种新型的GAN潜伏方法。我们的关键见解是,GAN潜在空间的高维度不可避免地会导致集线器潜伏期的出现通常比潜在空间中的其他潜在潜在潜伏期更大。结果,这些枢纽潜伏期得到了更好的训练,因此有助于高质量图像的合成。与A后“樱桃挑剔”不同,我们的方法高效,因为它是一种先验方法,可以在合成图像之前识别高质量的潜在。此外,我们表明,众所周知但纯粹的经验截断技巧是对集线器潜伏期的中心聚类效应的幼稚近似,这不仅揭示了截断技巧的基本原理,而且还表明了我们方法的优越性和基础性。广泛的实验结果证明了该方法的有效性。
translated by 谷歌翻译
即使生成的对抗网络(GAN)表现出出色的产生高质量图像的能力,但甘恩并不总是保证产生的影像图。有时,它们会生成具有缺陷或不自然物体的图像,这些图像称为“伪像”。研究要研究为什么这些伪像的出现以及如何被检测和去除它们的研究尚未得到充分进行。为了分析这一点,我们首先假设很少激活的神经元和经常激活的神经元具有不同的目的和责任,以实现生成图像的进展。在这项研究中,通过分析这些神经元的统计数据和作用,我们从经验上表明,很少激活的神经元与制造多种物体和诱导伪影的失败结果有关。此外,我们建议一种称为“顺序消融”的校正方法,以修复生成的图像的有缺陷部分,而无需高度的计算成本和手动努力。
translated by 谷歌翻译
生成模型的评估主要基于特定特征空间中估计分布和地面真实分布之间的比较。为了将样本嵌入信息丰富的特征中,以前的作品经常使用针对分类进行优化的卷积神经网络,这是最近的研究批评。因此,已经探索了各种特征空间以发现替代方案。其中,一种令人惊讶的方法是使用随机初始化的神经网络进行功能嵌入。但是,采用随机特征的基本依据尚未足够合理。在本文中,我们严格研究具有随机权重的模型的特征空间,与训练有素的模型相比。此外,我们提供了一个经验证据,可以选择网络以获取随机特征以获得一致可靠的结果。我们的结果表明,随机网络的功能可以与训练有素的网络相似,可以很好地评估生成模型,此外,这两种功能可以以互补的方式一起使用。
translated by 谷歌翻译
虽然最近的基于NERF的生成模型实现了不同的3D感知图像的产生,但这些方法在生成包含用户指定特征的图像时具有限制。在本文中,我们提出了一种新颖的模型,称为条件生成神经辐射场(CG-NERF),其可以生成反映诸如图像或文本的额外输入条件的多视图图像。在保留给定输入条件的常见特征的同时,所提出的模型以精细的细节生成不同的图像。我们提出:1)一种小说统一的架构,它从各种形式和2)以各种形式和2)给出的姿势一致的分集损失,用于在保持视图的一致性的同时产生姿势 - 一致的分集损失。实验结果表明,与现有的基于NERF的生成模型相比,该方法对各种情况类型的图像质量保持一致的图像质量,并实现了卓越的保真度和多样性。
translated by 谷歌翻译
为生成模型设计域和模型不合稳定的评估指标是一个重要且尚未解决的问题。大多数仅根据图像合成设置量身定制的指标表现出有限的能力,可以诊断跨更广泛的应用域的生成模型的不同模式。在本文中,我们介绍了三维评估度量标准($ \ alpha $ - precision,$ \ beta $ - recall,autherticity),其特征是任何生成模型中任何生成模型的保真度,多样性和概括性的表征。我们的度量标准通过精确重新分析统一统计差异度量,从而实现了模型保真度和多样性的样本和分布级诊断。我们将概括作为额外的独立维度(对忠诚度多样性权衡取舍),该概括量化了模型复制培训数据的程度 - 在对敏感数据建模具有隐私要求的敏感数据时,这是至关重要的绩效指标。这三个度量组件对应于(可解释的)概率数量,并通过样品级二进制分类估算。我们指标的样本级别的性质激发了一种新颖的用例,我们称之为模型审核,其中我们判断(Black-Box)模型生成的单个样品的质量,丢弃了低质量样品,从而改善了整体模型性能事后方式。
translated by 谷歌翻译
在这项工作中,我们研究了生成图像模型的性能和评估如何受到其培训数据集的种族组成的影响。通过检查和控制各种培训数据集中的种族分布,我们能够观察不同培训分布对生成的图像质量和生成图像的种族分布的影响。我们的结果表明,生成的图像的种族组成成功地保留了培训数据。但是,我们观察到截断是一种用于在推断过程中生成更高质量图像的技术,加剧了数据中的种族失衡。最后,在检查图像质量与种族之间的关系时,我们发现给定种族的最高可感知的视觉质量图像来自该种族代表性很好的分布,并且注释者始终偏爱白人的生成图像,而不是黑人。
translated by 谷歌翻译
Recent advances in generative modeling have led to an increased interest in the study of statistical divergences as means of model comparison. Commonly used evaluation methods, such as the Fréchet Inception Distance (FID), correlate well with the perceived quality of samples and are sensitive to mode dropping. However, these metrics are unable to distinguish between different failure cases since they only yield one-dimensional scores. We propose a novel definition of precision and recall for distributions which disentangles the divergence into two separate dimensions. The proposed notion is intuitive, retains desirable properties, and naturally leads to an efficient algorithm that can be used to evaluate generative models. We relate this notion to total variation as well as to recent evaluation metrics such as Inception Score and FID. To demonstrate the practical utility of the proposed approach we perform an empirical study on several variants of Generative Adversarial Networks and Variational Autoencoders. In an extensive set of experiments we show that the proposed metric is able to disentangle the quality of generated samples from the coverage of the target distribution.
translated by 谷歌翻译
我们的工作重点是解决公共图像数据集中数据歧管低密度区域的样本缺陷。我们利用基于扩散过程的生成模型来合成来自低密度区域的新图像。我们观察到来自扩散模型的均匀采样主要是来自数据歧管高密度区域的样品。因此,我们修改采样过程以将其引导到低密度区域,同时保持合成数据的保真度。我们严格地证明我们的过程成功地生成了来自低密度区域的新型高保真样品。我们进一步检查了生成的样品,并表明该模型不会记住低密度数据,并且确实学会了从低密度区域生成新样本。
translated by 谷歌翻译
生成的对抗网络(GANS)产生高质量的图像,但致力于训练。它们需要仔细正常化,大量计算和昂贵的超参数扫描。我们通过将生成和真实样本投影到固定的预级特征空间中,在这些问题上进行了重要的头路。发现鉴别者无法充分利用来自预押模型的更深层次的特征,我们提出了更有效的策略,可以在渠道和分辨率中混合特征。我们预计的GaN提高了图像质量,样品效率和收敛速度。它与最多一个百万像素的分辨率进一步兼容,并在二十二个基准数据集上推进最先进的FR \'Echet Inception距离(FID)。重要的是,预计的GAN符合先前最低的FID速度快40倍,鉴于相同的计算资源,将壁钟时间从5天切割到不到3小时。
translated by 谷歌翻译
近年来,隐含的生成模型(例如生成对抗网络和扩散模型)已变得普遍。虽然这些模型确实显示出了显着的结果,但评估其性能是具有挑战性的。这个问题对于推动研究并从随机噪声中确定有意义的收益至关重要。当前,启发式指标(例如INCEPTION评分(IS)和特雷希特(Frechet Inception)距离(FID)是最常见的评估指标,但是它们所测量的内容尚不完全清楚。此外,关于他们的分数实际有多有意义的问题。在这项工作中,我们通过生成高质量的合成数据集来研究生成模型的评估指标,我们可以在该数据集中估算经典指标以进行比较。我们的研究表明,尽管FID和与几个F-Diverence确实相关,但它们的近距离模型的排名可能会差异很大,因此在用于Fain Graining比较时,它们有问题。我们进一步使用了这种实验环境来研究哪些评估度量与我们的概率指标相关。最后,我们研究用于FID等指标的基本功能。
translated by 谷歌翻译
Recent 3D-aware GANs rely on volumetric rendering techniques to disentangle the pose and appearance of objects, de facto generating entire 3D volumes rather than single-view 2D images from a latent code. Complex image editing tasks can be performed in standard 2D-based GANs (e.g., StyleGAN models) as manipulation of latent dimensions. However, to the best of our knowledge, similar properties have only been partially explored for 3D-aware GAN models. This work aims to fill this gap by showing the limitations of existing methods and proposing LatentSwap3D, a model-agnostic approach designed to enable attribute editing in the latent space of pre-trained 3D-aware GANs. We first identify the most relevant dimensions in the latent space of the model controlling the targeted attribute by relying on the feature importance ranking of a random forest classifier. Then, to apply the transformation, we swap the top-K most relevant latent dimensions of the image being edited with an image exhibiting the desired attribute. Despite its simplicity, LatentSwap3D provides remarkable semantic edits in a disentangled manner and outperforms alternative approaches both qualitatively and quantitatively. We demonstrate our semantic edit approach on various 3D-aware generative models such as pi-GAN, GIRAFFE, StyleSDF, MVCGAN, EG3D and VolumeGAN, and on diverse datasets, such as FFHQ, AFHQ, Cats, MetFaces, and CompCars. The project page can be found: \url{https://enisimsar.github.io/latentswap3d/}.
translated by 谷歌翻译
The style-based GAN architecture (StyleGAN) yields state-of-the-art results in data-driven unconditional generative image modeling. We expose and analyze several of its characteristic artifacts, and propose changes in both model architecture and training methods to address them. In particular, we redesign the generator normalization, revisit progressive growing, and regularize the generator to encourage good conditioning in the mapping from latent codes to images. In addition to improving image quality, this path length regularizer yields the additional benefit that the generator becomes significantly easier to invert. This makes it possible to reliably attribute a generated image to a particular network. We furthermore visualize how well the generator utilizes its output resolution, and identify a capacity problem, motivating us to train larger models for additional quality improvements. Overall, our improved model redefines the state of the art in unconditional image modeling, both in terms of existing distribution quality metrics as well as perceived image quality.
translated by 谷歌翻译
FR \'Echet Inception距离(FID)是在数据驱动的生成建模中对模型进行排名的主要度量。虽然非常成功,但众所周知,该指标有时不同意人类的判断力。我们研究了这些差异的根本原因,并可视化生成图像中的FID“看”的内容。我们表明,FID(通常)计算的功能空间非常接近成像网分类,以使生成图像和真实图像集之间的顶部 - $ n $分类的直方图可大大降低FID - 而无需实际提高质量结果。因此,我们得出结论,FID容易出现故意或意外扭曲。作为偶然失真的实际例子,我们讨论了一个Imagenet预先训练的封装可以实现与stylegan2相当的情况的情况,同时在人类评估方面变得更糟
translated by 谷歌翻译