生成模型的评估主要基于特定特征空间中估计分布和地面真实分布之间的比较。为了将样本嵌入信息丰富的特征中,以前的作品经常使用针对分类进行优化的卷积神经网络,这是最近的研究批评。因此,已经探索了各种特征空间以发现替代方案。其中,一种令人惊讶的方法是使用随机初始化的神经网络进行功能嵌入。但是,采用随机特征的基本依据尚未足够合理。在本文中,我们严格研究具有随机权重的模型的特征空间,与训练有素的模型相比。此外,我们提供了一个经验证据,可以选择网络以获取随机特征以获得一致可靠的结果。我们的结果表明,随机网络的功能可以与训练有素的网络相似,可以很好地评估生成模型,此外,这两种功能可以以互补的方式一起使用。
translated by 谷歌翻译
评估图像生成模型(例如生成对抗网络(GAN))是一个具有挑战性的问题。一种常见的方法是比较地面真相图像集和生成的测试图像集的分布。 Frech \'Et启动距离是评估gan的最广泛使用的指标之一,该指标假定一组图像的训练有素的启动模型中的特征遵循正态分布。在本文中,我们认为这是一个过度简化的假设,这可能会导致不可靠的评估结果,并且可以使用截断的广义正态分布来实现更准确的密度估计。基于此,我们提出了一个新的度量,以准确评估gan,称为趋势(截断了截断的正常密度估计,对嵌入植物的嵌入)。我们证明我们的方法大大减少了密度估计的错误,因此消除了评估结果错误的风险。此外,我们表明所提出的指标可显着提高评估结果的鲁棒性,以防止图像样品数量变化。
translated by 谷歌翻译
The ability to automatically estimate the quality and coverage of the samples produced by a generative model is a vital requirement for driving algorithm research. We present an evaluation metric that can separately and reliably measure both of these aspects in image generation tasks by forming explicit, non-parametric representations of the manifolds of real and generated data. We demonstrate the effectiveness of our metric in StyleGAN and BigGAN by providing several illustrative examples where existing metrics yield uninformative or contradictory results. Furthermore, we analyze multiple design variants of StyleGAN to better understand the relationships between the model architecture, training methods, and the properties of the resulting sample distribution. In the process, we identify new variants that improve the state-of-the-art. We also perform the first principled analysis of truncation methods and identify an improved method. Finally, we extend our metric to estimate the perceptual quality of individual samples, and use this to study latent space interpolations.
translated by 谷歌翻译
生成对抗网络(GAN)是现实图像合成的最新生成模型之一。虽然培训和评估GAN变得越来越重要,但当前的GAN研究生态系统并未提供可靠的基准,以始终如一地进行评估。此外,由于GAN实施很少,因此研究人员将大量时间用于重现基线。我们研究了GAN方法的分类法,并提出了一个名为Studiogan的新开源库。 Studiogan支持7种GAN体系结构,9种调理方法,4种对抗损失,13个正则化模块,3个可区分的增强,7个评估指标和5个评估骨干。通过我们的培训和评估协议,我们使用各种数据集(CIFAR10,ImageNet,AFHQV2,FFHQ和Baby/Papa/Granpa-Imagenet)和3个不同的评估骨干(InceptionV3,Swav,Swav和Swin Transformer)提出了大规模的基准。与GAN社区中使用的其他基准不同,我们在统一的培训管道中培训了包括Biggan,stylegan2和stylegan3在内的代表GAN,并使用7个评估指标量化了生成性能。基准测试评估其他尖端生成模型(例如,stylegan-xl,adm,maskgit和rq-transformer)。 Studiogan提供了预先训练的权重的GAN实现,培训和评估脚本。 Studiogan可从https://github.com/postech-cvlab/pytorch-studiogan获得。
translated by 谷歌翻译
FR \'Echet Inception距离(FID)是在数据驱动的生成建模中对模型进行排名的主要度量。虽然非常成功,但众所周知,该指标有时不同意人类的判断力。我们研究了这些差异的根本原因,并可视化生成图像中的FID“看”的内容。我们表明,FID(通常)计算的功能空间非常接近成像网分类,以使生成图像和真实图像集之间的顶部 - $ n $分类的直方图可大大降低FID - 而无需实际提高质量结果。因此,我们得出结论,FID容易出现故意或意外扭曲。作为偶然失真的实际例子,我们讨论了一个Imagenet预先训练的封装可以实现与stylegan2相当的情况的情况,同时在人类评估方面变得更糟
translated by 谷歌翻译
病理学家对患病组织的视觉微观研究一直是一个多世纪以来癌症诊断和预后的基石。最近,深度学习方法在组织图像的分析和分类方面取得了重大进步。但是,关于此类模型在生成组织病理学图像的实用性方面的工作有限。这些合成图像在病理学中有多种应用,包括教育,熟练程度测试,隐私和数据共享的公用事业。最近,引入了扩散概率模型以生成高质量的图像。在这里,我们首次研究了此类模型的潜在用途以及优先的形态加权和颜色归一化,以合成脑癌的高质量组织病理学图像。我们的详细结果表明,与生成对抗网络相比,扩散概率模型能够合成各种组织病理学图像,并且具有较高的性能。
translated by 谷歌翻译
这项工作评估了生成模型的质量度量的鲁棒性,例如INPECTION评分(IS)和FR \'Echet Inception距离(FID)。类似于深层模型对各种对抗性攻击的脆弱性,我们表明这种指标也可以通过添加剂像素扰动来操纵。我们的实验表明,可以生成分数很高但知觉质量低的图像分布。相反,人们可以优化对小型扰动,当将其添加到现实世界图像中时,会使他们的分数恶化。我们进一步将评估扩展到生成模型本身,包括最先进的网络样式。我们展示了生成模型和FID的脆弱性,反对潜在空间中的累加扰动。最后,我们证明,通过简单地以强大的启动来代替标准发明,可以强大地实现FID。我们通过广泛的实验来验证鲁棒度量的有效性,这表明它对操纵更为强大。
translated by 谷歌翻译
近年来,隐含的生成模型(例如生成对抗网络和扩散模型)已变得普遍。虽然这些模型确实显示出了显着的结果,但评估其性能是具有挑战性的。这个问题对于推动研究并从随机噪声中确定有意义的收益至关重要。当前,启发式指标(例如INCEPTION评分(IS)和特雷希特(Frechet Inception)距离(FID)是最常见的评估指标,但是它们所测量的内容尚不完全清楚。此外,关于他们的分数实际有多有意义的问题。在这项工作中,我们通过生成高质量的合成数据集来研究生成模型的评估指标,我们可以在该数据集中估算经典指标以进行比较。我们的研究表明,尽管FID和与几个F-Diverence确实相关,但它们的近距离模型的排名可能会差异很大,因此在用于Fain Graining比较时,它们有问题。我们进一步使用了这种实验环境来研究哪些评估度量与我们的概率指标相关。最后,我们研究用于FID等指标的基本功能。
translated by 谷歌翻译
生成的对抗网络(GANS)产生高质量的图像,但致力于训练。它们需要仔细正常化,大量计算和昂贵的超参数扫描。我们通过将生成和真实样本投影到固定的预级特征空间中,在这些问题上进行了重要的头路。发现鉴别者无法充分利用来自预押模型的更深层次的特征,我们提出了更有效的策略,可以在渠道和分辨率中混合特征。我们预计的GaN提高了图像质量,样品效率和收敛速度。它与最多一个百万像素的分辨率进一步兼容,并在二十二个基准数据集上推进最先进的FR \'Echet Inception距离(FID)。重要的是,预计的GAN符合先前最低的FID速度快40倍,鉴于相同的计算资源,将壁钟时间从5天切割到不到3小时。
translated by 谷歌翻译
图像合成中的评估指标起着测量生成模型的性能的关键作用。但是,大多数指标主要集中于图像保真度。现有的多样性指标是通过比较分布来得出的,因此它们无法量化每个生成图像的多样性或稀有程度。在这项工作中,我们提出了一个新的评估度量,称为“稀有分数”,以测量通过生成模型合成的每个图像的稀有性。我们首先表明经验观察表明,共同样品彼此接近,并且在特征空间最近的邻居距离处,稀有的样本彼此遥远。然后,我们使用我们的指标来证明可以有效比较不同生成模型产生稀有图像的程度。我们还提出了一种比较共享相同概念(例如Celeba-HQ和FFHQ)的数据集之间的稀有度的方法。最后,我们分析了在特征空间的不同设计中的指标的使用,以更好地了解特征空间和产生的稀疏图像之间的关系。代码将在网上公开用于研究社区。
translated by 谷歌翻译
利用深度学习的最新进展,文本到图像生成模型目前具有吸引公众关注的优点。其中两个模型Dall-E 2和Imagen已经证明,可以从图像的简单文本描述中生成高度逼真的图像。基于一种称为扩散模型的新型图像生成方法,文本对图像模型可以生产许多不同类型的高分辨率图像,其中人类想象力是唯一的极限。但是,这些模型需要大量的计算资源来训练,并处理从互联网收集的大量数据集。此外,代码库和模型均未发布。因此,它可以防止AI社区尝试这些尖端模型,从而使其结果复制变得复杂,即使不是不可能。在本文中,我们的目标是首先回顾这些模型使用的不同方法和技术,然后提出我们自己的文本模型模型实施。高度基于DALL-E 2,我们引入了一些轻微的修改,以应对所引起的高计算成本。因此,我们有机会进行实验,以了解这些模型的能力,尤其是在低资源制度中。特别是,我们提供了比Dall-e 2的作者(包括消融研究)更深入的分析。此外,扩散模型使用所谓的指导方法来帮助生成过程。我们引入了一种新的指导方法,该方法可以与其他指导方法一起使用,以提高图像质量。最后,我们的模型产生的图像质量相当好,而不必维持最先进的文本对图像模型的重大培训成本。
translated by 谷歌翻译
We explore a new class of diffusion models based on the transformer architecture. We train latent diffusion models of images, replacing the commonly-used U-Net backbone with a transformer that operates on latent patches. We analyze the scalability of our Diffusion Transformers (DiTs) through the lens of forward pass complexity as measured by Gflops. We find that DiTs with higher Gflops -- through increased transformer depth/width or increased number of input tokens -- consistently have lower FID. In addition to possessing good scalability properties, our largest DiT-XL/2 models outperform all prior diffusion models on the class-conditional ImageNet 512x512 and 256x256 benchmarks, achieving a state-of-the-art FID of 2.27 on the latter.
translated by 谷歌翻译
当前的视觉系统在巨大的数据集上培训,这些数据集具有成本:策良昂贵,他们继承了人类偏见,并且担心隐私和使用权。为了抵消这些成本,利息飙升,从更便宜的数据来源学习,如未标记的图像。在本文中,我们进一步逐步询问我们是否可以完全脱离真实的图像数据集,而是从噪声过程中学习。我们调查一套图像生成模型,从简单随机过程产生图像。然后将这些作为视觉表示学习者的培训数据,具有对比损失。我们在不同随机初始化下研究两种类型的噪声过程,统计图像模型和深度生成模型。我们的调查结果表明,噪声捕获真实数据的某些结构特性是重要的,但即使使用远离现实的过程也可以实现良好的性能。我们还发现多样性是学习良好陈述的关键财产。数据集,模型和代码可在https://mbaradad.github.io/learning_with_noise上获得。
translated by 谷歌翻译
We show that diffusion models can achieve image sample quality superior to the current state-of-the-art generative models. We achieve this on unconditional image synthesis by finding a better architecture through a series of ablations. For conditional image synthesis, we further improve sample quality with classifier guidance: a simple, compute-efficient method for trading off diversity for fidelity using gradients from a classifier. We achieve an FID of 2.97 on ImageNet 128×128, 4.59 on ImageNet 256×256, and 7.72 on ImageNet 512×512, and we match BigGAN-deep even with as few as 25 forward passes per sample, all while maintaining better coverage of the distribution. Finally, we find that classifier guidance combines well with upsampling diffusion models, further improving FID to 3.94 on ImageNet 256×256 and 3.85 on ImageNet 512×512. We release our code at https://github.com/openai/guided-diffusion.
translated by 谷歌翻译
发现神经网络学到的内容仍然是一个挑战。在自我监督的学习中,分类是用于评估表示是多么常见的最常见任务。但是,只依赖于这样的下游任务可以限制我们对给定输入的表示中保留的信息量的理解。在这项工作中,我们展示了使用条件扩散的生成模型(RCDM)来可视化具有自我监督模型学习的表示。我们进一步展示了这种模型的发电质量如何与最先进的生成模型相符,同时忠于用作调节的代表性。通过使用这个新工具来分析自我监督模型,我们可以在视觉上显示i)SSL(骨干)表示并不是真正不变的,以便他们训练的许多数据增强。 ii)SSL投影仪嵌入出现太不变的任务,如分类。 III)SSL表示对其输入IV的小对抗扰动更稳健),具有可用于图像操作的SSL模型的固有结构。
translated by 谷歌翻译
大规模训练的出现产生了强大的视觉识别模型的聚宝盆。然而,传统上以无人监督的方式从划痕训练的生成模型。可以利用来自一大堆预用的视觉模型的集体“知识”来改善GaN培训吗?如果是这样,有这么多的模型可供选择,应该选择哪一个,并且以什么方式最有效?我们发现预磨削的计算机视觉模型可以在鉴别器的集合中使用时显着提高性能。值得注意的是,所选模型的特定子集极大地影响性能。我们提出了一种有效的选择机制,通过探测预训练模型嵌入的实际和假样本之间的线性可分性,选择最准确的模型,并逐步将其添加到鉴别器集合中。有趣的是,我们的方法可以在有限的数据和大规模设置中提高GaN培训。只有10K培训样本,我们的LSUN猫的FID与1.6M图像培训的风格挂牌匹配。在完整的数据集上,我们的方法将FID提高了1.5倍的LSUN猫,教堂和马类的2倍。
translated by 谷歌翻译
We aim for image-based novelty detection. Despite considerable progress, existing models either fail or face a dramatic drop under the so-called "near-distribution" setting, where the differences between normal and anomalous samples are subtle. We first demonstrate existing methods experience up to 20% decrease in performance in the near-distribution setting. Next, we propose to exploit a score-based generative model to produce synthetic near-distribution anomalous data. Our model is then fine-tuned to distinguish such data from the normal samples. We provide a quantitative as well as qualitative evaluation of this strategy, and compare the results with a variety of GAN-based models. Effectiveness of our method for both the near-distribution and standard novelty detection is assessed through extensive experiments on datasets in diverse applications such as medical images, object classification, and quality control. This reveals that our method considerably improves over existing models, and consistently decreases the gap between the near-distribution and standard novelty detection performance. The code repository is available at https://github.com/rohban-lab/FITYMI.
translated by 谷歌翻译
GAN的进展使高分辨率的感性质量形象产生了产生。 stylegans允许通过数学操作对W/W+空间中的潜在样式向量进行数学操作进行引人入胜的属性修改,从而有效调节生成器的丰富层次结构表示。最近,此类操作已被推广到原始StyleGan纸中的属性交换之外,以包括插值。尽管StyleGans有许多重大改进,但仍被认为会产生不自然的图像。生成的图像的质量基于两个假设。 (a)生成器学到的层次表示的丰富性,以及(b)样式空间的线性和平滑度。在这项工作中,我们提出了一个层次的语义正常化程序(HSR),该层次正常化程序将生成器学到的层次表示与大量数据学到的相应的强大功能保持一致。 HSR不仅可以改善发电机的表示,还可以改善潜在风格空间的线性和平滑度,从而导致产生更自然的样式编辑的图像。为了证明线性改善,我们提出了一种新型的度量 - 属性线性评分(ALS)。通过改善感知路径长度(PPL)度量的改善,在不同的标准数据集中平均16.19%的不自然图像的生成显着降低,同时改善了属性编辑任务中属性变化的线性变化。
translated by 谷歌翻译
尽管对生成对抗网络(GAN)进行了广泛的研究,但如何可靠地从其潜在空间中可靠地采样高质量的图像仍然是一个不足的主题。在本文中,我们通过探索和利用GAN潜伏分布的中心先验来提出一种新型的GAN潜伏方法。我们的关键见解是,GAN潜在空间的高维度不可避免地会导致集线器潜伏期的出现通常比潜在空间中的其他潜在潜在潜伏期更大。结果,这些枢纽潜伏期得到了更好的训练,因此有助于高质量图像的合成。与A后“樱桃挑剔”不同,我们的方法高效,因为它是一种先验方法,可以在合成图像之前识别高质量的潜在。此外,我们表明,众所周知但纯粹的经验截断技巧是对集线器潜伏期的中心聚类效应的幼稚近似,这不仅揭示了截断技巧的基本原理,而且还表明了我们方法的优越性和基础性。广泛的实验结果证明了该方法的有效性。
translated by 谷歌翻译
扩散概率模型(DPMS)在竞争对手GANS的图像生成中取得了显着的质量。但与GAN不同,DPMS使用一组缺乏语义含义的一组潜在变量,并且不能作为其他任务的有用表示。本文探讨了使用DPMS进行表示学习的可能性,并寻求通过自动编码提取输入图像的有意义和可解码的表示。我们的主要思想是使用可学习的编码器来发现高级语义,以及DPM作为用于建模剩余随机变化的解码器。我们的方法可以将任何图像编码为两部分潜在的代码,其中第一部分是语义有意义和线性的,第二部分捕获随机细节,允许接近精确的重建。这种功能使当前箔基于GaN的方法的挑战性应用,例如实际图像上的属性操作。我们还表明,这两级编码可提高去噪效率,自然地涉及各种下游任务,包括几次射击条件采样。
translated by 谷歌翻译