这项工作评估了生成模型的质量度量的鲁棒性,例如INPECTION评分(IS)和FR \'Echet Inception距离(FID)。类似于深层模型对各种对抗性攻击的脆弱性,我们表明这种指标也可以通过添加剂像素扰动来操纵。我们的实验表明,可以生成分数很高但知觉质量低的图像分布。相反,人们可以优化对小型扰动,当将其添加到现实世界图像中时,会使他们的分数恶化。我们进一步将评估扩展到生成模型本身,包括最先进的网络样式。我们展示了生成模型和FID的脆弱性,反对潜在空间中的累加扰动。最后,我们证明,通过简单地以强大的启动来代替标准发明,可以强大地实现FID。我们通过广泛的实验来验证鲁棒度量的有效性,这表明它对操纵更为强大。
translated by 谷歌翻译
评估图像生成模型(例如生成对抗网络(GAN))是一个具有挑战性的问题。一种常见的方法是比较地面真相图像集和生成的测试图像集的分布。 Frech \'Et启动距离是评估gan的最广泛使用的指标之一,该指标假定一组图像的训练有素的启动模型中的特征遵循正态分布。在本文中,我们认为这是一个过度简化的假设,这可能会导致不可靠的评估结果,并且可以使用截断的广义正态分布来实现更准确的密度估计。基于此,我们提出了一个新的度量,以准确评估gan,称为趋势(截断了截断的正常密度估计,对嵌入植物的嵌入)。我们证明我们的方法大大减少了密度估计的错误,因此消除了评估结果错误的风险。此外,我们表明所提出的指标可显着提高评估结果的鲁棒性,以防止图像样品数量变化。
translated by 谷歌翻译
最近的工作认为,强大的培训需要比标准分类所需的数据集大得多。在CiFar-10和CiFar-100上,这转化为仅培训的型号之间的可稳健稳健精度差距,这些型号来自原始训练集的数据,那些从“80万微小图像”数据集(TI-80M)提取的附加数据培训。在本文中,我们探讨了单独培训的生成模型如何利用人为地提高原始训练集的大小,并改善对$ \ ell_p $ norm-inded扰动的对抗鲁棒性。我们确定了包含额外生成数据的充分条件可以改善鲁棒性,并证明可以显着降低具有额外实际数据训练的模型的强大准确性差距。令人惊讶的是,我们甚至表明即使增加了非现实的随机数据(由高斯采样产生)也可以改善鲁棒性。我们在Cifar-10,CiFar-100,SVHN和Tinyimagenet上评估我们的方法,而$ \ ell_ indty $和$ \ ell_2 $ norm-indeded扰动尺寸$ \ epsilon = 8/255 $和$ \ epsilon = 128/255 $分别。与以前的最先进的方法相比,我们以强大的准确性显示出大的绝对改进。反对$ \ ell_ \ infty $ norm-indeded扰动尺寸$ \ epsilon = 8/255 $,我们的车型分别在Cifar-10和Cifar-100上达到66.10%和33.49%(改善状态)最新美术+ 8.96%和+ 3.29%)。反对$ \ ell_2 $ norm-indeded扰动尺寸$ \ epsilon = 128/255 $,我们的型号在Cifar-10(+ 3.81%)上实现78.31%。这些结果击败了使用外部数据的最先前的作品。
translated by 谷歌翻译
我们制定了一种评估给定两组图像的生成网络性能的度量。当前用于执行此操作的流行绩效指标是Fr \'Echet Inception距离(FID)。 FID假设使用Inception-V3的倒数第二层遵循高斯分布来特征的图像,如果我们希望将FID用作度量标准,则不会违反这种假设。但是,我们表明,ImakeNet数据集的Inception-V3特征不是高斯。特别是,每个边缘都不是高斯。为了解决这个问题,我们使用高斯混合模型(GMM)对特征图像进行建模,并计算限于GMM的2-Wasserstein距离。我们通过使用Inception-V3(或其他分类器)在两组图像上定义了一个称为WAM的性能度量,以表征图像,估算两个GMM,并使用受限的$ 2 $ - WASSERSTEIN距离比较GMMS。我们通过实验表明WAM比FID的优势,包括FID比WAM对不可察觉的图像扰动更敏感。通过建模从Inception-V3作为GMM获得的非高斯特征并使用GMM度量,我们可以更准确地评估生成网络性能。
translated by 谷歌翻译
生成对抗网络(GAN)是最受欢迎的图像生成模型,在各种计算机视觉任务上取得了显着进度。但是,训练不稳定仍然是所有基于GAN的算法的开放问题之一。已经提出了许多方法来稳定gan的训练,其重点分别放在损失功能,正则化和归一化技术,训练算法和模型体系结构上。与上述方法不同,在本文中,提出了有关稳定gan训练的新观点。发现有时发电机产生的图像在训练过程中像歧视者的对抗示例一样,这可能是导致gan不稳定训练的原因的一部分。有了这一发现,我们提出了直接的对抗训练(DAT)方法来稳定gan的训练过程。此外,我们证明DAT方法能够适应歧视器的Lipschitz常数。 DAT的高级性能在多个损失功能,网络体系结构,超参数和数据集上进行了验证。具体而言,基于SSGAN的CIFAR-100无条件生成,DAT在CIFAR-100的无条件生成上实现了11.5%的FID,基于SSGAN的STL-10无条件生成的FID和基于SSGAN的LSUN卧室无条件生成的13.2%FID。代码将在https://github.com/iceli1007/dat-gan上找到
translated by 谷歌翻译
The ability to automatically estimate the quality and coverage of the samples produced by a generative model is a vital requirement for driving algorithm research. We present an evaluation metric that can separately and reliably measure both of these aspects in image generation tasks by forming explicit, non-parametric representations of the manifolds of real and generated data. We demonstrate the effectiveness of our metric in StyleGAN and BigGAN by providing several illustrative examples where existing metrics yield uninformative or contradictory results. Furthermore, we analyze multiple design variants of StyleGAN to better understand the relationships between the model architecture, training methods, and the properties of the resulting sample distribution. In the process, we identify new variants that improve the state-of-the-art. We also perform the first principled analysis of truncation methods and identify an improved method. Finally, we extend our metric to estimate the perceptual quality of individual samples, and use this to study latent space interpolations.
translated by 谷歌翻译
深度神经网络容易受到来自对抗性投入的攻击,并且最近,特洛伊木马误解或劫持模型的决定。我们通过探索有界抗逆性示例空间和生成的对抗网络内的自然输入空间来揭示有界面的对抗性实例 - 通用自然主义侵害贴片的兴趣类 - 我们呼叫TNT。现在,一个对手可以用一个自然主义的补丁来手臂自己,不太恶意,身体上可实现,高效 - 实现高攻击成功率和普遍性。 TNT是普遍的,因为在场景中的TNT中捕获的任何输入图像都将:i)误导网络(未确定的攻击);或ii)迫使网络进行恶意决定(有针对性的攻击)。现在,有趣的是,一个对抗性补丁攻击者有可能发挥更大的控制水平 - 选择一个独立,自然的贴片的能力,与被限制为嘈杂的扰动的触发器 - 到目前为止只有可能与特洛伊木马攻击方法有可能干扰模型建设过程,以嵌入风险发现的后门;但是,仍然意识到在物理世界中部署的补丁。通过对大型视觉分类任务的广泛实验,想象成在其整个验证集50,000张图像中进行评估,我们展示了TNT的现实威胁和攻击的稳健性。我们展示了攻击的概括,以创建比现有最先进的方法实现更高攻击成功率的补丁。我们的结果表明,攻击对不同的视觉分类任务(CIFAR-10,GTSRB,PUBFIG)和多个最先进的深神经网络,如WieredEnet50,Inception-V3和VGG-16。
translated by 谷歌翻译
图像空间中的视觉反事实解释(VCE)是了解图像分类器的决策的重要工具,因为它们显示了图像的更改,分类器的决策将会改变。他们在图像空间中的产生具有挑战性,由于对抗性例子的问题,需要强大的模型。在图像空间中生成VCE的现有技术遭受背景虚假变化的影响。我们对VCE的新型扰动模型以及通过我们的新型自动 - 弗兰克 - 摩 - 摩托方案的有效优化产生了稀疏的VCE,从而导致了针对目标类别的细微变化。此外,我们表明,由于Imagenet数据集中的虚假特征,VCE可用于检测Imagenet分类器的不希望的行为。
translated by 谷歌翻译
生成的对抗网络(GANS)产生高质量的图像,但致力于训练。它们需要仔细正常化,大量计算和昂贵的超参数扫描。我们通过将生成和真实样本投影到固定的预级特征空间中,在这些问题上进行了重要的头路。发现鉴别者无法充分利用来自预押模型的更深层次的特征,我们提出了更有效的策略,可以在渠道和分辨率中混合特征。我们预计的GaN提高了图像质量,样品效率和收敛速度。它与最多一个百万像素的分辨率进一步兼容,并在二十二个基准数据集上推进最先进的FR \'Echet Inception距离(FID)。重要的是,预计的GAN符合先前最低的FID速度快40倍,鉴于相同的计算资源,将壁钟时间从5天切割到不到3小时。
translated by 谷歌翻译
尽管对生成对抗网络(GAN)进行了广泛的研究,但如何可靠地从其潜在空间中可靠地采样高质量的图像仍然是一个不足的主题。在本文中,我们通过探索和利用GAN潜伏分布的中心先验来提出一种新型的GAN潜伏方法。我们的关键见解是,GAN潜在空间的高维度不可避免地会导致集线器潜伏期的出现通常比潜在空间中的其他潜在潜在潜伏期更大。结果,这些枢纽潜伏期得到了更好的训练,因此有助于高质量图像的合成。与A后“樱桃挑剔”不同,我们的方法高效,因为它是一种先验方法,可以在合成图像之前识别高质量的潜在。此外,我们表明,众所周知但纯粹的经验截断技巧是对集线器潜伏期的中心聚类效应的幼稚近似,这不仅揭示了截断技巧的基本原理,而且还表明了我们方法的优越性和基础性。广泛的实验结果证明了该方法的有效性。
translated by 谷歌翻译
对抗性培训(AT)被认为是对抗对抗攻击最可靠的防御之一。然而,模型培训以牺牲标准精度,并不概括为新的攻击。最近的作用表明,在新型威胁模型中的新威胁模型或神经感知威胁模型中,对普遍威胁模型的对抗样本进行了泛化改进。然而,前者需要确切的流形信息,而后者需要算法放松。通过这些考虑因素,我们利用了具有规范化流的底层歧管信息,确保了确切的歧管的假设保持。此外,我们提出了一种名为联合空间威胁模型(JSTM)的新型威胁模型,其可以作为神经感知威胁模型的特殊情况,这些威胁模型不需要额外放松来制作相应的对抗性攻击。在JSTM下,我们培养了新的对抗性攻击和防御。混合策略提高了神经网络的标准准确性,但与AT结合时牺牲了鲁棒性。为了解决这个问题,我们提出了强大的混合策略,其中我们最大限度地提高了内插图像的逆境,并获得了鲁棒性和预装配。我们的实验表明,内插关节空间对抗性训练(IJSAT)在CiFar-10/100,Om-ImageNet和CiFar-10-C数据集中实现了标准精度,鲁棒性和泛化的良好性能。 IJSAT也是灵活的,可以用作数据增强方法,以提高标准精度,并与诸多换取以提高鲁棒性的方法相结合。
translated by 谷歌翻译
生成对抗网络(GAN)是现实图像合成的最新生成模型之一。虽然培训和评估GAN变得越来越重要,但当前的GAN研究生态系统并未提供可靠的基准,以始终如一地进行评估。此外,由于GAN实施很少,因此研究人员将大量时间用于重现基线。我们研究了GAN方法的分类法,并提出了一个名为Studiogan的新开源库。 Studiogan支持7种GAN体系结构,9种调理方法,4种对抗损失,13个正则化模块,3个可区分的增强,7个评估指标和5个评估骨干。通过我们的培训和评估协议,我们使用各种数据集(CIFAR10,ImageNet,AFHQV2,FFHQ和Baby/Papa/Granpa-Imagenet)和3个不同的评估骨干(InceptionV3,Swav,Swav和Swin Transformer)提出了大规模的基准。与GAN社区中使用的其他基准不同,我们在统一的培训管道中培训了包括Biggan,stylegan2和stylegan3在内的代表GAN,并使用7个评估指标量化了生成性能。基准测试评估其他尖端生成模型(例如,stylegan-xl,adm,maskgit和rq-transformer)。 Studiogan提供了预先训练的权重的GAN实现,培训和评估脚本。 Studiogan可从https://github.com/postech-cvlab/pytorch-studiogan获得。
translated by 谷歌翻译
GAN的进展使高分辨率的感性质量形象产生了产生。 stylegans允许通过数学操作对W/W+空间中的潜在样式向量进行数学操作进行引人入胜的属性修改,从而有效调节生成器的丰富层次结构表示。最近,此类操作已被推广到原始StyleGan纸中的属性交换之外,以包括插值。尽管StyleGans有许多重大改进,但仍被认为会产生不自然的图像。生成的图像的质量基于两个假设。 (a)生成器学到的层次表示的丰富性,以及(b)样式空间的线性和平滑度。在这项工作中,我们提出了一个层次的语义正常化程序(HSR),该层次正常化程序将生成器学到的层次表示与大量数据学到的相应的强大功能保持一致。 HSR不仅可以改善发电机的表示,还可以改善潜在风格空间的线性和平滑度,从而导致产生更自然的样式编辑的图像。为了证明线性改善,我们提出了一种新型的度量 - 属性线性评分(ALS)。通过改善感知路径长度(PPL)度量的改善,在不同的标准数据集中平均16.19%的不自然图像的生成显着降低,同时改善了属性编辑任务中属性变化的线性变化。
translated by 谷歌翻译
我们研究了GaN调理问题,其目标是使用标记数据将普雷雷尼的无条件GaN转换为条件GaN。我们首先识别并分析这一问题的三种方法 - 从头开始​​,微调和输入重新编程的条件GaN培训。我们的分析表明,当标记数据的数量很小时,输入重新编程执行最佳。通过稀缺标记数据的现实世界情景,我们专注于输入重编程方法,并仔细分析现有算法。在识别出先前输入重新编程方法的一些关键问题之后,我们提出了一种名为INREP +的新算法。我们的算法INREP +解决了现有问题,具有可逆性神经网络的新颖用途和正面未标记(PU)学习。通过广泛的实验,我们表明Inrep +优于所有现有方法,特别是当标签信息稀缺,嘈杂和/或不平衡时。例如,对于用1%标记数据调节CiFar10 GaN的任务,Inrep +实现了82.13的平均峰值,而第二个最佳方法达到114.51。
translated by 谷歌翻译
模型反转攻击(MIAS)旨在创建合成图像,通过利用模型的学习知识来反映目标分类器的私人培训数据中的班级特征。先前的研究开发了生成的MIA,该MIA使用生成的对抗网络(GAN)作为针对特定目标模型的图像先验。这使得攻击时间和资源消耗,不灵活,并且容易受到数据集之间的分配变化的影响。为了克服这些缺点,我们提出了插头攻击,从而放宽了目标模型和图像之前的依赖性,并启用单个GAN来攻击广泛的目标,仅需要对攻击进行少量调整。此外,我们表明,即使在公开获得的预训练的gan和强烈的分配转变下,也可以实现强大的MIA,而先前的方法无法产生有意义的结果。我们的广泛评估证实了插头攻击的鲁棒性和灵活性,以及​​它们创建高质量图像的能力,揭示了敏感的类特征。
translated by 谷歌翻译
近年来,隐含的生成模型(例如生成对抗网络和扩散模型)已变得普遍。虽然这些模型确实显示出了显着的结果,但评估其性能是具有挑战性的。这个问题对于推动研究并从随机噪声中确定有意义的收益至关重要。当前,启发式指标(例如INCEPTION评分(IS)和特雷希特(Frechet Inception)距离(FID)是最常见的评估指标,但是它们所测量的内容尚不完全清楚。此外,关于他们的分数实际有多有意义的问题。在这项工作中,我们通过生成高质量的合成数据集来研究生成模型的评估指标,我们可以在该数据集中估算经典指标以进行比较。我们的研究表明,尽管FID和与几个F-Diverence确实相关,但它们的近距离模型的排名可能会差异很大,因此在用于Fain Graining比较时,它们有问题。我们进一步使用了这种实验环境来研究哪些评估度量与我们的概率指标相关。最后,我们研究用于FID等指标的基本功能。
translated by 谷歌翻译
本文研究了深度神经网络训练期间的语义对齐功能如何增加网络鲁棒性。最近的作品观察到对抗性训练导致强大的模型,其学众的特征似乎与人类感知相关。通过这种联系的启发,从鲁棒性到语义,我们研究了互补的连接:从语义到鲁棒性。为此,我们为基于距离的分类模型(基于群集的分类器)提供了一种稳健性证书。此外,我们表明该证书紧张,我们利用它提出植入攻击(鲁棒性培训),是一种基于集群和对抗的培训框架来学习强大的模型。有趣的是,\ Textit {Clustr}在强大的PGD攻击下优于普遍训练的网络,高达4 \%$ 4 \%。
translated by 谷歌翻译
FR \'Echet Inception距离(FID)是在数据驱动的生成建模中对模型进行排名的主要度量。虽然非常成功,但众所周知,该指标有时不同意人类的判断力。我们研究了这些差异的根本原因,并可视化生成图像中的FID“看”的内容。我们表明,FID(通常)计算的功能空间非常接近成像网分类,以使生成图像和真实图像集之间的顶部 - $ n $分类的直方图可大大降低FID - 而无需实际提高质量结果。因此,我们得出结论,FID容易出现故意或意外扭曲。作为偶然失真的实际例子,我们讨论了一个Imagenet预先训练的封装可以实现与stylegan2相当的情况的情况,同时在人类评估方面变得更糟
translated by 谷歌翻译
生成自然语言指令的图像是一个有趣但高度挑战的任务。我们通过将reverting剪辑表示与现成的图像发生器(GAN)的功率组合来实现文本到图像生成,在GaN的潜在空间中优化,找到与给定输入文本实现最大剪辑分数的图像。与传统方法相比,从划痕开始从文本到图像培训生成模型,剪辑+ GaN方法是无训练,零射击,可以用不同的发电机轻松定制。然而,在GaN空间中优化剪辑得分投射了一个高度挑战的优化问题,以及诸如ADAM的现成优化器,不能产生满足结果。在这项工作中,我们提出了一个FusedReam管道,它通过三个关键技术改进了剪辑+ GaN方法:1)通过在图像上引入随机增强来强制剪辑目标的Augclip分数。 2)优化的新颖初始化和过参数化策略,允许我们有效地导航GaN空间中的非凸景观。 3)通过利用新型双级优化制剂的组合生成技术,可以构成多个图像以扩展GaN空间并克服数据偏置。当由不同的输入文本推广时,FusedReam可以产生具有不同对象,背景,艺术风格的高质量图像,甚至没有出现在我们使用的GaN的训练数据中的新的反事概念。定量地,由FusedReam生成的图像在MS Coco DataSet上产生顶级初始成绩和FID分数,而无需额外的架构设计或培训。我们的代码公开可用于\ url {https:/github.com/gnobitab/fusedream}。
translated by 谷歌翻译
深度神经网络容易受到称为对抗性攻击的小输入扰动。通过迭代最大限度地减少网络对真正阶级标签的信心来构建这些对手的事实,我们提出了旨在反对这种效果的反对派层。特别地,我们的层在对手1的相反方向上产生输入扰动,并馈送分类器的输入的扰动版本。我们的方法是无培训和理论上的支持。我们通过将我们的层与名义上和强大的培训模型组合来验证我们的方法的有效性,并从黑盒进行大规模实验到CIFAR10,CIFAR100和ImageNet的自适应攻击。我们的层显着提高了模型鲁棒性,同时在清洁准确性上没有成本。
translated by 谷歌翻译