近年来生成模型的巨大成功提出了这些问题,无论它们也可用于执行分类。生成模型已被用作在诸如MNIST之类的简单数据集上的对接性强大分类器,但在比夏径-10这样的复杂数据集上尚未观察到这种稳健性。此外,在自然图像数据集上,以前的结果表明数据和分类准确性的可能性之间的权衡。在这项工作中,我们调查基于分数的生成模型作为自然图像的分类器。我们表明这些模型不仅获得了竞争的可能性值,而且同时实现了CIFAR-10上的生成分类器的最先进的分类准确性。尽管如此,我们发现这些模型仅略微略高,如果完全是基于共同图像损坏的分发任务的鉴别基线模型。同样且与事先结果相反,我们发现基于分数的易患患者扰动形式的最差案例分布。与标准辨别模型相比,我们的工作亮点基于分数的生成模型在分类准确性中缩小了间隙。虽然他们尚未提供对抗的承诺和域名鲁棒性,但它们提供了不同的分类方法,以便进行进一步研究。
translated by 谷歌翻译
随着在各种算法和框架中更广泛地应用深度神经网络(DNN),安全威胁已成为其中之一。对抗性攻击干扰基于DNN的图像分类器,其中攻击者可以在其中故意添加不可察觉的对抗性扰动,以欺骗分类器。在本文中,我们提出了一种新颖的纯化方法,称为纯化的引导扩散模型(GDMP),以帮助保护分类器免受对抗性攻击。我们方法的核心是将纯化嵌入到deno的扩散概率模型(DDPM)的扩散denoisis过程中,以便其扩散过程可以逐渐添加的高斯噪声淹没对抗性的扰动,并且可以同时删除这两种声音。指导的deNoising过程。在我们在各个数据集中进行的全面实验中,提出的GDMP被证明可将对抗攻击造成的扰动降低到浅范围,从而显着提高了分类的正确性。 GDMP将鲁棒精度提高了5%,在CIFAR10数据集对PGD攻击下获得了90.1%。此外,GDMP在具有挑战性的Imagenet数据集上达到了70.94%的鲁棒性。
translated by 谷歌翻译
现代神经网络Excel在图像分类中,但它们仍然容易受到常见图像损坏,如模糊,斑点噪音或雾。最近的方法关注这个问题,例如Augmix和Deepaulment,引入了在预期运行的防御,以期望图像损坏分布。相比之下,$ \ ell_p $ -norm界限扰动的文献侧重于针对最坏情况损坏的防御。在这项工作中,我们通过提出防范内人来调和两种方法,这是一种优化图像到图像模型的参数来产生对外损坏的增强图像的技术。我们理论上激发了我们的方法,并为其理想化版本的一致性以及大纲领提供了足够的条件。我们的分类机器在预期对CiFar-10-C进行的常见图像腐败基准上提高了最先进的,并改善了CIFAR-10和ImageNet上的$ \ ell_p $ -norm有界扰动的最坏情况性能。
translated by 谷歌翻译
对共同腐败的稳健性的文献表明对逆势培训是否可以提高这种环境的性能,没有达成共识。 First, we show that, when used with an appropriately selected perturbation radius, $\ell_p$ adversarial training can serve as a strong baseline against common corruptions improving both accuracy and calibration.然后,我们解释了为什么对抗性训练比具有简单高斯噪声的数据增强更好地表现,这被观察到是对共同腐败的有意义的基线。与此相关,我们确定了高斯增强过度适用于用于培训的特定标准偏差的$ \ sigma $ -oviting现象,这对培训具有显着不利影响的普通腐败精度。我们讨论如何缓解这一问题,然后如何通过学习的感知图像贴片相似度引入对抗性训练的有效放松来进一步增强$ \ ell_p $普发的培训。通过对CiFar-10和Imagenet-100的实验,我们表明我们的方法不仅改善了$ \ ell_p $普发的培训基线,而且还有累积的收益与Augmix,Deepaulment,Ant和Sin等数据增强方法,导致普通腐败的最先进的表现。我们的实验代码在HTTPS://github.com/tml-epfl/adv-training - 窗子上公开使用。
translated by 谷歌翻译
最近的工作认为,强大的培训需要比标准分类所需的数据集大得多。在CiFar-10和CiFar-100上,这转化为仅培训的型号之间的可稳健稳健精度差距,这些型号来自原始训练集的数据,那些从“80万微小图像”数据集(TI-80M)提取的附加数据培训。在本文中,我们探讨了单独培训的生成模型如何利用人为地提高原始训练集的大小,并改善对$ \ ell_p $ norm-inded扰动的对抗鲁棒性。我们确定了包含额外生成数据的充分条件可以改善鲁棒性,并证明可以显着降低具有额外实际数据训练的模型的强大准确性差距。令人惊讶的是,我们甚至表明即使增加了非现实的随机数据(由高斯采样产生)也可以改善鲁棒性。我们在Cifar-10,CiFar-100,SVHN和Tinyimagenet上评估我们的方法,而$ \ ell_ indty $和$ \ ell_2 $ norm-indeded扰动尺寸$ \ epsilon = 8/255 $和$ \ epsilon = 128/255 $分别。与以前的最先进的方法相比,我们以强大的准确性显示出大的绝对改进。反对$ \ ell_ \ infty $ norm-indeded扰动尺寸$ \ epsilon = 8/255 $,我们的车型分别在Cifar-10和Cifar-100上达到66.10%和33.49%(改善状态)最新美术+ 8.96%和+ 3.29%)。反对$ \ ell_2 $ norm-indeded扰动尺寸$ \ epsilon = 128/255 $,我们的型号在Cifar-10(+ 3.81%)上实现78.31%。这些结果击败了使用外部数据的最先前的作品。
translated by 谷歌翻译
作为研究界,我们仍然缺乏对对抗性稳健性的进展的系统理解,这通常使得难以识别训练强大模型中最有前途的想法。基准稳健性的关键挑战是,其评估往往是出错的导致鲁棒性高估。我们的目标是建立对抗性稳健性的标准化基准,尽可能准确地反映出考虑在合理的计算预算范围内所考虑的模型的稳健性。为此,我们首先考虑图像分类任务并在允许的型号上引入限制(可能在将来宽松)。我们评估了与AutoAtrack的对抗鲁棒性,白和黑箱攻击的集合,最近在大规模研究中显示,与原始出版物相比,改善了几乎所有稳健性评估。为防止对自动攻击进行新防御的过度适应,我们欢迎基于自适应攻击的外部评估,特别是在自动攻击稳健性潜在高估的地方。我们的排行榜,托管在https://robustbench.github.io/,包含120多个模型的评估,并旨在反映在$ \ ell_ \ infty $的一套明确的任务上的图像分类中的当前状态 - 和$ \ ell_2 $ -Threat模型和共同腐败,未来可能的扩展。此外,我们开源源是图书馆https://github.com/robustbench/robustbench,可以提供对80多个强大模型的统一访问,以方便他们的下游应用程序。最后,根据收集的模型,我们分析了稳健性对分布换档,校准,分配检测,公平性,隐私泄漏,平滑度和可转移性的影响。
translated by 谷歌翻译
Training adversarially robust discriminative (i.e., softmax) classifier has been the dominant approach to robust classification. Building on recent work on adversarial training (AT)-based generative models, we investigate using AT to learn unnormalized class-conditional density models and then performing generative robust classification. Our result shows that, under the condition of similar model capacities, the generative robust classifier achieves comparable performance to a baseline softmax robust classifier when the test data is clean or when the test perturbation is of limited size, and much better performance when the test perturbation size exceeds the training perturbation size. The generative classifier is also able to generate samples or counterfactuals that more closely resemble the training data, suggesting that the generative classifier can better capture the class-conditional distributions. In contrast to standard discriminative adversarial training where advanced data augmentation techniques are only effective when combined with weight averaging, we find it straightforward to apply advanced data augmentation to achieve better robustness in our approach. Our result suggests that the generative classifier is a competitive alternative to robust classification, especially for problems with limited number of classes.
translated by 谷歌翻译
扩散降级概率模型(DDPM)和视觉变压器(VIT)分别在生成任务和判别任务中表现出重大进展,到目前为止,这些模型已在其自身领域中很大程度上开发出来。在本文中,我们通过将VIT结构集成到DDPM之间,建立DDPM和VIT之间的直接联系,并引入一种称为“生成Vit(Genvit)”的新生成模型。VIT的建模灵活性使我们能够将Genvit进一步扩展到混合判别生成建模,并引入混合VIT(HYBVIT)。我们的工作是最早探索单个VIT以共同探索图像生成和分类的人之一。我们进行了一系列实验,以分析提出的模型的性能,并证明它们在生成和判别任务中都超过了先前的最新技术。我们的代码和预培训模型可以在https://github.com/sndnyang/diffusion_vit中找到。
translated by 谷歌翻译
Any classifier can be "smoothed out" under Gaussian noise to build a new classifier that is provably robust to $\ell_2$-adversarial perturbations, viz., by averaging its predictions over the noise via randomized smoothing. Under the smoothed classifiers, the fundamental trade-off between accuracy and (adversarial) robustness has been well evidenced in the literature: i.e., increasing the robustness of a classifier for an input can be at the expense of decreased accuracy for some other inputs. In this paper, we propose a simple training method leveraging this trade-off to obtain robust smoothed classifiers, in particular, through a sample-wise control of robustness over the training samples. We make this control feasible by using "accuracy under Gaussian noise" as an easy-to-compute proxy of adversarial robustness for an input. Specifically, we differentiate the training objective depending on this proxy to filter out samples that are unlikely to benefit from the worst-case (adversarial) objective. Our experiments show that the proposed method, despite its simplicity, consistently exhibits improved certified robustness upon state-of-the-art training methods. Somewhat surprisingly, we find these improvements persist even for other notions of robustness, e.g., to various types of common corruptions.
translated by 谷歌翻译
Deep neural networks achieve high prediction accuracy when the train and test distributions coincide. In practice though, various types of corruptions occur which deviate from this setup and cause severe performance degradations. Few methods have been proposed to address generalization in the presence of unforeseen domain shifts. In particular, digital noise corruptions arise commonly in practice during the image acquisition stage and present a significant challenge for current robustness approaches. In this paper, we propose a diverse Gaussian noise consistency regularization method for improving robustness of image classifiers under a variety of noise corruptions while still maintaining high clean accuracy. We derive bounds to motivate and understand the behavior of our Gaussian noise consistency regularization using a local loss landscape analysis. We show that this simple approach improves robustness against various unforeseen noise corruptions by 4.2-18.4% over adversarial training and other strong diverse data augmentation baselines across several benchmarks. Furthermore, when combined with state-of-the-art diverse data augmentation techniques, experiments against state-of-the-art show our method further improves robustness accuracy by 3.7% and uncertainty calibration by 5.5% for all common corruptions on several image classification benchmarks.
translated by 谷歌翻译
降级扩散概率模型(DDPM)是最近获得最新结果的生成模型系列。为了获得类条件生成,建议通过从时间依赖性分类器中梯度指导扩散过程。尽管这个想法在理论上是合理的,但基于深度学习的分类器臭名昭著地容易受到基于梯度的对抗攻击的影响。因此,尽管传统分类器可能会达到良好的精度分数,但它们的梯度可能不可靠,并可能阻碍了生成结果的改善。最近的工作发现,对抗性稳健的分类器表现出与人类感知一致的梯度,这些梯度可以更好地指导生成过程,以实现语义有意义的图像。我们通过定义和训练时间依赖性的对抗性分类器来利用这一观察结果,并将其用作生成扩散模型的指导。在有关高度挑战性和多样化的Imagenet数据集的实验中,我们的方案引入了更明显的中间梯度,更好地与理论发现的一致性以及在几个评估指标下的改进的生成结果。此外,我们进行了一项意见调查,其发现表明人类评估者更喜欢我们的方法的结果。
translated by 谷歌翻译
最近,Wong等人。表明,使用单步FGSM的对抗训练导致一种名为灾难性过度拟合(CO)的特征故障模式,其中模型突然变得容易受到多步攻击的影响。他们表明,在FGSM(RS-FGSM)之前添加随机扰动似乎足以防止CO。但是,Andriushchenko和Flammarion观察到RS-FGSM仍会导致更大的扰动,并提出了一个昂贵的常规化器(Gradalign),DEMATER(GARGALIGN)DES昂贵(Gradalign)Dust Forrasiniger(Gradalign)Dust co避免在这项工作中,我们有条不紊地重新审视了噪声和剪辑在单步对抗训练中的作用。与以前的直觉相反,我们发现在干净的样品周围使用更强烈的噪声与不剪接相结合在避免使用大扰动半径的CO方面非常有效。基于这些观察结果,我们提出了噪声-FGSM(N-FGSM),尽管提供了单步对抗训练的好处,但在大型实验套件上没有经验分析,这表明N-FGSM能够匹配或超越以前的单步方法的性能,同时达到3 $ \ times $加速。代码可以在https://github.com/pdejorge/n-fgsm中找到
translated by 谷歌翻译
在对抗文献中,鲁棒性和准确性之间的权衡得到了广泛的研究。尽管仍然有争议,但普遍的观点是,从经验或理论上,这种权衡是固有的。因此,我们在对抗训练中挖掘了这种权衡的起源,发现它可能源于不当定义的可靠错误,该错误施加了局部不变性的诱导偏见 - 对平稳性的过度校正。鉴于此,我们主张采用局部模棱两可来描述健壮模型的理想行为,从而导致自洽的强大错误称为得分。根据定义,得分有助于稳健性与准确性之间的对帐,同时仍通过稳健优化处理最坏情况的不确定性。通过简单地将KL差异替换为距离指标的变体,得分可以有效地最小化。从经验上讲,我们的模型在AutoAttact下的强力板上实现了最高的性能。此外,得分提供了指导性见解,以解释在健壮模型上观察到的过度拟合现象和语义输入梯度。代码可在https://github.com/p2333/score上找到。
translated by 谷歌翻译
This paper investigates recently proposed approaches for defending against adversarial examples and evaluating adversarial robustness. We motivate adversarial risk as an objective for achieving models robust to worst-case inputs. We then frame commonly used attacks and evaluation metrics as defining a tractable surrogate objective to the true adversarial risk. This suggests that models may optimize this surrogate rather than the true adversarial risk. We formalize this notion as obscurity to an adversary, and develop tools and heuristics for identifying obscured models and designing transparent models. We demonstrate that this is a significant problem in practice by repurposing gradient-free optimization techniques into adversarial attacks, which we use to decrease the accuracy of several recently proposed defenses to near zero. Our hope is that our formulations and results will help researchers to develop more powerful defenses.
translated by 谷歌翻译
We show that there may exist an inherent tension between the goal of adversarial robustness and that of standard generalization. Specifically, training robust models may not only be more resource-consuming, but also lead to a reduction of standard accuracy. We demonstrate that this trade-off between the standard accuracy of a model and its robustness to adversarial perturbations provably exists in a fairly simple and natural setting. These findings also corroborate a similar phenomenon observed empirically in more complex settings. Further, we argue that this phenomenon is a consequence of robust classifiers learning fundamentally different feature representations than standard classifiers. These differences, in particular, seem to result in unexpected benefits: the representations learned by robust models tend to align better with salient data characteristics and human perception.
translated by 谷歌翻译
在测试时间进行优化的自适应防御能力有望改善对抗性鲁棒性。我们对这种自适应测试时间防御措施进行分类,解释其潜在的好处和缺点,并评估图像分类的最新自适应防御能力的代表性。不幸的是,经过我们仔细的案例研究评估时,没有任何显着改善静态防御。有些甚至削弱了基本静态模型,同时增加了推理计算。尽管这些结果令人失望,但我们仍然认为自适应测试时间防御措施是一项有希望的研究途径,因此,我们为他们的彻底评估提供了建议。我们扩展了Carlini等人的清单。(2019年)通过提供针对自适应防御的具体步骤。
translated by 谷歌翻译
数据增强是一种提高深神经网络(DNN)的鲁棒性的简单而有效的方法。多样性和硬度是数据增强的两个互补维度,以实现稳健性。例如,Augmix探讨了各种增强套的随机组成,以增强更广泛的覆盖,而对抗性培训产生过态度硬质样品以发现弱点。通过此激励,我们提出了一个数据增强框架,被称为奥古曼克,统一多样性和硬度的两个方面。 Augmax首先将多个增强运算符进行随机样本,然后学习所选操作员的对抗性混合物。作为更强大的数据增强形式,奥格梅纳队导致了一个明显的增强输入分布,使模型培训更具挑战性。为了解决这个问题,我们进一步设计了一个解散的归一化模块,称为Dubin(双批次和实例规范化),其解除了奥古曼克斯出现的实例 - 明智的特征异质性。实验表明,Augmax-Dubin将显着改善分配的鲁棒性,优于现有技术,在CiFar10-C,CiFar100-C,微小Imagenet-C和Imagenet-C上以3.03%,3.49%,1.82%和0.71%。可提供代码和预磨料模型:https://github.com/vita-group/augmax。
translated by 谷歌翻译
深度神经网络针对对抗性例子的脆弱性已成为将这些模型部署在敏感领域中的重要问题。事实证明,针对这种攻击的明确防御是具有挑战性的,依赖于检测对抗样本的方法只有在攻击者忽略检测机制时才有效。在本文中,我们提出了一种原则性的对抗示例检测方法,该方法可以承受规范受限的白色框攻击。受K类分类问题的启发,我们训练K二进制分类器,其中I-th二进制分类器用于区分I类的清洁数据和其他类的对抗性样本。在测试时,我们首先使用训练有素的分类器获取输入的预测标签(例如k),然后使用k-th二进制分类器来确定输入是否为干净的样本(k类)或对抗的扰动示例(其他类)。我们进一步设计了一种生成方法来通过将每个二进制分类器解释为类别条件数据的无标准密度模型来检测/分类对抗示例。我们提供上述对抗性示例检测/分类方法的全面评估,并证明其竞争性能和引人注目的特性。
translated by 谷歌翻译
尽管对图像分类任务的表现令人印象深刻,但深网络仍然难以概括其数据的许多常见损坏。为解决此漏洞,事先作品主要专注于提高其培训管道的复杂性,以多样性的名义结合多种方法。然而,在这项工作中,我们逐步回来并遵循原则的方法来实现共同腐败的稳健性。我们提出了一个普遍的数据增强方案,包括最大熵图像变换的简单系列。我们展示了Prime优于现有技术的腐败鲁棒性,而其简单和即插即用性质使其能够与其他方法结合以进一步提升其稳健性。此外,我们分析了对综合腐败图像混合策略的重要性,并揭示了在共同腐败背景下产生的鲁棒性准确性权衡的重要性。最后,我们表明我们的方法的计算效率允许它在线和离线数据增强方案轻松使用。
translated by 谷歌翻译
在连续时间域上表示为随机微分方程的基于扩散的方法最近已证明是一种非对抗性生成模型。培训此类模型依赖于denoising得分匹配,可以将其视为多尺度的Denoising自动编码器。在这里,我们扩大了Denoising分数匹配框架,以实现表示无监督信号的表示。 GAN和VAE通过将潜在代码直接转换为数据样本来学习表示形式。相比之下,引入的基于扩散的表示学习依赖于Denoisising分数匹配目标的新公式,因此编码了DeNoising所需的信息。我们说明了这种差异如何允许对表示中编码的细节级别进行手动控制。使用相同的方法,我们建议学习无限维度的潜在代码,该代码可在半监督图像分类中改善最先进的模型。我们还将扩散评分匹配的学术表示表示与自动编码器等其他方法的质量进行比较,并通过其在下游任务上的性能进行对比训练的系统。
translated by 谷歌翻译