Adversarial perturbation plays a significant role in the field of adversarial robustness, which solves a maximization problem over the input data. We show that the backward propagation of such optimization can accelerate $2\times$ (and thus the overall optimization including the forward propagation can accelerate $1.5\times$), without any utility drop, if we only compute the output gradient but not the parameter gradient during the backward propagation.
translated by 谷歌翻译
最近的研究表明,深度神经网络(DNNS)极易受到精心设计的对抗例子的影响。对那些对抗性例子的对抗性学习已被证明是防御这种攻击的最有效方法之一。目前,大多数现有的对抗示例生成方法基于一阶梯度,这几乎无法进一步改善模型的鲁棒性,尤其是在面对二阶对抗攻击时。与一阶梯度相比,二阶梯度提供了相对于自然示例的损失格局的更准确近似。受此启发的启发,我们的工作制作了二阶的对抗示例,并使用它们来训练DNNS。然而,二阶优化涉及Hessian Inverse的耗时计算。我们通过将问题转换为Krylov子空间中的优化,提出了一种近似方法,该方法显着降低了计算复杂性以加快训练过程。在矿工和CIFAR-10数据集上进行的广泛实验表明,我们使用二阶对抗示例的对抗性学习优于其他FISRT-阶方法,这可以改善针对广泛攻击的模型稳健性。
translated by 谷歌翻译
Adversarial training, a method for learning robust deep networks, is typically assumed to be more expensive than traditional training due to the necessity of constructing adversarial examples via a first-order method like projected gradient decent (PGD). In this paper, we make the surprising discovery that it is possible to train empirically robust models using a much weaker and cheaper adversary, an approach that was previously believed to be ineffective, rendering the method no more costly than standard training in practice. Specifically, we show that adversarial training with the fast gradient sign method (FGSM), when combined with random initialization, is as effective as PGD-based training but has significantly lower cost. Furthermore we show that FGSM adversarial training can be further accelerated by using standard techniques for efficient training of deep networks, allowing us to learn a robust CIFAR10 classifier with 45% robust accuracy to PGD attacks with = 8/255 in 6 minutes, and a robust ImageNet classifier with 43% robust accuracy at = 2/255 in 12 hours, in comparison to past work based on "free" adversarial training which took 10 and 50 hours to reach the same respective thresholds. Finally, we identify a failure mode referred to as "catastrophic overfitting" which may have caused previous attempts to use FGSM adversarial training to fail. All code for reproducing the experiments in this paper as well as pretrained model weights are at https://github.com/locuslab/fast_adversarial.
translated by 谷歌翻译
Adversarial training, in which a network is trained on adversarial examples, is one of the few defenses against adversarial attacks that withstands strong attacks. Unfortunately, the high cost of generating strong adversarial examples makes standard adversarial training impractical on large-scale problems like ImageNet. We present an algorithm that eliminates the overhead cost of generating adversarial examples by recycling the gradient information computed when updating model parameters.Our "free" adversarial training algorithm achieves comparable robustness to PGD adversarial training on the CIFAR-10 and CIFAR-100 datasets at negligible additional cost compared to natural training, and can be 7 to 30 times faster than other strong adversarial training methods. Using a single workstation with 4 P100 GPUs and 2 days of runtime, we can train a robust model for the large-scale ImageNet classification task that maintains 40% accuracy against PGD attacks. The code is available at https://github.com/ashafahi/free_adv_train.
translated by 谷歌翻译
对抗性训练(AT)已被证明可以通过利用对抗性示例进行训练来有效地改善模型鲁棒性。但是,大多数方法面对昂贵的时间和计算成本,用于在生成对抗性示例的多个步骤中计算梯度。为了提高训练效率,快速梯度符号方法(FGSM)在方法中仅通过计算一次来快速地采用。不幸的是,鲁棒性远非令人满意。初始化的方式可能引起一个原因。现有的快速在通常使用随机的样本不合时宜的初始化,这促进了效率,但会阻碍进一步的稳健性改善。到目前为止,快速AT中的初始化仍未广泛探索。在本文中,我们以样本依赖性的对抗初始化(即,来自良性图像条件的生成网络的输出及其来自目标网络的梯度信息的输出)快速增强。随着生成网络和目标网络在训练阶段共同优化,前者可以适应相对于后者的有效初始化,从而激发了逐渐改善鲁棒性。在四个基准数据库上进行的实验评估证明了我们所提出的方法比在方法上快速的最先进方法的优越性,以及与方法相当的鲁棒性。该代码在https://github.com//jiaxiaojunqaq//fgsm-sdi上发布。
translated by 谷歌翻译
大型卷积神经网络(CNN)可能很难在差异私有(DP)方面进行训练,因为优化算法需要计算昂贵的操作,称为每样本梯度剪辑。我们提出了对卷积层的这种剪辑的有效且可扩展的实施,称为混合的幽灵剪裁,从而在不影响准确性的情况下大大简化了私人培训。通过对混合幽灵剪辑和现有的DP培训算法进行的首次复杂性分析,严格研究了效率的提高。关于视力分类任务的广泛实验,具有大型重新连接,VGG和视觉变压器,证明了与混合幽灵剪裁的DP培训增加了$ 1 \ sim 10 \%$内存开销,$ <2 \ 2 \ times $ slowdown for标准的非私人培训减速。具体来说,当在CIFAR10上培训VGG19时,混合的幽灵剪裁的价格是$ 3 \ times $ $ $ $比最先进的Opa​​cus库,价格为$ 18 \ times $ $最大批处理大小。为了强调有效的DP培训对卷积层的重要性,我们使用BEIT在$ \ epsilon = 1 $上实现了CIFAR10上的96.7 \%精度和83.0 \%的CIFAR100 \%,而先前的最佳结果为94.8 \%\%\%和67.4 \%\%\%\%\%,,,,,\%分别。我们打开隐私引擎(\ url {https://github.com/jialinmao/private_cnn}),该引擎将CNN的DP培训使用几行代码实现DP培训。
translated by 谷歌翻译
深度神经网络很容易被称为对抗攻击的小扰动都愚弄。对抗性培训(AT)是一种近似解决了稳健的优化问题,以最大限度地减少最坏情况损失,并且被广泛认为是对这种攻击的最有效的防御。由于产生了强大的对抗性示例的高计算时间,已经提出了单步方法来减少培训时间。然而,这些方法遭受灾难性的过度装备,在训练期间侵犯准确度下降。虽然提出了改进,但它们增加了培训时间和稳健性远非多步骤。我们为FW优化(FW-AT)开发了对抗的对抗培训的理论框架,揭示了损失景观与$ \ ell_2 $失真之间的几何连接。我们分析地表明FW攻击的高变形相当于沿攻击路径的小梯度变化。然后在各种深度神经网络架构上进行实验证明,$ \ ell \ infty $攻击对抗强大的模型实现近乎最大的$ \ ell_2 $失真,而标准网络具有较低的失真。此外,实验表明,灾难性的过度拟合与FW攻击的低变形强烈相关。为了展示我们理论框架的效用,我们开发FW-AT-Adap,这是一种新的逆势训练算法,它使用简单的失真度量来调整攻击步骤的数量,以提高效率而不会影响鲁棒性。 FW-AT-Adapt提供培训时间以单步快速分配方法,并改善了在白色盒子和黑匣子设置中的普发内精度的最小损失和多步PGD之间的差距。
translated by 谷歌翻译
现有的工作表明,通过天真梯度的优化方法训练的神经网络易于对抗对抗攻击,在普通输入上增加了小恶意足以使神经网络错误。与此同时,对针对神经网络的攻击是提高其鲁棒性的关键。对抗对抗示例的培训可以使神经网络抵抗某些方面的对抗攻击。同时,对针对神经网络的对抗攻击还可以揭示神经网络的一些特征,这是一个复杂的高维非线性函数,如先前的工作所述。在这个项目中,我们开发了一种攻击神经网络的一阶方法。与其他一阶攻击进行比较,我们的方法具有更高的成功率。此外,它比二阶攻击和多步级一阶攻击快得多。
translated by 谷歌翻译
对对抗性攻击的鲁棒性通常以对抗精度评估。但是,该指标太粗糙,无法正确捕获机器学习模型的所有鲁棒性。当对强烈的攻击进行评估时,许多防御能力并不能提供准确的改进,同时仍会部分贡献对抗性鲁棒性。流行的认证方法遇到了同一问题,因为它们提供了准确性的下限。为了捕获更精细的鲁棒性属性,我们提出了一个针对L2鲁棒性,对抗角稀疏性的新指标,该指标部分回答了“输入周围有多少个对抗性示例”的问题。我们通过评估“强”和“弱”的防御能力来证明其有用性。我们表明,一些最先进的防御能力具有非常相似的精度,在它们不强大的输入上可能具有截然不同的稀疏性。我们还表明,一些弱防御能力实际上会降低鲁棒性,而另一些防御能力则以无法捕获的准确性来加强它。这些差异可以预测这种防御与对抗性训练相结合时的实用性。
translated by 谷歌翻译
There has been a concurrent significant improvement in the medical images used to facilitate diagnosis and the performance of machine learning techniques to perform tasks such as classification, detection, and segmentation in recent years. As a result, a rapid increase in the usage of such systems can be observed in the healthcare industry, for instance in the form of medical image classification systems, where these models have achieved diagnostic parity with human physicians. One such application where this can be observed is in computer vision tasks such as the classification of skin lesions in dermatoscopic images. However, as stakeholders in the healthcare industry, such as insurance companies, continue to invest extensively in machine learning infrastructure, it becomes increasingly important to understand the vulnerabilities in such systems. Due to the highly critical nature of the tasks being carried out by these machine learning models, it is necessary to analyze techniques that could be used to take advantage of these vulnerabilities and methods to defend against them. This paper explores common adversarial attack techniques. The Fast Sign Gradient Method and Projected Descent Gradient are used against a Convolutional Neural Network trained to classify dermatoscopic images of skin lesions. Following that, it also discusses one of the most popular adversarial defense techniques, adversarial training. The performance of the model that has been trained on adversarial examples is then tested against the previously mentioned attacks, and recommendations to improve neural networks robustness are thus provided based on the results of the experiment.
translated by 谷歌翻译
快速对抗训练(脂肪)有效地提高了标准对抗训练(SAT)的效率。然而,初始脂肪遇到灾难性的过度拟合,即,对抗性攻击的稳健精度突然并大大减少。尽管有几种脂肪变体毫不费力地防止过度拟合,但他们牺牲了很多计算成本。在本文中,我们探讨了SAT和FAT的训练过程之间的差异,并观察到,对抗性实例(AES)脂肪的攻击成功率在后期训练阶段逐渐变得更糟,从而导致过度拟合。 AE是通过零或随机初始化的快速梯度标志方法(FGSM)生成的。根据观察结果,我们提出了一种先前的FGSM初始化方法,以避免在研究多种初始化策略后避免过度适应,从而在整个训练过程中提高了AE的质量。初始化是通过利用历史上生成的AE而没有额外计算成本而形成的。我们进一步为提出的初始化方法提供了理论分析。我们还基于先前的初始化,即当前生成的扰动不应过多地偏离先前引导的初始化,因此我们还提出了一个简单而有效的正规化程序。正常化器同时采用历史和当前的对抗性扰动来指导模型学习。在四个数据集上进行的评估表明,所提出的方法可以防止灾难性过度拟合和优于最先进的脂肪方法。该代码在https://github.com/jiaxiaojunqaq/fgsm-pgi上发布。
translated by 谷歌翻译
虽然多步逆势培训被广泛流行作为对抗强烈的对抗攻击的有效防御方法,但其计算成本与标准培训相比,其计算成本是众所周知的。已经提出了几种单步侵权培训方法来减轻上述开销费用;但是,根据优化设置,它们的性能并不能充分可靠。为了克服这些限制,我们偏离了现有的基于输入空间的对抗性培训制度,并提出了一种单步潜在培训方法(SLAT),其利用潜在的代表梯度作为潜在的对抗扰动。我们证明,与所采用的潜伏扰动,恢复局部线性度并确保与现有的单步逆势训练方法相比,恢复局部线性度并确保可靠性的特征梯度的L1规范。因为潜伏的扰动基于可以在输入梯度计算过程中免费获得的潜在表示的梯度,所以所提出的方法与快速梯度标志方法相当成本。实验结果表明,尽管其结构简单,但优于最先进的加速的对抗训练方法。
translated by 谷歌翻译
对手示例是一些可以扰乱深度神经网络的输出的一些特殊输入,以便在生产环境中产生有意的误差。用于产生对抗性示例的大多数方法需要梯度信息。甚至是与生成模型无关的普遍扰动依赖于梯度信息的一定程度。程序噪声对手示例是对普发的示例生成的一种新方法,它使用计算机图形噪声快速生成通用的对抗扰动,同时不依赖于梯度信息。结合对抗的防御训练,我们使用Perlin噪声训练神经网络以获得可以防御程序噪声对抗的模型。结合使用基于预先训练的模型的模型微调方法,我们获得更快的培训以及更高的准确性。我们的研究表明,程序噪声对抗性实例是可辩护的,但为什么程序噪声可以产生对抗性实例,以及如何防御可能在未来出现的其他过程噪声对抗性示例仍有待调查。
translated by 谷歌翻译
到目前为止对抗训练是抵御对抗例子的最有效的策略。然而,由于每个训练步骤中的迭代对抗性攻击,它遭受了高的计算成本。最近的研究表明,通过随机初始化执行单步攻击,可以实现快速的对抗训练。然而,这种方法仍然落后于稳定性和模型稳健性的最先进的对手训练算法。在这项工作中,我们通过观察随机平滑的随机初始化来更好地优化内部最大化问题,对快速对抗培训进行新的理解。在这种新的视角之后,我们还提出了一种新的初始化策略,向后平滑,进一步提高单步强大培训方法的稳定性和模型稳健性。多个基准测试的实验表明,我们的方法在使用更少的训练时间(使用相同的培训计划时,使用更少的培训时间($ \ sim $ 3x改进)时,我们的方法达到了类似的模型稳健性。
translated by 谷歌翻译
由于在量化网络上的按位操作产生的有效存储器消耗和更快的计算,神经网络量化已经变得越来越受欢迎。尽管它们表现出优异的泛化能力,但其鲁棒性属性并不是很好地理解。在这项工作中,我们系统地研究量化网络对基于梯度的对抗性攻击的鲁棒性,并证明这些量化模型遭受梯度消失问题并显示出虚假的鲁棒感。通过归因于培训的网络中的渐变消失到较差的前后信号传播,我们引入了一个简单的温度缩放方法来缓解此问题,同时保留决策边界。尽管对基于梯度的对抗攻击进行了简单的修改,但具有多个网络架构的多个图像分类数据集的实验表明,我们的温度缩放攻击在量化网络上获得了近乎完美的成功率,同时表现出对普遍培训的模型以及浮动的原始攻击以及浮动 - 点网络。代码可在https://github.com/kartikgupta-at-anu/Attack-bnn获得。
translated by 谷歌翻译
神经网络稳健性近年来已成为机器学习中的核心主题。大多数培训算法,提高模型对抗对抗和共同腐败的鲁棒性也引入了大的计算开销,需要向前和后向往的数量和后向往的多达十倍以便收敛。为了打击这种低效率,我们提出了Bullettrain $ - $界限示例挖掘技术,以大大降低强大培训的计算成本。我们的主要观察是,只有一小部分的例子是有利于改善稳健性的有益。Bullettrain动态预测了这些重要的例子,并优化了强大的培训算法,专注于重要例子。我们将技术应用于几个现有的强大培训算法,在CiFar-10和Cifar-10-C和CiFar上的Augmix上获得了2.1美元\ Times $ 10.7 $ \ times $ Scase-Up。100-C没有任何清洁和稳健的准确性。
translated by 谷歌翻译
在本文中,我们提出了一种防御策略,以通过合并隐藏的层表示来改善对抗性鲁棒性。这种防御策略的关键旨在压缩或过滤输入信息,包括对抗扰动。而且这种防御策略可以被视为一种激活函数,可以应用于任何类型的神经网络。从理论上讲,我们在某些条件下也证明了这种防御策略的有效性。此外,合并隐藏层表示,我们提出了三种类型的对抗攻击,分别生成三种类型的对抗示例。实验表明,我们的防御方法可以显着改善深神经网络的对抗性鲁棒性,即使我们不采用对抗性训练,也可以实现最新的表现。
translated by 谷歌翻译
神经网络容易受到对抗性攻击的影响:为其输入添加良好的难以察觉的扰动可以修改它们的输出。对抗性培训是针对这种攻击训练强大模型的最有效的方法之一。然而,它比Vanilla训练的神经网络训练慢得多,因为它需要在每次迭代时构建整个训练数据的对抗性示例,这阻碍了其有效性。最近,提出了快速的对抗培训,可以有效地获得强大的模型。然而,其成功背后的原因尚未完全理解,更重要的是,它只能为$ \ ell_ \ infty $ -bounded攻击培训强大的模型,因为它在训练期间使用FGSM。在本文中,通过利用Coreset选择理论,我们展示了如何选择小型培训数据的子集,以减少强大培训的时间复杂性提供更原则的方法。与现有方法不同,我们的方法可以适应各种各样的培训目标,包括交易,$ \ ell_p $ -pgd和感知对抗培训。我们的实验结果表明,我们的方法将对抗性训练速度升高2-3次,同时经历清洁和稳健的准确性的少量减少。
translated by 谷歌翻译
深度神经网络的图像分类容易受到对抗性扰动的影响。图像分类可以通过在输入图像中添加人造小且不可察觉的扰动来轻松愚弄。作为最有效的防御策略之一,提出了对抗性训练,以解决分类模型的脆弱性,其中创建了对抗性示例并在培训期间注入培训数据中。在过去的几年中,对分类模型的攻击和防御进行了深入研究。语义细分作为分类的扩展,最近也受到了极大的关注。最近的工作表明,需要大量的攻击迭代来创建有效的对抗性示例来欺骗分割模型。该观察结果既可以使鲁棒性评估和对分割模型的对抗性培训具有挑战性。在这项工作中,我们提出了一种称为SEGPGD的有效有效的分割攻击方法。此外,我们提供了收敛分析,以表明在相同数量的攻击迭代下,提出的SEGPGD可以创建比PGD更有效的对抗示例。此外,我们建议将SEGPGD应用于分割对抗训练的基础攻击方法。由于SEGPGD可以创建更有效的对抗性示例,因此使用SEGPGD的对抗训练可以提高分割模型的鲁棒性。我们的建议还通过对流行分割模型体系结构和标准分段数据集进行了验证。
translated by 谷歌翻译
在本文中,我们引入了一个新型的神经网络训练框架,该框架增加了模型对对抗性攻击的对抗性鲁棒性,同时通过将对比度学习(CL)与对抗性训练(AT)结合在一起,以保持高清洁精度。我们建议通过学习在数据增强和对抗性扰动下保持一致的特征表示来提高对对抗性攻击的模型鲁棒性。我们利用对比的学习来通过将对抗性示例视为另一个积极的例子来提高对抗性的鲁棒性,并旨在最大化数据样本的随机增强及其对抗性示例之间的相似性,同时不断更新分类头,以避免在认知解离之间分类头和嵌入空间。这种分离是由于CL将网络更新到嵌入空间的事实引起的,同时冻结用于生成新的积极对抗示例的分类头。我们在CIFAR-10数据集上验证了我们的方法,具有对抗性特征(CLAF)的对比度学习,在该数据集上,它在替代监督和自我监督的对抗学习方法上均优于强大的精度和清洁精度。
translated by 谷歌翻译