我们研究机器学习分类器对对抗扰动的认证鲁棒性。特别是,我们提出了第一个普遍近似认证的鲁棒性(UNICR)框架,该框架可以近似于任何分类器上任何输入的鲁棒性认证,以与任何连续概率分布产生的噪声产生的任何$ \ ell_p $扰动。与最先进的认证防御措施相比,UNICR提供了许多重要的好处:(1)上述4'Any的第一个通用鲁棒性认证框架;(2)自动鲁棒性认证避免逐案分析,(3)认证鲁棒性的紧密度验证以及(4)随机平滑下使用的噪声分布的最佳验证。我们进行了广泛的实验,以验证UNICR的上述好处以及UNICR比最先进的认证防御能力对$ \ ell_p $扰动的优势。
translated by 谷歌翻译
随机平滑为对抗性扰动的认证鲁棒性取得了巨大的成功。考虑到任何任意分类器,随机平滑可以保证分类器对受扰动输入的预测,并通过将噪声注入分类器中可证明的鲁棒性。但是,所有现有方法都依赖于固定的I.I.D.概率分布以生成数据的所有维度(例如,图像中的所有像素)的噪声,该噪声忽略了输入和数据维度的异质性。因此,现有的随机平滑方法无法为所有输入提供最佳保护。为了解决这一限制,我们提出了第一个各向异性随机平滑方法,该方法可确保基于像素噪声分布的可证明的鲁棒性保证。此外,我们设计了一种新型的基于CNN的噪声发生器,以有效地对每个输入中所有像素的像素噪声分布进行有效调整。实验结果表明,我们的方法显着优于最先进的随机平滑方法。
translated by 谷歌翻译
We show how to turn any classifier that classifies well under Gaussian noise into a new classifier that is certifiably robust to adversarial perturbations under the 2 norm. This "randomized smoothing" technique has been proposed recently in the literature, but existing guarantees are loose. We prove a tight robustness guarantee in 2 norm for smoothing with Gaussian noise. We use randomized smoothing to obtain an ImageNet classifier with e.g. a certified top-1 accuracy of 49% under adversarial perturbations with 2 norm less than 0.5 (=127/255). No certified defense has been shown feasible on ImageNet except for smoothing. On smaller-scale datasets where competing approaches to certified 2 robustness are viable, smoothing delivers higher certified accuracies. Our strong empirical results suggest that randomized smoothing is a promising direction for future research into adversarially robust classification. Code and models are available at http: //github.com/locuslab/smoothing.
translated by 谷歌翻译
众所周知,神经网络(NNS)很容易受到对抗扰动的影响,因此有一系列旨在为NNS提供稳健性认证的工作,例如随机平滑性,从某个分布中样本平滑噪声,以证明具有稳健性的稳健性分类器。但是,正如先前的工作所表明的那样,随机平滑的认证鲁棒半径从缩放到大数据集(“维度的诅咒”)。为了克服这一障碍,我们提出了一个双重抽样随机平滑(DSR)框架,该框架利用了采样概率从额外的平滑分布来拧紧先前平滑分类器的稳健性认证。从理论上讲,在温和的假设下,我们证明DSR可以证明$ \ theta(\ sqrt d)$ robust radius $ \ ell_2 $ norm,其中$ d $是输入维度,这意味着DSR可以破坏DSR的诅咒随机平滑的维度。我们将DSR实例化为高斯平滑的广义家族,并根据采样误差提出了一种基于自定义双重优化的高效和声音计算方法。关于MNIST,CIFAR-10和Imagenet的广泛实验验证了我们的理论,并表明DSR与在不同设置下始终如一的现有基准相比,稳健的半径比现有基线更大。代码可在https://github.com/llylly/dsrs上找到。
translated by 谷歌翻译
随机平滑是一种最近的技术,可以在训练中实现最先进的性能,从而确认强大的深度神经网络。虽然平滑的分布家族通常连接到用于认证的规范的选择,但这些分布的参数始终将其视为全局超级参数,独立于网络认证的输入数据。在这项工作中,我们重新访问高斯随机平滑,并表明可以在每个输入时优化高斯分布的方差,以最大程度地提高构建平滑分类器的认证半径。由于数据依赖性分类器未直接使用现有方法享受合理的认证,因此我们提出了一个可通过构造认证的记忆增强数据依赖的平滑分类器。这种新方法是通用,无参数且易于实现的。实际上,我们表明我们的数据依赖框架可以无缝地纳入3种随机平滑方法中,从而导致一致的提高认证准确性。当这些方法的训练例程中使用此框架,然后是数据依赖性认证时,我们比CIFAR10和Imagenet上0.5的最强基线的认证准确度提高了9%和6%。
translated by 谷歌翻译
由于机器学习(ML)系统变得普遍存在,因此保护其安全性至关重要。然而,最近已经证明,动机的对手能够通过使用语义转换扰乱测试数据来误导ML系统。虽然存在丰富的研究机构,但为ML模型提供了可提供的稳健性保证,以防止$ \ ell_p $ norm界限对抗对抗扰动,抵御语义扰动的保证仍然很广泛。在本文中,我们提供了TSS - 一种统一的框架,用于针对一般对抗性语义转换的鲁棒性认证。首先,根据每个转换的性质,我们将常见的变换划分为两类,即可解决的(例如,高斯模糊)和差异可解的(例如,旋转)变换。对于前者,我们提出了特定于转型的随机平滑策略并获得强大的稳健性认证。后者类别涵盖涉及插值错误的变换,我们提出了一种基于分层采样的新方法,以证明稳健性。我们的框架TSS利用这些认证策略并结合了一致性增强的培训,以提供严谨的鲁棒性认证。我们对十种挑战性语义转化进行了广泛的实验,并表明TSS显着优于现有技术。此外,据我们所知,TSS是第一种在大规模想象数据集上实现非竞争认证稳健性的方法。例如,我们的框架在ImageNet上实现了旋转攻击的30.4%认证的稳健准确性(在$ \ PM 30 ^ \ CIC $)。此外,要考虑更广泛的转换,我们展示了TSS对自适应攻击和不可预见的图像损坏,例如CIFAR-10-C和Imagenet-C。
translated by 谷歌翻译
最近的研究表明,深神经网络(DNN)易受对抗性攻击的影响,包括逃避和后门(中毒)攻击。在防守方面,有密集的努力,改善了对逃避袭击的经验和可怜的稳健性;然而,对后门攻击的可稳健性仍然很大程度上是未开发的。在本文中,我们专注于认证机器学习模型稳健性,反对一般威胁模型,尤其是后门攻击。我们首先通过随机平滑技术提供统一的框架,并展示如何实例化以证明对逃避和后门攻击的鲁棒性。然后,我们提出了第一个强大的培训过程Rab,以平滑训练有素的模型,并证明其稳健性对抗后门攻击。我们派生机学习模型的稳健性突出了培训的机器学习模型,并证明我们的鲁棒性受到紧张。此外,我们表明,可以有效地训练强大的平滑模型,以适用于诸如k最近邻分类器的简单模型,并提出了一种精确的平滑训练算法,该算法消除了从这种模型的噪声分布采样采样的需要。经验上,我们对MNIST,CIFAR-10和Imagenet数据集等DNN,差异私有DNN和K-NN模型等不同机器学习(ML)型号进行了全面的实验,并为反卧系攻击提供认证稳健性的第一个基准。此外,我们在SPAMBase表格数据集上评估K-NN模型,以展示所提出的精确算法的优点。对多元化模型和数据集的综合评价既有关于普通训练时间攻击的进一步强劲学习策略的多样化模型和数据集的综合评价。
translated by 谷歌翻译
随机平滑是目前是最先进的方法,用于构建来自Neural Networks的可认真稳健的分类器,以防止$ \ ell_2 $ - vitersarial扰动。在范例下,分类器的稳健性与预测置信度对齐,即,对平滑分类器的较高的置信性意味着更好的鲁棒性。这使我们能够在校准平滑分类器的信仰方面重新思考准确性和鲁棒性之间的基本权衡。在本文中,我们提出了一种简单的训练方案,Coined Spiremix,通过自我混合来控制平滑分类器的鲁棒性:它沿着每个输入对逆势扰动方向进行样品的凸起组合。该提出的程序有效地识别过度自信,在平滑分类器的情况下,作为有限的稳健性的原因,并提供了一种直观的方法来自适应地在这些样本之间设置新的决策边界,以实现更好的鲁棒性。我们的实验结果表明,与现有的最先进的强大培训方法相比,该方法可以显着提高平滑分类器的认证$ \ ell_2 $ -toSpustness。
translated by 谷歌翻译
诸如随机平滑之类的认证防御能力已显示出对$ \ ell_p $ norm边界攻击构建可靠的机器学习系统的承诺。但是,现有方法不足或无法证明对语义转换,尤其是那些没有封闭形式表达的语义转换(例如depocus Blur和像素化),这在实践中更常见,而且通常不受限制。为了填补这一空白,我们提出了广义随机平滑(GSMOOTH),这是一个统一的理论框架,可通过新颖的维度增强策略来证明对一般语义转换的鲁棒性。在GSMooth框架下,我们提出了一种可扩展的算法,该算法使用替代图像到图像网络来近似复杂的转换。替代模型为研究语义转换的属性和证明鲁棒性提供了强大的工具。几个数据集的实验结果证明了我们对多种语义转换和腐败的鲁棒性认证方法的有效性,这是替代基线无法实现的。
translated by 谷歌翻译
当前,随机平滑被认为是获得确切可靠分类器的最新方法。尽管其表现出色,但该方法仍与各种严重问题有关,例如``认证准确性瀑布'',认证与准确性权衡甚至公平性问题。已经提出了依赖输入的平滑方法,目的是克服这些缺陷。但是,我们证明了这些方法缺乏正式的保证,因此所产生的证书是没有道理的。我们表明,一般而言,输入依赖性平滑度遭受了维数的诅咒,迫使方差函数具有低半弹性。另一方面,我们提供了一个理论和实用的框架,即使在严格的限制下,即使在有维度的诅咒的情况下,即使在存在维度的诅咒的情况下,也可以使用依赖输入的平滑。我们提供平滑方差功能的一种混凝土设计,并在CIFAR10和MNIST上进行测试。我们的设计减轻了经典平滑的一些问题,并正式下划线,但仍需要进一步改进设计。
translated by 谷歌翻译
尽管深层神经网络在各种任务中取得了巨大的成功,但它们对不可察觉的对抗性扰动的脆弱性阻碍了他们在现实世界中的部署。最近,与随机合奏的作品相对于经过最小的计算开销的标准对手训练(AT)模型,对对抗性训练(AT)模型的对抗性鲁棒性有了显着改善,这使它们成为安全临界资源限制应用程序的有前途解决方案。但是,这种令人印象深刻的表现提出了一个问题:这些稳健性是由随机合奏提供的吗?在这项工作中,我们从理论和经验上都解决了这个问题。从理论上讲,我们首先确定通常采用的鲁棒性评估方法(例如自适应PGD)在这种情况下提供了错误的安全感。随后,我们提出了一种理论上有效的对抗攻击算法(ARC),即使在自适应PGD无法做到这一点的情况下,也能妥协随机合奏。我们在各种网络体系结构,培训方案,数据集和规范上进行全面的实验,以支持我们的主张,并经验证明,随机合奏实际上比在模型上更容易受到$ \ ell_p $结合的对抗性扰动的影响。我们的代码可以在https://github.com/hsndbk4/arc上找到。
translated by 谷歌翻译
Any classifier can be "smoothed out" under Gaussian noise to build a new classifier that is provably robust to $\ell_2$-adversarial perturbations, viz., by averaging its predictions over the noise via randomized smoothing. Under the smoothed classifiers, the fundamental trade-off between accuracy and (adversarial) robustness has been well evidenced in the literature: i.e., increasing the robustness of a classifier for an input can be at the expense of decreased accuracy for some other inputs. In this paper, we propose a simple training method leveraging this trade-off to obtain robust smoothed classifiers, in particular, through a sample-wise control of robustness over the training samples. We make this control feasible by using "accuracy under Gaussian noise" as an easy-to-compute proxy of adversarial robustness for an input. Specifically, we differentiate the training objective depending on this proxy to filter out samples that are unlikely to benefit from the worst-case (adversarial) objective. Our experiments show that the proposed method, despite its simplicity, consistently exhibits improved certified robustness upon state-of-the-art training methods. Somewhat surprisingly, we find these improvements persist even for other notions of robustness, e.g., to various types of common corruptions.
translated by 谷歌翻译
防御对抗例子仍然是一个空旷的问题。一个普遍的信念是,推理的随机性增加了寻找对抗性输入的成本。这种辩护的一个例子是将随机转换应用于输入之前,然后将其馈送到模型。在本文中,我们从经验和理论上研究了这种随机预处理的防御措施,并证明它们存在缺陷。首先,我们表明大多数随机防御措施比以前想象的要弱。他们缺乏足够的随机性来承受诸如投影梯度下降之类的标准攻击。这对长期以来的假设产生了怀疑,即随机防御能力无效,旨在逃避确定性的防御和迫使攻击者以整合对转型(EOT)概念的期望。其次,我们表明随机防御与对抗性鲁棒性和模型不变性之间的权衡面临。随着辩护模型获得更多的随机化不变性,它们变得不太有效。未来的工作将需要使这两种效果分解。我们的代码在补充材料中可用。
translated by 谷歌翻译
在本讨论文件中,我们调查了有关机器学习模型鲁棒性的最新研究。随着学习算法在数据驱动的控制系统中越来越流行,必须确保它们对数据不确定性的稳健性,以维持可靠的安全至关重要的操作。我们首先回顾了这种鲁棒性的共同形式主义,然后继续讨论训练健壮的机器学习模型的流行和最新技术,以及可证明这种鲁棒性的方法。从强大的机器学习的这种统一中,我们识别并讨论了该地区未来研究的迫切方向。
translated by 谷歌翻译
深度神经网络(DNN)的巨大进步导致了各种任务的最先进的性能。然而,最近的研究表明,DNNS容易受到对抗的攻击,这在将这些模型部署到自动驾驶等安全关键型应用时,这使得非常关注。已经提出了不同的防御方法,包括:a)经验防御,通常可以在不提供稳健性认证的情况下再次再次攻击; b)可认真的稳健方法,由稳健性验证组成,提供了在某些条件下的任何攻击和相应的强大培训方法中的稳健准确性的下限。在本文中,我们系统化了可认真的稳健方法和相关的实用和理论意义和调查结果。我们还提供了在不同数据集上现有的稳健验证和培训方法的第一个全面基准。特别是,我们1)为稳健性验证和培训方法提供分类,以及总结代表性算法的方法,2)揭示这些方法中的特征,优势,局限性和基本联系,3)讨论当前的研究进展情况TNN和4的可信稳健方法的理论障碍,主要挑战和未来方向提供了一个开放的统一平台,以评估超过20种代表可认真的稳健方法,用于各种DNN。
translated by 谷歌翻译
具有神经网络架构的点云模型已取得了巨大的成功,并已广泛用于安全至关重要的应用中,例如自动驾驶汽车中的基于激光雷达的识别系统。但是,此类模型显示出旨在应用隐形语义转换(例如旋转和逐渐变细的模型预测)的对抗性攻击的攻击。在本文中,我们提出了一个特定于转换的平滑框架TPC,该框架可为点云模型提供紧密而可扩展的鲁棒性保证,以防止语义转换攻击。我们首先将共同的3D转换分为三类:添加词(例如,剪切),可复合(例如旋转)和间接组合(例如,锥形),我们分别为全类​​别呈现一般的鲁棒性认证策略。然后,我们为一系列特定的语义转换及其组成指定唯一的认证协议。关于几种常见3D转换的广泛实验表明,TPC明显优于最新技术。例如,我们的框架提高了与沿z轴(20 $^\ circ $内)扭曲转换的经过认证的准确性,从20.3 $ \%$ \%$降至83.8 $ \%$。代码和型号可在https://github.com/qianhewu/point-cloud-smooth上找到。
translated by 谷歌翻译
We identify a trade-off between robustness and accuracy that serves as a guiding principle in the design of defenses against adversarial examples. Although this problem has been widely studied empirically, much remains unknown concerning the theory underlying this trade-off. In this work, we decompose the prediction error for adversarial examples (robust error) as the sum of the natural (classification) error and boundary error, and provide a differentiable upper bound using the theory of classification-calibrated loss, which is shown to be the tightest possible upper bound uniform over all probability distributions and measurable predictors. Inspired by our theoretical analysis, we also design a new defense method, TRADES, to trade adversarial robustness off against accuracy. Our proposed algorithm performs well experimentally in real-world datasets. The methodology is the foundation of our entry to the NeurIPS 2018 Adversarial Vision Challenge in which we won the 1st place out of ~2,000 submissions, surpassing the runner-up approach by 11.41% in terms of mean 2 perturbation distance.
translated by 谷歌翻译
最近,张等人。(2021)基于$ \ ell_ \ infty $ -distance函数开发出一种新的神经网络架构,自然拥有经过认证的$ \ ell_ \ infty $坚固的稳健性。尽管具有出色的理论特性,但到目前为止的模型只能实现与传统网络的可比性。在本文中,我们通过仔细分析培训流程,大大提高了$ \ ell_ \ infty $ -distance网的认证稳健性。特别是,我们展示了$ \ ell_p $ -rexation,这是克服模型的非平滑度的关键方法,导致早期训练阶段的意外的大型嘴唇浓度。这使得优化不足以使用铰链损耗并产生次优溶液。鉴于这些调查结果,我们提出了一种简单的方法来解决上述问题,设计一种新的客观函数,这些功能将缩放的跨熵损失结合在剪切铰链损失。实验表明,使用拟议的培训策略,$ \ ell_ \ infty $-distance网的认证准确性可以从Cifar-10($ \ epsilon = 8/255 $)的33.30%到40.06%的显着提高到40.06%,同时显着优于表现优势该地区的其他方法。我们的结果清楚地展示了$ \ ell_ \ infty $-distance净的有效性和潜力,以获得认证的稳健性。代码在https://github.com/zbh2047/l_inf-dist-net-v2上获得。
translated by 谷歌翻译
深度神经网络已成为现代图像识别系统的驱动力。然而,神经网络对抗对抗性攻击的脆弱性对受这些系统影响的人构成严重威胁。在本文中,我们专注于一个真实的威胁模型,中间对手恶意拦截和erturbs网页用户上传在线。这种类型的攻击可以在简单的性能下降之上提高严重的道德问题。为了防止这种攻击,我们设计了一种新的双层优化算法,该算法在对抗对抗扰动的自然图像附近找到点。CiFar-10和Imagenet的实验表明我们的方法可以有效地强制在给定的修改预算范围内的自然图像。我们还显示所提出的方法可以在共同使用随机平滑时提高鲁棒性。
translated by 谷歌翻译
虽然随机平滑已经证明了对其他认证防御的高认证的稳健性和卓越的可扩展性,但稳健认证瓶颈的高计算开销是实际适用性,因为它在很大程度上取决于估计置信区间的大样本近似。在现有的作品中,置信区间的样本大小是普遍存在的和不可知的对预测的输入。该输入 - 不可止液采样(IAS)方案可以产生差的平均认证半径(ACR) - 呼吁改进的折扣。在本文中,我们提出了输入特定的采样(ISS)加速,以实现鲁棒性认证的成本效益,以基于输入特征来降低采样大小的自适应方法。此外,我们的方法普遍控制来自ISS样本尺寸的认证半径下降。 CiFar-10和Imagenet的实证结果表明,ISS可以以0.05认证半径的有限成本增加3倍以上的认证。同时,ISS超越了跨越广泛的超参数设置的平均认证半径的IAS。具体而言,在250分钟内,ISS在Imagenet($ \ Sigma = 1.0 $)上达到ACR = 0.958,而IAS在同一条件下的IAS相比。我们在\ url {https://github.com/roy -ch/input-pecific-certification}中发布了我们的代码。
translated by 谷歌翻译