当前,提供鲁棒性证书的最流行方法是随机平滑,其中通过某些概率分布平滑输入。我们提出了一种新的方法,可以在乘法参数上随机平滑。使用此方法,我们可以证明相对于伽马校正扰动的稳健分类器,并将结果与通过其他平滑分布(高斯,拉普拉斯,均匀)获得的分类器进行比较。实验表明,不对称的雷利分布允许获得一些扰动参数值的更好的证书。据我们所知,这是关于对乘法伽马校正转换的认证鲁棒性的第一项工作,也是第一个研究不对称分布在随机平滑下的影响。
translated by 谷歌翻译
由于机器学习(ML)系统变得普遍存在,因此保护其安全性至关重要。然而,最近已经证明,动机的对手能够通过使用语义转换扰乱测试数据来误导ML系统。虽然存在丰富的研究机构,但为ML模型提供了可提供的稳健性保证,以防止$ \ ell_p $ norm界限对抗对抗扰动,抵御语义扰动的保证仍然很广泛。在本文中,我们提供了TSS - 一种统一的框架,用于针对一般对抗性语义转换的鲁棒性认证。首先,根据每个转换的性质,我们将常见的变换划分为两类,即可解决的(例如,高斯模糊)和差异可解的(例如,旋转)变换。对于前者,我们提出了特定于转型的随机平滑策略并获得强大的稳健性认证。后者类别涵盖涉及插值错误的变换,我们提出了一种基于分层采样的新方法,以证明稳健性。我们的框架TSS利用这些认证策略并结合了一致性增强的培训,以提供严谨的鲁棒性认证。我们对十种挑战性语义转化进行了广泛的实验,并表明TSS显着优于现有技术。此外,据我们所知,TSS是第一种在大规模想象数据集上实现非竞争认证稳健性的方法。例如,我们的框架在ImageNet上实现了旋转攻击的30.4%认证的稳健准确性(在$ \ PM 30 ^ \ CIC $)。此外,要考虑更广泛的转换,我们展示了TSS对自适应攻击和不可预见的图像损坏,例如CIFAR-10-C和Imagenet-C。
translated by 谷歌翻译
We show how to turn any classifier that classifies well under Gaussian noise into a new classifier that is certifiably robust to adversarial perturbations under the 2 norm. This "randomized smoothing" technique has been proposed recently in the literature, but existing guarantees are loose. We prove a tight robustness guarantee in 2 norm for smoothing with Gaussian noise. We use randomized smoothing to obtain an ImageNet classifier with e.g. a certified top-1 accuracy of 49% under adversarial perturbations with 2 norm less than 0.5 (=127/255). No certified defense has been shown feasible on ImageNet except for smoothing. On smaller-scale datasets where competing approaches to certified 2 robustness are viable, smoothing delivers higher certified accuracies. Our strong empirical results suggest that randomized smoothing is a promising direction for future research into adversarially robust classification. Code and models are available at http: //github.com/locuslab/smoothing.
translated by 谷歌翻译
众所周知,神经网络(NNS)很容易受到对抗扰动的影响,因此有一系列旨在为NNS提供稳健性认证的工作,例如随机平滑性,从某个分布中样本平滑噪声,以证明具有稳健性的稳健性分类器。但是,正如先前的工作所表明的那样,随机平滑的认证鲁棒半径从缩放到大数据集(“维度的诅咒”)。为了克服这一障碍,我们提出了一个双重抽样随机平滑(DSR)框架,该框架利用了采样概率从额外的平滑分布来拧紧先前平滑分类器的稳健性认证。从理论上讲,在温和的假设下,我们证明DSR可以证明$ \ theta(\ sqrt d)$ robust radius $ \ ell_2 $ norm,其中$ d $是输入维度,这意味着DSR可以破坏DSR的诅咒随机平滑的维度。我们将DSR实例化为高斯平滑的广义家族,并根据采样误差提出了一种基于自定义双重优化的高效和声音计算方法。关于MNIST,CIFAR-10和Imagenet的广泛实验验证了我们的理论,并表明DSR与在不同设置下始终如一的现有基准相比,稳健的半径比现有基线更大。代码可在https://github.com/llylly/dsrs上找到。
translated by 谷歌翻译
当前,随机平滑被认为是获得确切可靠分类器的最新方法。尽管其表现出色,但该方法仍与各种严重问题有关,例如``认证准确性瀑布'',认证与准确性权衡甚至公平性问题。已经提出了依赖输入的平滑方法,目的是克服这些缺陷。但是,我们证明了这些方法缺乏正式的保证,因此所产生的证书是没有道理的。我们表明,一般而言,输入依赖性平滑度遭受了维数的诅咒,迫使方差函数具有低半弹性。另一方面,我们提供了一个理论和实用的框架,即使在严格的限制下,即使在有维度的诅咒的情况下,即使在存在维度的诅咒的情况下,也可以使用依赖输入的平滑。我们提供平滑方差功能的一种混凝土设计,并在CIFAR10和MNIST上进行测试。我们的设计减轻了经典平滑的一些问题,并正式下划线,但仍需要进一步改进设计。
translated by 谷歌翻译
具有神经网络架构的点云模型已取得了巨大的成功,并已广泛用于安全至关重要的应用中,例如自动驾驶汽车中的基于激光雷达的识别系统。但是,此类模型显示出旨在应用隐形语义转换(例如旋转和逐渐变细的模型预测)的对抗性攻击的攻击。在本文中,我们提出了一个特定于转换的平滑框架TPC,该框架可为点云模型提供紧密而可扩展的鲁棒性保证,以防止语义转换攻击。我们首先将共同的3D转换分为三类:添加词(例如,剪切),可复合(例如旋转)和间接组合(例如,锥形),我们分别为全类​​别呈现一般的鲁棒性认证策略。然后,我们为一系列特定的语义转换及其组成指定唯一的认证协议。关于几种常见3D转换的广泛实验表明,TPC明显优于最新技术。例如,我们的框架提高了与沿z轴(20 $^\ circ $内)扭曲转换的经过认证的准确性,从20.3 $ \%$ \%$降至83.8 $ \%$。代码和型号可在https://github.com/qianhewu/point-cloud-smooth上找到。
translated by 谷歌翻译
随机平滑为对抗性扰动的认证鲁棒性取得了巨大的成功。考虑到任何任意分类器,随机平滑可以保证分类器对受扰动输入的预测,并通过将噪声注入分类器中可证明的鲁棒性。但是,所有现有方法都依赖于固定的I.I.D.概率分布以生成数据的所有维度(例如,图像中的所有像素)的噪声,该噪声忽略了输入和数据维度的异质性。因此,现有的随机平滑方法无法为所有输入提供最佳保护。为了解决这一限制,我们提出了第一个各向异性随机平滑方法,该方法可确保基于像素噪声分布的可证明的鲁棒性保证。此外,我们设计了一种新型的基于CNN的噪声发生器,以有效地对每个输入中所有像素的像素噪声分布进行有效调整。实验结果表明,我们的方法显着优于最先进的随机平滑方法。
translated by 谷歌翻译
随机平滑被认为是针对对抗扰动的最先进的防御。但是,它大大利用了这样一个事实,即分类器将输入对象映射到类概率,而不专注于学习度量空间,在该度量空间中,通过计算距离嵌入类原型的距离来执行分类。在这项工作中,我们将随机平滑性扩展到绘制到归一化嵌入的几片学习模型。我们提供了此类模型的Lipschitz连续性的分析,并针对$ \ ell_2 $结合的扰动获得了稳健性证书,这些扰动可能在几次学习方案中很有用。我们的理论结果通过不同数据集的实验证实。
translated by 谷歌翻译
诸如随机平滑之类的认证防御能力已显示出对$ \ ell_p $ norm边界攻击构建可靠的机器学习系统的承诺。但是,现有方法不足或无法证明对语义转换,尤其是那些没有封闭形式表达的语义转换(例如depocus Blur和像素化),这在实践中更常见,而且通常不受限制。为了填补这一空白,我们提出了广义随机平滑(GSMOOTH),这是一个统一的理论框架,可通过新颖的维度增强策略来证明对一般语义转换的鲁棒性。在GSMooth框架下,我们提出了一种可扩展的算法,该算法使用替代图像到图像网络来近似复杂的转换。替代模型为研究语义转换的属性和证明鲁棒性提供了强大的工具。几个数据集的实验结果证明了我们对多种语义转换和腐败的鲁棒性认证方法的有效性,这是替代基线无法实现的。
translated by 谷歌翻译
我们研究机器学习分类器对对抗扰动的认证鲁棒性。特别是,我们提出了第一个普遍近似认证的鲁棒性(UNICR)框架,该框架可以近似于任何分类器上任何输入的鲁棒性认证,以与任何连续概率分布产生的噪声产生的任何$ \ ell_p $扰动。与最先进的认证防御措施相比,UNICR提供了许多重要的好处:(1)上述4'Any的第一个通用鲁棒性认证框架;(2)自动鲁棒性认证避免逐案分析,(3)认证鲁棒性的紧密度验证以及(4)随机平滑下使用的噪声分布的最佳验证。我们进行了广泛的实验,以验证UNICR的上述好处以及UNICR比最先进的认证防御能力对$ \ ell_p $扰动的优势。
translated by 谷歌翻译
随机平滑是目前是最先进的方法,用于构建来自Neural Networks的可认真稳健的分类器,以防止$ \ ell_2 $ - vitersarial扰动。在范例下,分类器的稳健性与预测置信度对齐,即,对平滑分类器的较高的置信性意味着更好的鲁棒性。这使我们能够在校准平滑分类器的信仰方面重新思考准确性和鲁棒性之间的基本权衡。在本文中,我们提出了一种简单的训练方案,Coined Spiremix,通过自我混合来控制平滑分类器的鲁棒性:它沿着每个输入对逆势扰动方向进行样品的凸起组合。该提出的程序有效地识别过度自信,在平滑分类器的情况下,作为有限的稳健性的原因,并提供了一种直观的方法来自适应地在这些样本之间设置新的决策边界,以实现更好的鲁棒性。我们的实验结果表明,与现有的最先进的强大培训方法相比,该方法可以显着提高平滑分类器的认证$ \ ell_2 $ -toSpustness。
translated by 谷歌翻译
在安全 - 关键的深度学习应用中,鲁棒性测量是一个至关重要的前部阶段。但是,现有的鲁棒性验证方法对于在现实世界中部署机器学习系统不足以实用。一方面,这些方法试图声称没有扰动可以``傻瓜''深神经网络(DNNS),这在实践中可能太严格了。另一方面,现有作品严格考虑像素空间上的$ l_p $有界的添加剂扰动,尽管扰动(例如颜色转换和几何变换)在现实世界中更实际且经常发生。因此,从实际的角度来看,我们提出了一种基于适应性浓度的新颖和一般{\ IT概率的稳健性评估方法}(ProA),并且可以测量深度学习模型对功能扰动的鲁棒性。 PROA可以根据模型的概率鲁棒性提供统计保证,\ textit {i.e。},部署后训练有素的模型遇到的失败概率。我们的实验证明了PAA在评估对广泛功能扰动的概率鲁棒性方面的有效性和灵活性,并且与现有的最新基准相比,POA可以很好地扩展到各种大型深度神经网络。为了重现性,我们在github上发布工具:\ url {https://github.com/trustai/proa}。
translated by 谷歌翻译
我们提出了一种基于随机平滑的图像和点云进行分割的新认证方法。该方法利用一种新颖的可扩展算法进行预测和认证,该算法正确说明了多次测试,这是确保统计保证所必需的。我们方法的关键是依靠已建立的多次测试校正机制,以及弃权分类单像素或点的能力,同时仍然坚固地分割整个输入。我们对综合数据和挑战数据集的实验评估,例如Pascal环境,城市景观和Shapenet,表明我们的算法可以首次实现现实世界中的竞争精度和认证保证。我们在https://github.com/eth-sri/sementation-smoothing上提供实施。
translated by 谷歌翻译
最近的研究表明,深神经网络(DNN)易受对抗性攻击的影响,包括逃避和后门(中毒)攻击。在防守方面,有密集的努力,改善了对逃避袭击的经验和可怜的稳健性;然而,对后门攻击的可稳健性仍然很大程度上是未开发的。在本文中,我们专注于认证机器学习模型稳健性,反对一般威胁模型,尤其是后门攻击。我们首先通过随机平滑技术提供统一的框架,并展示如何实例化以证明对逃避和后门攻击的鲁棒性。然后,我们提出了第一个强大的培训过程Rab,以平滑训练有素的模型,并证明其稳健性对抗后门攻击。我们派生机学习模型的稳健性突出了培训的机器学习模型,并证明我们的鲁棒性受到紧张。此外,我们表明,可以有效地训练强大的平滑模型,以适用于诸如k最近邻分类器的简单模型,并提出了一种精确的平滑训练算法,该算法消除了从这种模型的噪声分布采样采样的需要。经验上,我们对MNIST,CIFAR-10和Imagenet数据集等DNN,差异私有DNN和K-NN模型等不同机器学习(ML)型号进行了全面的实验,并为反卧系攻击提供认证稳健性的第一个基准。此外,我们在SPAMBase表格数据集上评估K-NN模型,以展示所提出的精确算法的优点。对多元化模型和数据集的综合评价既有关于普通训练时间攻击的进一步强劲学习策略的多样化模型和数据集的综合评价。
translated by 谷歌翻译
Building models that comply with the invariances inherent to different domains, such as invariance under translation or rotation, is a key aspect of applying machine learning to real world problems like molecular property prediction, medical imaging, protein folding or LiDAR classification. For the first time, we study how the invariances of a model can be leveraged to provably guarantee the robustness of its predictions. We propose a gray-box approach, enhancing the powerful black-box randomized smoothing technique with white-box knowledge about invariances. First, we develop gray-box certificates based on group orbits, which can be applied to arbitrary models with invariance under permutation and Euclidean isometries. Then, we derive provably tight gray-box certificates. We experimentally demonstrate that the provably tight certificates can offer much stronger guarantees, but that in practical scenarios the orbit-based method is a good approximation.
translated by 谷歌翻译
使用无限精度时,随机平滑是合理的。但是,我们表明,对于有限的浮点精度,随机平滑不再是声音。我们提供了一个简单的示例,即使随机平滑的$ 1.26 $在某个点附近的半径为$ 1.26 $,即使在距离中有一个对抗示例$ 0.8 $,并进一步扩展了此示例以提供CIFAR10的错误证书。我们讨论了随机平滑的隐性假设,并表明它们不适用于通常经过认证的平滑版本的通用图像分类模型。为了克服这个问题,我们提出了一种使用浮点精度的合理方法来进行随机平滑的方法,其速度基本上相等,并匹配标准的标准分类器的标准练习证书,用于迄今已测试的标准分类器。我们唯一的假设是我们可以使用公平的硬币。
translated by 谷歌翻译
深神经网络容易受到像素位移的矢量场的形式的输入变形,以及其他参数化几何变形。转换,旋转等。电流输入变形认证方法1.不要在大输入数据集上扩展到深网络,或者2.只能证明特定的变形类,例如,只有旋转。我们为一般矢量字段和参数化变形进行随机平滑设置的认证,并分别提出DeformRS-VF和DeformRS-PAR。我们的新配方缩放到大输入数据集上的大型网络。例如,DeformRS-PAR认证丰富的变形,覆盖转换,旋转,缩放,仿射变形和其他视觉上对准的变形,例如通过离散 - 余弦变换参数化的视觉上的变形。在MNIST,CIFAR10和Imagenet上进行了广泛的实验,显示了Deformrs-Par的竞争性能,实现了39 \%$ 39 \%$的验证准确性,以便在ImageNet上的Att [ - 10 \ dovers,10 \ dovers] $上的扰动旋转。
translated by 谷歌翻译
Any classifier can be "smoothed out" under Gaussian noise to build a new classifier that is provably robust to $\ell_2$-adversarial perturbations, viz., by averaging its predictions over the noise via randomized smoothing. Under the smoothed classifiers, the fundamental trade-off between accuracy and (adversarial) robustness has been well evidenced in the literature: i.e., increasing the robustness of a classifier for an input can be at the expense of decreased accuracy for some other inputs. In this paper, we propose a simple training method leveraging this trade-off to obtain robust smoothed classifiers, in particular, through a sample-wise control of robustness over the training samples. We make this control feasible by using "accuracy under Gaussian noise" as an easy-to-compute proxy of adversarial robustness for an input. Specifically, we differentiate the training objective depending on this proxy to filter out samples that are unlikely to benefit from the worst-case (adversarial) objective. Our experiments show that the proposed method, despite its simplicity, consistently exhibits improved certified robustness upon state-of-the-art training methods. Somewhat surprisingly, we find these improvements persist even for other notions of robustness, e.g., to various types of common corruptions.
translated by 谷歌翻译
对可提供的对抗性稳健性的研究主要局限于分类任务和具有一维实值输出的模型。我们将认可稳健性的范围扩展到更多一般和结构化输出等诸如集合,图像,语言等的问题的问题。我们在距离/相似性函数(例如交叉端口)下的度量空间,感知相似性等度量空间,总变化距离等。这些模型用于许多机器学习问题,如图像分割,对象检测,生成模型,图像/音频到文本系统等。我们$ \ Texit的鲁棒性技术{中心平滑} $手术可以生产模型,以保证输出的变化,通过距离度量测量,对于输入的任何常态逆势扰动,仍然很小。我们应用了我们的方法来创建具有不同输出空间的可信强大的型号 - 从集合到图像 - 并显示它产生有意义的证书,而不会显着降低基础模型的性能。我们的实验的代码可用于:https://github.com/aounon/center-smoothing。
translated by 谷歌翻译
通用的对抗扰动(UAP)是不可察觉的,图像敏捷的矢量,引起深度神经网络(DNNS),从而从具有很高概率的数据分布中误分类输入。现有方法不会为转换创造强大的UAPS,从而将其适用性限制为现实世界攻击。在这项工作中,我们介绍了一个新的概念和强大的普遍对抗性扰动的表述。基于我们的公式,我们构建了一种小说,迭代算法,该算法利用了概率的鲁棒性界限来生成UAPS,以与通过组成任意亚差异性转换功能生成的转换产生鲁棒。我们对流行的CIFAR-10和ILSVRC 2012数据集进行了广泛的评估,该数据集测量了人类解剖性语义转换(例如旋转,对比变化等)在现实世界中常见的鲁棒性。我们的结果表明,我们生成的UAP比基线的UAP更强大。
translated by 谷歌翻译