随机平滑最近被出现为一种有效的工具,可以在尺度上进行深度神经网络分类器认证。随机平滑的所有现有技术都集中在各向同性$ \ ell_p $认证,这具有通过$ \ ell_p $ -norm半径在各向同性方法中可以轻松地进行证书的优势。然而,各向同性认证限制了可以通过输入到最坏情况对手的输入的区域,即,它不能推理其他“关闭”,潜在的大,恒定的预测安全区域。为了缓解这个问题,(i)我们在简化分析后理论上将各向同性随机平滑$ \ ell_1 $和$ \ ell_2 $证明延伸到其广泛的各向异性同行。此外,(ii)我们提出了评估指标,允许比较一般证书 - 如果它通过经过认证区域的卷定量每个证书的量化,证书优于另一个证书。我们介绍ACCER,是通过体积最大化获得给定测试集样本的各向异性证书的实际框架。我们的经验结果表明,ACCER在多个半径的CIFAR-10和ImageNet上实现最先进的$ \ ell_1 $和$ \ ell_2 $认证准确性,同时在体积方面认证大幅更大的地区,从而突出了益处远离各向同性分析。我们的代码可以在https://github.com/motasemalfarra/ancer中获得。
translated by 谷歌翻译
随机平滑是一种最近的技术,可以在训练中实现最先进的性能,从而确认强大的深度神经网络。虽然平滑的分布家族通常连接到用于认证的规范的选择,但这些分布的参数始终将其视为全局超级参数,独立于网络认证的输入数据。在这项工作中,我们重新访问高斯随机平滑,并表明可以在每个输入时优化高斯分布的方差,以最大程度地提高构建平滑分类器的认证半径。由于数据依赖性分类器未直接使用现有方法享受合理的认证,因此我们提出了一个可通过构造认证的记忆增强数据依赖的平滑分类器。这种新方法是通用,无参数且易于实现的。实际上,我们表明我们的数据依赖框架可以无缝地纳入3种随机平滑方法中,从而导致一致的提高认证准确性。当这些方法的训练例程中使用此框架,然后是数据依赖性认证时,我们比CIFAR10和Imagenet上0.5的最强基线的认证准确度提高了9%和6%。
translated by 谷歌翻译
众所周知,神经网络(NNS)很容易受到对抗扰动的影响,因此有一系列旨在为NNS提供稳健性认证的工作,例如随机平滑性,从某个分布中样本平滑噪声,以证明具有稳健性的稳健性分类器。但是,正如先前的工作所表明的那样,随机平滑的认证鲁棒半径从缩放到大数据集(“维度的诅咒”)。为了克服这一障碍,我们提出了一个双重抽样随机平滑(DSR)框架,该框架利用了采样概率从额外的平滑分布来拧紧先前平滑分类器的稳健性认证。从理论上讲,在温和的假设下,我们证明DSR可以证明$ \ theta(\ sqrt d)$ robust radius $ \ ell_2 $ norm,其中$ d $是输入维度,这意味着DSR可以破坏DSR的诅咒随机平滑的维度。我们将DSR实例化为高斯平滑的广义家族,并根据采样误差提出了一种基于自定义双重优化的高效和声音计算方法。关于MNIST,CIFAR-10和Imagenet的广泛实验验证了我们的理论,并表明DSR与在不同设置下始终如一的现有基准相比,稳健的半径比现有基线更大。代码可在https://github.com/llylly/dsrs上找到。
translated by 谷歌翻译
当前,随机平滑被认为是获得确切可靠分类器的最新方法。尽管其表现出色,但该方法仍与各种严重问题有关,例如``认证准确性瀑布'',认证与准确性权衡甚至公平性问题。已经提出了依赖输入的平滑方法,目的是克服这些缺陷。但是,我们证明了这些方法缺乏正式的保证,因此所产生的证书是没有道理的。我们表明,一般而言,输入依赖性平滑度遭受了维数的诅咒,迫使方差函数具有低半弹性。另一方面,我们提供了一个理论和实用的框架,即使在严格的限制下,即使在有维度的诅咒的情况下,即使在存在维度的诅咒的情况下,也可以使用依赖输入的平滑。我们提供平滑方差功能的一种混凝土设计,并在CIFAR10和MNIST上进行测试。我们的设计减轻了经典平滑的一些问题,并正式下划线,但仍需要进一步改进设计。
translated by 谷歌翻译
由于机器学习(ML)系统变得普遍存在,因此保护其安全性至关重要。然而,最近已经证明,动机的对手能够通过使用语义转换扰乱测试数据来误导ML系统。虽然存在丰富的研究机构,但为ML模型提供了可提供的稳健性保证,以防止$ \ ell_p $ norm界限对抗对抗扰动,抵御语义扰动的保证仍然很广泛。在本文中,我们提供了TSS - 一种统一的框架,用于针对一般对抗性语义转换的鲁棒性认证。首先,根据每个转换的性质,我们将常见的变换划分为两类,即可解决的(例如,高斯模糊)和差异可解的(例如,旋转)变换。对于前者,我们提出了特定于转型的随机平滑策略并获得强大的稳健性认证。后者类别涵盖涉及插值错误的变换,我们提出了一种基于分层采样的新方法,以证明稳健性。我们的框架TSS利用这些认证策略并结合了一致性增强的培训,以提供严谨的鲁棒性认证。我们对十种挑战性语义转化进行了广泛的实验,并表明TSS显着优于现有技术。此外,据我们所知,TSS是第一种在大规模想象数据集上实现非竞争认证稳健性的方法。例如,我们的框架在ImageNet上实现了旋转攻击的30.4%认证的稳健准确性(在$ \ PM 30 ^ \ CIC $)。此外,要考虑更广泛的转换,我们展示了TSS对自适应攻击和不可预见的图像损坏,例如CIFAR-10-C和Imagenet-C。
translated by 谷歌翻译
We show how to turn any classifier that classifies well under Gaussian noise into a new classifier that is certifiably robust to adversarial perturbations under the 2 norm. This "randomized smoothing" technique has been proposed recently in the literature, but existing guarantees are loose. We prove a tight robustness guarantee in 2 norm for smoothing with Gaussian noise. We use randomized smoothing to obtain an ImageNet classifier with e.g. a certified top-1 accuracy of 49% under adversarial perturbations with 2 norm less than 0.5 (=127/255). No certified defense has been shown feasible on ImageNet except for smoothing. On smaller-scale datasets where competing approaches to certified 2 robustness are viable, smoothing delivers higher certified accuracies. Our strong empirical results suggest that randomized smoothing is a promising direction for future research into adversarially robust classification. Code and models are available at http: //github.com/locuslab/smoothing.
translated by 谷歌翻译
深神经网络容易受到像素位移的矢量场的形式的输入变形,以及其他参数化几何变形。转换,旋转等。电流输入变形认证方法1.不要在大输入数据集上扩展到深网络,或者2.只能证明特定的变形类,例如,只有旋转。我们为一般矢量字段和参数化变形进行随机平滑设置的认证,并分别提出DeformRS-VF和DeformRS-PAR。我们的新配方缩放到大输入数据集上的大型网络。例如,DeformRS-PAR认证丰富的变形,覆盖转换,旋转,缩放,仿射变形和其他视觉上对准的变形,例如通过离散 - 余弦变换参数化的视觉上的变形。在MNIST,CIFAR10和Imagenet上进行了广泛的实验,显示了Deformrs-Par的竞争性能,实现了39 \%$ 39 \%$的验证准确性,以便在ImageNet上的Att [ - 10 \ dovers,10 \ dovers] $上的扰动旋转。
translated by 谷歌翻译
随机平滑是目前是最先进的方法,用于构建来自Neural Networks的可认真稳健的分类器,以防止$ \ ell_2 $ - vitersarial扰动。在范例下,分类器的稳健性与预测置信度对齐,即,对平滑分类器的较高的置信性意味着更好的鲁棒性。这使我们能够在校准平滑分类器的信仰方面重新思考准确性和鲁棒性之间的基本权衡。在本文中,我们提出了一种简单的训练方案,Coined Spiremix,通过自我混合来控制平滑分类器的鲁棒性:它沿着每个输入对逆势扰动方向进行样品的凸起组合。该提出的程序有效地识别过度自信,在平滑分类器的情况下,作为有限的稳健性的原因,并提供了一种直观的方法来自适应地在这些样本之间设置新的决策边界,以实现更好的鲁棒性。我们的实验结果表明,与现有的最先进的强大培训方法相比,该方法可以显着提高平滑分类器的认证$ \ ell_2 $ -toSpustness。
translated by 谷歌翻译
我们考虑使用对抗鲁棒性学习的样本复杂性。对于此问题的大多数现有理论结果已经考虑了数据中不同类别在一起或重叠的设置。通过一些实际应用程序,我们认为,相比之下,存在具有完美精度和稳健性的分类器的分类器的良好分离的情况,并表明样品复杂性叙述了一个完全不同的故事。具体地,对于线性分类器,我们显示了大类分离的分布式,其中任何算法的预期鲁棒丢失至少是$ \ω(\ FRAC {D} {n})$,而最大边距算法已预期标准亏损$ o(\ frac {1} {n})$。这表明了通过现有技术不能获得的标准和鲁棒损耗中的间隙。另外,我们介绍了一种算法,给定鲁棒率半径远小于类之间的间隙的实例,给出了预期鲁棒损失的解决方案是$ O(\ FRAC {1} {n})$。这表明,对于非常好的数据,可实现$ O(\ FRAC {1} {n})$的收敛速度,否则就是这样。我们的结果适用于任何$ \ ell_p $ norm以$ p> 1 $(包括$ p = \ idty $)为稳健。
translated by 谷歌翻译
将离散域上的功能集成到神经网络中是开发其推理离散对象的能力的关键。但是,离散域是(1)自然不适合基于梯度的优化,并且(2)与依赖于高维矢量空间中表示形式的深度学习体系结构不相容。在这项工作中,我们解决了设置功能的两个困难,这些功能捕获了许多重要的离散问题。首先,我们开发了将设置功能扩展到低维连续域的框架,在该域中,许多扩展是自然定义的。我们的框架包含许多众所周知的扩展,作为特殊情况。其次,为避免不良的低维神经网络瓶颈,我们将低维扩展转换为高维空间中的表示形式,从半际计划进行组合优化的成功中获得了灵感。从经验上讲,我们观察到扩展对无监督的神经组合优化的好处,特别是具有高维其表示。
translated by 谷歌翻译
尽管深层神经网络在各种任务中取得了巨大的成功,但它们对不可察觉的对抗性扰动的脆弱性阻碍了他们在现实世界中的部署。最近,与随机合奏的作品相对于经过最小的计算开销的标准对手训练(AT)模型,对对抗性训练(AT)模型的对抗性鲁棒性有了显着改善,这使它们成为安全临界资源限制应用程序的有前途解决方案。但是,这种令人印象深刻的表现提出了一个问题:这些稳健性是由随机合奏提供的吗?在这项工作中,我们从理论和经验上都解决了这个问题。从理论上讲,我们首先确定通常采用的鲁棒性评估方法(例如自适应PGD)在这种情况下提供了错误的安全感。随后,我们提出了一种理论上有效的对抗攻击算法(ARC),即使在自适应PGD无法做到这一点的情况下,也能妥协随机合奏。我们在各种网络体系结构,培训方案,数据集和规范上进行全面的实验,以支持我们的主张,并经验证明,随机合奏实际上比在模型上更容易受到$ \ ell_p $结合的对抗性扰动的影响。我们的代码可以在https://github.com/hsndbk4/arc上找到。
translated by 谷歌翻译
广义自我符合是许多重要学习问题的目标功能中存在的关键属性。我们建立了一个简单的Frank-Wolfe变体的收敛速率,该变体使用开环步数策略$ \ gamma_t = 2/(t+2)$,获得了$ \ Mathcal {o}(1/t)$收敛率对于这类功能,就原始差距和弗兰克 - 沃尔夫差距而言,$ t $是迭代计数。这避免了使用二阶信息或估计以前工作的局部平滑度参数的需求。我们还显示了各种常见病例的收敛速率的提高,例如,当所考虑的可行区域均匀地凸或多面体时。
translated by 谷歌翻译
近期在应用于培训深度神经网络和数据分析中的其他优化问题中的非凸优化的优化算法的兴趣增加,我们概述了最近对非凸优化优化算法的全球性能保证的理论结果。我们从古典参数开始,显示一般非凸面问题无法在合理的时间内有效地解决。然后,我们提供了一个问题列表,可以通过利用问题的结构来有效地找到全球最小化器,因为可能的问题。处理非凸性的另一种方法是放宽目标,从找到全局最小,以找到静止点或局部最小值。对于该设置,我们首先为确定性一阶方法的收敛速率提出了已知结果,然后是最佳随机和随机梯度方案的一般理论分析,以及随机第一阶方法的概述。之后,我们讨论了非常一般的非凸面问题,例如最小化$ \ alpha $ -weakly-are-convex功能和满足Polyak-lojasiewicz条件的功能,这仍然允许获得一阶的理论融合保证方法。然后,我们考虑更高阶和零序/衍生物的方法及其收敛速率,以获得非凸优化问题。
translated by 谷歌翻译
在深度学习中的优化分析是连续的,专注于(变体)梯度流动,或离散,直接处理(变体)梯度下降。梯度流程可符合理论分析,但是风格化并忽略计算效率。它代表梯度下降的程度是深度学习理论的一个开放问题。目前的论文研究了这个问题。将梯度下降视为梯度流量初始值问题的近似数值问题,发现近似程度取决于梯度流动轨迹周围的曲率。然后,我们表明,在具有均匀激活的深度神经网络中,梯度流动轨迹享有有利的曲率,表明它们通过梯度下降近似地近似。该发现允许我们将深度线性神经网络的梯度流分析转换为保证梯度下降,其几乎肯定会在随机初始化下有效地收敛到全局最小值。实验表明,在简单的深度神经网络中,具有传统步长的梯度下降确实接近梯度流。我们假设梯度流动理论将解开深入学习背后的奥秘。
translated by 谷歌翻译
本文提出了弗兰克 - 沃尔夫(FW)的新变种​​,称为$ k $ fw。标准FW遭受缓慢的收敛性:迭代通常是Zig-zag作为更新方向振荡约束集的极端点。新变种,$ k $ fw,通过在每次迭代中使用两个更强的子问题oracelles克服了这个问题。第一个是$ k $线性优化Oracle($ k $ loo),计算$ k $最新的更新方向(而不是一个)。第二个是$ k $方向搜索($ k $ ds),最大限度地减少由$ k $最新更新方向和之前迭代表示的约束组的目标。当问题解决方案承认稀疏表示时,奥克斯都易于计算,而且$ k $ FW会迅速收敛,以便平滑凸起目标和几个有趣的约束集:$ k $ fw实现有限$ \ frac {4l_f ^ 3d ^} { \ Gamma \ Delta ^ 2} $融合在多台和集团规范球上,以及光谱和核规范球上的线性收敛。数值实验验证了$ k $ fw的有效性,并展示了现有方法的数量级加速。
translated by 谷歌翻译
本文评价用机器学习问题的数值优化方法。由于机器学习模型是高度参数化的,我们专注于适合高维优化的方法。我们在二次模型上构建直觉,以确定哪种方法适用于非凸优化,并在凸函数上开发用于这种方法的凸起函数。随着随机梯度下降和动量方法的这种理论基础,我们试图解释为什么机器学习领域通常使用的方法非常成功。除了解释成功的启发式之外,最后一章还提供了对更多理论方法的广泛审查,这在实践中并不像惯例。所以在某些情况下,这项工作试图回答这个问题:为什么默认值中包含的默认TensorFlow优化器?
translated by 谷歌翻译
最近,张等人。(2021)基于$ \ ell_ \ infty $ -distance函数开发出一种新的神经网络架构,自然拥有经过认证的$ \ ell_ \ infty $坚固的稳健性。尽管具有出色的理论特性,但到目前为止的模型只能实现与传统网络的可比性。在本文中,我们通过仔细分析培训流程,大大提高了$ \ ell_ \ infty $ -distance网的认证稳健性。特别是,我们展示了$ \ ell_p $ -rexation,这是克服模型的非平滑度的关键方法,导致早期训练阶段的意外的大型嘴唇浓度。这使得优化不足以使用铰链损耗并产生次优溶液。鉴于这些调查结果,我们提出了一种简单的方法来解决上述问题,设计一种新的客观函数,这些功能将缩放的跨熵损失结合在剪切铰链损失。实验表明,使用拟议的培训策略,$ \ ell_ \ infty $-distance网的认证准确性可以从Cifar-10($ \ epsilon = 8/255 $)的33.30%到40.06%的显着提高到40.06%,同时显着优于表现优势该地区的其他方法。我们的结果清楚地展示了$ \ ell_ \ infty $-distance净的有效性和潜力,以获得认证的稳健性。代码在https://github.com/zbh2047/l_inf-dist-net-v2上获得。
translated by 谷歌翻译
人工神经网络(ANN)训练景观的非凸起带来了固有的优化困难。虽然传统的背传播随机梯度下降(SGD)算法及其变体在某些情况下是有效的,但它们可以陷入杂散的局部最小值,并且对初始化和普通公共表敏感。最近的工作表明,随着Relu激活的ANN的培训可以重新重整为凸面计划,使希望能够全局优化可解释的ANN。然而,天真地解决凸训练制剂具有指数复杂性,甚至近似启发式需要立方时间。在这项工作中,我们描述了这种近似的质量,并开发了两个有效的算法,这些算法通过全球收敛保证培训。第一算法基于乘法器(ADMM)的交替方向方法。它解决了精确的凸形配方和近似对应物。实现线性全局收敛,并且初始几次迭代通常会产生具有高预测精度的解决方案。求解近似配方时,每次迭代时间复杂度是二次的。基于“采样凸面”理论的第二种算法更简单地实现。它解决了不受约束的凸形制剂,并收敛到大约全球最佳的分类器。当考虑对抗性培训时,ANN训练景观的非凸起加剧了。我们将稳健的凸优化理论应用于凸训练,开发凸起的凸起制剂,培训Anns对抗对抗投入。我们的分析明确地关注一个隐藏层完全连接的ANN,但可以扩展到更复杂的体系结构。
translated by 谷歌翻译
由于存在对抗性攻击,因此在安全至关重要系统中使用神经网络需要安全,可靠的模型。了解任何输入X的最小对抗扰动,或等效地知道X与分类边界的距离,可以评估分类鲁棒性,从而提供可认证的预测。不幸的是,计算此类距离的最新技术在计算上很昂贵,因此不适合在线应用程序。这项工作提出了一个新型的分类器家族,即签名的距离分类器(SDC),从理论的角度来看,它直接输出X与分类边界的确切距离,而不是概率分数(例如SoftMax)。 SDC代表一个强大的设计分类器家庭。为了实际解决SDC的理论要求,提出了一种名为Unitary级别神经网络的新型网络体系结构。实验结果表明,所提出的体系结构近似于签名的距离分类器,因此允许以单个推断为代价对X进行在线认证分类。
translated by 谷歌翻译
众所周知,给定顺滑,界限 - 下面,并且可能的非透露函数,标准梯度的方法可以找到$ \ epsilon $ -stationary积分(渐变范围小于$ \ epsilon $)$ \ mathcal {O}(1 / \ epsilon ^ 2)$迭代。然而,许多重要的非渗透优化问题,例如与培训现代神经网络相关的问题,本质上是不平衡的,使这些结果不适用。在本文中,我们研究了来自Oracle复杂性视点的非透射性优化,其中假设算法仅向各个点处的函数提供访问。我们提供两个主要结果:首先,我们考虑越近$ \ epsilon $ -storationary积分的问题。这也许是找到$ \ epsilon $ -storationary积分的最自然的放松,这在非对象案例中是不可能的。我们证明,对于任何距离和epsilon $小于某些常数,无法有效地实现这种轻松的目标。我们的第二次结果涉及通过减少到平滑的优化来解决非光度非渗透优化的可能性:即,在光滑的近似值对目标函数的平滑近似下应用平滑的优化方法。对于这种方法,我们在温和的假设下证明了oracle复杂性和平滑度之间的固有权衡:一方面,可以非常有效地平滑非光滑非凸函数(例如,通过随机平滑),但具有尺寸依赖性因子在平滑度参数中,在插入标准平滑优化方法时,这会强烈影响迭代复杂性。另一方面,可以用合适的平滑方法消除这些尺寸因子,而是仅通过使平滑过程的Oracle复杂性呈指数大。
translated by 谷歌翻译