对于深层网络而言,这是一个非常理想的属性,可与小型输入更改保持强大。实现此属性的一种流行方法是设计具有小Lipschitz常数的网络。在这项工作中,我们提出了一种用于构建具有许多理想属性的Lipschitz网络的新技术:它可以应用于任何线性网络层(完全连接或卷积),它在Lipschitz常数上提供了正式的保证,它是易于实施和运行效率,可以与任何培训目标和优化方法结合使用。实际上,我们的技术是文献中第一个同时实现所有这些属性的技术。我们的主要贡献是基于重新的重量矩阵参数化,该参数保证每个网络层最多具有LIPSCHITZ常数,并且导致学习的权重矩阵接近正交。因此,我们称这种层几乎是正交的Lipschitz(AOL)。在图像分类的背景下,实验和消融研究具有认证的鲁棒精度证实,AOL层获得与大多数现有方法相当的结果。但是,它们更容易实现,并且更广泛地适用,因为它们不需要计算昂贵的矩阵正交化或反转步骤作为网络体系结构的一部分。我们在https://github.com/berndprach/aol上提供代码。
translated by 谷歌翻译
我们在监督分类的背景下研究深网的过剩能力。也就是说,给定对基本假设类别的能力度量(在我们的情况下,是经验性的Rademacher的复杂性),我们(先验)可以限制该类别的数量,同时在与无约束性方面保持经验误差的同时保留经验误差?为了评估现代体系结构(例如残留网络)的过剩能力,我们扩展并统一了先前的Rademacher复杂性界限,以适应功能组成和添加以及卷积的结构。我们边界中的容量驱动项是层的Lipschitz常数和卷积权重初始化的(2,1)组的范围距离。在不同任务难度的基准数据集上进行的实验表明,(1)每个任务的容量大量超过容量,并且(2)可以将容量保持在整个任务的惊人相似水平。总体而言,这表明了重量规范的可压缩性概念,这是通过重量修剪正交的经典压缩概念。
translated by 谷歌翻译
标准化技术已成为现代卷积神经网络(Convnets)中的基本组件。特别是,许多最近的作品表明,促进重量的正交性有助于培训深层模型并提高鲁棒性。对于Courmnets,大多数现有方法基于惩罚或归一化矩阵判断或施加卷积核的重量矩阵。这些方法经常摧毁或忽视核的良性卷积结构;因此,对于深扫描器来说,它们通常是昂贵或不切实际的。相比之下,我们介绍了一种简单富有高效的“卷积归一化”(ConvNORM)方法,可以充分利用傅立叶域中的卷积结构,并用作简单的即插即用模块,以方便地结合到任何围栏中。我们的方法是通过最近关于卷积稀疏编码的预处理方法的工作启发,可以有效地促进每个层的频道方向等距。此外,我们表明我们的判断可以降低重量矩阵的层状频谱标准,从而改善网络的嘴唇,导致培训更容易培训和改善深扫描器的鲁棒性。在噪声损坏和生成的对抗网络(GAN)下应用于分类,我们表明CONVNOMOL提高了常见扫描仪(如RENET和GAN性能)的稳健性。我们通过Cifar和Imagenet的数值实验验证了我们的研究结果。
translated by 谷歌翻译
经认证的稳健性是安全关键应用中的深度神经网络的理想性质,流行的训练算法可以通过计算其Lipschitz常数的全球界限来认证神经网络的鲁棒性。然而,这种界限往往松动:它倾向于过度规范神经网络并降低其自然精度。绑定的Lipschitz绑定可以在自然和认证的准确性之间提供更好的权衡,但通常很难根据网络的非凸起计算。在这项工作中,我们通过考虑激活函数(例如Relu)和权重矩阵之间的相互作用,提出了一种有效和培训的\ emph {本地} Lipschitz上限。具体地,当计算权重矩阵的诱发标准时,我们消除了相应的行和列,其中保证激活函数在每个给定数据点的邻域中是常数,它提供比全局Lipschitz常数的可怕更严格的绑定神经网络。我们的方法可用作插入式模块,以拧紧在许多可认证的训练算法中绑定的Lipschitz。此外,我们建议夹住激活功能(例如,Relu和Maxmin),具有可读的上限阈值和稀疏性损失,以帮助网络实现甚至更严格的本地嘴唇尖端。在实验上,我们表明我们的方法始终如一地优于Mnist,CiFar-10和Tinyimagenet数据集的清洁和认证准确性,具有各种网络架构的清洁和认证的准确性。
translated by 谷歌翻译
由于存在对抗性攻击,因此在安全至关重要系统中使用神经网络需要安全,可靠的模型。了解任何输入X的最小对抗扰动,或等效地知道X与分类边界的距离,可以评估分类鲁棒性,从而提供可认证的预测。不幸的是,计算此类距离的最新技术在计算上很昂贵,因此不适合在线应用程序。这项工作提出了一个新型的分类器家族,即签名的距离分类器(SDC),从理论的角度来看,它直接输出X与分类边界的确切距离,而不是概率分数(例如SoftMax)。 SDC代表一个强大的设计分类器家庭。为了实际解决SDC的理论要求,提出了一种名为Unitary级别神经网络的新型网络体系结构。实验结果表明,所提出的体系结构近似于签名的距离分类器,因此允许以单个推断为代价对X进行在线认证分类。
translated by 谷歌翻译
深度神经网络的高度非线性性质使它们容易受到对抗例子的影响,并且具有不稳定的梯度,从而阻碍了可解释性。但是,解决这些问题的现有方法,例如对抗性训练,是昂贵的,并且通常会牺牲预测的准确性。在这项工作中,我们考虑曲率,这是编码非线性程度的数学数量。使用此功能,我们展示了低曲率的神经网络(LCNN),这些神经网络(LCNN)的曲率比标准模型大大低,同时表现出相似的预测性能,从而导致稳健性和稳定梯度,并且只有略有增加的训练时间。为了实现这一目标,我们最大程度地减少了与数据依赖性的上限在神经网络的曲率上,该曲率分解了其组成层的曲率和斜率方面的总体曲率。为了有效地最大程度地减少这种结合,我们介绍了两个新型的建筑组件:首先,一种称为中心软pplus的非线性性,是SoftPlus非线性的稳定变体,其次是Lipschitz构成的批处理标准化层。我们的实验表明,与标准的高曲率对应物相比,LCNN具有较低的曲率,更稳定的梯度和增加现成的对抗性鲁棒性,而不会影响预测性能。我们的方法易于使用,可以很容易地将其纳入现有的神经网络模型中。
translated by 谷歌翻译
We introduce Parseval networks, a form of deep neural networks in which the Lipschitz constant of linear, convolutional and aggregation layers is constrained to be smaller than 1. Parseval networks are empirically and theoretically motivated by an analysis of the robustness of the predictions made by deep neural networks when their input is subject to an adversarial perturbation. The most important feature of Parseval networks is to maintain weight matrices of linear and convolutional layers to be (approximately) Parseval tight frames, which are extensions of orthogonal matrices to non-square matrices. We describe how these constraints can be maintained efficiently during SGD. We show that Parseval networks match the state-of-the-art in terms of accuracy on CIFAR-10/100 and Street View House Numbers (SVHN), while being more robust than their vanilla counterpart against adversarial examples. Incidentally, Parseval networks also tend to train faster and make a better usage of the full capacity of the networks.
translated by 谷歌翻译
In this work, we propose a dissipativity-based method for Lipschitz constant estimation of 1D convolutional neural networks (CNNs). In particular, we analyze the dissipativity properties of convolutional, pooling, and fully connected layers making use of incremental quadratic constraints for nonlinear activation functions and pooling operations. The Lipschitz constant of the concatenation of these mappings is then estimated by solving a semidefinite program which we derive from dissipativity theory. To make our method as efficient as possible, we take the structure of convolutional layers into account realizing these finite impulse response filters as causal dynamical systems in state space and carrying out the dissipativity analysis for the state space realizations. The examples we provide show that our Lipschitz bounds are advantageous in terms of accuracy and scalability.
translated by 谷歌翻译
我们提供了通过线性激活的多渠道卷积神经网络中的$ \ ell_2 $标准来最大程度地减少$ \ ell_2 $标准而产生的功能空间表征,并经验测试了我们对使用梯度下降训练的Relu网络的假设。我们将功能空间中的诱导正规化程序定义为实现函数所需的网络权重规范的最小$ \ ell_2 $。对于具有$ C $输出频道和内核尺寸$ K $的两个层线性卷积网络,我们显示以下内容:(a)如果网络的输入是单个渠道,则任何$ k $的诱导正规器都与数字无关输出频道$ c $。此外,我们得出正常化程序是由半决赛程序(SDP)给出的规范。 (b)相比之下,对于多通道输入,仅实现所有矩阵值值线性函数而需要多个输出通道,因此归纳偏置确实取决于$ c $。但是,对于足够大的$ c $,诱导的正规化程序再次由独立于$ c $的SDP给出。特别是,$ k = 1 $和$ k = d $(输入维度)的诱导正规器以封闭形式作为核标准和$ \ ell_ {2,1} $ group-sparse Norm,线性预测指标的傅立叶系数。我们通过对MNIST和CIFAR-10数据集的实验来研究理论结果对从线性和RELU网络上梯度下降的隐式正则化的更广泛的适用性。
translated by 谷歌翻译
我们试图通过探索(深)卷积神经网络和伏特拉卷积之间的关系来理解卷积神经网络。我们提出了一种新颖的方法来解释和研究神经网络的总体特征,而不会受到可怕的复杂体系结构的干扰。具体而言,我们将基本结构及其组合转换为Volterra卷积的形式。结果表明,大多数卷积神经网络可以转换为Volterra卷积的形式,在该形式中,转换后的代理内核保留了原始网络的特征。分析这些代理内核可能会给原始网络提供宝贵的见解。基于此设置,我们提出了近似零订单和订单的代理内核的方法,并验证了结果的正确性和有效性。
translated by 谷歌翻译
深度学习使用由其重量进行参数化的神经网络。通常通过调谐重量来直接最小化给定损耗功能来训练神经网络。在本文中,我们建议将权重重新参数转化为网络中各个节点的触发强度的目标。给定一组目标,可以计算使得发射强度最佳地满足这些目标的权重。有人认为,通过我们称之为级联解压缩的过程,使用培训的目标解决爆炸梯度的问题,并使损失功能表面更加光滑,因此导致更容易,培训更快,以及潜在的概括,神经网络。它还允许更容易地学习更深层次和经常性的网络结构。目标对重量的必要转换有额外的计算费用,这是在许多情况下可管理的。在目标空间中学习可以与现有的神经网络优化器相结合,以额外收益。实验结果表明了使用目标空间的速度,以及改进的泛化的示例,用于全连接的网络和卷积网络,以及调用和处理长时间序列的能力,并使用经常性网络进行自然语言处理。
translated by 谷歌翻译
We show that standard ResNet architectures can be made invertible, allowing the same model to be used for classification, density estimation, and generation. Typically, enforcing invertibility requires partitioning dimensions or restricting network architectures. In contrast, our approach only requires adding a simple normalization step during training, already available in standard frameworks. Invertible ResNets define a generative model which can be trained by maximum likelihood on unlabeled data. To compute likelihoods, we introduce a tractable approximation to the Jacobian log-determinant of a residual block. Our empirical evaluation shows that invertible ResNets perform competitively with both stateof-the-art image classifiers and flow-based generative models, something that has not been previously achieved with a single architecture.
translated by 谷歌翻译
与古典浅表示学习技术相比,深神经网络在几乎每个应用基准中都实现了卓越的性能。但尽管他们明确的经验优势,但它仍然没有很好地理解,是什么让他们如此有效。为了解决这个问题,我们引入了深度框架近似:用结构化超常帧的受限表示学习的统一框架。虽然精确推断需要迭代优化,但是可以通过前馈深神经网络的操作来近似。我们间接分析模型容量如何涉及由架构超参数,如深度,宽度和跳过连接引起的帧结构。我们通过深度框架电位量化这些结构差异,与表示唯一性和稳定性相关的数据无关的相干措施。作为模型选择的标准,我们将与各种常见的深网络架构和数据集的泛化误差显示相关性。我们还证明了实现迭代优化算法的复发网络如何实现与其前馈近似的性能相当,同时提高对抗鲁棒性。这种与既定的过度符合表达理论的联系表明,具有较少对临时工程依赖的原则深网络架构设计的新方向。
translated by 谷歌翻译
最近,张等人。(2021)基于$ \ ell_ \ infty $ -distance函数开发出一种新的神经网络架构,自然拥有经过认证的$ \ ell_ \ infty $坚固的稳健性。尽管具有出色的理论特性,但到目前为止的模型只能实现与传统网络的可比性。在本文中,我们通过仔细分析培训流程,大大提高了$ \ ell_ \ infty $ -distance网的认证稳健性。特别是,我们展示了$ \ ell_p $ -rexation,这是克服模型的非平滑度的关键方法,导致早期训练阶段的意外的大型嘴唇浓度。这使得优化不足以使用铰链损耗并产生次优溶液。鉴于这些调查结果,我们提出了一种简单的方法来解决上述问题,设计一种新的客观函数,这些功能将缩放的跨熵损失结合在剪切铰链损失。实验表明,使用拟议的培训策略,$ \ ell_ \ infty $-distance网的认证准确性可以从Cifar-10($ \ epsilon = 8/255 $)的33.30%到40.06%的显着提高到40.06%,同时显着优于表现优势该地区的其他方法。我们的结果清楚地展示了$ \ ell_ \ infty $-distance净的有效性和潜力,以获得认证的稳健性。代码在https://github.com/zbh2047/l_inf-dist-net-v2上获得。
translated by 谷歌翻译
依靠这样的前提是,二进制神经网络的性能可以在很大程度上恢复,而完全精确的权重向量与其相应的二进制向量之间的量化错误,网络二线化的现有作品经常采用模型鲁棒性的想法以达到上述目标。但是,鲁棒性仍然是一个不明智的概念,而没有扎实的理论支持。在这项工作中,我们介绍了Lipschitz的连续性,即定义明确的功能特性,是定义BNN模型鲁棒性的严格标准。然后,我们建议将Lipschitz连续性保留为正规化项,以提高模型的鲁棒性。特别是,虽然流行的Lipschitz涉及正则化方法由于其极端稀疏而经常在BNN中崩溃,但我们将保留矩阵设计以近似于目标重量矩阵的光谱规范,可以将其作为BNN的Lipschitz常数的近似值部署精确的L​​ipschitz恒定计算(NP-HARD)。我们的实验证明,我们的BNN特异性正则化方法可以有效地增强BNN的鲁棒性(在Imagenet-C上作证),从而在CIFAR和Imagenet上实现最新性能。
translated by 谷歌翻译
由于机器学习(ML)系统变得普遍存在,因此保护其安全性至关重要。然而,最近已经证明,动机的对手能够通过使用语义转换扰乱测试数据来误导ML系统。虽然存在丰富的研究机构,但为ML模型提供了可提供的稳健性保证,以防止$ \ ell_p $ norm界限对抗对抗扰动,抵御语义扰动的保证仍然很广泛。在本文中,我们提供了TSS - 一种统一的框架,用于针对一般对抗性语义转换的鲁棒性认证。首先,根据每个转换的性质,我们将常见的变换划分为两类,即可解决的(例如,高斯模糊)和差异可解的(例如,旋转)变换。对于前者,我们提出了特定于转型的随机平滑策略并获得强大的稳健性认证。后者类别涵盖涉及插值错误的变换,我们提出了一种基于分层采样的新方法,以证明稳健性。我们的框架TSS利用这些认证策略并结合了一致性增强的培训,以提供严谨的鲁棒性认证。我们对十种挑战性语义转化进行了广泛的实验,并表明TSS显着优于现有技术。此外,据我们所知,TSS是第一种在大规模想象数据集上实现非竞争认证稳健性的方法。例如,我们的框架在ImageNet上实现了旋转攻击的30.4%认证的稳健准确性(在$ \ PM 30 ^ \ CIC $)。此外,要考虑更广泛的转换,我们展示了TSS对自适应攻击和不可预见的图像损坏,例如CIFAR-10-C和Imagenet-C。
translated by 谷歌翻译
我们追求一系列研究,试图使深度神经网络的输入输出映射的雅各布频谱规范正规化。在先前的工作依赖上边界技术的同时,我们提供了针对确切光谱规范的方案。我们证明,与以前的光谱正则化技术相比,我们的算法可以提高概括性能,同时保持了防御自然和对抗性噪声的强大保护。此外,我们进一步探讨了一些以前的推理,这些推理是关于雅各布正规化提供的强大对抗保护,并表明它可能具有误导性。
translated by 谷歌翻译
Deep nets generalize well despite having more parameters than the number of training samples. Recent works try to give an explanation using PAC-Bayes and Margin-based analyses, but do not as yet result in sample complexity bounds better than naive parameter counting. The current paper shows generalization bounds that're orders of magnitude better in practice. These rely upon new succinct reparametrizations of the trained net -a compression that is explicit and efficient. These yield generalization bounds via a simple compression-based framework introduced here. Our results also provide some theoretical justification for widespread empirical success in compressing deep nets.Analysis of correctness of our compression relies upon some newly identified "noise stability"properties of trained deep nets, which are also experimentally verified. The study of these properties and resulting generalization bounds are also extended to convolutional nets, which had eluded earlier attempts on proving generalization.
translated by 谷歌翻译
可逆的神经网络(Inns)已被用于设计生成模型,实现节省内存梯度计算,并解决逆问题。在这项工作中,我们展示了普通二手纪念架构遭受爆炸逆,因此易于变得数值不可逆转。在广泛的Inn用例中,我们揭示了包括在分配和分配的变化(OOD)数据的变化公式的不适用性的失败,用于节省内存返回的不正确渐变,以及无法从标准化流量模型中采样。我们进一步推出了普通架构原子构建块的双嘴唇特性。这些见解对旅馆的稳定性然后提供了前进的方法来解决这些故障。对于本地可释放足够的任务,如记忆保存的倒退,我们提出了一种灵活且高效的常规器。对于必要的全球可逆性的问题,例如在ood数据上应用标准化流动,我们展示了设计稳定的旅馆构建块的重要性。
translated by 谷歌翻译
现代生成的对抗网络(GANS)主要使用判别者(或批评者)中的分段线性激活功能,包括Relu和Leaceryru。这些模型学习分段线性映射,其中每个部分处理输入空间的子集,每个子​​集的梯度​​是分段常数。在这样一类鉴别者(或批评者)函数下,我们呈现梯度标准化(Gran),一种新的输入相关标准化方法,可确保输入空间中的分段k-lipschitz约束。与光谱归一化相比,Gran不约束各个网络层的处理,并且与梯度惩罚不同,严格执行几乎无处不在的分段Lipschitz约束。凭经验,我们展示了多个数据集的改进了图像生成性能(包括Cifar-10/100,STL-10,LSUN卧室和Celeba),GaN丢失功能和指标。此外,我们分析了在几个标准GAN中改变了经常无核的Lipschitz常数K,而不仅仅是实现显着的性能增益,还可以在普通的ADAM优化器中找到K和培训动态之间的连接,特别是在低梯度损失平台之间。
translated by 谷歌翻译