隐式神经网络是一般的学习模型,可以用隐式代数方程替换传统的馈电模型中的层。与传统学习模型相比,隐式网络提供竞争性能和降低的内存消耗。然而,它们可以对输入对抗性扰动保持脆弱。本文提出了隐式神经网络的稳健性验证的理论和计算框架;我们的框架混合在一起混合单调系统理论和收缩理论。首先,给定隐式神经网络,我们介绍了一个相关的嵌入式网络,并显示,给定$ \ ell_ infty $ -norm框限制对输入,嵌入式网络提供$ \ ell_ \ idty $ -norm box超值给定网络的输出。其次,使用$ \ ell _ {\ infty} $ - 矩阵措施,我们为原始和嵌入式系统的良好提出了足够的条件,并设计了一种迭代算法来计算$ \ e _ {\ infty} $ - norm box鲁棒性利润率和可达性和分类问题。第三,独立价值,我们提出了一种新颖的相对分类器变量,导致认证问题的经过认证的对抗性鲁棒性更严格的界限。最后,我们对在Mnist DataSet上培训的非欧几里德单调运营商网络(Nemon)上进行数值模拟。在这些模拟中,我们比较了我们的混合单调对收缩方法的准确性和运行时间与文献中的现有鲁棒性验证方法,以估算认证的对抗性鲁棒性。
translated by 谷歌翻译
本文提出了一个理论和计算框架,用于基于非欧几里得收缩理论对隐式神经网络的训练和鲁棒性验证。基本思想是将神经网络的鲁棒性分析作为可及性问题,使用(i)$ \ ell _ {\ infty} $ - norm inort input-utput-optup-utput lipschitz常数和(ii)网络的紧密包含函数到过度陈列在其可达集合中。首先,对于给定的隐式神经网络,我们使用$ \ ell _ {\ infty} $ - 矩阵测量方法来为其适应性良好的条件提出足够的条件,设计一种迭代算法来计算其固定点,并为其$ \提供上限ell_ \ infty $ -Norm输入输出Lipschitz常数。其次,我们介绍了一个相关的嵌入式网络,并表明嵌入式网络可用于提供原始网络的可触及式集合的$ \ ell_ \ infty $ -Norm Box过度交配。此外,我们使用嵌入式网络来设计一种迭代算法,用于计算原始系统紧密包含函数的上限。第三,我们使用Lipschitz常数的上限和紧密包含函数的上限来设计两种算法,以训练和稳健性验证隐式神经网络。最后,我们应用算法在MNIST数据集上训练隐式神经网络,并将模型的鲁棒性与通过文献中现有方法训练的模型进行比较。
translated by 谷歌翻译
Deep Markov Models(DMM)是Markov模型的可扩展和表达概括的生成模型,用于表示,学习和推理问题。但是,这些模型的基本随机稳定性保证尚未得到彻底调查。在本文中,我们提供了在动态系统的背景下定义的DMM随机稳定性的充分条件,并提出了一种基于深神经网络建模的概率地图收缩的稳定性分析方法。我们在具有高斯分布的DMMS的稳定性和整体动态行为的稳定性和整体动态行为之间建立了与高斯分布的稳定性和总体动态行为之间的连接。基于该理论,我们提出了一些具有保证稳定性的受约束DMM的实用方法。我们通过使用所提出的稳定性约束,通过直观的数值实验凭证证实我们的理论结果。
translated by 谷歌翻译
收缩理论是一种分析工具,用于研究以均匀的正面矩阵定义的收缩度量下的非自主(即,时变)非线性系统的差动动力学,其存在导致增量指数的必要和充分表征多种溶液轨迹彼此相互稳定性的稳定性。通过使用平方差分长度作为Lyapunov样功能,其非线性稳定性分析向下沸腾以找到满足以表达为线性矩阵不等式的稳定条件的合适的收缩度量,表明可以在众所周知的线性系统之间绘制许多平行线非线性系统理论与收缩理论。此外,收缩理论利用了与比较引理结合使用的指数稳定性的优越稳健性。这产生了基于神经网络的控制和估计方案的急需安全性和稳定性保证,而不借助使用均匀渐近稳定性的更涉及的输入到状态稳定性方法。这种独特的特征允许通过凸优化来系统构造收缩度量,从而获得了由于扰动和学习误差而在外部扰动的时变的目标轨迹和解决方案轨迹之间的距离上的明确指数界限。因此,本文的目的是介绍了收缩理论的课程概述及其在确定性和随机系统的非线性稳定性分析中的优点,重点导出了各种基于学习和数据驱动的自动控制方法的正式鲁棒性和稳定性保证。特别是,我们提供了使用深神经网络寻找收缩指标和相关控制和估计法的技术的详细审查。
translated by 谷歌翻译
在本文中,我们为通过深神经网络参数参数的离散时间动力学系统的消散性和局部渐近稳定提供了足够的条件。我们利用神经网络作为点式仿射图的表示,从而揭示其本地线性操作员并使其可以通过经典的系统分析和设计方法访问。这使我们能够通过评估其耗散性并估算其固定点和状态空间分区来“打开神经动力学系统行为的黑匣子”。我们将这些局部线性运算符的规范与耗散系统中存储的能量的规范联系起来,其供应率由其总偏差项表示。从经验上讲,我们分析了这些局部线性运算符的动力学行为和特征值光谱的差异,具有不同的权重,激活函数,偏置项和深度。
translated by 谷歌翻译
深度神经网络的鲁棒性对于现代AI支持系统至关重要,应正式验证。在广泛的应用中采用了类似乙状结肠的神经网络。由于它们的非线性,通常会过度评估乙状结肠样激活功能,以进行有效的验证,这不可避免地引入了不精确度。已大量的努力致力于找到所谓的更紧密的近似值,以获得更精确的验证结果。但是,现有的紧密定义是启发式的,缺乏理论基础。我们对现有神经元的紧密表征进行了彻底的经验分析,并揭示它们仅在特定的神经网络上是优越的。然后,我们将网络紧密度的概念介绍为统一的紧密度定义,并表明计算网络紧密度是一个复杂的非convex优化问题。我们通过两个有效的,最紧密的近似值从不同的角度绕过复杂性。结果表明,我们在艺术状态下的方法实现了有希望的表现:(i)达到高达251.28%的改善,以提高认证的较低鲁棒性界限; (ii)在卷积网络上表现出更为精确的验证结果。
translated by 谷歌翻译
对手示例可以容易地降低神经网络中的分类性能。提出了促进这些例子的稳健性的实证方法,但往往缺乏分析见解和正式担保。最近,一些稳健性证书在文献中出现了基于系统理论概念的文献。这项工作提出了一种基于增量的耗散性的稳健性证书,用于每个层的线性矩阵不等式形式的神经网络。我们还提出了对该证书的等效光谱标准,该证书可扩展到具有多个层的神经网络。我们展示了对在MNIST培训的前馈神经网络上的对抗对抗攻击的性能和使用CIFAR-10训练的亚历纳特人。
translated by 谷歌翻译
我们为研究通过将噪声注入隐藏状态而训练的经常性神经网络(RNN)提供了一般框架。具体地,我们考虑RNN,其可以被视为由输入数据驱动的随机微分方程的离散化。该框架允许我们通过在小噪声制度中导出近似显式规范器来研究一般噪声注入方案的隐式正则化效果。我们发现,在合理的假设下,这种隐含的正规化促进了更平坦的最小值;它偏向具有更稳定动态的模型;并且,在分类任务中,它有利于具有较大分类余量的模型。获得了全局稳定性的充分条件,突出了随机稳定的现象,其中噪音注入可以在训练期间提高稳定性。我们的理论得到了经验结果支持,证明RNN对各种输入扰动具有改善的鲁棒性。
translated by 谷歌翻译
To rigorously certify the robustness of neural networks to adversarial perturbations, most state-of-the-art techniques rely on a triangle-shaped linear programming (LP) relaxation of the ReLU activation. While the LP relaxation is exact for a single neuron, recent results suggest that it faces an inherent "convex relaxation barrier" as additional activations are added, and as the attack budget is increased. In this paper, we propose a nonconvex relaxation for the ReLU relaxation, based on a low-rank restriction of a semidefinite programming (SDP) relaxation. We show that the nonconvex relaxation has a similar complexity to the LP relaxation, but enjoys improved tightness that is comparable to the much more expensive SDP relaxation. Despite nonconvexity, we prove that the verification problem satisfies constraint qualification, and therefore a Riemannian staircase approach is guaranteed to compute a near-globally optimal solution in polynomial time. Our experiments provide evidence that our nonconvex relaxation almost completely overcome the "convex relaxation barrier" faced by the LP relaxation.
translated by 谷歌翻译
由于存在对抗性攻击,因此在安全至关重要系统中使用神经网络需要安全,可靠的模型。了解任何输入X的最小对抗扰动,或等效地知道X与分类边界的距离,可以评估分类鲁棒性,从而提供可认证的预测。不幸的是,计算此类距离的最新技术在计算上很昂贵,因此不适合在线应用程序。这项工作提出了一个新型的分类器家族,即签名的距离分类器(SDC),从理论的角度来看,它直接输出X与分类边界的确切距离,而不是概率分数(例如SoftMax)。 SDC代表一个强大的设计分类器家庭。为了实际解决SDC的理论要求,提出了一种名为Unitary级别神经网络的新型网络体系结构。实验结果表明,所提出的体系结构近似于签名的距离分类器,因此允许以单个推断为代价对X进行在线认证分类。
translated by 谷歌翻译
经认证的稳健性是安全关键应用中的深度神经网络的理想性质,流行的训练算法可以通过计算其Lipschitz常数的全球界限来认证神经网络的鲁棒性。然而,这种界限往往松动:它倾向于过度规范神经网络并降低其自然精度。绑定的Lipschitz绑定可以在自然和认证的准确性之间提供更好的权衡,但通常很难根据网络的非凸起计算。在这项工作中,我们通过考虑激活函数(例如Relu)和权重矩阵之间的相互作用,提出了一种有效和培训的\ emph {本地} Lipschitz上限。具体地,当计算权重矩阵的诱发标准时,我们消除了相应的行和列,其中保证激活函数在每个给定数据点的邻域中是常数,它提供比全局Lipschitz常数的可怕更严格的绑定神经网络。我们的方法可用作插入式模块,以拧紧在许多可认证的训练算法中绑定的Lipschitz。此外,我们建议夹住激活功能(例如,Relu和Maxmin),具有可读的上限阈值和稀疏性损失,以帮助网络实现甚至更严格的本地嘴唇尖端。在实验上,我们表明我们的方法始终如一地优于Mnist,CiFar-10和Tinyimagenet数据集的清洁和认证准确性,具有各种网络架构的清洁和认证的准确性。
translated by 谷歌翻译
本文介绍了梯度下降到全球最低最低限度的新标准。该标准用于表明,当训练任何具有光滑且严格增加激活功能的前馈神经网络时,具有适当初始化的梯度下降将收敛到全局最小值,前提是输入维度大于或等于数据点的数量。先前工作的主要区别在于,网络的宽度可以是固定的数字,而不是作为数据点数量的某些倍数或功率而不现实地生长。
translated by 谷歌翻译
古典统计学习理论表示,拟合太多参数导致过度舒服和性能差。尽管大量参数矛盾,但是现代深度神经网络概括了这一发现,并构成了解释深度学习成功的主要未解决的问题。随机梯度下降(SGD)引起的隐式正规被认为是重要的,但其特定原则仍然是未知的。在这项工作中,我们研究了当地最小值周围的能量景观的局部几何学如何影响SGD的统计特性,具有高斯梯度噪声。我们争辩说,在合理的假设下,局部几何形状力强制SGD保持接近低维子空间,这会引起隐式正则化并导致深神经网络的泛化误差界定更严格的界限。为了获得神经网络的泛化误差界限,我们首先引入局部最小值周围的停滞迹象,并施加人口风险的局部基本凸性财产。在这些条件下,推导出SGD的下界,以保留在这些停滞套件中。如果发生停滞,我们会导出涉及权重矩阵的光谱规范的深神经网络的泛化误差的界限,但不是网络参数的数量。从技术上讲,我们的证据基于控制SGD中的参数值的变化以及基于局部最小值周围的合适邻域的熵迭代的参数值和局部均匀收敛。我们的工作试图通过统一收敛更好地连接非凸优化和泛化分析。
translated by 谷歌翻译
研究神经网络中重量扰动的敏感性及其对模型性能的影响,包括泛化和鲁棒性,是一种积极的研究主题,因为它对模型压缩,泛化差距评估和对抗攻击等诸如模型压缩,泛化差距评估和对抗性攻击的广泛机器学习任务。在本文中,我们在重量扰动下的鲁棒性方面提供了前馈神经网络的第一积分研究和分析及其在体重扰动下的泛化行为。我们进一步设计了一种新的理论驱动损失功能,用于培训互动和强大的神经网络免受重量扰动。进行实证实验以验证我们的理论分析。我们的结果提供了基本洞察,以表征神经网络免受重量扰动的泛化和鲁棒性。
translated by 谷歌翻译
我们提出了一个域理论框架,用于验证神经网络的鲁棒性分析。我们首先分析一般网络类别的全球鲁棒性。然后,利用Edalat的域理论L衍生物与Clarke的广义梯度相吻合的事实,我们扩展了攻击性不足的局部鲁棒性分析的框架。我们的框架是设计构造正确的算法的理想选择。我们通过开发经过验证的算法来估计前馈回归器常数来体现这一主张。我们证明了算法在可区分网络上以及一般位置relu网络的完整性。我们在有效给定域的框架内获得可计算结果。使用我们的域模型,可以统一分析可区分和非差异网络。我们使用任意推测间隔算术实施算法,并介绍一些实验的结果。我们的实现也得到了真正的验证,因为它也处理浮点错误。
translated by 谷歌翻译
我们介绍了一类完全连接的神经网络,其激活功能而不是点,而是仅取决于其规范来缩回特征向量。我们称此类网络径向神经网络,扩展了先前在旋转模棱两可的网络上的工作,该网络认为将激活重新激活较少。我们证明了径向神经网络的通用近似定理,包括在更困难的宽度和无界域的情况下。我们的证明技术是新颖的,与偶然的情况不同。此外,径向神经网络在可训练参数的矢量空间上表现出丰富的基础对称性。分解这些对称性会导致实用的无损模型压缩算法。通过梯度下降对压缩模型的优化等效于整个模型的投影梯度下降。
translated by 谷歌翻译
隐式模型是一种普通学习模型,它放弃了神经网络中典型的层次结构结构,而是基于``平衡''方程来定义内部状态,从而提供竞争性能和减少记忆消耗。但是,培训这些模型通常依赖于昂贵的隐性区分来向后传播。在这项工作中,我们提出了一种新的培训隐式模型的方法,称为国家驱动的隐式建模(SIM),在其中,我们限制了内部状态和输出以匹配基线模型的模型,从而规避了昂贵的落后计算。训练问题通过构造变为凸,由于其可分解的结构,可以平行解决。我们演示了如何应用SIM卡方法来显着提高稀疏性(参数降低)和在FashionMnist和CIFAR-100数据集中训练的基线模型的鲁棒性。
translated by 谷歌翻译
许多最先进的对抗性培训方法利用对抗性损失的上限来提供安全保障。然而,这些方法需要在每个训练步骤中计算,该步骤不能包含在梯度中的梯度以进行反向化。我们基于封闭形式的对抗性损失的封闭溶液引入了一种新的更具内容性的对抗性培训,可以有效地培养了背部衰退。通过稳健优化的最先进的工具促进了这一界限。我们使用我们的方法推出了两种新方法。第一种方法(近似稳健的上限或arub)使用网络的第一阶近似以及来自线性鲁棒优化的基本工具,以获得可以容易地实现的对抗丢失的近似偏置。第二种方法(鲁棒上限或摩擦)计算对抗性损失的精确上限。在各种表格和视觉数据集中,我们展示了我们更加原则的方法的有效性 - 摩擦比最先进的方法更强大,而是较大的扰动的最新方法,而谷会匹配的性能 - 小扰动的艺术方法。此外,摩擦和灌注速度比标准对抗性培训快(以牺牲内存增加)。重现结果的所有代码都可以在https://github.com/kimvc7/trobustness找到。
translated by 谷歌翻译
Verifying the robustness property of a general Rectified Linear Unit (ReLU) network is an NPcomplete problem. Although finding the exact minimum adversarial distortion is hard, giving a certified lower bound of the minimum distortion is possible. Current available methods of computing such a bound are either time-consuming or deliver low quality bounds that are too loose to be useful. In this paper, we exploit the special structure of ReLU networks and provide two computationally efficient algorithms (Fast-Lin,Fast-Lip) that are able to certify non-trivial lower bounds of minimum adversarial distortions. Experiments show that (1) our methods deliver bounds close to (the gap is 2-3X) exact minimum distortions found by Reluplex in small networks while our algorithms are more than 10,000 times faster; (2) our methods deliver similar quality of bounds (the gap is within 35% and usually around 10%; sometimes our bounds are even better) for larger networks compared to the methods based on solving linear programming problems but our algorithms are 33-14,000 times faster; (3) our method is capable of solving large MNIST and CIFAR networks up to 7 layers with more than 10,000 neurons within tens of seconds on a single CPU core. In addition, we show that there is no polynomial time algorithm that can approximately find the minimum 1 adversarial distortion of a ReLU network with a 0.99 ln n approximation ratio unless NP=P, where n is the number of neurons in the network.
translated by 谷歌翻译
深度学习的概括分析通常假定训练会收敛到固定点。但是,最近的结果表明,实际上,用随机梯度下降优化的深神经网络的权重通常无限期振荡。为了减少理论和实践之间的这种差异,本文着重于神经网络的概括,其训练动力不一定会融合到固定点。我们的主要贡献是提出一个统计算法稳定性(SAS)的概念,该算法将经典算法稳定性扩展到非convergergent算法并研究其与泛化的联系。与传统的优化和学习理论观点相比,这种崇高的理论方法可导致新的见解。我们证明,学习算法的时间复杂行为的稳定性与其泛化有关,并在经验上证明了损失动力学如何为概括性能提供线索。我们的发现提供了证据表明,即使训练无限期继续并且权重也不会融合,即使训练持续进行训练,训练更好地概括”的网络也是如此。
translated by 谷歌翻译