In this work, we propose a dissipativity-based method for Lipschitz constant estimation of 1D convolutional neural networks (CNNs). In particular, we analyze the dissipativity properties of convolutional, pooling, and fully connected layers making use of incremental quadratic constraints for nonlinear activation functions and pooling operations. The Lipschitz constant of the concatenation of these mappings is then estimated by solving a semidefinite program which we derive from dissipativity theory. To make our method as efficient as possible, we take the structure of convolutional layers into account realizing these finite impulse response filters as causal dynamical systems in state space and carrying out the dissipativity analysis for the state space realizations. The examples we provide show that our Lipschitz bounds are advantageous in terms of accuracy and scalability.
translated by 谷歌翻译
本文涉及在Semidefinite限制下培训神经网络(NNS)。这种类型的训练问题最近获得了普及,因为半纤维约束可以用于验证包括例如嘴唇峰常数上限的NN的有趣特性,这与NN的鲁棒性或稳定性有关具有NN控制器的动态系统。使用的SemideFinite约束基于底层激活函数满足的扇区约束。遗憾的是,这些新结果的最大瓶颈之一是将Semidefinite限制纳入NNS的训练所需的计算工作,这限制了它们对大NN的可扩展性。我们通过开发NN培训的内部点方法来解决这一挑战,我们使用屏障函数为SEMIDEFINITE约束实现。为了有效地计算屏障术语的梯度,我们利用了半纤维限制的结构。在实验中,我们展示了我们对先前方法的培训方法的卓越效率,这使我们可以在培训Wassersein生成的对抗网络中使用Semidefinite限制,其中鉴别者必须满足Lipschitz条件。
translated by 谷歌翻译
对于深层网络而言,这是一个非常理想的属性,可与小型输入更改保持强大。实现此属性的一种流行方法是设计具有小Lipschitz常数的网络。在这项工作中,我们提出了一种用于构建具有许多理想属性的Lipschitz网络的新技术:它可以应用于任何线性网络层(完全连接或卷积),它在Lipschitz常数上提供了正式的保证,它是易于实施和运行效率,可以与任何培训目标和优化方法结合使用。实际上,我们的技术是文献中第一个同时实现所有这些属性的技术。我们的主要贡献是基于重新的重量矩阵参数化,该参数保证每个网络层最多具有LIPSCHITZ常数,并且导致学习的权重矩阵接近正交。因此,我们称这种层几乎是正交的Lipschitz(AOL)。在图像分类的背景下,实验和消融研究具有认证的鲁棒精度证实,AOL层获得与大多数现有方法相当的结果。但是,它们更容易实现,并且更广泛地适用,因为它们不需要计算昂贵的矩阵正交化或反转步骤作为网络体系结构的一部分。我们在https://github.com/berndprach/aol上提供代码。
translated by 谷歌翻译
对手示例可以容易地降低神经网络中的分类性能。提出了促进这些例子的稳健性的实证方法,但往往缺乏分析见解和正式担保。最近,一些稳健性证书在文献中出现了基于系统理论概念的文献。这项工作提出了一种基于增量的耗散性的稳健性证书,用于每个层的线性矩阵不等式形式的神经网络。我们还提出了对该证书的等效光谱标准,该证书可扩展到具有多个层的神经网络。我们展示了对在MNIST培训的前馈神经网络上的对抗对抗攻击的性能和使用CIFAR-10训练的亚历纳特人。
translated by 谷歌翻译
经认证的稳健性是安全关键应用中的深度神经网络的理想性质,流行的训练算法可以通过计算其Lipschitz常数的全球界限来认证神经网络的鲁棒性。然而,这种界限往往松动:它倾向于过度规范神经网络并降低其自然精度。绑定的Lipschitz绑定可以在自然和认证的准确性之间提供更好的权衡,但通常很难根据网络的非凸起计算。在这项工作中,我们通过考虑激活函数(例如Relu)和权重矩阵之间的相互作用,提出了一种有效和培训的\ emph {本地} Lipschitz上限。具体地,当计算权重矩阵的诱发标准时,我们消除了相应的行和列,其中保证激活函数在每个给定数据点的邻域中是常数,它提供比全局Lipschitz常数的可怕更严格的绑定神经网络。我们的方法可用作插入式模块,以拧紧在许多可认证的训练算法中绑定的Lipschitz。此外,我们建议夹住激活功能(例如,Relu和Maxmin),具有可读的上限阈值和稀疏性损失,以帮助网络实现甚至更严格的本地嘴唇尖端。在实验上,我们表明我们的方法始终如一地优于Mnist,CiFar-10和Tinyimagenet数据集的清洁和认证准确性,具有各种网络架构的清洁和认证的准确性。
translated by 谷歌翻译
虽然最近,已经提出了许多设计来提高卷积神经网络的模型效率(CNNS)在固定资源预算上,对这些设计的理论理解仍然显着缺乏。本文旨在为回答问题提供新框架:压缩CNN中还有剩余的模型冗余吗?我们首先通过张量分解开发CNN和压缩的CNN的一般统计制剂,使得跨层的重物可以总结为单个张量。然后,通过严谨的样本复杂性分析,我们揭示了衍生的样本复杂性和天真参数计数之间的重要差异,它用作模型冗余的直接指示器。通过此发现的激励,我们为压缩CNN的压缩CNN介绍了一种新的模型冗余度量,称为$ k / r $比率,进一步允许非线性激活。通过对流行块设计和数据集的消融研究支持这种新措施的有用性。
translated by 谷歌翻译
在智能手机和控制器系统中的爆炸性增长之后,在从集中数据朝向设备生成的数据中消除数据如何生成数据的加速偏移。作为响应,机器学习算法正在适于在本地运行,潜在的硬件有限,设备,以改善用户隐私,减少延迟并更节能。但是,我们对这些方向算法的表现方式和应培训的理解仍然相当有限。为了解决这个问题,介绍了一种方法来自动综合降低的神经网络(具有较少的神经元)近似近似较大的输入/输出映射。从凸的半定程序生成降低的神经网络的权重和偏差,该凸形半定程序产生相对于较大网络的最坏情况近似误差。获得该近似误差的最坏情况界限,并且该方法可以应用于各种神经网络架构。例如,如何区分所提出的方法来产生小型神经网络的现有方法。修剪是在训练成本函数中直接包含最坏情况近似误差,这应该增加鲁棒性。数值示例突出了所提出的方法的潜力。本文的重新实现目的是概括最近导致神经网络对其重量和偏差的鲁棒合成问题的鲁棒性分析。
translated by 谷歌翻译
本文着重于在二维空间中建立深层卷积神经网络(CNN)的$ l^2 $近似属性。该分析基于具有较大空间大小和多通道的卷积内核的分解定理。鉴于分解结果,relu激活函数的性质和通道的特定结构,通过显示其与一层隐藏层的Relu神经网络(NNS)的联系,获得了具有经典结构的深层relu CNN的通用近似定理。此外,基于这些网络之间的连接,可以为具有重新NET,PER-ACT RESNET和MGNET体系结构的一个版本的神经网络获得近似属性。
translated by 谷歌翻译
我们在监督分类的背景下研究深网的过剩能力。也就是说,给定对基本假设类别的能力度量(在我们的情况下,是经验性的Rademacher的复杂性),我们(先验)可以限制该类别的数量,同时在与无约束性方面保持经验误差的同时保留经验误差?为了评估现代体系结构(例如残留网络)的过剩能力,我们扩展并统一了先前的Rademacher复杂性界限,以适应功能组成和添加以及卷积的结构。我们边界中的容量驱动项是层的Lipschitz常数和卷积权重初始化的(2,1)组的范围距离。在不同任务难度的基准数据集上进行的实验表明,(1)每个任务的容量大量超过容量,并且(2)可以将容量保持在整个任务的惊人相似水平。总体而言,这表明了重量规范的可压缩性概念,这是通过重量修剪正交的经典压缩概念。
translated by 谷歌翻译
我们试图通过探索(深)卷积神经网络和伏特拉卷积之间的关系来理解卷积神经网络。我们提出了一种新颖的方法来解释和研究神经网络的总体特征,而不会受到可怕的复杂体系结构的干扰。具体而言,我们将基本结构及其组合转换为Volterra卷积的形式。结果表明,大多数卷积神经网络可以转换为Volterra卷积的形式,在该形式中,转换后的代理内核保留了原始网络的特征。分析这些代理内核可能会给原始网络提供宝贵的见解。基于此设置,我们提出了近似零订单和订单的代理内核的方法,并验证了结果的正确性和有效性。
translated by 谷歌翻译
由于存在对抗性攻击,因此在安全至关重要系统中使用神经网络需要安全,可靠的模型。了解任何输入X的最小对抗扰动,或等效地知道X与分类边界的距离,可以评估分类鲁棒性,从而提供可认证的预测。不幸的是,计算此类距离的最新技术在计算上很昂贵,因此不适合在线应用程序。这项工作提出了一个新型的分类器家族,即签名的距离分类器(SDC),从理论的角度来看,它直接输出X与分类边界的确切距离,而不是概率分数(例如SoftMax)。 SDC代表一个强大的设计分类器家庭。为了实际解决SDC的理论要求,提出了一种名为Unitary级别神经网络的新型网络体系结构。实验结果表明,所提出的体系结构近似于签名的距离分类器,因此允许以单个推断为代价对X进行在线认证分类。
translated by 谷歌翻译
神经网络的经典发展主要集中在有限维欧基德空间或有限组之间的学习映射。我们提出了神经网络的概括,以学习映射无限尺寸函数空间之间的运算符。我们通过一类线性积分运算符和非线性激活函数的组成制定运营商的近似,使得组合的操作员可以近似复杂的非线性运算符。我们证明了我们建筑的普遍近似定理。此外,我们介绍了四类运算符参数化:基于图形的运算符,低秩运算符,基于多极图形的运算符和傅里叶运算符,并描述了每个用于用每个计算的高效算法。所提出的神经运营商是决议不变的:它们在底层函数空间的不同离散化之间共享相同的网络参数,并且可以用于零击超分辨率。在数值上,与现有的基于机器学习的方法,达西流程和Navier-Stokes方程相比,所提出的模型显示出卓越的性能,而与传统的PDE求解器相比,与现有的基于机器学习的方法有关的基于机器学习的方法。
translated by 谷歌翻译
数据驱动方法已被证明是解决复杂科学问题的有希望的技术。全波形反转(FWI)通常被阐述为图像到图像转换任务,这激励了深度神经网络作为端到端解决方案的使用。尽管采用了合成数据培训,但在用足够的真实数据评估时,深度学习驱动的FWI预计将表现良好。在本文中,我们通过询问研究此类属性:这些深度神经网络的强大是如何发展以及它们如何概括?对于稳健性,我们证明了从清洁和嘈杂数据之间预测之间的偏差的上限。此外,我们展示了噪声水平与额外损失增益之间的相互作用。对于泛化,我们通过稳定性泛化框架证明了基于常规的泛化误差。地震FWI数据集与理论结果的实验​​结果,揭示了利用深度学习对复杂的科学应用的影响。
translated by 谷歌翻译
我们为特殊神经网络架构,称为运营商复发性神经网络的理论分析,用于近似非线性函数,其输入是线性运算符。这些功能通常在解决方案算法中出现用于逆边值问题的问题。传统的神经网络将输入数据视为向量,因此它们没有有效地捕获与对应于这种逆问题中的数据的线性运算符相关联的乘法结构。因此,我们介绍一个类似标准的神经网络架构的新系列,但是输入数据在向量上乘法作用。由较小的算子出现在边界控制中的紧凑型操作员和波动方程的反边值问题分析,我们在网络中的选择权重矩阵中促进结构和稀疏性。在描述此架构后,我们研究其表示属性以及其近似属性。我们还表明,可以引入明确的正则化,其可以从所述逆问题的数学分析导出,并导致概括属性上的某些保证。我们观察到重量矩阵的稀疏性改善了概括估计。最后,我们讨论如何将运营商复发网络视为深度学习模拟,以确定诸如用于从边界测量的声波方程中重建所未知的WAVESTED的边界控制的算法算法。
translated by 谷歌翻译
标准情况被出现为对构成组的身份保留转换的物体表示的理想性质,例如翻译和旋转。然而,由组标准规定的表示的表示的表现仍然不完全理解。我们通过提供封面函数计数定理的概括来解决这个差距,这些定理量化了可以分配给物体的等异点的线性可分离和组不变二进制二分层的数量。我们发现可分离二分法的分数由由组动作固定的空间的尺寸决定。我们展示了该关系如何扩展到卷积,元素 - 明智的非线性和全局和本地汇集等操作。虽然其他操作不会改变可分离二分法的分数,但尽管是高度非线性操作,但是局部汇集减少了分数。最后,我们在随机初始化和全培训的卷积神经网络的中间代表中测试了我们的理论,并找到了完美的协议。
translated by 谷歌翻译
我们研究神经网络的基于规范的统一收敛范围,旨在密切理解它们如何受到规范约束的架构和类型的影响,对于简单的标量价值一类隐藏的一层网络,并在其中界定了输入。欧几里得规范。我们首先证明,通常,控制隐藏层重量矩阵的光谱规范不足以获得均匀的收敛保证(与网络宽度无关),而更强的Frobenius Norm Control是足够的,扩展并改善了以前的工作。在证明构造中,我们识别和分析了两个重要的设置,在这些设置中(可能令人惊讶)仅光谱规范控制就足够了:首先,当网络的激活函数足够平滑时(结果扩展到更深的网络);其次,对于某些类型的卷积网络。在后一种情况下,我们研究样品复杂性如何受到参数的影响,例如斑块之间的重叠量和斑块的总数。
translated by 谷歌翻译
Lipschitz Bound估计是使深度神经网络正规化以使其可抵抗对抗性攻击的有效方法。这在从加强学习到自主系统的各种应用中很有用。在本文中,我们强调了卷积神经网络(CNN)获得非平凡的Lipschitz结合证书的显着差距,并通过广泛的图形分析在经验上支持它。我们还表明,可以使用展开的卷积层或Toeplitz矩阵将卷积神经网络(CNN)转换为完全连接的网络。此外,我们提出了一种简单的算法,以显示实际Lipschitz常数和所获得的紧密结合之间的特定数据分布中现有的20x-50x差距。我们还对各种网络体系结构进行了一组彻底的实验,并在MNIST和CIFAR-10等数据集上进行基准测试。所有这些建议都通过广泛的测试,图形,直方图和比较分析来支持。
translated by 谷歌翻译
我们提供了通过线性激活的多渠道卷积神经网络中的$ \ ell_2 $标准来最大程度地减少$ \ ell_2 $标准而产生的功能空间表征,并经验测试了我们对使用梯度下降训练的Relu网络的假设。我们将功能空间中的诱导正规化程序定义为实现函数所需的网络权重规范的最小$ \ ell_2 $。对于具有$ C $输出频道和内核尺寸$ K $的两个层线性卷积网络,我们显示以下内容:(a)如果网络的输入是单个渠道,则任何$ k $的诱导正规器都与数字无关输出频道$ c $。此外,我们得出正常化程序是由半决赛程序(SDP)给出的规范。 (b)相比之下,对于多通道输入,仅实现所有矩阵值值线性函数而需要多个输出通道,因此归纳偏置确实取决于$ c $。但是,对于足够大的$ c $,诱导的正规化程序再次由独立于$ c $的SDP给出。特别是,$ k = 1 $和$ k = d $(输入维度)的诱导正规器以封闭形式作为核标准和$ \ ell_ {2,1} $ group-sparse Norm,线性预测指标的傅立叶系数。我们通过对MNIST和CIFAR-10数据集的实验来研究理论结果对从线性和RELU网络上梯度下降的隐式正则化的更广泛的适用性。
translated by 谷歌翻译
在本文中,我们提出了一个新型的非线性观察者,称为神经观察者,以通过将神经网络(NN)引入观察者的设计,以实现线性时间传播(LTI)系统的观察任务和不确定的非线性系统。通过探索NN代表向NN映射矢量的方法,我们从LTI和不确定的非线性系统中得出了稳定性分析(例如,指数收敛速率),这些系统仅使用线性矩阵不平等(LMIS)为解决观察问题铺平了道路。值得注意的是,为不确定系统设计的神经观察者基于主动扰动拒绝控制(ADRC)的意识形态,该思想可以实时测量不确定性。 LMI结果也很重要,因为我们揭示了LMI溶液存在系统矩阵的可观察性和可控性。最后,我们在三个模拟案例上验证神经观察者的可用性,包括X-29A飞机模型,非线性摆和四轮转向车辆。
translated by 谷歌翻译
在本文中,我们为通过深神经网络参数参数的离散时间动力学系统的消散性和局部渐近稳定提供了足够的条件。我们利用神经网络作为点式仿射图的表示,从而揭示其本地线性操作员并使其可以通过经典的系统分析和设计方法访问。这使我们能够通过评估其耗散性并估算其固定点和状态空间分区来“打开神经动力学系统行为的黑匣子”。我们将这些局部线性运算符的规范与耗散系统中存储的能量的规范联系起来,其供应率由其总偏差项表示。从经验上讲,我们分析了这些局部线性运算符的动力学行为和特征值光谱的差异,具有不同的权重,激活函数,偏置项和深度。
translated by 谷歌翻译