Deep Neural Networks (DNNs) outshine alternative function approximators in many settings thanks to their modularity in composing any desired differentiable operator. The formed parametrized functional is then tuned to solve a task at hand from simple gradient descent. This modularity comes at the cost of making strict enforcement of constraints on DNNs, e.g. from a priori knowledge of the task, or from desired physical properties, an open challenge. In this paper we propose the first provable affine constraint enforcement method for DNNs that requires minimal changes into a given DNN's forward-pass, that is computationally friendly, and that leaves the optimization of the DNN's parameter to be unconstrained i.e. standard gradient-based method can be employed. Our method does not require any sampling and provably ensures that the DNN fulfills the affine constraint on a given input space's region at any point during training, and testing. We coin this method POLICE, standing for Provably Optimal LInear Constraint Enforcement.
translated by 谷歌翻译
在现代深网(DNS)中,至关重要的,无处不在且知之甚少的成分是批处理(BN),它以特​​征图为中心并归一化。迄今为止,只有有限的进步才能理解为什么BN会提高DN学习和推理表现。工作专注于表明BN平滑DN的损失格局。在本文中,我们从函数近似的角度从理论上研究BN。我们利用这样一个事实,即当今最先进的DNS是连续的分段仿射(CPA),可以通过定义在输入空间的分区上定义的仿射映射来预测培训数据(所谓的“线性”区域”)。 {\ em我们证明了BN是一种无监督的学习技术,它独立于DN的权重或基于梯度的学习 - 适应DN的样条分区的几何形状以匹配数据。} BN提供了“智能初始化”,可提高“智能初始化” DN学习的性能,因为它甚至适应了以随机权重初始化的DN,以使其样条分区与数据保持一致。我们还表明,微型批次之间的BN统计数据的变化引入了辍学的随机扰动,以对分区边界,因此分类问题的决策边界。每次微型摄入扰动可通过增加训练样本和决策边界之间的边距来减少过度拟合并改善概括。
translated by 谷歌翻译
在本文中,我们研究了在深网(DNS)中修剪的重要性,以及(1)修剪高度参数的DNS之间的Yin&Yang关系,这些DNS已从随机初始化训练,并且(2)培训“巧妙”的小型DNS,这些DNS已“巧妙”。初始化。在大多数情况下,从业者只能诉诸随机初始化,因此强烈需要对DN修剪建立扎实的理解。当前的文献在很大程度上仍然是经验的,缺乏对修剪如何影响DNS决策边界,如何解释修剪以及如何设计相应的原则修剪技术的理论理解。为了解决这些问题,我们建议在连续分段仿射(CPA)DNS的理论分析中采用最新进展。从这个角度来看,我们将能够检测到早期的鸟类(EB)票务现象,为当前的修剪技术提供可解释性,并制定有原则的修剪策略。在研究的每个步骤中,我们进行了广泛的实验,以支持我们的主张和结果;尽管我们的主要目标是增强对DN修剪的当前理解,而不是开发一种新的修剪方法,但我们的样条修剪标准在层和全球修剪方面与先进的修剪方法相当甚至超过了。
translated by 谷歌翻译
在深度学习中的一个大神秘程度仍然是如何在模型参数的数量大于训练示例的数量时概括的方法。在这项工作中,我们迈向更好地了解深度自动化器(AES)的潜在现象,是用于学习压缩,可解释和结构化数据表示的主流深度学习解决方案。特别是,我们通过利用它们的连续分段仿射结构来解释AES如何近似数据流形。我们对AES的重新构建提供了新的见解,进入其映射,重建担保以及常用正则化技术的解释。我们利用这些发现导出了两个新的正规化,使能AES捕获数据中的固有对称性。我们的规范化利用了最近的转换组学习的进步,使AES能够更好地近似数据歧管,而无需明确定义歧管底层的基团。在假设数据的对称性可以通过LIE组解释,我们证明了规范化确保了相应AES的泛化。一系列实验评估表明,我们的方法优于其他最先进的正则化技术。
translated by 谷歌翻译
We study the expressibility and learnability of convex optimization solution functions and their multi-layer architectural extension. The main results are: \emph{(1)} the class of solution functions of linear programming (LP) and quadratic programming (QP) is a universal approximant for the $C^k$ smooth model class or some restricted Sobolev space, and we characterize the rate-distortion, \emph{(2)} the approximation power is investigated through a viewpoint of regression error, where information about the target function is provided in terms of data observations, \emph{(3)} compositionality in the form of a deep architecture with optimization as a layer is shown to reconstruct some basic functions used in numerical analysis without error, which implies that \emph{(4)} a substantial reduction in rate-distortion can be achieved with a universal network architecture, and \emph{(5)} we discuss the statistical bounds of empirical covering numbers for LP/QP, as well as a generic optimization problem (possibly nonconvex) by exploiting tame geometry. Our results provide the \emph{first rigorous analysis of the approximation and learning-theoretic properties of solution functions} with implications for algorithmic design and performance guarantees.
translated by 谷歌翻译
Neural networks are known to be a class of highly expressive functions able to fit even random inputoutput mappings with 100% accuracy. In this work we present properties of neural networks that complement this aspect of expressivity. By using tools from Fourier analysis, we highlight a learning bias of deep networks towards low frequency functions -i.e. functions that vary globally without local fluctuations -which manifests itself as a frequency-dependent learning speed. Intuitively, this property is in line with the observation that over-parameterized networks prioritize learning simple patterns that generalize across data samples. We also investigate the role of the shape of the data manifold by presenting empirical and theoretical evidence that, somewhat counter-intuitively, learning higher frequencies gets easier with increasing manifold complexity.
translated by 谷歌翻译
我们提出了一种修复使用Relu激活功能的神经网络的新方法。与现有的方法依赖于修改可以诱导函数空间全局变化的神经网络的权重的现有方法不同,我们的方法仅应用功能空间的局部变化,同时仍然保证删除了车辆行为。通过利用Relu网络的分段线性性质,我们的方法可以有效地构建一个针对该线性输入驻留的线性区域量身定制的补丁网络,当与原始网络结合使用时,可以证明该网络可以纠正错误输入的行为。我们的方法既声音又完整 - 修复后的网络可以确保修复该越野车的输入,并确保为任何越野车输入找到一个补丁程序。此外,我们的方法保留了Relu网络的连续分段线性性质,自动将修复到所有要点的维修,包括维修区域内的其他未检测到的错误输入,在功能空间的变化方面是最小的,并确保输出输出输出。从维修区域不变。在几个基准上,我们表明我们的方法在区域性和限制负面影响方面显着优于现有方法。
translated by 谷歌翻译
在本文中,我们在具有线性阈值激活功能的神经网络上提出了新的结果。我们精确地表征了这种神经网络可表示的功能,并且显示2个隐藏层是必要的并且足以表示类中可表示的任何功能。鉴于使用其他流行的激活功能的神经网络的最近精确的可比性调查,这是一个令人惊讶的结果,这些功能使用其他流行的激活功能,如整流的线性单元(Relu)。我们还给出了代表类中任意函数所需的神经网络的大小的精确界限。最后,我们设计了一种算法来解决具有固定架构的这些神经网络的全球最优性的经验风险最小化(ERM)问题。如果输入维度和网络架构的大小被认为是固定常数,则算法的运行时间是数据样本大小的多项式。该算法的意义上是独一无二的,即它适用于任何数量的层数,而先前的多项式时间全局最佳算法仅适用于非常受限制的架构类。
translated by 谷歌翻译
我们考虑非线性优化问题,涉及神经网络代表代理模型。我们首先展示了如何直接将神经网络评估嵌入优化模型中,突出难以防止收敛的方法,然后表征这些模型的平稳性。然后,我们在具有Relu激活的前馈神经网络的特定情况下存在两种替代配方,其具有recu激活:作为混合整数优化问题,作为具有互补限制的数学程序。对于后一种制剂,我们证明了在该问题的点处的有同性,对应于嵌入式制剂的实质性。这些配方中的每一个都可以用最先进的优化方法来解决,并且我们展示了如何为这些方法获得良好的初始可行解决方案。我们将三种实际应用的配方进行比较,在燃烧发动机的设计和控制中产生的三种实际应用,在对分类器网络的对抗攻击中产生的产生,以及在油井网中的最佳流动确定。
translated by 谷歌翻译
使用神经网络学习依赖于可代表功能的复杂性,但更重要的是,典型参数的特定分配与不同复杂度的功能。将激活区域的数量作为复杂性度量,最近的作品表明,深度释放网络的实际复杂性往往远远远非理论最大值。在这项工作中,我们表明这种现象也发生在具有颤扬(多参数)激活功能的网络中,并且在考虑分类任务中的决策边界时。我们还表明参数空间具有多维全维区域,具有广泛不同的复杂性,并在预期的复杂性上获得非竞争下限。最后,我们调查了不同的参数初始化程序,并表明他们可以提高培训的收敛速度。
translated by 谷歌翻译
本文介绍了OptNet,该网络架构集成了优化问题(这里,专门以二次程序的形式),作为较大端到端可训练的深网络中的单个层。这些层在隐藏状态之间编码约束和复杂依赖性,传统的卷积和完全连接的层通常无法捕获。我们探索这种架构的基础:我们展示了如何使用敏感性分析,彼得优化和隐式差分的技术如何通过这些层和相对于层参数精确地区分;我们为这些层开发了一种高效的解算器,用于利用基于GPU的基于GPU的批处理在原始 - 双内部点法中解决,并且在求解的顶部几乎没有额外的成本提供了反向衰减梯度;我们突出了这些方法在几个问题中的应用。在一个值得注意的示例中,该方法学习仅在输入和输出游戏中播放Mini-sudoku(4x4),没有关于游戏规则的a-priori信息;这突出了OptNet比其他神经架构更好地学习硬限制的能力。
translated by 谷歌翻译
普遍缺乏与深馈出神经网络(DNN)有关的理解,可能部分归因于缺乏分析非线性功能组成的工具,部分是由于缺乏适用于DNN体系结构多样性的数学模型。在本文中,我们做出了许多与激活函数,非线性转换和DNN体系结构有关的基本假设,以便使用未矫正方法通过定向的无环图(DAGS)分析DNN。满足这些假设的DNN被称为一般DNN。我们对分析图的构造是基于一种公理方法,在该方法中,根据监管规则,通过将原子操作应用于基本元素,从自下而上构建了DAG。这种方法使我们能够通过数学诱导得出一般DNN的特性。我们表明,使用建议的方法,可以得出一般DNN的某些属性。如果可以利用大量的图形分析工具,则该分析可以提高我们对网络功能的理解,并可以促进进一步的理论见解。
translated by 谷歌翻译
We study the complexity of functions computable by deep feedforward neural networks with piecewise linear activations in terms of the symmetries and the number of linear regions that they have. Deep networks are able to sequentially map portions of each layer's input-space to the same output. In this way, deep models compute functions that react equally to complicated patterns of different inputs. The compositional structure of these functions enables them to re-use pieces of computation exponentially often in terms of the network's depth. This paper investigates the complexity of such compositional maps and contributes new theoretical results regarding the advantage of depth for neural networks with piecewise linear activation functions. In particular, our analysis is not specific to a single family of models, and as an example, we employ it for rectifier and maxout networks. We improve complexity bounds from pre-existing work and investigate the behavior of units in higher layers.
translated by 谷歌翻译
作为一种强大的建模方法,分段线性神经网络(PWLNNS)已在各个领域都被证明是成功的,最近在深度学习中。为了应用PWLNN方法,长期以来一直研究了表示和学习。 1977年,规范表示率先通过增量设计学到了浅层PWLNN的作品,但禁止使用大规模数据的应用。 2010年,纠正的线性单元(RELU)提倡在深度学习中PWLNN的患病率。从那以后,PWLNNS已成功地应用于广泛的任务并实现了有利的表现。在本引物中,我们通过将作品分组为浅网络和深层网络来系统地介绍PWLNNS的方法。首先,不同的PWLNN表示模型是由详细示例构建的。使用PWLNNS,提出了学习数据的学习算法的演变,并且基本理论分析遵循深入的理解。然后,将代表性应用与讨论和前景一起引入。
translated by 谷歌翻译
除了预测误差的最小化之外,回归方案的两个最期望的性质是稳定性和解释性。由这些原则驱动,我们提出了连续域配方进行一维回归问题。在我们的第一种方法中,我们使用Lipschitz常数作为规范器,这导致了解学习映射的整体稳健性的调整。在我们的第二种方法中,我们使用用户定义的上限和使用稀疏性常规程序来控制Lipschitz常数,以便更简单地支持(以及因此,更可取的可解释)的解决方案。后者制剂的理论研究部分地通过其证明的等效性,利用整流线性单元(Relu)激活和重量衰减,训练Lipschitz受约束的两层单变量神经网络。通过证明代表定理,我们表明这两个问题都承认是连续和分段线性(CPWL)功能的全局最小值。此外,我们提出了高效的算法,该算法找到了每个问题的稀疏解决方案:具有最少数量的线性区域的CPWL映射。最后,我们在数字上说明了我们的配方的结果。
translated by 谷歌翻译
许多前馈神经网络会产生连续和分段线性(CPWL)映射。具体而言,它们将输入域分配给映射为仿射函数的区域。这些所谓的线性区域的数量提供了自然度量标准,可以表征CPWL映射的表现力。尽管该数量的精确确定通常是无法触及的,但已经针对包括众所周知的Relu和Maxout网络提出了界限。在这项工作中,我们提出了一个更一般的观点,并基于三种表达能力来源:深度,宽度和激活复杂性,就CPWL网络的最大线性区域数量提供精确的界限。我们的估计依赖于凸形分区的组合结构,并突出了深度的独特作用,该作用本身能够呈指数级增加区域数量。然后,我们引入了一个互补的随机框架,以估计CPWL网络体系结构产生的线性区域的平均数量。在合理的假设下,沿任何一维路径的线性区域的预期密度都受深度,宽度和激活复杂度度量(最高缩放系数)的量的限制。这对三种表达能力产生了相同的作用:不再观察到深度的指数增长。
translated by 谷歌翻译
影响模型预测控制(MPC)策略的神经网络(NN)近似的常见问题是缺乏分析工具来评估基于NN的控制器的动作下闭环系统的稳定性。我们介绍了一种通用过程来量化这种控制器的性能,或者设计具有整流的线性单元(Relus)的最小复杂性NN,其保留给定MPC方案的理想性质。通过量化基于NN和基于MPC的状态到输入映射之间的近似误差,我们首先建立适当的条件,涉及两个关键量,最坏情况误差和嘴唇截止恒定,保证闭环系统的稳定性。然后,我们开发了一个离线,混合整数的基于优化的方法,以确切地计算这些数量。这些技术共同提供足以认证MPC控制法的基于Relu的近似的稳定性和性能的条件。
translated by 谷歌翻译
这项工作解决了通过分段线性非线性激活来表征和理解神经网络的决策界限的问题。我们使用热带几何形状,这是代数几何区域中的新开发项目,以表征形式的简单网络(Aggine,Relu,offine)的决策边界。我们的主要发现是,决策边界是热带超曲面的子集,该子集与两个分区的凸壳形成的多层密切相关。这些分区的生成器是网络参数的函数。这种几何表征为三个任务提供了新的观点。 (i)我们对彩票假说提出了一个新的热带观点,在其中我们查看了不同初始化对网络决策边界热带几何表示的影响。 (ii)此外,我们提出了新的基于热带的优化重新纠正,该重新策划直接影响网络修剪任务的网络决策边界。 (iii)最后,我们在热带意义上讨论了对抗攻击的产生的重新印象。我们证明,可以通过扰动网络中的一组参数来扰动一组特定的决策边界,在新的热带环境中构建对手。
translated by 谷歌翻译
We develop new theoretical results on matrix perturbation to shed light on the impact of architecture on the performance of a deep network. In particular, we explain analytically what deep learning practitioners have long observed empirically: the parameters of some deep architectures (e.g., residual networks, ResNets, and Dense networks, DenseNets) are easier to optimize than others (e.g., convolutional networks, ConvNets). Building on our earlier work connecting deep networks with continuous piecewise-affine splines, we develop an exact local linear representation of a deep network layer for a family of modern deep networks that includes ConvNets at one end of a spectrum and ResNets, DenseNets, and other networks with skip connections at the other. For regression and classification tasks that optimize the squared-error loss, we show that the optimization loss surface of a modern deep network is piecewise quadratic in the parameters, with local shape governed by the singular values of a matrix that is a function of the local linear representation. We develop new perturbation results for how the singular values of matrices of this sort behave as we add a fraction of the identity and multiply by certain diagonal matrices. A direct application of our perturbation results explains analytically why a network with skip connections (such as a ResNet or DenseNet) is easier to optimize than a ConvNet: thanks to its more stable singular values and smaller condition number, the local loss surface of such a network is less erratic, less eccentric, and features local minima that are more accommodating to gradient-based optimization. Our results also shed new light on the impact of different nonlinear activation functions on a deep network's singular values, regardless of its architecture.
translated by 谷歌翻译
由于存在对抗性攻击,因此在安全至关重要系统中使用神经网络需要安全,可靠的模型。了解任何输入X的最小对抗扰动,或等效地知道X与分类边界的距离,可以评估分类鲁棒性,从而提供可认证的预测。不幸的是,计算此类距离的最新技术在计算上很昂贵,因此不适合在线应用程序。这项工作提出了一个新型的分类器家族,即签名的距离分类器(SDC),从理论的角度来看,它直接输出X与分类边界的确切距离,而不是概率分数(例如SoftMax)。 SDC代表一个强大的设计分类器家庭。为了实际解决SDC的理论要求,提出了一种名为Unitary级别神经网络的新型网络体系结构。实验结果表明,所提出的体系结构近似于签名的距离分类器,因此允许以单个推断为代价对X进行在线认证分类。
translated by 谷歌翻译