我们使用边缘赋予易于思考Pac-Bayesian界的一般配方,临界成分是我们随机预测集中在某种程度上集中。我们开发的工具直接导致各种分类器的裕度界限,包括线性预测 - 一个类,包括升高和支持向量机 - 单隐藏层神经网络,具有异常\(\ ERF \)激活功能,以及深度释放网络。此外,我们延伸到部分易碎的预测器,其中只去除一些随机性,让我们延伸到我们预测器的浓度特性否则差的情况。
translated by 谷歌翻译
我们专注于具有单个隐藏层的特定浅神经网络,即具有$ l_2 $ normalistization的数据以及Sigmoid形状的高斯错误函数(“ ERF”)激活或高斯错误线性单元(GELU)激活。对于这些网络,我们通过Pac-Bayesian理论得出了新的泛化界限。与大多数现有的界限不同,它们适用于具有确定性或随机参数的神经网络。当网络接受Mnist和Fashion-Mnist上的香草随机梯度下降训练时,我们的界限在经验上是无效的。
translated by 谷歌翻译
我们研究了对分类器的有限集合的多数投票的概括特性,通过PAC-Bayes理论证明了基于利润的概括界。这些为许多分类任务提供了最先进的保证。我们的中心结果利用了Zantedeschi等人最近研究的Dirichlet后期。[2021]用于培训投票分类器;与这项工作相反,我们的界限适用于通过利润率使用的非随机票。我们的贡献使Schapire等人提出的“边缘理论”的辩论增加了观点。[1998]用于集合分类器的概括。
translated by 谷歌翻译
We present a generalization bound for feedforward neural networks with ReLU activations in terms of the product of the spectral norm of the layers and the Frobenius norm of the weights. The key ingredient is a bound on the changes in the output of a network with respect to perturbation of its weights, thereby bounding the sharpness of the network. We combine this perturbation bound with the PAC-Bayes analysis to derive the generalization bound.
translated by 谷歌翻译
在本文中,我们调查了问题:给定少数DataPoints,例如n = 30,可以严格的CAG-Bayes和测试集界限进行紧张吗?对于这种小型数据集,测试集界限通过从培训程序中扣留数据而产生不利影响泛化性能。在这种环境中,Pac-Bayes界限尤其吸引力,因为它们使用所有数据的能力同时学习后部并结合其泛化风险。我们专注于i.i.d.具有有界损失的数据,并考虑Germain等人的通用Pac-Bayes定理。虽然已知定理恢复许多现有的PAC-Bayes界,但目前尚不清楚他们的框架中最有束缚的终结。对于一个固定的学习算法和数据集,我们表明最紧密的绑定与Catoni考虑的绑定相一致;并且,在更自然的数据集发行情况下,我们在期望中获得最佳界限的下限。有趣的是,如果后部等于先前,则这个下限会恢复绑定的Chernoff测试集。此外,为了说明这些界限有多紧,我们研究了合成的一维分类任务,其中它是可行的 - 学习绑定的先前和形状,以便最有效地优化最佳界限。我们发现,在这种简单,受控的场景中,Pac-Bayes界竞争与可比常用的Chernoff测试集合界限具有竞争​​力。然而,最清晰的测试集界仍然导致泛化误差比我们考虑的Pac-Bayes所界限更好地保证。
translated by 谷歌翻译
通过使一组基本预测因素投票根据一些权重,即对某些概率分布来获得聚合预测器。根据一些规定的概率分布,通过在一组基本预测器中采样来获得随机预测器。因此,聚合和随机预测器的共同之处包括最小化问题,而是通过对预测器集的概率分布来定义。在统计学习理论中,有一套工具旨在了解此类程序的泛化能力:Pac-Bayesian或Pac-Bayes界。由于D. Mcallester的原始Pac-Bayes界,这些工具在许多方向上得到了大大改善(例如,我们将描述社区错过的O. Catoni的定位技术的简化版本,后来被重新发现“相互信息界“)。最近,Pac-Bayes的界限受到相当大的关注:例如,在2017年的Pac-Bayes上有研讨会,“(几乎)50种贝叶斯学习:Pac-Bayesian趋势和见解”,由B. Guedj,F组织。 。巴赫和P.Merain。这一最近成功的原因之一是通过G. Dziugaite和D. Roy成功地将这些限制应用于神经网络。对Pac-Bayes理论的初步介绍仍然缺失。这是一种尝试提供这样的介绍。
translated by 谷歌翻译
我们研究神经网络的基于规范的统一收敛范围,旨在密切理解它们如何受到规范约束的架构和类型的影响,对于简单的标量价值一类隐藏的一层网络,并在其中界定了输入。欧几里得规范。我们首先证明,通常,控制隐藏层重量矩阵的光谱规范不足以获得均匀的收敛保证(与网络宽度无关),而更强的Frobenius Norm Control是足够的,扩展并改善了以前的工作。在证明构造中,我们识别和分析了两个重要的设置,在这些设置中(可能令人惊讶)仅光谱规范控制就足够了:首先,当网络的激活函数足够平滑时(结果扩展到更深的网络);其次,对于某些类型的卷积网络。在后一种情况下,我们研究样品复杂性如何受到参数的影响,例如斑块之间的重叠量和斑块的总数。
translated by 谷歌翻译
古典统计学习理论表示,拟合太多参数导致过度舒服和性能差。尽管大量参数矛盾,但是现代深度神经网络概括了这一发现,并构成了解释深度学习成功的主要未解决的问题。随机梯度下降(SGD)引起的隐式正规被认为是重要的,但其特定原则仍然是未知的。在这项工作中,我们研究了当地最小值周围的能量景观的局部几何学如何影响SGD的统计特性,具有高斯梯度噪声。我们争辩说,在合理的假设下,局部几何形状力强制SGD保持接近低维子空间,这会引起隐式正则化并导致深神经网络的泛化误差界定更严格的界限。为了获得神经网络的泛化误差界限,我们首先引入局部最小值周围的停滞迹象,并施加人口风险的局部基本凸性财产。在这些条件下,推导出SGD的下界,以保留在这些停滞套件中。如果发生停滞,我们会导出涉及权重矩阵的光谱规范的深神经网络的泛化误差的界限,但不是网络参数的数量。从技术上讲,我们的证据基于控制SGD中的参数值的变化以及基于局部最小值周围的合适邻域的熵迭代的参数值和局部均匀收敛。我们的工作试图通过统一收敛更好地连接非凸优化和泛化分析。
translated by 谷歌翻译
我们观察到,给定两个(兼容的)函数类别$ \ MATHCAL {f} $和$ \ MATHCAL {h} $,具有较小的容量,按其均匀覆盖的数字测量,组成类$ \ Mathcal {H} \ Circ \ Mathcal {f} $可能会变得非常大,甚至无限。然后,我们证明,在用$ \ Mathcal {h} $构成$ \ Mathcal {f} $的输出中,添加少量高斯噪声可以有效地控制$ \ Mathcal {H} \ Circ \ Mathcal { F} $,提供模块化设计的一般配方。为了证明我们的结果,我们定义了均匀覆盖随机函数数量的新概念,相对于总变异和瓦斯坦斯坦距离。我们将结果实例化,以实现多层Sigmoid神经​​网络。 MNIST数据集的初步经验结果表明,在现有统一界限上改善所需的噪声量在数值上可以忽略不计(即,元素的I.I.D. I.I.D.高斯噪声,具有标准偏差$ 10^{ - 240} $)。源代码可从https://github.com/fathollahpour/composition_noise获得。
translated by 谷歌翻译
The fundamental learning theory behind neural networks remains largely open. What classes of functions can neural networks actually learn? Why doesn't the trained network overfit when it is overparameterized?In this work, we prove that overparameterized neural networks can learn some notable concept classes, including two and three-layer networks with fewer parameters and smooth activations. Moreover, the learning can be simply done by SGD (stochastic gradient descent) or its variants in polynomial time using polynomially many samples. The sample complexity can also be almost independent of the number of parameters in the network.On the technique side, our analysis goes beyond the so-called NTK (neural tangent kernel) linearization of neural networks in prior works. We establish a new notion of quadratic approximation of the neural network (that can be viewed as a second-order variant of NTK), and connect it to the SGD theory of escaping saddle points.
translated by 谷歌翻译
我们提出了Pac-Bayes风格的概括结合,该结合可以用各种积分概率指标(IPM)替换KL-Divergence。我们提供了这种结合的实例,IPM是总变异度量和Wasserstein距离。获得的边界的一个显着特征是,它们在最坏的情况下(当前和后距离彼此远距离时)在经典均匀收敛边界之间自然插值,并且在更好的情况下(后验和先验都关闭时)优选界限。这说明了使用算法和数据依赖性组件加强经典概括界限的可能性,从而使它们更适合分析使用大假设空间的算法。
translated by 谷歌翻译
With a goal of understanding what drives generalization in deep networks, we consider several recently suggested explanations, including norm-based control, sharpness and robustness. We study how these measures can ensure generalization, highlighting the importance of scale normalization, and making a connection between sharpness and PAC-Bayes theory. We then investigate how well the measures explain different observed phenomena.
translated by 谷歌翻译
在因果推理和强盗文献中,基于观察数据的线性功能估算线性功能的问题是规范的。我们分析了首先估计治疗效果函数的广泛的两阶段程序,然后使用该数量来估计线性功能。我们证明了此类过程的均方误差上的非反应性上限:这些边界表明,为了获得非反应性最佳程序,应在特定加权$ l^2 $中最大程度地估算治疗效果的误差。 -规范。我们根据该加权规范的约束回归分析了两阶段的程序,并通过匹配非轴突局部局部最小值下限,在有限样品中建立了实例依赖性最优性。这些结果表明,除了取决于渐近效率方差之外,最佳的非质子风险除了取决于样本量支持的最富有函数类别的真实结果函数与其近似类别之间的加权规范距离。
translated by 谷歌翻译
广义贝叶斯推理使用损失函数而不是可能性的先前信仰更新,因此可以用于赋予鲁棒性,以防止可能的错误规范的可能性。在这里,我们认为广泛化的贝叶斯推论斯坦坦差异作为损失函数的损失,由应用程序的可能性含有难治性归一化常数。在这种情况下,斯坦因差异来避免归一化恒定的评估,并产生封闭形式或使用标准马尔可夫链蒙特卡罗的通用后出版物。在理论层面上,我们显示了一致性,渐近的正常性和偏见 - 稳健性,突出了这些物业如何受到斯坦因差异的选择。然后,我们提供关于一系列棘手分布的数值实验,包括基于内核的指数家庭模型和非高斯图形模型的应用。
translated by 谷歌翻译
这项工作研究了浅relu网络通过梯度下降训练的浅relu网络,在底层数据分布一般的二进制分类数据上,(最佳)贝叶斯风险不一定为零。在此设置中,表明,在早期停止的梯度下降达到人口风险在不仅仅是逻辑和错误分类损失方面,也可以在校准方面任意接近最佳,这意味着其输出的符合矩阵映射近似于真正的条件分布任意精细。此外,这种分析的必要迭代,样本和架构复杂性,并且在真实条件模型的某种复杂度测量方面都是自然的。最后,虽然没有表明需要早期停止是必要的,但是显示满足局部内插特性的任何单变量分类器是不一致的。
translated by 谷歌翻译
Neural networks with random weights appear in a variety of machine learning applications, most prominently as the initialization of many deep learning algorithms and as a computationally cheap alternative to fully learned neural networks. In the present article, we enhance the theoretical understanding of random neural networks by addressing the following data separation problem: under what conditions can a random neural network make two classes $\mathcal{X}^-, \mathcal{X}^+ \subset \mathbb{R}^d$ (with positive distance) linearly separable? We show that a sufficiently large two-layer ReLU-network with standard Gaussian weights and uniformly distributed biases can solve this problem with high probability. Crucially, the number of required neurons is explicitly linked to geometric properties of the underlying sets $\mathcal{X}^-, \mathcal{X}^+$ and their mutual arrangement. This instance-specific viewpoint allows us to overcome the usual curse of dimensionality (exponential width of the layers) in non-pathological situations where the data carries low-complexity structure. We quantify the relevant structure of the data in terms of a novel notion of mutual complexity (based on a localized version of Gaussian mean width), which leads to sound and informative separation guarantees. We connect our result with related lines of work on approximation, memorization, and generalization.
translated by 谷歌翻译
深度分离结果提出了对深度神经网络过较浅的架构的好处的理论解释,建立前者具有卓越的近似能力。然而,没有已知的结果,其中更深的架构利用这种优势成为可提供的优化保证。我们证明,当数据由具有满足某些温和假设的径向对称的分布产生的数据时,梯度下降可以使用具有两层S形激活的深度2神经网络有效地学习球指示器功能,并且隐藏层固定在一起训练。由于众所周知,当使用用单层非线性的深度2网络(Safran和Shamir,2017)使用深度2网络时,球指示器难以近似于一定的重型分配,这建立了我们最好的知识,基于第一优化的分离结果,其中近似架构的近似效益在实践中可怕的。我们的证明技术依赖于随机特征方法,该方法减少了用单个神经元学习的问题,其中新工具需要在数据分布重尾时显示梯度下降的收敛。
translated by 谷歌翻译
This paper presents a margin-based multiclass generalization bound for neural networks that scales with their margin-normalized spectral complexity: their Lipschitz constant, meaning the product of the spectral norms of the weight matrices, times a certain correction factor. This bound is empirically investigated for a standard AlexNet network trained with SGD on the mnist and cifar10 datasets, with both original and random labels; the bound, the Lipschitz constants, and the excess risks are all in direct correlation, suggesting both that SGD selects predictors whose complexity scales with the difficulty of the learning task, and secondly that the presented bound is sensitive to this complexity.
translated by 谷歌翻译
这项工作确立了梯度流量(GF)和随机梯度下降(SGD)的低测试误差(SGD)在具有标准初始化的两层relu网络上,在三个方案中,关键的重量集很少旋转(自然要么是由于GF和SGD,要么是由于GF和SGD,或达到人为的约束),并利用边缘作为核心分析技术。第一个制度几乎是初始化的,特别是直到权重以$ \ mathcal {o}(\ sqrt m)$移动为止,其中$ m $表示网络宽度,这与$ \ mathcal {o}(O}(O}(O})形成鲜明对比) 1)神经切线内核(NTK)允许的重量运动;在这里显示,GF和SGD仅需要网络宽度和样本数量与NTK边缘成反比,此外,GF至少达到了NTK保证金本身,这足以建立避免距离范围目标的不良KKT点的逃脱,该点的距离逃脱了。而先前的工作只能确定不折扣但任意的边缘。第二个制度是神经塌陷(NC)设置,其中数据在于极度隔离的组中,样品复杂性尺度与组数。在这里,先前工作的贡献是对初始化的整个GF轨迹的分析。最后,如果内层的权重限制为仅在规范中变化并且无法旋转,则具有较大宽度的GF达到了全球最大边缘,并且其样品复杂度与它们的逆尺度相比;这与先前的工作相反,后者需要无限的宽度和一个棘手的双收敛假设。作为纯粹的技术贡献,这项工作开发了各种潜在功能和其他工具,希望有助于未来的工作。
translated by 谷歌翻译
This paper investigates the stability of deep ReLU neural networks for nonparametric regression under the assumption that the noise has only a finite p-th moment. We unveil how the optimal rate of convergence depends on p, the degree of smoothness and the intrinsic dimension in a class of nonparametric regression functions with hierarchical composition structure when both the adaptive Huber loss and deep ReLU neural networks are used. This optimal rate of convergence cannot be obtained by the ordinary least squares but can be achieved by the Huber loss with a properly chosen parameter that adapts to the sample size, smoothness, and moment parameters. A concentration inequality for the adaptive Huber ReLU neural network estimators with allowable optimization errors is also derived. To establish a matching lower bound within the class of neural network estimators using the Huber loss, we employ a different strategy from the traditional route: constructing a deep ReLU network estimator that has a better empirical loss than the true function and the difference between these two functions furnishes a low bound. This step is related to the Huberization bias, yet more critically to the approximability of deep ReLU networks. As a result, we also contribute some new results on the approximation theory of deep ReLU neural networks.
translated by 谷歌翻译