We investigate the use of certain data-dependent estimates of the complexity of a function class, called Rademacher and Gaussian complexities. In a decision theoretic setting, we prove general risk bounds in terms of these complexities. We consider function classes that can be expressed as combinations of functions from basis classes and show how the Rademacher and Gaussian complexities of such a function class can be bounded in terms of the complexity of the basis classes. We give examples of the application of these techniques in finding data-dependent risk bounds for decision trees, neural networks and support vector machines.
translated by 谷歌翻译
We define notions of stability for learning algorithms and show how to use these notions to derive generalization error bounds based on the empirical error and the leave-one-out error. The methods we use can be applied in the regression framework as well as in the classification one when the classifier is obtained by thresholding a real-valued function. We study the stability properties of large classes of learning algorithms such as regularization based algorithms. In particular we focus on Hilbert space regularization and Kullback-Leibler regularization. We demonstrate how to apply the results to SVM for regression and classification.1. For a qualitative discussion about sensitivity analysis with links to other resources see e.g. http://sensitivity-analysis.jrc.cec.eu.int/
translated by 谷歌翻译
我们在决策边界是一定规律的假设下,研究从无噪声训练样本的学习分类功能的问题。我们为这一估计问题建立了普遍的下限,对于连续决策边界的一般阶级。对于本地禁区的类别,我们发现最佳估计率基本上独立于底层维度,并且可以通过在适当类的深神经网络上通过经验风险最小化方法实现。这些结果基于$ l ^ 1 $和$ l ^ \ infty $ intty $ inthty $ off的禁区常规职能的新颖估计数。
translated by 谷歌翻译
我们研究神经网络的基于规范的统一收敛范围,旨在密切理解它们如何受到规范约束的架构和类型的影响,对于简单的标量价值一类隐藏的一层网络,并在其中界定了输入。欧几里得规范。我们首先证明,通常,控制隐藏层重量矩阵的光谱规范不足以获得均匀的收敛保证(与网络宽度无关),而更强的Frobenius Norm Control是足够的,扩展并改善了以前的工作。在证明构造中,我们识别和分析了两个重要的设置,在这些设置中(可能令人惊讶)仅光谱规范控制就足够了:首先,当网络的激活函数足够平滑时(结果扩展到更深的网络);其次,对于某些类型的卷积网络。在后一种情况下,我们研究样品复杂性如何受到参数的影响,例如斑块之间的重叠量和斑块的总数。
translated by 谷歌翻译
在本文中,我们为Rademacher复杂性和I.I.D.深度学习的概括误差开发了一些新颖的界限。和马尔可夫数据集。新的Rademacher复杂性和概括范围紧密至$ O(1/\ sqrt {n})$,其中$ n $是训练集的大小。对于某些神经网络结构,它们可能会在深度$ l $中呈指数衰减。塔格兰(Talagrand)在功能空间和深层神经网络之间进行高维映射的收缩引理的开发是对这项工作的关键技术贡献。
translated by 谷歌翻译
预测到优化的框架在许多实际设置中都是基础:预测优化问题的未知参数,然后使用参数的预测值解决该问题。与参数的预测误差相反,在这种环境中的自然损失函数是考虑预测参数引起的决策成本。最近在Elmachtoub和Grigas(2022)中引入了此损失函数,并被称为智能预测 - 优化(SPO)损失。在这项工作中,我们试图提供有关在SPO损失的背景下,预测模型在训练数据中概括的预测模型的性能如何。由于SPO损失是非凸面和非lipschitz,因此不适用推导概括范围的标准结果。我们首先根据natarajan维度得出界限,在多面体可行区域中,在极端点数中最大程度地比对数扩展,但是,在一般凸的可行区域中,对决策维度具有线性依赖性。通过利用SPO损耗函数的结构和可行区域的关键特性,我们将其表示为强度属性,我们可以显着提高对决策和特征维度的依赖。我们的方法和分析依赖于围绕有问题的预测的利润,这些预测不会产生独特的最佳解决方案,然后在修改后的利润率SPO损失函数的背景下提供了概括界限,而SPO损失函数是Lipschitz的连续。最后,我们表征了强度特性,并表明可以有效地计算出具有显式极端表示的强凸体和多面体的修饰的SPO损耗。
translated by 谷歌翻译
This paper presents a margin-based multiclass generalization bound for neural networks that scales with their margin-normalized spectral complexity: their Lipschitz constant, meaning the product of the spectral norms of the weight matrices, times a certain correction factor. This bound is empirically investigated for a standard AlexNet network trained with SGD on the mnist and cifar10 datasets, with both original and random labels; the bound, the Lipschitz constants, and the excess risks are all in direct correlation, suggesting both that SGD selects predictors whose complexity scales with the difficulty of the learning task, and secondly that the presented bound is sensitive to this complexity.
translated by 谷歌翻译
我们研究数据近似和优化中的关键工具之一:低分配颜色。正式地,给定有限集系统$(x,\ nathcal s)$,两颜色的$ \ chi的\ emph {vrionpancy}:x \ to \ to \ to \ { - 1,1 \} $定义为$ \ max_ {s \ in \ Mathcal s} | {\ chi(s)} | $,其中$ \ chi(s)= \ sum \ limits_ {x \ in s} \ chi(x)$。我们提出了一种随机算法,对于任何$ d> 0 $和$(x,\ mathcal s)$,带有双重粉碎功能$ \ pi^*(k)= o(k^d)$,返回带有预期的着色差异$ o \ left({\ sqrt {| x |^{1-1/d} \ log | \ mathcal s |}}}} \ right)$(此绑定是紧密的)时间$ \ tilde o \ left({{ | \ Mathcal S | \ CDOT | X |^{1/d}+| X |^{2+1/d}}} \ right)$,在$ o \ left的先前最佳时间(| \ Mathcal)改进s | \ cdot | x |^3 \ right)$至少为$ | x |^{2-1/d} $时,当$ | \ | \ Mathcal S | \ geq | x | $。该设置包括许多几何类别,有界双VC维度的家庭等。直接的结果,我们获得了一种改进的算法来构建子分数大小的$ \ varepsilon $ approximations。我们的方法使用原始偶重新升高,通过对随机更新的权重进行了改进的分析,并通过匹配度的匹配数低 - 计算几何形状的基本结构。特别是,我们获得了相同的$ | x |^{2-1/d} $ factor factor factor factor facter intherting the Match of crotsing number $ o \ left的施工时间({| x |^{1-1/d} } \ right)$,这是自1980年代以来的第一个改进。所提出的算法非常简单,这使得首次有可能具有近乎最佳差异的颜色,并且在高于$ 2 $的尺寸的抽象和几何套装系统中,对于抽象和几何设置系统的近似近似值。
translated by 谷歌翻译
A major problem in machine learning is that of inductive bias: how to choose a learner's hypothesis space so that it is large enough to contain a solution to the problem being learnt, yet small enough to ensure reliable generalization from reasonably-sized training sets. Typically such bias is supplied by hand through the skill and insights of experts. In this paper a model for automatically learning bias is investigated. The central assumption of the model is that the learner is embedded within an environment of related learning tasks. Within such an environment the learner can sample from multiple tasks, and hence it can search for a hypothesis space that contains good solutions to many of the problems in the environment. Under certain restrictions on the set of all hypothesis spaces available to the learner, we show that a hypothesis space that performs well on a sufficiently large number of training tasks will also perform well when learning novel tasks in the same environment. Explicit bounds are also derived demonstrating that learning multiple tasks within an environment of related tasks can potentially give much better generalization than learning a single task.
translated by 谷歌翻译
We study the fundamental question of how to define and measure the distance from calibration for probabilistic predictors. While the notion of perfect calibration is well-understood, there is no consensus on how to quantify the distance from perfect calibration. Numerous calibration measures have been proposed in the literature, but it is unclear how they compare to each other, and many popular measures such as Expected Calibration Error (ECE) fail to satisfy basic properties like continuity. We present a rigorous framework for analyzing calibration measures, inspired by the literature on property testing. We propose a ground-truth notion of distance from calibration: the $\ell_1$ distance to the nearest perfectly calibrated predictor. We define a consistent calibration measure as one that is a polynomial factor approximation to the this distance. Applying our framework, we identify three calibration measures that are consistent and can be estimated efficiently: smooth calibration, interval calibration, and Laplace kernel calibration. The former two give quadratic approximations to the ground truth distance, which we show is information-theoretically optimal. Our work thus establishes fundamental lower and upper bounds on measuring distance to calibration, and also provides theoretical justification for preferring certain metrics (like Laplace kernel calibration) in practice.
translated by 谷歌翻译
复合值的神经网络(CVNNS)已广泛应用于各种领域,尤其是信号处理和图像识别。然而,很少有作品关注CVNN的泛化,尽管它至关重要,以确保CVNNS在看不见的数据上的性能至关重要。本文是第一项工作,证明了复杂的神经网络的泛化。束缚尺度具有光谱复杂性,其主导因子是重量矩阵的光谱范数产物。此外,我们的工作为训练数据顺序时为CVNN提供了泛化,这也受光谱复杂度的影响。从理论上讲,这些界限通过Maey Sparsification Lemma和Dudley熵整体来源。经验上,我们通过在不同的数据集上培训复杂的卷积神经网络进行实验:Mnist,FashionMnist,CiFar-10,CiFar-100,微小想象成和IMDB。 Spearman的秩序相关系数和这些数据集上的相应P值给出了由权重矩阵光谱规范产品测量的网络的光谱复杂度,与概括能力有统计学显着的相关性。
translated by 谷歌翻译
在本文中,我们介绍了超模块化$ \ mf $ -Diverences,并为它们提供了三个应用程序:(i)我们在基于超模型$ \ MF $ - 基于独立随机变量的尾部引入了Sanov的上限。分歧并表明我们的广义萨诺夫(Sanov)严格改善了普通的界限,(ii)我们考虑了有损耗的压缩问题,该问题研究了给定失真和代码长度的一组可实现的速率。我们使用互助$ \ mf $ - 信息扩展了利率 - 延伸函数,并使用超模块化$ \ mf $ -Diverences在有限的区块长度方面提供了新的,严格的更好的界限,并且(iii)我们提供了连接具有有限输入/输出共同$ \ mf $的算法的概括误差和广义率延伸问题。该连接使我们能够使用速率函数的下限来限制学习算法的概括误差。我们的界限是基于对利率延伸函数的新下限,该函数(对于某些示例)严格改善了以前最著名的界限。此外,使用超模块化$ \ mf $ -Divergences来减少问题的尺寸并获得单字母界限。
translated by 谷歌翻译
We study expressive power of shallow and deep neural networks with piece-wise linear activation functions. We establish new rigorous upper and lower bounds for the network complexity in the setting of approximations in Sobolev spaces. In particular, we prove that deep ReLU networks more efficiently approximate smooth functions than shallow networks. In the case of approximations of 1D Lipschitz functions we describe adaptive depth-6 network architectures more efficient than the standard shallow architecture.
translated by 谷歌翻译
我们观察到,给定两个(兼容的)函数类别$ \ MATHCAL {f} $和$ \ MATHCAL {h} $,具有较小的容量,按其均匀覆盖的数字测量,组成类$ \ Mathcal {H} \ Circ \ Mathcal {f} $可能会变得非常大,甚至无限。然后,我们证明,在用$ \ Mathcal {h} $构成$ \ Mathcal {f} $的输出中,添加少量高斯噪声可以有效地控制$ \ Mathcal {H} \ Circ \ Mathcal { F} $,提供模块化设计的一般配方。为了证明我们的结果,我们定义了均匀覆盖随机函数数量的新概念,相对于总变异和瓦斯坦斯坦距离。我们将结果实例化,以实现多层Sigmoid神经​​网络。 MNIST数据集的初步经验结果表明,在现有统一界限上改善所需的噪声量在数值上可以忽略不计(即,元素的I.I.D. I.I.D.高斯噪声,具有标准偏差$ 10^{ - 240} $)。源代码可从https://github.com/fathollahpour/composition_noise获得。
translated by 谷歌翻译
我们研究了广义熵的连续性属性作为潜在的概率分布的函数,用动作空间和损失函数定义,并使用此属性来回答统计学习理论中的基本问题:各种学习方法的过度风险分析。我们首先在几种常用的F分歧,Wassersein距离的熵差异导出了两个分布的熵差,这取决于动作空间的距离和损失函数,以及由熵产生的Bregman发散,这也诱导了两个分布之间的欧几里德距离方面的界限。对于每个一般结果的讨论给出了示例,使用现有的熵差界进行比较,并且基于新结果导出新的相互信息上限。然后,我们将熵差异界限应用于统计学习理论。结果表明,两种流行的学习范式,频繁学习和贝叶斯学习中的过度风险都可以用不同形式的广义熵的连续性研究。然后将分析扩展到广义条件熵的连续性。扩展为贝叶斯决策提供了不匹配的分布来提供性能范围。它也会导致第三个划分的学习范式的过度风险范围,其中决策规则是在经验分布的预定分布家族的预测下进行最佳设计。因此,我们通过广义熵的连续性建立了统计学习三大范式的过度风险分析的统一方法。
translated by 谷歌翻译
在因果推理和强盗文献中,基于观察数据的线性功能估算线性功能的问题是规范的。我们分析了首先估计治疗效果函数的广泛的两阶段程序,然后使用该数量来估计线性功能。我们证明了此类过程的均方误差上的非反应性上限:这些边界表明,为了获得非反应性最佳程序,应在特定加权$ l^2 $中最大程度地估算治疗效果的误差。 -规范。我们根据该加权规范的约束回归分析了两阶段的程序,并通过匹配非轴突局部局部最小值下限,在有限样品中建立了实例依赖性最优性。这些结果表明,除了取决于渐近效率方差之外,最佳的非质子风险除了取决于样本量支持的最富有函数类别的真实结果函数与其近似类别之间的加权规范距离。
translated by 谷歌翻译
专家(MOE)模型的混合物是对数据中的异质性建模的流行框架,由于其灵活性以及可用的统计估计和模型选择工具的丰富性,用于统计和机器学习中的回归和分类问题。这种灵活性来自于允许MOE模型中的混合物重量(或门控函数)与专家(或组件密度)一起取决于解释变量。与经典的有限混合物和回归模型的有限混合物相比,这允许由更复杂的数据生成过程产生的数据建模,该过程的混合参数与协变量无关。从计算的角度来看,当解释变量的数量可能大于样本量时,MOE模型在高维度中的使用是挑战的,尤其是从理论的角度来看,文献是对于统计估计和特征选择问题,仍缺乏处理维度诅咒的结果。我们考虑具有软马克斯门控函数和高斯专家的有限MOE模型,用于在异质数据上进行高维回归,并通过Lasso进行$ L_1 $调查的估计。我们专注于拉索估计属性,而不是其特征选择属性。我们在LASSO函数的正规化参数上提供了一个下限,该参数确保了根据Kullback-Leibler损失,Lasso估算器满足了$ L_1 $ -ORACLE不平等。
translated by 谷歌翻译
由学习的迭代软阈值算法(Lista)的动机,我们介绍了一种适用于稀疏重建的一般性网络,从少数线性测量。通过在层之间允许各种重量共享度,我们为非常不同的神经网络类型提供统一分析,从复发到网络更类似于标准前馈神经网络。基于训练样本,通过经验风险最小化,我们旨在学习最佳网络参数,从而实现从其低维线性测量的最佳网络。我们通过分析由这种深网络组成的假设类的RadeMacher复杂性来衍生泛化界限,这也考虑了阈值参数。我们获得了对样本复杂性的估计,基本上只取决于参数和深度的数量。我们应用主要结果以获得几个实际示例的特定泛化界限,包括(隐式)字典学习和卷积神经网络的不同算法。
translated by 谷歌翻译
在这项工作中,我们考虑线性逆问题$ y = ax + \ epsilon $,其中$ a \ colon x \ to y $是可分离的hilbert spaces $ x $和$ y $之间的已知线性运算符,$ x $。 $ x $和$ \ epsilon $中的随机变量是$ y $的零平均随机过程。该设置涵盖成像中的几个逆问题,包括去噪,去束和X射线层析造影。在古典正规框架内,我们专注于正则化功能的情况下未能先验,而是从数据中学习。我们的第一个结果是关于均方误差的最佳广义Tikhonov规则器的表征。我们发现它完全独立于前向操作员$ a $,并仅取决于$ x $的平均值和协方差。然后,我们考虑从两个不同框架中设置的有限训练中学习常规程序的问题:一个监督,根据$ x $和$ y $的样本,只有一个无人监督,只基于$ x $的样本。在这两种情况下,我们证明了泛化界限,在X $和$ \ epsilon $的分发的一些弱假设下,包括子高斯变量的情况。我们的界限保持在无限尺寸的空间中,从而表明更精细和更细的离散化不会使这个学习问题更加困难。结果通过数值模拟验证。
translated by 谷歌翻译
在漂亮的广义框架下,过去的世纪已经广泛研究了线性预测问题。强大的统计文献中的最新进展允许我们通过手工(MOM)中位数的棱镜分析古典线性模型的强大版本。以零碎的方式结合这些方法可能导致临时程序,以及限制每个个人捐款的受限制理论结论可能不再有效。为了完全应对这些挑战,在这项研究中,我们提供了一个统一的强大框架,包括在希尔伯特空间上具有广泛的线性预测问题,与通用丢失功能相结合。值得注意的是,我们不需要对偏远数据点的分布($ \ mathcal {o} $)的任何假设,也不需要依赖于依赖的支持的紧凑性($ \ mathcal {i} $)。在双规范的温和条件下,我们展示了用于拼盘级别$ \ epsilon $,这些估算器达到$ O(\ max \ left \ {| \ mathcal {o} | ^ {1/2} n ^ {-1/2},| \ mathcal {i} | ^ {1/2} n ^ {-1} n ^ { - 1} \ rick \} + \ epsilon)$,匹配文献中最着名的速率。此速率比$ O的经典速率略慢(n ^ { - 1/2})$,表明我们需要在错误率方面支付价格以获得强大的估计。此外,我们表明,在额外的假设下,可以提高该速率以实现所​​谓的“快速速率”。
translated by 谷歌翻译