Reproducing Kernel Hilbert spaces (RKHS) have been a very successful tool in various areas of machine learning. Recently, Barron spaces have been used to prove bounds on the generalisation error for neural networks. Unfortunately, Barron spaces cannot be understood in terms of RKHS due to the strong nonlinear coupling of the weights. We show that this can be solved by using the more general Reproducing Kernel Banach spaces (RKBS). This class of integral RKBS can be understood as an infinite union of RKHS spaces. As the RKBS is not a Hilbert space, it is not its own dual space. However, we show that its dual space is again an RKBS where the roles of the data and parameters are interchanged, forming an adjoint pair of RKBSs including a reproducing property in the dual space. This allows us to construct the saddle point problem for neural networks, which can be used in the whole field of primal-dual optimisation.
translated by 谷歌翻译
最近,在构建用于应用和理论目的的再现内核Banach空间(RKBS)的兴趣已经存在兴趣,例如机器学习,采样重建,稀疏近似和功能分析。现有的结构包括通过双线性形式,半内部产品rkbs,带有$ \ ell ^ 1 $常规的rkbs的反身rkbs,$ p $ -norm rkbs,通过广义ercer内核等。rkbs的定义和rkbs的定义在这些参考文献中相关的再现内核取决于建设。此外,这些结构之间的关系尚不清楚。我们探索RKB的通用定义和用于独立于施工的RKB的再现内核。此外,我们提出了一种构建rkbs的框架,其通过连续的双线性形式和一对特征图统一上面提到的现有结构。提出了一类新的orlicz rkbss。最后,我们开发了在我们框架中构建的RKBS中机器学习的代表性定理,这也统一了现有rkbs中的代表定理。
translated by 谷歌翻译
在这项工作中,我们通过整流电源单元激活功能导出浅神经网络的整体表示的公式。主要是,我们的第一件结果涉及REPU浅网络的非相似性表现能力。本文的多维结果表征了可以用有界规范和可能无界宽度表示的功能集。
translated by 谷歌翻译
我们研究了两层神经网络,其领域和范围是具有可分离性的Banach空间。另外,我们假设图像空间配备了部分顺序,即它是Riesz空间。作为非线性,我们选择了取积极部分的晶格操作;如果$ \ Mathbb r^d $可值的神经网络,这对应于Relu激活函数。我们证明了特定类别功能的蒙特卡洛速率的逆近似定理和直接近似定理,从而扩展了有限维情况的现有结果。在本文的第二部分中,我们从正规化理论的角度研究,通过有限数量的嘈杂观测值在潜在空间上进行签名的措施来找到此类功能的最佳表示的问题。我们讨论称为源条件的规律性条件,并在噪声水平均为零并且样本数量以适当的速度为零时,在Bregman距离中获得代表度量的收敛速率。
translated by 谷歌翻译
着名的工作系列(Barron,1993; Bresiman,1993; Klusowski&Barron,2018)提供了宽度$ N $的界限,所需的relu两层神经网络需要近似函数$ f $超过球。 \ mathcal {b} _r(\ mathbb {r} ^ d)$最终$ \ epsilon $,当傅立叶的数量$ c_f = \ frac {1} {(2 \ pi)^ {d / 2}} \ int _ {\ mathbb {r} ^ d} \ | \ xi \ | ^ 2 | \ hat {f}(\ xi)| \ d \ xi $是有限的。最近ongie等。 (2019)将Radon变换用作分析无限宽度Relu两层网络的工具。特别是,他们介绍了基于氡的$ \ mathcal {r} $ - norms的概念,并显示$ \ mathbb {r} ^ d $上定义的函数可以表示为无限宽度的双层神经网络如果只有在$ \ mathcal {r} $ - norm是有限的。在这项工作中,我们扩展了Ongie等人的框架。 (2019)并定义类似的基于氡的半规范($ \ mathcal {r},\ mathcal {r} $ - norms),使得函数承认在有界开放式$ \ mathcal上的无限宽度神经网络表示{ u} \ subseteq \ mathbb {r} ^ d $当它$ \ mathcal {r}时,\ mathcal {u} $ - norm是有限的。建立在这方面,我们派生稀疏(有限宽度)神经网络近似界,其优化Breiman(1993); Klusowski&Barron(2018)。最后,我们表明有限开放集的无限宽度神经网络表示不是唯一的,并研究其结构,提供模式连接的功能视图。
translated by 谷歌翻译
我们在非标准空间上介绍了积极的确定核的新类别,这些空间完全是严格的确定性或特征。特别是,我们讨论了可分离的希尔伯特空间上的径向内核,并在Banach空间和强型负类型的度量空间上引入了广泛的内核。一般结果用于在可分离的$ l^p $空间和一组措施上提供明确的核类。
translated by 谷歌翻译
比较概率分布是许多机器学习算法的关键。最大平均差异(MMD)和最佳运输距离(OT)是在过去几年吸引丰富的关注的概率措施之间的两类距离。本文建立了一些条件,可以通过MMD规范控制Wassersein距离。我们的作品受到压缩统计学习(CSL)理论的推动,资源有效的大规模学习的一般框架,其中训练数据总结在单个向量(称为草图)中,该训练数据捕获与所考虑的学习任务相关的信息。在CSL中的现有结果启发,我们介绍了H \“较旧的较低限制的等距属性(H \”较旧的LRIP)并表明这家属性具有有趣的保证对压缩统计学习。基于MMD与Wassersein距离之间的关系,我们通过引入和研究学习任务的Wassersein可读性的概念来提供压缩统计学习的保证,即概率分布之间的某些特定于特定的特定度量,可以由Wassersein界定距离。
translated by 谷歌翻译
We consider neural networks with a single hidden layer and non-decreasing positively homogeneous activation functions like the rectified linear units. By letting the number of hidden units grow unbounded and using classical non-Euclidean regularization tools on the output weights, they lead to a convex optimization problem and we provide a detailed theoretical analysis of their generalization performance, with a study of both the approximation and the estimation errors. We show in particular that they are adaptive to unknown underlying linear structures, such as the dependence on the projection of the input variables onto a low-dimensional subspace. Moreover, when using sparsity-inducing norms on the input weights, we show that high-dimensional non-linear variable selection may be achieved, without any strong assumption regarding the data and with a total number of variables potentially exponential in the number of observations. However, solving this convex optimization problem in infinite dimensions is only possible if the non-convex subproblem of addition of a new unit can be solved efficiently. We provide a simple geometric interpretation for our choice of activation functions and describe simple conditions for convex relaxations of the finite-dimensional non-convex subproblem to achieve the same generalization error bounds, even when constant-factor approximations cannot be found. We were not able to find strong enough convex relaxations to obtain provably polynomial-time algorithms and leave open the existence or non-existence of such tractable algorithms with non-exponential sample complexities.
translated by 谷歌翻译
对于函数的矩阵或凸起的正半明确度(PSD)的形状约束在机器学习和科学的许多应用中起着核心作用,包括公制学习,最佳运输和经济学。然而,存在很少的功能模型,以良好的经验性能和理论担保来强制执行PSD-NESS或凸起。在本文中,我们介绍了用于在PSD锥中的值的函数的内核平方模型,其扩展了最近建议编码非负标量函数的内核平方型号。我们为这类PSD函数提供了一个代表性定理,表明它构成了PSD函数的普遍近似器,并在限定的平等约束的情况下导出特征值界限。然后,我们将结果应用于建模凸起函数,通过执行其Hessian的核心量子表示,并表明可以因此表示任何平滑且强凸的功能。最后,我们说明了我们在PSD矩阵值回归任务中的方法以及标准值凸起回归。
translated by 谷歌翻译
内核方法是机器学习中最流行的技术之一,使用再现内核希尔伯特空间(RKHS)的属性来解决学习任务。在本文中,我们提出了一种新的数据分析框架,与再现内核Hilbert $ C ^ * $ - 模块(rkhm)和rkhm中的内核嵌入(kme)。由于RKHM包含比RKHS或VVRKHS)的更丰富的信息,因此使用RKHM的分析使我们能够捕获和提取诸如功能数据的结构属性。我们向RKHM展示了rkhm理论的分支,以适用于数据分析,包括代表性定理,以及所提出的KME的注射性和普遍性。我们还显示RKHM概括RKHS和VVRKHS。然后,我们提供采用RKHM和提议的KME对数据分析的具体程序。
translated by 谷歌翻译
本文提出了一种研究Banach空间中的广义数据的正规化学习理论,包括代表性定理和收敛定理。广义数据由线性功能和实际标量组成为输入和输出元素,以表示许多工程和物理模型的离散信息。通过延伸经典机器学习,经验性风险由广义数据和损耗函数计算。根据正规化的技术,通过在Banach空间上最小化正则化的经验风险来近似确切的解决方案。通过Banach空间的预示空间中的广义输入数据的相对紧凑性保证近似解决方案的存在和收敛。
translated by 谷歌翻译
Neural networks trained to minimize the logistic (a.k.a. cross-entropy) loss with gradient-based methods are observed to perform well in many supervised classification tasks. Towards understanding this phenomenon, we analyze the training and generalization behavior of infinitely wide two-layer neural networks with homogeneous activations. We show that the limits of the gradient flow on exponentially tailed losses can be fully characterized as a max-margin classifier in a certain non-Hilbertian space of functions. In presence of hidden low-dimensional structures, the resulting margin is independent of the ambiant dimension, which leads to strong generalization bounds. In contrast, training only the output layer implicitly solves a kernel support vector machine, which a priori does not enjoy such an adaptivity. Our analysis of training is non-quantitative in terms of running time but we prove computational guarantees in simplified settings by showing equivalences with online mirror descent. Finally, numerical experiments suggest that our analysis describes well the practical behavior of two-layer neural networks with ReLU activations and confirm the statistical benefits of this implicit bias.
translated by 谷歌翻译
本文涉及高维度中经验措施的收敛。我们提出了一类新的指标,并表明在这样的指标下,融合不受维度的诅咒(COD)。这样的特征对于高维分析至关重要,并且与经典指标相反({\ it,例如,瓦斯泰尔距离)。所提出的指标源自最大平均差异,我们通过提出选择测试功能空间的特定标准来概括,以确保没有COD的属性。因此,我们将此类别称为广义最大平均差异(GMMD)。所选测试功能空间的示例包括复制的内核希尔伯特空间,巴伦空间和流动诱导的功能空间。提出了所提出的指标的三种应用:1。在随机变量的情况下,经验度量的收敛; 2. $ n $粒子系统的收敛到麦基·维拉索夫随机微分方程的解决方案; 3.构建$ \ varepsilon $ -NASH平衡,用于均质$ n $ - 玩家游戏的平均范围限制。作为副产品,我们证明,考虑到接近GMMD测量的目标分布和目标分布的一定表示,我们可以在Wasserstein距离和相对熵方面生成接近目标的分布。总体而言,我们表明,所提出的指标类是一种强大的工具,可以在没有COD的高维度中分析经验度量的收敛性。
translated by 谷歌翻译
统计决策问题是统计机器学习的基础。最简单的问题是二进制和多类分类以及类概率估计。其定义的核心是损失函数的选择,这是评估解决方案质量的手段。在本文中,我们从一个新的角度从基本的成分是具有特定结构的凸集,从而系统地开发了此类问题的损失函数理论。损耗函数定义为凸集的支持函数的子级别。因此,它是自动适当的(校准以估计概率)。这种观点提供了三个新颖的机会。它可以发展损失与(反)纳入之间的基本关系,而这似乎以前没有注意到。其次,它可以开发由凸集的计算诱导的损失的演算,从而允许不同损失之间的插值,因此是将损失定制到特定问题的潜在有用的设计工具。在此过程中,我们基于凸组集合的M-sums的现有结果,并大大扩展了现有的结果。第三,透视图导致了一种自然理论的“极性”(或“反向”)损失函数,这些函数源自凸集的极性二元,定义了损失,并形成了VOVK聚合算法的自然通用替代函数。
translated by 谷歌翻译
通过梯度流优化平均平衡误差,研究了功能空间中神经网络的动态。我们认为,在underParameterized制度中,网络了解由与其特征值对应的率的神经切线内核(NTK)确定的整体运算符$ t_ {k ^ \ infty} $的特征功能。例如,对于SPENTE $ S ^ {D-1} $和旋转不变的权重分配的均匀分布式数据,$ t_ {k ^ \ infty} $的特征函数是球形谐波。我们的结果可以理解为描述interparameterized制度中的光谱偏压。证据使用“阻尼偏差”的概念,其中NTK物质对具有由于阻尼因子的发生而具有大特征值的特征的偏差。除了下公共条例的制度之外,阻尼偏差可用于跟踪过度分辨率设置中经验风险的动态,允许我们在文献中延长某些结果。我们得出结论,阻尼偏差在优化平方误差时提供了动态的简单和统一的视角。
translated by 谷歌翻译
本文讨论了基本结果和最近的变分正规化方法,如逆问题所开发的。在典型的设置中,我们回顾获得收敛正则化方案所需的基本属性,并进一步讨论分别需要的定量估计的推导,例如凸起功能的Bregman距离所需的成分。除了开发用于逆问题的方法外,我们还将在机器学习中讨论变分正规化,并解决与经典正则化理论的一些连接。特别是我们将讨论正规化理论框架中机器学习问题的重新解释,以及对风险最小化框架中逆问题的变分方法的重新解释。此外,我们在Bregman距离和泛化误差中建立了一些先前未知的连接。
translated by 谷歌翻译
We explore the ability of overparameterized shallow ReLU neural networks to learn Lipschitz, non-differentiable, bounded functions with additive noise when trained by Gradient Descent (GD). To avoid the problem that in the presence of noise, neural networks trained to nearly zero training error are inconsistent in this class, we focus on the early-stopped GD which allows us to show consistency and optimal rates. In particular, we explore this problem from the viewpoint of the Neural Tangent Kernel (NTK) approximation of a GD-trained finite-width neural network. We show that whenever some early stopping rule is guaranteed to give an optimal rate (of excess risk) on the Hilbert space of the kernel induced by the ReLU activation function, the same rule can be used to achieve minimax optimal rate for learning on the class of considered Lipschitz functions by neural networks. We discuss several data-free and data-dependent practically appealing stopping rules that yield optimal rates.
translated by 谷歌翻译
矢量值随机变量的矩序列可以表征其定律。我们通过使用所谓的稳健签名矩来研究路径值随机变量(即随机过程)的类似问题。这使我们能够为随机过程定律得出最大平均差异类型的度量,并研究其在随机过程定律方面引起的拓扑。可以使用签名内核对该度量进行内核,从而有效地计算它。作为应用程序,我们为随机过程定律提供了非参数的两样本假设检验。
translated by 谷歌翻译
数据保真项和加性正则化功能的最小化为监督学习带来了强大的框架。在本文中,我们提出了一个统一的正则功能,该功能取决于操作员和通用的ra域标准。我们确定了最小化器的存在,并在非常温和的假设下给出了溶液的参数形式。当规范是希尔伯特人时,提出的配方会产生涉及径向基础功能的解决方案,并且与机器学习的经典方法兼容。相比之下,对于总差异规范,解决方案采用具有正则化运算符确定的激活函数的两层神经网络的形式。特别是,我们通过让操作员成为拉普拉斯(Laplacian)来检索流行的Relu网络。我们还表征了中间正规化规范的解决方案$ \ | \ cdot \ | = \ | \ | \ cdot \ | _ {l_p} $ at(1,2] $。我们的框架提供了保证通用近似值的保证广泛的正规化操作员家庭或等同于各种浅层神经网络,包括激活函数在多项式上增加的病例(例如Relu)。它还解释了偏见和跳过连接在神经建筑中的有利作用。
translated by 谷歌翻译
因果推理,经济学以及更普遍的一般机器学习中的重要问题可以表示为条件力矩限制,但是估计变得具有挑战性,因为它需要解决无条件的力矩限制的连续性。以前的工作通过将广义的矩(GMM)方法扩展到连续矩限制来解决此问题。相比之下,广义经验可能性(GEL)提供了一个更通用的框架,并且与基于GMM的估计器相比,已显示出具有优惠的小样本特性。为了从机器学习的最新发展中受益,我们提供了可以利用任意模型的凝胶的功能重新重新制定。通过对所得无限尺寸优化问题的双重配方的激励,我们设计了一种实用方法并探索其渐近性能。最后,我们提供基于内核和基于神经网络的估计器实现,这些实现在两个条件矩限制问题上实现了最先进的经验绩效。
translated by 谷歌翻译