普遍认为,执行不变性改善泛化。虽然这种方法享有广泛的人气,但它最近只有严格的理论证明这种福利的展示。在这项工作中,我们构建了Elesedy和Zaidi Arxiv的功能空间透视:2102.10333,当目标不变于Compact组的动作时,派生在内核Ridge回归中的不变性的严格零常规义务。我们研究了特征平均强制执行的不变性,并发现泛化由核心和组之间的相互作用的有效维度的概念来管理。在建立这种结果时,我们发现该组的行动诱导再生核心希尔伯特空间及其内核的正交分解,这可能对自己的权利感兴趣。
translated by 谷歌翻译
我们解决了条件平均嵌入(CME)的内核脊回归估算的一致性,这是给定$ y $ x $的条件分布的嵌入到目标重现内核hilbert space $ hilbert space $ hilbert Space $ \ Mathcal {H} _y $ $ $ $ 。 CME允许我们对目标RKHS功能的有条件期望,并已在非参数因果和贝叶斯推论中使用。我们解决了错误指定的设置,其中目标CME位于Hilbert-Schmidt操作员的空间中,该操作员从$ \ Mathcal {H} _X _x $和$ L_2 $和$ \ MATHCAL {H} _Y $ $之间的输入插值空间起作用。该操作员的空间被证明是新定义的矢量值插值空间的同构。使用这种同构,我们在未指定的设置下为经验CME估计量提供了一种新颖的自适应统计学习率。我们的分析表明,我们的费率与最佳$ o(\ log n / n)$速率匹配,而无需假设$ \ Mathcal {h} _y $是有限维度。我们进一步建立了学习率的下限,这表明所获得的上限是最佳的。
translated by 谷歌翻译
We consider autocovariance operators of a stationary stochastic process on a Polish space that is embedded into a reproducing kernel Hilbert space. We investigate how empirical estimates of these operators converge along realizations of the process under various conditions. In particular, we examine ergodic and strongly mixing processes and obtain several asymptotic results as well as finite sample error bounds. We provide applications of our theory in terms of consistency results for kernel PCA with dependent data and the conditional mean embedding of transition probabilities. Finally, we use our approach to examine the nonparametric estimation of Markov transition operators and highlight how our theory can give a consistency analysis for a large family of spectral analysis methods including kernel-based dynamic mode decomposition.
translated by 谷歌翻译
我们在非标准空间上介绍了积极的确定核的新类别,这些空间完全是严格的确定性或特征。特别是,我们讨论了可分离的希尔伯特空间上的径向内核,并在Banach空间和强型负类型的度量空间上引入了广泛的内核。一般结果用于在可分离的$ l^p $空间和一组措施上提供明确的核类。
translated by 谷歌翻译
已经假设量子计算机可以很好地为机器学习中的应用提供很好。在本作工作中,我们分析通过量子内核定义的函数类。量子计算机提供了有效地计算符合难以计算的指数大密度运算符的内部产品。然而,具有指数大的特征空间使得普遍化的问题造成泛化的问题。此外,能够有效地评估高尺寸空间中的内部产品本身不能保证量子优势,因为已经是经典的漫步核可以对应于高或无限的维度再现核Hilbert空间(RKHS)。我们分析量子内核的频谱属性,并发现我们可以期待优势如果其RKHS低维度,并且包含很难经典计算的功能。如果已知目标函数位于该类中,则这意味着量子优势,因为量子计算机可以编码这种电感偏压,而没有同样的方式对功能类进行经典有效的方式。但是,我们表明查找合适的量子内核并不容易,因为内核评估可能需要指数倍数的测量。总之,我们的信息是有点令人发声的:我们猜测量子机器学习模型只有在我们设法将关于传递到量子电路的问题的知识编码的情况下,才能提供加速,同时将相同的偏差置于经典模型。难的。然而,在学习由量子流程生成的数据时,这些情况可能会被典雅地发生,但对于古典数据集来说,它们似乎更难。
translated by 谷歌翻译
内核方法是机器学习中最流行的技术之一,使用再现内核希尔伯特空间(RKHS)的属性来解决学习任务。在本文中,我们提出了一种新的数据分析框架,与再现内核Hilbert $ C ^ * $ - 模块(rkhm)和rkhm中的内核嵌入(kme)。由于RKHM包含比RKHS或VVRKHS)的更丰富的信息,因此使用RKHM的分析使我们能够捕获和提取诸如功能数据的结构属性。我们向RKHM展示了rkhm理论的分支,以适用于数据分析,包括代表性定理,以及所提出的KME的注射性和普遍性。我们还显示RKHM概括RKHS和VVRKHS。然后,我们提供采用RKHM和提议的KME对数据分析的具体程序。
translated by 谷歌翻译
在这项工作中,我们通过alpha log-determinant(log-det)在两个不同的环境中的Hilbert-schmidt操作员之间的alpha log-determinant(log-det)差异介绍了正式化的kullback-leibler和r \'enyi的分歧(log-det)差异以及在繁殖内核希尔伯特空间(RKHS)上定义的高斯措施; (ii)具有平方的可集成样品路径的高斯工艺。对于特征性内核,第一个设置导致在完整的,可分开的度量空间上进行任意borel概率度量之间的差异。我们表明,Hilbert-Schmidt Norm中的Alpha Log-Det差异是连续的,这使我们能够将大量定律应用于希尔伯特太空值的随机变量。因此,我们表明,在这两种情况下,都可以使用有限的依赖性gram矩阵/高斯措施和有限的样本数据来始终如一地从其有限维版本中始终有效地估算其有限差异版本在所有情况下,无独立的}样品复杂性。 RKHS方法论在两种情况下的理论分析中都起着核心作用。数值实验说明了数学公式。
translated by 谷歌翻译
通过梯度流优化平均平衡误差,研究了功能空间中神经网络的动态。我们认为,在underParameterized制度中,网络了解由与其特征值对应的率的神经切线内核(NTK)确定的整体运算符$ t_ {k ^ \ infty} $的特征功能。例如,对于SPENTE $ S ^ {D-1} $和旋转不变的权重分配的均匀分布式数据,$ t_ {k ^ \ infty} $的特征函数是球形谐波。我们的结果可以理解为描述interparameterized制度中的光谱偏压。证据使用“阻尼偏差”的概念,其中NTK物质对具有由于阻尼因子的发生而具有大特征值的特征的偏差。除了下公共条例的制度之外,阻尼偏差可用于跟踪过度分辨率设置中经验风险的动态,允许我们在文献中延长某些结果。我们得出结论,阻尼偏差在优化平方误差时提供了动态的简单和统一的视角。
translated by 谷歌翻译
We consider the random feature ridge regression (RFRR) given by a two-layer neural network at random initialization. We study the non-asymptotic behaviors of the training error, cross-validations, and generalization error of RFRR with nearly orthogonal deterministic input data in the overparameterized regime, where the number of parameters $N$ is much larger than the sample size $n$. We respectively establish the concentrations of the training errors, cross-validations, and generalization errors of RFRR around their corresponding errors of kernel ridge regression (KRR). This KRR is defined by an expected kernel from a random feature map. We then approximate the performances of the KRR by a polynomial kernel matrix, whose degree only depends on the orthogonality among different input vectors. The degree of this polynomial kernel essentially determines the asymptotic behavior of RFRR and KRR. Our results hold for a general class of target functions and input data with weak approximate orthonormal properties among different data points. Based on these approximations and nearly orthogonality, we obtain a lower bound for the generalization error of RFRR.
translated by 谷歌翻译
我们研究了非参数脊的最小二乘的学习属性。特别是,我们考虑常见的估计人的估计案例,由比例依赖性内核定义,并专注于规模的作用。这些估计器内插数据,可以显示规模来通过条件号控制其稳定性。我们的分析表明,这是不同的制度,具体取决于样本大小,其尺寸与问题的平滑度之间的相互作用。实际上,当样本大小小于数据维度中的指数时,可以选择比例,以便学习错误减少。随着样本尺寸变大,总体错误停止减小但有趣地可以选择规模,使得噪声引起的差异仍然存在界线。我们的分析结合了概率,具有来自插值理论的许多分析技术。
translated by 谷歌翻译
要了解深度学习的作品,了解神经网络的培训动态至关重要。关于这些动态的几个有趣的假设是基于经验观察到的现象,但存在有限的理论上了解此类现象的时间和原因。在本文中,我们考虑了内核最小二乘目标对梯度流动的培训动态,这是SGD培训的神经网络的限制动态。使用精确的高维渐近学,我们将拟合模型的动态表征在两个“世界”中:在甲骨文世界中,该模型在人口分布和实证世界中培训,模型在采样的数据集上培训。我们展示在内核的温和条件下,$ L ^ 2 $目标回归函数,培训动力学经历三个阶段,其特征在于两个世界的模型的行为。我们的理论结果也在数学上正式化一些有趣的深度学习现象。具体而言,在我们的环境中,我们展示了SGD逐步了解更多复杂的功能,并且存在“深度引导”现象:在第二阶段,尽管经验训练误差要小得多,但两个世界的测试错误仍然接近。最后,我们提供了一个具体的例子,比较了两种不同核的动态,这表明更快的培训不需要更好地推广。
translated by 谷歌翻译
我们为在一般来源条件下的希尔伯特量表中的新型Tikhonov登记学习问题提供了最小的自适应率。我们的分析不需要在假设类中包含回归函数,并且最著名的是不使用传统的\ textit {先验{先验}假设。使用插值理论,我们证明了Mercer运算符的光谱可以在存在“紧密''$ l^{\ infty} $嵌入的存在的情况下,可以推断出合适的Hilbert鳞片的嵌入。我们的分析利用了新的傅立叶能力条件在某些参数制度中,修改后的Mercer运算符的最佳Lorentz范围空间。
translated by 谷歌翻译
许多监督的学习问题涉及高维数据,例如图像,文本或图形。为了能够有效地利用数据,它通常有用的是在手头的问题中利用某些几何前瞻,例如与换算,置换子组或稳定性的不变性。通过考虑球体上这些功能的球形谐波分解,我们研究了目标功能提出了这种不变性和稳定性特性的学习问题的样本复杂性。我们提供内核方法的非参数率的收敛速度,并且在与相应的非不变内核相比,在该组上使用不变内核时,通过等于组的大小的因子的提高。当样本大小足够大时,这些改进是有效的,其渐近行为取决于该组的光谱特性。最后,这些增益扩展到不变性组之外,还涵盖小变形的几何稳定性,这里被建模为排列的子集(不一定是子组)。
translated by 谷歌翻译
现代神经网络通常以强烈的过度构造状态运行:它们包含许多参数,即使实际标签被纯粹随机的标签代替,它们也可以插入训练集。尽管如此,他们在看不见的数据上达到了良好的预测错误:插值训练集并不会导致巨大的概括错误。此外,过度散色化似乎是有益的,因为它简化了优化景观。在这里,我们在神经切线(NT)制度中的两层神经网络的背景下研究这些现象。我们考虑了一个简单的数据模型,以及各向同性协变量的矢量,$ d $尺寸和$ n $隐藏的神经元。我们假设样本量$ n $和尺寸$ d $都很大,并且它们在多项式上相关。我们的第一个主要结果是对过份术的经验NT内核的特征结构的特征。这种表征意味着必然的表明,经验NT内核的最低特征值在$ ND \ gg n $后立即从零界限,因此网络可以在同一制度中精确插值任意标签。我们的第二个主要结果是对NT Ridge回归的概括误差的表征,包括特殊情况,最小值-ULL_2 $ NORD插值。我们证明,一旦$ nd \ gg n $,测试误差就会被内核岭回归之一相对于无限宽度内核而近似。多项式脊回归的误差依次近似后者,从而通过与激活函数的高度组件相关的“自我诱导的”项增加了正则化参数。多项式程度取决于样本量和尺寸(尤其是$ \ log n/\ log d $)。
translated by 谷歌翻译
最近的实证工作表明,由卷积神经网络(CNNS)启发的分层卷积核(CNNS)显着提高了内核方法​​在图像分类任务中的性能。对这些架构成功的广泛解释是它们编码适合自然图像的假设类。然而,了解卷积架构中近似和泛化之间的精确相互作用仍然是一个挑战。在本文中,我们考虑均匀分布在超立方体上的协变量(图像像素)的程式化设置,并完全表征由单层卷积,汇集和下采样操作组成的内核的RKH。然后,我们使用这些内核通过标准内部产品内核来研究内核方法的样本效率的增益。特别是,我们展示了1)卷积层通过将RKHS限制为“本地”功能来打破维度的诅咒; 2)局部汇集偏置朝向低频功能,这是较小的翻译稳定; 3)下采样可以修改高频成粒空间,但留下了大致不变的低频部分。值得注意的是,我们的结果量化了选择适应目标函数的架构如何导致样本复杂性的大量改善。
translated by 谷歌翻译
We study a natural extension of classical empirical risk minimization, where the hypothesis space is a random subspace of a given space. In particular, we consider possibly data dependent subspaces spanned by a random subset of the data, recovering as a special case Nystrom approaches for kernel methods. Considering random subspaces naturally leads to computational savings, but the question is whether the corresponding learning accuracy is degraded. These statistical-computational tradeoffs have been recently explored for the least squares loss and self-concordant loss functions, such as the logistic loss. Here, we work to extend these results to convex Lipschitz loss functions, that might not be smooth, such as the hinge loss used in support vector machines. This unified analysis requires developing new proofs, that use different technical tools, such as sub-gaussian inputs, to achieve fast rates. Our main results show the existence of different settings, depending on how hard the learning problem is, for which computational efficiency can be improved with no loss in performance.
translated by 谷歌翻译
内核Stein差异(KSD)是一种基于内核的广泛使用概率指标之间差异的非参数量度。它通常在用户从候选概率度量中收集的样本集合的情况下使用,并希望将它们与指定的目标概率度量进行比较。 KSD的一个有用属性是,它可以仅从候选度量的样本中计算出来,并且不知道目标度量的正常化常数。 KSD已用于一系列设置,包括合适的测试,参数推断,MCMC输出评估和生成建模。当前KSD方法论的两个主要问题是(i)超出有限维度欧几里得环境之外的适用性以及(ii)缺乏影响KSD性能的清晰度。本文提供了KSD的新频谱表示,这两种补救措施都使KSD适用于希尔伯特(Hilbert)评估数据,并揭示了内核和Stein oterator Choice对KSD的影响。我们通过在许多合成数据实验中对各种高斯和非高斯功能模型进行拟合优度测试来证明所提出的方法的功效。
translated by 谷歌翻译
在本文中,我们考虑了基于系数的正则分布回归,该回归旨在从概率措施中回归到复制的内核希尔伯特空间(RKHS)的实现响应(RKHS),该响应将正则化放在系数上,而内核被假定为无限期的。 。该算法涉及两个采样阶段,第一阶段样本由分布组成,第二阶段样品是从这些分布中获得的。全面研究了回归函数的不同规律性范围内算法的渐近行为,并通过整体操作员技术得出学习率。我们在某些温和条件下获得最佳速率,这与单级采样的最小最佳速率相匹配。与文献中分布回归的内核方法相比,所考虑的算法不需要内核是对称的和阳性的半明确仪,因此为设计不确定的内核方法提供了一个简单的范式,从而丰富了分布回归的主题。据我们所知,这是使用不确定核进行分配回归的第一个结果,我们的算法可以改善饱和效果。
translated by 谷歌翻译
比较概率分布是许多机器学习算法的关键。最大平均差异(MMD)和最佳运输距离(OT)是在过去几年吸引丰富的关注的概率措施之间的两类距离。本文建立了一些条件,可以通过MMD规范控制Wassersein距离。我们的作品受到压缩统计学习(CSL)理论的推动,资源有效的大规模学习的一般框架,其中训练数据总结在单个向量(称为草图)中,该训练数据捕获与所考虑的学习任务相关的信息。在CSL中的现有结果启发,我们介绍了H \“较旧的较低限制的等距属性(H \”较旧的LRIP)并表明这家属性具有有趣的保证对压缩统计学习。基于MMD与Wassersein距离之间的关系,我们通过引入和研究学习任务的Wassersein可读性的概念来提供压缩统计学习的保证,即概率分布之间的某些特定于特定的特定度量,可以由Wassersein界定距离。
translated by 谷歌翻译
We study a class of dynamical systems modelled as Markov chains that admit an invariant distribution via the corresponding transfer, or Koopman, operator. While data-driven algorithms to reconstruct such operators are well known, their relationship with statistical learning is largely unexplored. We formalize a framework to learn the Koopman operator from finite data trajectories of the dynamical system. We consider the restriction of this operator to a reproducing kernel Hilbert space and introduce a notion of risk, from which different estimators naturally arise. We link the risk with the estimation of the spectral decomposition of the Koopman operator. These observations motivate a reduced-rank operator regression (RRR) estimator. We derive learning bounds for the proposed estimator, holding both in i.i.d. and non i.i.d. settings, the latter in terms of mixing coefficients. Our results suggest RRR might be beneficial over other widely used estimators as confirmed in numerical experiments both for forecasting and mode decomposition.
translated by 谷歌翻译