在本文中,我们研究了使用一般目标函数类别的嘈杂观测来解决梯度下降的Sobolev规范的统计限制。我们的目标功能类别包括用于内核回归的SOBOLEV培训,深层RITZ方法(DRM)和物理知识的神经网络(PINN),以解决椭圆形偏微分方程(PDES)作为特殊情况。我们考虑使用合适的再现核希尔伯特空间和通过内核积分运算符的定义对问题硬度的连续参数化考虑模型的潜在无限二维参数化。我们证明,该目标函数上的梯度下降也可以实现统计最佳性,并且数据的最佳通过数随样本量增加而增加。基于我们的理论,我们解释了使用SOBOLOLEV标准作为训练的目标函数的隐含加速度,推断出DRM的最佳时期数量在数据大小和任务的硬度增加时,DRM的最佳数量变得大于PINN的数量,尽管DRM和PINN都可以实现统计最佳性。
translated by 谷歌翻译
在本文中,我们研究了使用深丽升方法(DRM)和物理信息的神经网络(Pinns)从随机样品求解椭圆局部微分方程(PDE)的深度学习技术的统计限制。为了简化问题,我们专注于原型椭圆PDE:SCHR \“odinginger方程,具有零的Dirichlet边界条件,其在量子 - 机械系统中具有广泛的应用。我们为两种方法建立了上下界,通过快速速率泛化绑定并发地改善了这个问题的上限。我们发现当前的深ritz方法是次优的,提出修改版本。我们还证明了Pinn和DRM的修改版本可以实现Minimax SoboLev空间的最佳限制。经验上,近期工作表明,根据权力法,我们提供了培训训练的深层模型精度,我们提供了计算实验,以显示对深PDE求解器的尺寸依赖权力法的类似行为。
translated by 谷歌翻译
无限维功能空间之间的学习映射已在机器学习的许多学科中取得了经验成功,包括生成建模,功能数据分析,因果推理和多方面的增强学习。在本文中,我们研究了在两个无限维sobolev繁殖内核希尔伯特空间之间学习希尔伯特 - 施密特操作员的统计限制。我们根据Sobolev Hilbert-Schmidt规范建立了信息理论的下限,并表明一种正规化学习了偏见轮廓以下的光谱成分,并且忽略了差异高于方差轮廓的频谱成分可以达到最佳学习率。同时,偏置和方差轮廓之间的光谱成分为我们设计计算可行的机器学习算法的灵活性。基于此观察结果,我们开发了一种多级内核操作员学习算法,该算法在无限维函数空间之间学习线性运算符时是最佳的。
translated by 谷歌翻译
光谱滤波理论是一个显着的工具,可以了解用核心学习的统计特性。对于最小二乘来,它允许导出各种正则化方案,其产生的速度超越风险的收敛率比Tikhonov正规化更快。这通常通过利用称为源和容量条件的经典假设来实现,这表征了学习任务的难度。为了了解来自其他损失功能的估计,Marteau-Ferey等。已经将Tikhonov正规化理论扩展到广义自助损失功能(GSC),其包含例如物流损失。在本文中,我们进一步逐步,并表明通过使用迭代的Tikhonov正规方案,可以实现快速和最佳的速率,该计划与优化中的近端点方法有本质相关,并克服了古典Tikhonov规范化的限制。
translated by 谷歌翻译
本文研究了无限二维希尔伯特空间之间线性算子的学习。训练数据包括希尔伯特空间中的一对随机输入向量以及在未知的自我接合线性运算符下的嘈杂图像。假设操作员在已知的基础上是对角线化的,则该工作解决了给定数据估算操作员特征值的等效反问题。采用贝叶斯方法,理论分析在无限的数据限制中建立了后部收缩率,而高斯先验者与反向问题的正向图没有直接相关。主要结果还包括学习理论的概括错误保证了广泛的分配变化。这些收敛速率分别量化了数据平滑度和真实特征值衰减或生长的影响,分别是紧凑或无界操作员对样品复杂性的影响。数值证据支持对角线和非对角性环境中的理论。
translated by 谷歌翻译
我们研究了非参数脊的最小二乘的学习属性。特别是,我们考虑常见的估计人的估计案例,由比例依赖性内核定义,并专注于规模的作用。这些估计器内插数据,可以显示规模来通过条件号控制其稳定性。我们的分析表明,这是不同的制度,具体取决于样本大小,其尺寸与问题的平滑度之间的相互作用。实际上,当样本大小小于数据维度中的指数时,可以选择比例,以便学习错误减少。随着样本尺寸变大,总体错误停止减小但有趣地可以选择规模,使得噪声引起的差异仍然存在界线。我们的分析结合了概率,具有来自插值理论的许多分析技术。
translated by 谷歌翻译
神经网络的经典发展主要集中在有限维欧基德空间或有限组之间的学习映射。我们提出了神经网络的概括,以学习映射无限尺寸函数空间之间的运算符。我们通过一类线性积分运算符和非线性激活函数的组成制定运营商的近似,使得组合的操作员可以近似复杂的非线性运算符。我们证明了我们建筑的普遍近似定理。此外,我们介绍了四类运算符参数化:基于图形的运算符,低秩运算符,基于多极图形的运算符和傅里叶运算符,并描述了每个用于用每个计算的高效算法。所提出的神经运营商是决议不变的:它们在底层函数空间的不同离散化之间共享相同的网络参数,并且可以用于零击超分辨率。在数值上,与现有的基于机器学习的方法,达西流程和Navier-Stokes方程相比,所提出的模型显示出卓越的性能,而与传统的PDE求解器相比,与现有的基于机器学习的方法有关的基于机器学习的方法。
translated by 谷歌翻译
在机器学习通常与优化通过训练数据定义实证目标的最小化交易。然而,学习的最终目的是尽量减少对未来的数据错误(测试误差),为此,训练数据只提供部分信息。这种观点认为,是实际可行的优化问题是基于不准确的数量在本质上是随机的。在本文中,我们显示了如何概率的结果,特别是浓度梯度,可以用来自不精确优化结果来导出尖锐测试误差保证组合。通过考虑无约束的目标,我们强调优化隐含正规化性学习。
translated by 谷歌翻译
由于数据的注释可以在大规模的实际问题中稀缺,利用未标记的示例是机器学习中最重要的方面之一。这是半监督学习的目的。从访问未标记数据的访问中受益,它很自然地弥漫将标记数据平稳地知识到未标记的数据。这诱导了Laplacian正规化的使用。然而,Laplacian正则化的当前实施遭受了几种缺点,特别是众所周知的维度诅咒。在本文中,我们提供了统计分析以克服这些问题,并揭示了具有所需行为的大型光谱滤波方法。它们通过(再现)内核方法来实现,我们提供了现实的计算指南,以使我们的方法可用于大量数据。
translated by 谷歌翻译
机器学习理论中的主要开放问题之一是表征过度参数化的政权中的概括,在该制度中,大多数传统的概括范围变得不一致。在许多情况下,它们的失败可以归因于掩盖训练算法与基础数据分布之间的关键相互作用。为了解决这一缺点,我们提出了一个名为兼容性的概念,该概念以与数据相关的和算法相关的方式定量地表征了概括。通过考虑整个训练轨迹并专注于早期迭代的迭代术,兼容性充分利用了算法信息,因此可以提供更好的概括保证。我们通过理论上研究与梯度下降过度参数化的线性回归设置的兼容性来验证这一点。具体而言,我们执行与数据相关的轨迹分析,并在这种设置下得出足够的兼容性条件。我们的理论结果表明,从兼容性的意义上讲,概括性对问题实例的限制明显弱,而不是上次迭代分析。
translated by 谷歌翻译
由于其出色的近似功率和泛化能力,物理知识的神经网络(PINNS)已成为求解高维局部微分方程(PDE)的流行选择。最近,基于域分解方法的扩展Pinns(Xpinns)由于其在模拟多尺度和多体问题问题及其平行化方面的有效性而引起了相当大的关注。但是,对其融合和泛化特性的理论理解仍未开发。在这项研究中,我们迈出了了解XPinns优于拼接的方式和当Xpinns差异的初步步骤。具体地,对于一般多层PinNS和Xpinn,我们首先通过PDE问题中的目标函数的复杂性提供先前的泛化,并且在优化之后通过网络的后矩阵规范结合。此外,根据我们的界限,我们分析了Xpinns改善泛化的条件。具体地,我们的理论表明,XPinn的关键构建块,即域分解,介绍了泛化的权衡。一方面,Xpinns将复杂的PDE解决方案分解为几个简单的部分,这降低了学习每个部分所需的复杂性并提高泛化。另一方面,分解导致每个子域内可用的训练数据较少,因此这种模型通常容易过度拟合,并且可能变得不那么广泛。经验上,我们选择五个PDE来显示XPinns比Pinns更好,类似于或更差,因此证明和证明我们的新理论。
translated by 谷歌翻译
Many problems in causal inference and economics can be formulated in the framework of conditional moment models, which characterize the target function through a collection of conditional moment restrictions. For nonparametric conditional moment models, efficient estimation often relies on preimposed conditions on various measures of ill-posedness of the hypothesis space, which are hard to validate when flexible models are used. In this work, we address this issue by proposing a procedure that automatically learns representations with controlled measures of ill-posedness. Our method approximates a linear representation defined by the spectral decomposition of a conditional expectation operator, which can be used for kernelized estimators and is known to facilitate minimax optimal estimation in certain settings. We show this representation can be efficiently estimated from data, and establish L2 consistency for the resulting estimator. We evaluate the proposed method on proximal causal inference tasks, exhibiting promising performance on high-dimensional, semi-synthetic data.
translated by 谷歌翻译
连续数据的优化问题出现在,例如强大的机器学习,功能数据分析和变分推理。这里,目标函数被给出为一个(连续)索引目标函数的系列 - 相对于概率测量集成的族聚集。这些问题通常可以通过随机优化方法解决:在随机切换指标执行关于索引目标函数的优化步骤。在这项工作中,我们研究了随机梯度下降算法的连续时间变量,以进行连续数据的优化问题。该所谓的随机梯度过程包括最小化耦合与确定索引的连续时间索引过程的索引目标函数的梯度流程。索引过程是例如,反射扩散,纯跳跃过程或紧凑空间上的其他L evy过程。因此,我们研究了用于连续数据空间的多种采样模式,并允许在算法的运行时进行模拟或流式流的数据。我们分析了随机梯度过程的近似性质,并在恒定下进行了长时间行为和遍历的学习率。我们以噪声功能数据的多项式回归问题以及物理知识的神经网络在多项式回归问题中结束了随机梯度过程的适用性。
translated by 谷歌翻译
在本文中,我们研究了可分离的希尔伯特空间的回归问题,并涵盖了繁殖核希尔伯特空间的非参数回归。我们研究了一类光谱/正则化算法,包括脊回归,主成分回归和梯度方法。我们证明了最佳,高概率的收敛性在研究算法的规范变体方面,考虑到对假设空间的能力假设以及目标函数的一般源条件。因此,我们以最佳速率获得了几乎确定的收敛结果。我们的结果改善并推广了先前的结果,以填补了无法实现的情况的理论差距。
translated by 谷歌翻译
The workhorse of machine learning is stochastic gradient descent. To access stochastic gradients, it is common to consider iteratively input/output pairs of a training dataset. Interestingly, it appears that one does not need full supervision to access stochastic gradients, which is the main motivation of this paper. After formalizing the "active labeling" problem, which focuses on active learning with partial supervision, we provide a streaming technique that provably minimizes the ratio of generalization error over the number of samples. We illustrate our technique in depth for robust regression.
translated by 谷歌翻译
Interacting particle or agent systems that display a rich variety of swarming behaviours are ubiquitous in science and engineering. A fundamental and challenging goal is to understand the link between individual interaction rules and swarming. In this paper, we study the data-driven discovery of a second-order particle swarming model that describes the evolution of $N$ particles in $\mathbb{R}^d$ under radial interactions. We propose a learning approach that models the latent radial interaction function as Gaussian processes, which can simultaneously fulfill two inference goals: one is the nonparametric inference of {the} interaction function with pointwise uncertainty quantification, and the other one is the inference of unknown scalar parameters in the non-collective friction forces of the system. We formulate the learning problem as a statistical inverse problem and provide a detailed analysis of recoverability conditions, establishing that a coercivity condition is sufficient for recoverability. Given data collected from $M$ i.i.d trajectories with independent Gaussian observational noise, we provide a finite-sample analysis, showing that our posterior mean estimator converges in a Reproducing kernel Hilbert space norm, at an optimal rate in $M$ equal to the one in the classical 1-dimensional Kernel Ridge regression. As a byproduct, we show we can obtain a parametric learning rate in $M$ for the posterior marginal variance using $L^{\infty}$ norm, and the rate could also involve $N$ and $L$ (the number of observation time instances for each trajectory), depending on the condition number of the inverse problem. Numerical results on systems that exhibit different swarming behaviors demonstrate efficient learning of our approach from scarce noisy trajectory data.
translated by 谷歌翻译
近年来目睹了采用灵活的机械学习模型进行乐器变量(IV)回归的兴趣,但仍然缺乏不确定性量化方法的发展。在这项工作中,我们为IV次数回归提出了一种新的Quasi-Bayesian程序,建立了最近开发的核化IV模型和IV回归的双/极小配方。我们通过在$ l_2 $和sobolev规范中建立最低限度的最佳收缩率,并讨论可信球的常见有效性来分析所提出的方法的频繁行为。我们进一步推出了一种可扩展的推理算法,可以扩展到与宽神经网络模型一起工作。实证评价表明,我们的方法对复杂的高维问题产生了丰富的不确定性估计。
translated by 谷歌翻译
我们提出和研究内核偶联梯度方法(KCGM),并在可分离的希尔伯特空间上进行最小二乘回归的随机投影。考虑两种类型的随机草图和nyStr \“ {o} m子采样产生的随机投影,我们在适当的停止规则下证明了有关算法的规范变体的最佳统计结果。尤其是我们的结果表明,如果投影维度显示了投影维度与问题的有效维度成正比,带有随机草图的KCGM可以最佳地概括,同时获得计算优势。作为推论,我们在良好条件方面的经典KCGM得出了最佳的经典KCGM,因为目标函数可能不会不会在假设空间中。
translated by 谷歌翻译
我们研究了估计回归函数的导数的问题,该函数的衍生物具有广泛的应用,作为未知函数的关键非参数功能。标准分析可以定制为特定的衍生订单,参数调整仍然是一个艰巨的挑战,尤其是对于高阶导数。在本文中,我们提出了一个简单的插入式内核脊回归(KRR)估计器,其非参数回归中具有随机设计,该设计广泛适用于多维支持和任意混合派生衍生物。我们提供了非反应分析,以统一的方式研究提出的估计量的行为,该估计量涵盖回归函数及其衍生物,从而在强$ l_ \ infty $ norm中导致一般核类中的一般内核的两个误差范围。在专门针对多个多项式衰减特征值核的具体示例中,提出的估计器将最小值的最佳速率恢复到估计H \ h \ offormions ofergarithmic因子的最佳速率。因此,在任何衍生词的顺序中都选择了调整参数。因此,提出的估计器享受\ textIt {插件属性}的衍生物,因为它会自动适应要估计的衍生物顺序,从而可以轻松地在实践中调整。我们的仿真研究表明,相对于几种现有方法蓝色的几种现有方法的有限样本性能有限,并证实了其最小值最优性的理论发现。
translated by 谷歌翻译
我们解决了条件平均嵌入(CME)的内核脊回归估算的一致性,这是给定$ y $ x $的条件分布的嵌入到目标重现内核hilbert space $ hilbert space $ hilbert Space $ \ Mathcal {H} _y $ $ $ $ 。 CME允许我们对目标RKHS功能的有条件期望,并已在非参数因果和贝叶斯推论中使用。我们解决了错误指定的设置,其中目标CME位于Hilbert-Schmidt操作员的空间中,该操作员从$ \ Mathcal {H} _X _x $和$ L_2 $和$ \ MATHCAL {H} _Y $ $之间的输入插值空间起作用。该操作员的空间被证明是新定义的矢量值插值空间的同构。使用这种同构,我们在未指定的设置下为经验CME估计量提供了一种新颖的自适应统计学习率。我们的分析表明,我们的费率与最佳$ o(\ log n / n)$速率匹配,而无需假设$ \ Mathcal {h} _y $是有限维度。我们进一步建立了学习率的下限,这表明所获得的上限是最佳的。
translated by 谷歌翻译