多项式的归一化在消失的理想的近似基础计算中起着至关重要的作用。系数归一化,将多项式归一化及其系数规范是计算机代数中最常见的方法。这项研究提出了梯度加权的归一化方法,用于近似边界基础计算的理想,这是受机器学习最新发展的启发。梯度加权归一化的数据依赖性性质可提高稳定性,以抗扰动和输入点缩放的一致性,这无法通过系数归一化来实现。仅需要一个微妙的变化才能在具有系数归一化的现有算法中引入梯度归一化。算法的分析仍适用于较小的修改,并且算法的时间复杂度的数量级保持不变。我们还证明,通过不提供缩放一致性属性的系数归一化,点的比例(例如,作为预处理)可能会导致近似基础计算失败。这项研究在理论上首先强调了近似基础计算缩放的关键效果,并提出了数据依赖性归一化的实用性。
translated by 谷歌翻译
我们提供了新的基于梯度的方法,以便有效解决广泛的病态化优化问题。我们考虑最小化函数$ f:\ mathbb {r} ^ d \ lightarrow \ mathbb {r} $的问题,它是隐含的可分解的,作为$ m $未知的非交互方式的总和,强烈的凸起功能并提供方法这解决了这个问题,这些问题是缩放(最快的对数因子)作为组件的条件数量的平方根的乘积。这种复杂性绑定(我们证明几乎是最佳的)可以几乎指出的是加速梯度方法的几乎是指数的,这将作为$ F $的条件数量的平方根。此外,我们提供了求解该多尺度优化问题的随机异标变体的有效方法。而不是学习$ F $的分解(这将是过度昂贵的),而是我们的方法应用一个清洁递归“大步小步”交错标准方法。由此产生的算法使用$ \ tilde {\ mathcal {o}}(d m)$空间,在数字上稳定,并打开门以更细粒度的了解凸优化超出条件号的复杂性。
translated by 谷歌翻译
The Forster transform is a method of regularizing a dataset by placing it in {\em radial isotropic position} while maintaining some of its essential properties. Forster transforms have played a key role in a diverse range of settings spanning computer science and functional analysis. Prior work had given {\em weakly} polynomial time algorithms for computing Forster transforms, when they exist. Our main result is the first {\em strongly polynomial time} algorithm to compute an approximate Forster transform of a given dataset or certify that no such transformation exists. By leveraging our strongly polynomial Forster algorithm, we obtain the first strongly polynomial time algorithm for {\em distribution-free} PAC learning of halfspaces. This learning result is surprising because {\em proper} PAC learning of halfspaces is {\em equivalent} to linear programming. Our learning approach extends to give a strongly polynomial halfspace learner in the presence of random classification noise and, more generally, Massart noise.
translated by 谷歌翻译
高维偏微分方程(PDE)是一种流行的数学建模工具,其应用从财务到计算化学不等。但是,用于解决这些PDE的标准数值技术通常受维度的诅咒影响。在这项工作中,我们应对这一挑战,同时着重于在具有周期性边界条件的高维域上定义的固定扩散方程。受到高维度稀疏功能近似进展的启发,我们提出了一种称为压缩傅立叶搭配的新方法。结合了压缩感应和光谱搭配的想法,我们的方法取代了结构化置式网格用蒙特卡洛采样的使用,并采用了稀疏的恢复技术,例如正交匹配的追踪和$ \ ell^1 $最小化,以近似PDE的傅立叶系数解决方案。我们进行了严格的理论分析,表明所提出的方法的近似误差与最佳$ s $ term近似(相对于傅立叶基础)与解决方案相当。我们的分析使用了最近引入的随机采样框架,我们的分析表明,在足够条件下,根据扩散系数的规律性,压缩傅立叶搭配方法相对于搭配点的数量减轻了维数的诅咒。我们还提出了数值实验,以说明稀疏和可压缩溶液近似方法的准确性和稳定性。
translated by 谷歌翻译
一组点$ x = \ {\ mathbf {x} _1,\ ldots,\ mathbf {x} _m \} \ subseteq [0,1]^n $的大致消失的理想。在所有点上$ 0 $ $ \ mathbf {x} \在x $中,并通过一组有限的多项式(称为生成器)的有效表示。对构建这组发电机的算法进行了广泛的研究,但最终发现几乎没有实际应用,因为它们的计算复杂性被认为是$ m $的样品数量中的超级线性。在本文中,我们专注于扩展Oracle近似消失的理想算法(OAVI),这是这些方法中最强大的一种。我们证明,Oavi的计算复杂性不是超级线性的,而是在样本$ M $和多项式中线性的$ n $数量,这使Oavi成为大型机器学习的有吸引力的预处理技术。为了进一步加速Oavi的训练时间,我们提出了两个更改:首先,顾名思义,Oavi在执行过程中重复进行了Oracle呼叫以凸出求解器。通过替换OAVI中使用的标准求解器之一的成对条件梯度算法,具有更快的混合成对条件梯度算法,我们说明了Oavi如何直接从凸溶液研究中的进步中受益。其次,我们提出了反向黑森的增强(IHB):IHB利用了这样一个事实,即Oavi反复解决了二次凸优化问题,这些问题只有很小的不同,并且可以使用倒数Hessian信息以封闭形式写出解决方案。通过有效地更新Hessian Matrix的倒数,几乎可以立即解决凸优化问题,从而使Oavi的训练时间最多可加速多个数量级。我们通过广泛的数值实验对我们的样本数量中的数据集进行了广泛的数值实验,对我们的理论分析进行了补充。
translated by 谷歌翻译
现代神经网络通常以强烈的过度构造状态运行:它们包含许多参数,即使实际标签被纯粹随机的标签代替,它们也可以插入训练集。尽管如此,他们在看不见的数据上达到了良好的预测错误:插值训练集并不会导致巨大的概括错误。此外,过度散色化似乎是有益的,因为它简化了优化景观。在这里,我们在神经切线(NT)制度中的两层神经网络的背景下研究这些现象。我们考虑了一个简单的数据模型,以及各向同性协变量的矢量,$ d $尺寸和$ n $隐藏的神经元。我们假设样本量$ n $和尺寸$ d $都很大,并且它们在多项式上相关。我们的第一个主要结果是对过份术的经验NT内核的特征结构的特征。这种表征意味着必然的表明,经验NT内核的最低特征值在$ ND \ gg n $后立即从零界限,因此网络可以在同一制度中精确插值任意标签。我们的第二个主要结果是对NT Ridge回归的概括误差的表征,包括特殊情况,最小值-ULL_2 $ NORD插值。我们证明,一旦$ nd \ gg n $,测试误差就会被内核岭回归之一相对于无限宽度内核而近似。多项式脊回归的误差依次近似后者,从而通过与激活函数的高度组件相关的“自我诱导的”项增加了正则化参数。多项式程度取决于样本量和尺寸(尤其是$ \ log n/\ log d $)。
translated by 谷歌翻译
The polynomial kernels are widely used in machine learning and they are one of the default choices to develop kernel-based classification and regression models. However, they are rarely used and considered in numerical analysis due to their lack of strict positive definiteness. In particular they do not enjoy the usual property of unisolvency for arbitrary point sets, which is one of the key properties used to build kernel-based interpolation methods. This paper is devoted to establish some initial results for the study of these kernels, and their related interpolation algorithms, in the context of approximation theory. We will first prove necessary and sufficient conditions on point sets which guarantee the existence and uniqueness of an interpolant. We will then study the Reproducing Kernel Hilbert Spaces (or native spaces) of these kernels and their norms, and provide inclusion relations between spaces corresponding to different kernel parameters. With these spaces at hand, it will be further possible to derive generic error estimates which apply to sufficiently smooth functions, thus escaping the native space. Finally, we will show how to employ an efficient stable algorithm to these kernels to obtain accurate interpolants, and we will test them in some numerical experiment. After this analysis several computational and theoretical aspects remain open, and we will outline possible further research directions in a concluding section. This work builds some bridges between kernel and polynomial interpolation, two topics to which the authors, to different extents, have been introduced under the supervision or through the work of Stefano De Marchi. For this reason, they wish to dedicate this work to him in the occasion of his 60th birthday.
translated by 谷歌翻译
我们认为$ k \ geq 2 $高斯组件的混合物具有良好分离的未知方式和未知的手段和未知的协方差(相同的协方差,即独特的组件在大多数$ k { - c} $的统计重叠中具有统计重叠足够的常数$ c \ ge 1 $。以前的统计查询下限[DKS17]给出了甚至区分此类混合物的正式证据,这些混合物可能是难以指示的(以美元为单位)。我们表明,如果允许混合重量呈指数小,则只能出现这种硬度,并且对于多项式下界混合权重的非琐碎的算​​法保证,可以在准多项式时间内进行。具体地,我们在最小混合重量中基于具有运行时间准多项式的正方形方法的算法。该算法可以可靠地区分$ K \ GE 2 $良好分离的高斯组件和(纯)高斯分布的混合物。作为证书,该算法计算输入样品的两分,其分离一对混合物组分,即,两侧的两侧含有至少一个组分的大多数样本点。对于Colinear意味着的特殊情况,我们的算法输出了输入样本的$ K $群集,其与混合物的组件大致一致。对我们的结果进行了重大挑战是,与最先前的高斯混合物的最先前结果不同,它们似乎对富集的抗体异常值不同。原因是,即使对于具有多项式下有界混合重量的混合物,这种异常值也可以模拟指数小的混合重量。关键技术成分是在对应于最小混合重量中的两种仔细选择的顺序对数的瞬间的多项式的矩分开的分离性高斯部件的分离方向的表征。
translated by 谷歌翻译
Artificial neural networks are functions depending on a finite number of parameters typically encoded as weights and biases. The identification of the parameters of the network from finite samples of input-output pairs is often referred to as the \emph{teacher-student model}, and this model has represented a popular framework for understanding training and generalization. Even if the problem is NP-complete in the worst case, a rapidly growing literature -- after adding suitable distributional assumptions -- has established finite sample identification of two-layer networks with a number of neurons $m=\mathcal O(D)$, $D$ being the input dimension. For the range $D<m<D^2$ the problem becomes harder, and truly little is known for networks parametrized by biases as well. This paper fills the gap by providing constructive methods and theoretical guarantees of finite sample identification for such wider shallow networks with biases. Our approach is based on a two-step pipeline: first, we recover the direction of the weights, by exploiting second order information; next, we identify the signs by suitable algebraic evaluations, and we recover the biases by empirical risk minimization via gradient descent. Numerical results demonstrate the effectiveness of our approach.
translated by 谷歌翻译
我们考虑强大的线性回归模型$ \ boldsymbol {y} = x \ beta^* + \ boldsymbol {\ eta} $,其中一个对手忽略了design $ x \ in \ mathbb {r}^r}^n \ times D } $可以选择$ \ boldsymbol {\ eta} $以损坏所有观测值的(可能消失的)$ \ boldsymbol {y} $以任意方式。最近的工作[DLN+21,DNS21]引入了有效的算法,以持续恢复参数矢量。这些算法至关重要地依赖于设计矩阵非常广泛(如果其列跨度远非任何稀疏矢量,矩阵就可以很好地扩展)。在本文中,我们表明存在一个缺乏良好性的设计矩阵家族,因此从理论上讲,在上述稳健线性回归模型中,参数向量的持续恢复是不可能的。我们进一步研究了随机矩阵的良好表现的平均案例时间复杂性。我们表明,如果观察值的数量在环境维度上是二次的,则可以有效地证明给定的$ n $ by-by-by-by-by-by-d $ d $ d $高斯矩阵是否会很好地扩展。当观察数为$ O(d^2)$时,我们通过显示出相同认证问题的计算硬度的严格证据来补充这一结果。
translated by 谷歌翻译
We develop new theoretical results on matrix perturbation to shed light on the impact of architecture on the performance of a deep network. In particular, we explain analytically what deep learning practitioners have long observed empirically: the parameters of some deep architectures (e.g., residual networks, ResNets, and Dense networks, DenseNets) are easier to optimize than others (e.g., convolutional networks, ConvNets). Building on our earlier work connecting deep networks with continuous piecewise-affine splines, we develop an exact local linear representation of a deep network layer for a family of modern deep networks that includes ConvNets at one end of a spectrum and ResNets, DenseNets, and other networks with skip connections at the other. For regression and classification tasks that optimize the squared-error loss, we show that the optimization loss surface of a modern deep network is piecewise quadratic in the parameters, with local shape governed by the singular values of a matrix that is a function of the local linear representation. We develop new perturbation results for how the singular values of matrices of this sort behave as we add a fraction of the identity and multiply by certain diagonal matrices. A direct application of our perturbation results explains analytically why a network with skip connections (such as a ResNet or DenseNet) is easier to optimize than a ConvNet: thanks to its more stable singular values and smaller condition number, the local loss surface of such a network is less erratic, less eccentric, and features local minima that are more accommodating to gradient-based optimization. Our results also shed new light on the impact of different nonlinear activation functions on a deep network's singular values, regardless of its architecture.
translated by 谷歌翻译
本文涉及使用多项式的有限样品的平滑,高维函数的近似。这项任务是计算科学和工程中许多应用的核心 - 尤其是由参数建模和不确定性量化引起的。通常在此类应用中使用蒙特卡洛(MC)采样,以免屈服于维度的诅咒。但是,众所周知,这种策略在理论上是最佳的。尺寸$ n $有许多多项式空间,样品复杂度尺度划分为$ n $。这种有据可查的现象导致了一致的努力,以设计改进的,实际上是近乎最佳的策略,其样本复杂性是线性的,甚至线性地缩小了$ n $。自相矛盾的是,在这项工作中,我们表明MC实际上是高维度中的一个非常好的策略。我们首先通过几个数值示例记录了这种现象。接下来,我们提出一个理论分析,该分析能够解决这种悖论,以实现无限多变量的全体形态功能。我们表明,基于$ M $ MC样本的最小二乘方案,其错误衰减为$ m/\ log(m)$,其速率与最佳$ n $ term的速率相同多项式近似。该结果是非构造性的,因为它假定了进行近似的合适多项式空间的知识。接下来,我们提出了一个基于压缩感应的方案,该方案达到了相同的速率,除了较大的聚类因子。该方案是实用的,并且在数值上,它的性能和比知名的自适应最小二乘方案的性能和更好。总体而言,我们的发现表明,当尺寸足够高时,MC采样非常适合平滑功能近似。因此,改进的采样策略的好处通常仅限于较低维度的设置。
translated by 谷歌翻译
给定尺寸$ d $中的独立标准高斯点$ v_1,\ ldots,v_n $,对于$(n,d)$的值(n,d)$的值很高,概率很高,同时通过所有要点?将椭圆形拟合到随机点的基本问题与低级别矩阵分解,独立的组件分析和主成分分析有连接。基于有力的数值证据,桑德森,帕里洛和威尔斯基[Proc。关于决策和控制会议,第6031-6036页,2013年]猜想,椭圆形拟合问题的问题从可行的到不可行的$ n $增加,并在$ n \ sim d^2/4处急剧阈值$。我们通过为某些$ n = \ omega(\,d^2/\ log^5(d)\,)$构建合适的椭圆形来解决这个猜想,从而改善了Ghosh等人的先前工作。 [Proc。关于计算机科学基础的研讨会,第954-965、2020页],需要$ n = o(d^{3/2})$。我们的证明证明了Saunderson等人的最小二乘结构的可行性。使用对特定非标准随机矩阵的特征向量和特征值进行仔细的分析。
translated by 谷歌翻译
求解线性系统的迭代方法的收敛速率$ \ mathbf {a} x = b $通常取决于矩阵$ \ mathbf {a} $的条件号。预处理是通过以计算廉价的方式减少该条件号来加速这些方法的常用方式。在本文中,我们通过左或右对角线重构重新审视如何最好地提高$ \ mathbf {a}条件号的数十年。我们在几个方向上取得了这个问题。首先,我们为缩放$ \ mathbf {a} $的经典启发式提供了新的界限(a.k.a.jacobi预处理)。我们证明了这种方法将$ \ MATHBF {a} $的条件号减少到最佳可能缩放的二次因素中。其次,我们为结构化混合包装和覆盖了Semidefinite程序(MPC SDP)提供了一个求解器,它计算$ \ mathbf {a} $ in $ \ widetilde {o}(\ text {nnz}(\ mathbf {a})\ cdot \ text {poly}(\ kappa ^ \ star))$ time;这与在缩放到$ \ widetilde {o}(\ text {poly}(\ kappa ^ \ star))$ factors之后求解线性系统的成本匹配。第三,我们证明了足够一般的宽度无关的MPC SDP求解器将暗示我们考虑的缩放问题的近乎最佳的运行时间,以及与平均调理措施有关的自然变体。最后,我们突出了我们的预处理技术与半随机噪声模型的连接,以及在几种统计回归模型中降低风险的应用。
translated by 谷歌翻译
In this work we study the asymptotic consistency of the weak-form sparse identification of nonlinear dynamics algorithm (WSINDy) in the identification of differential equations from noisy samples of solutions. We prove that the WSINDy estimator is unconditionally asymptotically consistent for a wide class of models which includes the Navier-Stokes equations and the Kuramoto-Sivashinsky equation. We thus provide a mathematically rigorous explanation for the observed robustness to noise of weak-form equation learning. Conversely, we also show that in general the WSINDy estimator is only conditionally asymptotically consistent, yielding discovery of spurious terms with probability one if the noise level is above some critical threshold and the nonlinearities exhibit sufficiently fast growth. We derive explicit bounds on the critical noise threshold in the case of Gaussian white noise and provide an explicit characterization of these spurious terms in the case of trigonometric and/or polynomial model nonlinearities. However, a silver lining to this negative result is that if the data is suitably denoised (a simple moving average filter is sufficient), then we recover unconditional asymptotic consistency on the class of models with locally-Lipschitz nonlinearities. Altogether, our results reveal several important aspects of weak-form equation learning which may be used to improve future algorithms. We demonstrate our results numerically using the Lorenz system, the cubic oscillator, a viscous Burgers growth model, and a Kuramoto-Sivashinsky-type higher-order PDE.
translated by 谷歌翻译
我们为特殊神经网络架构,称为运营商复发性神经网络的理论分析,用于近似非线性函数,其输入是线性运算符。这些功能通常在解决方案算法中出现用于逆边值问题的问题。传统的神经网络将输入数据视为向量,因此它们没有有效地捕获与对应于这种逆问题中的数据的线性运算符相关联的乘法结构。因此,我们介绍一个类似标准的神经网络架构的新系列,但是输入数据在向量上乘法作用。由较小的算子出现在边界控制中的紧凑型操作员和波动方程的反边值问题分析,我们在网络中的选择权重矩阵中促进结构和稀疏性。在描述此架构后,我们研究其表示属性以及其近似属性。我们还表明,可以引入明确的正则化,其可以从所述逆问题的数学分析导出,并导致概括属性上的某些保证。我们观察到重量矩阵的稀疏性改善了概括估计。最后,我们讨论如何将运营商复发网络视为深度学习模拟,以确定诸如用于从边界测量的声波方程中重建所未知的WAVESTED的边界控制的算法算法。
translated by 谷歌翻译
This work considers a computationally and statistically efficient parameter estimation method for a wide class of latent variable models-including Gaussian mixture models, hidden Markov models, and latent Dirichlet allocation-which exploits a certain tensor structure in their low-order observable moments (typically, of second-and third-order). Specifically, parameter estimation is reduced to the problem of extracting a certain (orthogonal) decomposition of a symmetric tensor derived from the moments; this decomposition can be viewed as a natural generalization of the singular value decomposition for matrices. Although tensor decompositions are generally intractable to compute, the decomposition of these specially structured tensors can be efficiently obtained by a variety of approaches, including power iterations and maximization approaches (similar to the case of matrices). A detailed analysis of a robust tensor power method is provided, establishing an analogue of Wedin's perturbation theorem for the singular vectors of matrices. This implies a robust and computationally tractable estimation approach for several popular latent variable models.
translated by 谷歌翻译
高维统计数据的一个基本目标是检测或恢复嘈杂数据中隐藏的种植结构(例如低级别矩阵)。越来越多的工作研究低级多项式作为此类问题的计算模型的限制模型:在各种情况下,数据的低级多项式可以与最知名的多项式时间算法的统计性能相匹配。先前的工作已经研究了低度多项式的力量,以检测隐藏结构的存在。在这项工作中,我们将这些方法扩展到解决估计和恢复问题(而不是检测)。对于大量的“信号加噪声”问题,我们给出了一个用户友好的下限,以获得最佳的均衡误差。据我们所知,这些是建立相关检测问题的恢复问题低度硬度的第一个结果。作为应用,我们对种植的子静脉和种植的密集子图问题的低度最小平方误差进行了严格的特征,在两种情况下都解决了有关恢复的计算复杂性的开放问题(在低度框架中)。
translated by 谷歌翻译
我们研究了稀疏张量主成分分析的问题:给定张量$ \ pmb y = \ pmb w + \ lambda x ^ {\ otimes p} $ with $ \ pmb w \ in \ otimes ^ p \ mathbb {r} ^ n $拥有iid高斯条目,目标是恢复$ k $ -parse单位矢量$ x \ in \ mathbb {r} ^ n $。该模型捕获稀疏PCA(其Wigner形式)和张量PCA。对于$ k \ leq \ sqrt {n} $的高稀疏制度,我们介绍了一系列平滑地插值在简单的多项式算法和指数时穷举搜索算法之间的算法。对于任何$ 1 \ leq t \ leq k $,我们的算法恢复了信噪比$ \ lambda \ geq \ tilde {\ mathcal {o}}(\ sqrt {t} \ cdot(k / t )^ {p / 2})$时间$ \ tilde {\ mathcal {o}}(n ^ {p + t})$,捕获矩阵设置的最先进的保证(在两者中多项式时间和子指数时间制度)。我们的结果自然地延伸到$ r $ distinct $ k $ -parse信号的案例与不相交的支持,保证与尖峰的数量无关。即使在稀疏PCA的局限性情况下,已知的算法也仅恢复$ \ lambda \ geq \ tilde {\ mathcal {o}}(k \ cdot r)$的稀疏向量,而我们的算法需要$ \ lambda \ geq \ tilde { \ mathcal {o}}(k)$。最后,通过分析低度似然比,我们将这些算法结果补充,具体证据说明信噪比和运行时间之间的权衡。该下限捕获稀疏PCA和张量PCA的已知下限。在这一普通模型中,我们在标准数量$ N $,稀疏$ k $的样本数量之间观察更复杂的三方权衡,以及张力电源$ p $。
translated by 谷歌翻译
线性回归是统计和相关字段中的基本建模工具。在本文中,我们研究了线性回归的重要变体,其中预测响应对部分不匹配。我们使用优化公式同时学习基础回归系数和与错配相对应的置换。问题的组合结构导致计算挑战。我们建议并研究一种简单的贪婪本地搜索算法,以解决这种优化问题,该算法具有强大的理论保证和具有吸引力的计算绩效。我们证明,与样本和特征的数量和问题数据的某些假设相比,在适当的不匹配对数的缩放缩放下;我们的本地搜索算法以线性速率收敛到几乎最佳的解决方案。特别是,在无嘈杂的情况下,我们的算法以线性收敛速率收敛到全局最佳解决方案。基于此结果,我们证明了参数估计误差的上限。我们还提出了一个近似的本地搜索步骤,使我们能够将方法扩展到更大的实例。我们进行数值实验,以收集有关我们理论结果的进一步见解,并与现有方法相比显示出令人鼓舞的性能增长。
translated by 谷歌翻译