智能论文笔记

The Interplay Between Implicit Bias and Benign Overfitting in Two-Layer Linear Networks

Niladri S. Chatterji , Philip M. Long , Peter L. Bartlett

分类： (统计)机器学习 | 机器学习

2021-08-25

神经网络模型的最新成功揭示了一种令人惊讶的统计现象：完全拟合噪声数据的统计模型可以很好地推广到看不见的测试数据。了解$ \ textit {良性过拟合} $的这种现象吸引了强烈的理论和经验研究。在本文中，我们考虑插值两层线性神经网络在平方损失上梯度流训练，当协变量满足亚高斯和抗浓度的特性时，在平方损耗上训练，并在多余的风险上获得界限，并且噪声是独立和次级高斯的。。通过利用最新的结果来表征该估计器的隐性偏见，我们的边界强调了初始化质量的作用以及数据协方差矩阵在实现低过量风险中的特性。

translated by 谷歌翻译

Deep Linear Networks can Benignly Overfit when Shallow Ones Do

Niladri S. Chatterji , Philip M. Long

分类：机器学习 | 人工智能 | (统计)机器学习

2022-09-19

我们束缚了使用梯度流训练的深度线性网络的多余风险。在先前用于建立最小$ \ ell_2 $ -norm interpolant的风险范围的设置中，我们表明随机初始化的深线性网络可以紧密近似甚至匹配已知的范围，即最小$ \ ell_2 $ - norm interpolant。我们的分析还表明，插值深线性模型具有与最小$ \ ell_2 $ -Norm解决方案完全相同的条件差异。由于噪声仅通过条件差异影响多余的风险，因此这意味着深度并不能提高算法“隐藏噪声”的能力。我们的模拟验证了我们边界的各个方面反映了简单数据分布的典型行为。我们还发现，在具有Relu网络的模拟中也可以看到类似的现象，尽管情况更加细微。

translated by 谷歌翻译

Benign Overfitting in Linear Regression

Peter L. Bartlett , Philip M. Long , Gábor Lugosi , Alexander Tsigler

分类：

2019-06-26

The phenomenon of benign overfitting is one of the key mysteries uncovered by deep learning methodology: deep neural networks seem to predict well, even with a perfect fit to noisy training data. Motivated by this phenomenon, we consider when a perfect fit to training data in linear regression is compatible with accurate prediction. We give a characterization of linear regression problems for which the minimum norm interpolating prediction rule has near-optimal prediction accuracy. The characterization is in terms of two notions of the effective rank of the data covariance. It shows that overparameterization is essential for benign overfitting in this setting: the number of directions in parameter space that are unimportant for prediction must significantly exceed the sample size. By studying examples of data covariance properties that this characterization shows are required for benign overfitting, we find an important role for finite-dimensional data: the accuracy of the minimum norm interpolating prediction rule approaches the best possible accuracy for a much narrower range of properties of the data distribution when the data lies in an infinite dimensional space versus when the data lies in a finite dimensional space whose dimension grows faster than the sample size.

translated by 谷歌翻译

Benign overfitting in ridge regression

A. Tsigler , P. L. Bartlett

分类： (统计)机器学习

2020-09-29

In many modern applications of deep learning the neural network has many more parameters than the data points used for its training. Motivated by those practices, a large body of recent theoretical research has been devoted to studying overparameterized models. One of the central phenomena in this regime is the ability of the model to interpolate noisy data, but still have test error lower than the amount of noise in that data. arXiv:1906.11300 characterized for which covariance structure of the data such a phenomenon can happen in linear regression if one considers the interpolating solution with minimum $\ell_2$-norm and the data has independent components: they gave a sharp bound on the variance term and showed that it can be small if and only if the data covariance has high effective rank in a subspace of small co-dimension. We strengthen and complete their results by eliminating the independence assumption and providing sharp bounds for the bias term. Thus, our results apply in a much more general setting than those of arXiv:1906.11300, e.g., kernel regression, and not only characterize how the noise is damped but also which part of the true signal is learned. Moreover, we extend the result to the setting of ridge regression, which allows us to explain another interesting phenomenon: we give general sufficient conditions under which the optimal regularization is negative.

translated by 谷歌翻译

The Interpolation Phase Transition in Neural Networks: Memorization and Generalization under Lazy Training

Andrea Montanari , Yiqiao Zhong

分类： (统计)机器学习 | 机器学习

2020-07-25

现代神经网络通常以强烈的过度构造状态运行：它们包含许多参数，即使实际标签被纯粹随机的标签代替，它们也可以插入训练集。尽管如此，他们在看不见的数据上达到了良好的预测错误：插值训练集并不会导致巨大的概括错误。此外，过度散色化似乎是有益的，因为它简化了优化景观。在这里，我们在神经切线（NT）制度中的两层神经网络的背景下研究这些现象。我们考虑了一个简单的数据模型，以及各向同性协变量的矢量，$ d $尺寸和$ n $隐藏的神经元。我们假设样本量$ n $和尺寸$ d $都很大，并且它们在多项式上相关。我们的第一个主要结果是对过份术的经验NT内核的特征结构的特征。这种表征意味着必然的表明，经验NT内核的最低特征值在$ ND \ gg n $后立即从零界限，因此网络可以在同一制度中精确插值任意标签。我们的第二个主要结果是对NT Ridge回归的概括误差的表征，包括特殊情况，最小值-ULL_2 $ NORD插值。我们证明，一旦$ nd \ gg n $，测试误差就会被内核岭回归之一相对于无限宽度内核而近似。多项式脊回归的误差依次近似后者，从而通过与激活函数的高度组件相关的“自我诱导的”项增加了正则化参数。多项式程度取决于样本量和尺寸（尤其是$ \ log n/\ log d $）。

translated by 谷歌翻译

Uniform Convergence of Interpolators: Gaussian Width, Norm Bounds, and Benign Overfitting

Frederic Koehler , Lijia Zhou , Danica J. Sutherland , Nathan Srebro

分类： (统计)机器学习 | 机器学习

2021-06-17

我们考虑与高斯数据的高维线性回归中的插值学习，并在类高斯宽度方面证明了任意假设类别中的内插器的泛化误差。将通用绑定到欧几里德常规球恢复了Bartlett等人的一致性结果。（2020）对于最小规范内插器，并确认周等人的预测。（2020）在高斯数据的特殊情况下，对于近乎最小常态的内插器。我们通过将其应用于单位来证明所界限的一般性，从而获得最小L1-NORM Interpoolator（基础追踪）的新型一致性结果。我们的结果表明，基于规范的泛化界限如何解释并用于分析良性过度装备，至少在某些设置中。

translated by 谷歌翻译

Risk Bounds for Over-parameterized Maximum Margin Classification on Sub-Gaussian Mixtures

Yuan Cao , Quanquan Gu , Mikhail Belkin

分类：机器学习 | (统计)机器学习

2021-04-28

深度神经网络等现代机器学习系统通常高度参数化，以便它们可以完全符合嘈杂的培训数据，但它们仍然可以在实践中实现小的测试错误。在本文中，我们研究了线性分类问题的最大边缘分类器的“良性过度装备”现象。具体地，我们考虑从子高斯混合系统生成的数据，并为过参数化设置中的最大边距线性分类器提供紧密的风险。我们的结果精确地表征了线性分类问题中可能发生良性过度的条件，并改善以前的工作。它们也对过度参数化的逻辑回归有直接影响。

translated by 谷歌翻译

Fundamental Limits of Two-layer Autoencoders, and Achieving Them with Gradient Methods

Alexander Shevchenko , Kevin Kögler , Hamed Hassani , Marco Mondelli

分类：机器学习 | (统计)机器学习

2022-12-27

Autoencoders are a popular model in many branches of machine learning and lossy data compression. However, their fundamental limits, the performance of gradient methods and the features learnt during optimization remain poorly understood, even in the two-layer setting. In fact, earlier work has considered either linear autoencoders or specific training regimes (leading to vanishing or diverging compression rates). Our paper addresses this gap by focusing on non-linear two-layer autoencoders trained in the challenging proportional regime in which the input dimension scales linearly with the size of the representation. Our results characterize the minimizers of the population risk, and show that such minimizers are achieved by gradient methods; their structure is also unveiled, thus leading to a concise description of the features obtained via training. For the special case of a sign activation function, our analysis establishes the fundamental limits for the lossy compression of Gaussian sources via (shallow) autoencoders. Finally, while the results are proved for Gaussian data, numerical simulations on standard datasets display the universality of the theoretical predictions.

translated by 谷歌翻译

Provable Meta-Learning of Linear Representations

Nilesh Tripuraneni , Chi Jin , Michael I. Jordan

分类：机器学习 | 人工智能 | (统计)机器学习

2020-02-26

元学习或学习学习，寻求设计算法，可以利用以前的经验快速学习新技能或适应新环境。表示学习 - 用于执行元学习的关键工具 - 了解可以在多个任务中传输知识的数据表示，这在数据稀缺的状态方面是必不可少的。尽管最近在Meta-Leature的实践中感兴趣的兴趣，但缺乏元学习算法的理论基础，特别是在学习可转让陈述的背景下。在本文中，我们专注于多任务线性回归的问题 - 其中多个线性回归模型共享常见的低维线性表示。在这里，我们提供了可提供的快速，采样高效的算法，解决了（1）的双重挑战，从多个相关任务和（2）将此知识转移到新的，看不见的任务中的常见功能。两者都是元学习的一般问题的核心。最后，我们通过在学习这些线性特征的样本复杂性上提供信息定理下限来补充这些结果。

translated by 谷歌翻译

Low-Rank Approximation with $1/ε^{1/3}$ Matrix-Vector Products

Ainesh Bakshi , Kenneth L. Clarkson , David P. Woodruff

分类：机器学习

2022-02-10

我们研究基于Krylov子空间的迭代方法，用于在任何Schatten $ p $ Norm中的低级别近似值。在这里，通过矩阵向量产品访问矩阵$ a $ $如此$ \ | a（i -zz^\ top）\ | _ {s_p} \ leq（1+ \ epsilon）\ min_ {u^\ top u = i_k} } $，其中$ \ | m \ | _ {s_p} $表示$ m $的单数值的$ \ ell_p $ norm。对于$ p = 2 $（frobenius norm）和$ p = \ infty $（频谱规范）的特殊情况，musco and Musco（Neurips 2015）获得了基于Krylov方法的算法，该方法使用$ \ tilde {o}（k）（k /\ sqrt {\ epsilon}）$ matrix-vector产品，改进na \“ ive $ \ tilde {o}（k/\ epsilon）$依赖性，可以通过功率方法获得，其中$ \ tilde {o} $抑制均可抑制poly $（\ log（dk/\ epsilon））$。我们的主要结果是仅使用$ \ tilde {o}（kp^{1/6}/\ epsilon^{1/3} {1/3}）$ matrix $ matrix的算法 - 矢量产品，并为所有$ p \ geq 1 $。为$ p = 2 $工作，我们的限制改进了先前的$ \ tilde {o}（k/\ epsilon^{1/2}）$绑定到$ \ tilde {o}（k/\ epsilon^{1/3}）$。由于schatten- $ p $和schatten-$ \ infty $ norms在$（1+ \ epsilon）$ pers $ p时相同\ geq（\ log d）/\ epsilon $，我们的界限恢复了Musco和Musco的结果，以$ p = \ infty $。此外，我们证明了矩阵矢量查询$ \ omega的下限（1/\ epsilon^ {1/3}）$对于任何固定常数$ p \ geq 1 $，表明令人惊讶的$ \ tilde {\ theta}（1/\ epsilon^{ 1/3}）$是常数〜$ k $的最佳复杂性。为了获得我们的结果，我们介绍了几种新技术，包括同时对多个Krylov子空间进行优化，以及针对分区操作员的不平等现象。我们在[1,2] $中以$ p \的限制使用了Araki-lieb-thirring Trace不平等，而对于$ p> 2 $，我们呼吁对安装分区操作员的规范压缩不平等。

translated by 谷歌翻译

Last Iterate Risk Bounds of SGD with Decaying Stepsize for Overparameterized Linear Regression

Jingfeng Wu , Difan Zou , Vladimir Braverman , Quanquan Gu , Sham M. Kakade

分类：机器学习 | (统计)机器学习

2021-10-12

随机梯度下降（SGD）已被证明在许多深度学习应用中都很好地概括了。在实践中，人们经常以几何衰减的步骤运行SGD，即，恒定的初始步骤，然后是多个几何步骤衰减，并将最后一个迭代用作输出。已知这种SGD几乎对经典有限维线性回归问题几乎是最佳的（Ge等，2019）。但是，在过度参数化设置中对SGD的最后一次迭代进行了彻底的分析。在本文中，我们对SGD的最后一个迭代风险界限进行了依赖问题的分析，并具有腐烂的步骤，以（过度参数化）线性回归问题。特别是，对于带有（尾部）几何衰减步骤的最后迭代SGD，我们证明了多余风险的上限和下限几乎匹配。此外，我们为最后一次迭代的SGD提供了多余的风险下限，并以多项式衰减的步骤进行了大小，并以实例的方式证明了几何腐烂的步骤的优势，这补充了先前工作中的最小值比较。

translated by 谷歌翻译

Optimistic Rates: A Unifying Theory for Interpolation Learning and Regularization in Linear Regression

Lijia Zhou , Frederic Koehler , Danica J. Sutherland , Nathan Srebro

分类： (统计)机器学习 | 机器学习

2021-12-08

我们研究了称为“乐观速率”（Panchenko 2002; Srebro等，2010）的统一收敛概念，用于与高斯数据的线性回归。我们的精致分析避免了现有结果中的隐藏常量和对数因子，这已知在高维设置中至关重要，特别是用于了解插值学习。作为一个特殊情况，我们的分析恢复了Koehler等人的保证。（2021年），在良性过度的过度条件下，严格地表征了低规范内插器的人口风险。但是，我们的乐观速度绑定还分析了具有任意训练错误的预测因子。这使我们能够在随机设计下恢复脊和套索回归的一些经典统计保障，并有助于我们在过度参数化制度中获得精确了解近端器的过度风险。

translated by 谷歌翻译

Foolish Crowds Support Benign Overfitting

Niladri S. Chatterji , Philip M. Long

分类： (统计)机器学习 | 机器学习

2021-10-06

我们证明了稀疏内插程序的过度风险，用于在过度分开的制度中与高斯数据的线性回归的稀疏插值程序的风险。我们应用此结果以获得基础追踪的下限（最低$ \ ell_1 $ -norm interpolant），这意味着其过度的风险可以以指数较慢的速率收敛于ols（最低$ \ ell_2 $ -norm interpolant），即使地面真相稀疏。我们的分析暴露了类似于“人群智慧”的效果的好处，除了拟合$ \ yexit {噪音} $的危害通过在许多方向之间传播来改善 - 从价值开始\ textit {愚蠢} $人群。

translated by 谷歌翻译

Near optimal sample complexity for matrix and tensor normal models via geodesic convexity

Cole Franks , Rafael Oliveira , Akshay Ramachandran , Michael Walter

分类：机器学习

2021-10-14

矩阵正常模型，高斯矩阵变化分布的系列，其协方差矩阵是两个较低尺寸因子的Kronecker乘积，经常用于模拟矩阵变化数据。张量正常模型将该家庭推广到三个或更多因素的Kronecker产品。我们研究了矩阵和张量模型中协方差矩阵的Kronecker因子的估计。我们向几个自然度量中的最大似然估计器（MLE）实现的误差显示了非因素界限。与现有范围相比，我们的结果不依赖于条件良好或稀疏的因素。对于矩阵正常模型，我们所有的所有界限都是最佳的对数因子最佳，对于张量正常模型，我们对最大因数和整体协方差矩阵的绑定是最佳的，所以提供足够的样品以获得足够的样品以获得足够的样品常量Frobenius错误。在与我们的样本复杂性范围相同的制度中，我们表明迭代程序计算称为触发器算法称为触发器算法的MLE的线性地收敛，具有高概率。我们的主要工具是Fisher信息度量诱导的正面矩阵的几何中的测地强凸性。这种强大的凸起由某些随机量子通道的扩展来决定。我们还提供了数值证据，使得将触发器算法与简单的收缩估计器组合可以提高缺乏采样制度的性能。

translated by 谷歌翻译

On Low-rank Trace Regression under General Sampling Distribution

Nima Hamidi , Mohsen Bayati

分类：机器学习 | (统计)机器学习

2019-04-18

In this paper, we study the trace regression when a matrix of parameters B* is estimated via the convex relaxation of a rank-regularized regression or via regularized non-convex optimization. It is known that these estimators satisfy near-optimal error bounds under assumptions on the rank, coherence, and spikiness of B*. We start by introducing a general notion of spikiness for B* that provides a generic recipe to prove the restricted strong convexity of the sampling operator of the trace regression and obtain near-optimal and non-asymptotic error bounds for the estimation error. Similar to the existing literature, these results require the regularization parameter to be above a certain theory-inspired threshold that depends on observation noise that may be unknown in practice. Next, we extend the error bounds to cases where the regularization parameter is chosen via cross-validation. This result is significant in that existing theoretical results on cross-validated estimators (Kale et al., 2011; Kumar et al., 2013; Abou-Moustafa and Szepesvari, 2017) do not apply to our setting since the estimators we study are not known to satisfy their required notion of stability. Finally, using simulations on synthetic and real data, we show that the cross-validated estimator selects a near-optimal penalty parameter and outperforms the theory-inspired approach of selecting the parameter.

translated by 谷歌翻译

Alternating minimization for generalized rank one matrix sensing: Sharp predictions from a random initialization

Kabir Aladin Chandrasekher , Mengqi Lou , Ashwin Pananjady

分类： (统计)机器学习

2022-07-20

我们考虑估计与I.I.D的排名$ 1 $矩阵因素的问题。高斯，排名$ 1 $的测量值，这些测量值非线性转化和损坏。考虑到非线性的两种典型选择，我们研究了从随机初始化开始的此非convex优化问题的天然交流更新规则的收敛性能。我们通过得出确定性递归，即使在高维问题中也是准确的，我们显示出算法的样本分割版本的敏锐收敛保证。值得注意的是，虽然无限样本的种群更新是非信息性的，并提示单个步骤中的精确恢复，但算法 - 我们的确定性预测 - 从随机初始化中迅速地收敛。我们尖锐的非反应分析也暴露了此问题的其他几种细粒度，包括非线性和噪声水平如何影响收敛行为。从技术层面上讲，我们的结果可以通过证明我们的确定性递归可以通过我们的确定性顺序来预测我们的确定性序列，而当每次迭代都以$ n $观测来运行时，我们的确定性顺序可以通过$ n^{ - 1/2} $的波动。我们的技术利用了源自有关高维$ m $估计文献的遗留工具，并为通过随机数据的其他高维优化问题的随机初始化而彻底地分析了高阶迭代算法的途径。

translated by 谷歌翻译

Minimax Supervised Clustering in the Anisotropic Gaussian Mixture Model: A new take on Robust Interpolation

Stanislav Minsker , Mohamed Ndaoud , Yiqiu Shen

分类： (统计)机器学习

2021-11-13

我们在高尺寸和非渐近环境下研究了双组分各向异性高斯混合模型下的监督聚类问题。我们首先导出较低和匹配的上限，以获得本框架中的群集风险。我们还表明，在高维制度中，线性判别分析（LDA）分类器在最低限度的识别中出现在次优。接下来，我们精确地表征了$ \ ell_2 $ -regulared监督最小二乘分类器的风险。我们推断了内插解决方案可能在噪声的协方差结构上的温和假设下优于正则化分类器。我们的分析还表明，当信号与协方差的“清洁”部分对齐时，插值可能是对噪声的协方差的损坏，以适当地定义对准的正确概念。据我们所知，这种特殊的现象尚未在与插值相关的迅速增长的文学中进行调查。我们得出结论，插值不仅是良性的，而且也可以是最佳的，并且在某些情况下是强大的。

translated by 谷歌翻译

Multiple Descent in the Multiple Random Feature Model

Xuran Meng , Jianfeng Yao , Yuan Cao

分类：机器学习 | (统计)机器学习

2022-08-21

最近的作品证明了过度参数化学习中的双重下降现象：随着模型参数的数量的增加，多余的风险具有$ \ mathsf {u} $ - 在开始时形状，然后在模型高度过度参数化时再次减少。尽管最近在不同的环境（例如线性模型，随机特征模型和内核方法）下进行了研究，但在理论上尚未完全理解这种现象。在本文中，我们考虑了由两种随机特征组成的双随机特征模型（DRFM），并研究DRFM在脊回归中实现的多余风险。我们计算高维框架下的多余风险的确切限制，在这种框架上，训练样本量，数据尺寸和随机特征的维度往往会成比例地无限。根据计算，我们证明DRFM的风险曲线可以表现出三重下降。然后，我们提供三重下降现象的解释，并讨论随机特征维度，正则化参数和信噪比比率如何控制DRFMS风险曲线的形状。最后，我们将研究扩展到多个随机功能模型（MRFM），并表明具有$ K $类型的随机功能的MRFM可能会显示出$（K+1）$ - 折叠。我们的分析指出，具有特定数量下降的风险曲线通常在基于特征的回归中存在。另一个有趣的发现是，当学习神经网络在“神经切线内核”制度中时，我们的结果可以恢复文献中报告的风险峰值位置。

translated by 谷歌翻译

Minimax Estimation of Linear Functions of Eigenvectors in the Face of Small Eigen-Gaps

Gen Li , Changxiao Cai , H. Vincent Poor , Yuxin Chen

分类：机器学习 | (统计)机器学习

2021-04-07

特征向量扰动分析在各种数据科学应用中起着至关重要的作用。然而，大量的先前作品着重于建立$ \ ell_ {2} $ eigenVector扰动边界，这些范围通常在解决依赖特征向量的细粒度行为的任务方面非常不足。本文通过研究未知特征向量的线性函数的扰动来取得进展。在存在高斯噪声的情况下，着重于两个基本问题 - 矩阵denoising和主成分分析 - 我们开发了一个统计理论的套件，该理论表征了未知特征向量的任意线性函数的扰动。为了减轻自然``插件''估计器固有的不可忽略的偏见问题，我们开发了偏低的估计器，即（1）（1）为场景家庭实现最小的下限（模仿某些对数因素），并且（2）可以以数据驱动的方式计算，而无需样品分裂。值得注意的是，即使相关的特征间隙{\ em少于先前的统计理论所要求的，提出的估计器几乎是最佳的最佳选择。

translated by 谷歌翻译

Tight Bounds on the Smallest Eigenvalue of the Neural Tangent Kernel for Deep ReLU Networks

Quynh Nguyen , Marco Mondelli , Guido Montufar

分类： (统计)机器学习 | 机器学习

2020-12-21

最近的一项工作已经通过神经切线核（NTK）分析了深神经网络的理论特性。特别是，NTK的最小特征值与记忆能力，梯度下降算法的全球收敛性和深网的概括有关。但是，现有结果要么在两层设置中提供边界，要么假设对于多层网络，将NTK矩阵的频谱从0界限为界限。在本文中，我们在无限宽度和有限宽度的限制情况下，在最小的ntk矩阵的最小特征值上提供了紧密的界限。在有限宽度的设置中，我们认为的网络体系结构相当笼统：我们需要大致订购$ n $神经元的宽层，$ n $是数据示例的数量；剩余层宽度的缩放是任意的（取决于对数因素）。为了获得我们的结果，我们分析了各种量的独立兴趣：我们对隐藏特征矩阵的最小奇异值以及输入输出特征图的Lipschitz常数上的上限给出了下限。

translated by 谷歌翻译