智能论文笔记

Nyström landmark sampling and regularized Christoffel functions

Michaël Fanuel , Joachim Schreurs , Johan A. K. Suykens

分类：机器学习 | (统计)机器学习

2019-05-29

从大型套装中选择不同的和重要的项目，称为地标是机器学习兴趣的问题。作为一个具体示例，为了处理大型训练集，内核方法通常依赖于基于地标的选择或采样的低等级矩阵NYSTR \“OM近似值。在此上下文中，我们提出了一个确定性和随机的自适应算法在培训数据集中选择地标点。这些地标与克尼利克里斯特步函数序列的最小值有关。除了ChristOffel功能和利用分数之间的已知联系，我们的方法也有限决定性点过程（DPP）也是如此解释。即，我们的建设以类似于DPP的方式促进重要地标点之间的多样性。此外，我们解释了我们的随机自适应算法如何影响内核脊回归的准确性。

translated by 谷歌翻译

Nonparametric estimation of continuous DPPs with kernel methods

Michaël Fanuel , Rémi Bardenet

分类：机器学习 | (统计)机器学习

2021-06-27

确定点过程（DPP）是排斥点模式的统计模型。取样和推理都是DPPS的易用，这是具有负依赖性的模型中的罕见特征，解释了他们在机器学习和空间统计中的普及。已经在有限情况下提出了参数和非参数推断方法，即当点模式生活在有限的地面集中时。在连续的情况下，只有研究参数方法，而DPPS的非参数最大可能性 - 追踪课程运算符的优化问题 - 仍然是一个打开的问题。在本文中，我们表明，这种最大可能性（MLE）问题的受限制版本落入了RKHS中的非负面函数的最新代表定理的范围内。这导致有限的尺寸问题，具有强大的统计关系到原始MLE。此外，我们提出，分析，并展示了解决这个有限尺寸问题的定点算法。最后，我们还提供了对DPP的相关核的受控估计，从而提供更多的解释性。

translated by 谷歌翻译

Sparsification of the regularized magnetic Laplacian with multi-type spanning forests

Michaël Fanuel , Rémi Bardenet

分类：机器学习 | (统计)机器学习

2022-08-31

在本文中，我们考虑了一个$ {\ rm u}（1）$ - 连接图，也就是说，每个方向的边缘都赋予了一个单位模量复杂的数字，该数字在方向翻转下简单地结合了。当时，组合laplacian的自然替代品是所谓的磁性拉普拉斯（Hermitian Matrix），其中包括有关图形连接的信息。连接图和磁性拉普拉斯人出现，例如在角度同步问题中。在较大且密集的图的背景下，我们在这里研究了磁性拉普拉斯的稀疏器，即基于边缘很少的子图的光谱近似值。我们的方法依赖于使用自定义的确定点过程对跨越森林（MTSF）进行取样，这是一种比偏爱多样性的边缘的分布。总而言之，MTSF是一个跨越子图，其连接的组件是树或周期根的树。后者部分捕获了连接图的角不一致，因此提供了一种压缩连接中包含的信息的方法。有趣的是，当此连接图具有弱不一致的周期时，可以通过使用循环弹出的随机行走来获得此分布的样本。我们为选择Laplacian的自然估计量提供了统计保证，并调查了我们的Sparsifier在两个应用中的实际应用。

translated by 谷歌翻译

HTML版本

Positive semi-definite embedding for dimensionality reduction and out-of-sample extensions

Michaël Fanuel , Antoine Aspeel , Jean-Charles Delvenne , Johan A. K. Suykens

分类：机器学习 | (统计)机器学习

2017-11-20

在机器学习或统计中，通常希望减少高维空间$ \ mathbb {r} ^ d $的数据点样本的维度。本文介绍了一种维度还原方法，其中嵌入坐标是作为半定程序无限尺寸模拟的溶液获得的正半定核的特征向量。这种嵌入是自适应和非线性的。我们对学习内核的弱者和强烈的平滑假设讨论了这个问题。我们的方法的主要特点是在两种情况下存在嵌入坐标的样本延伸公式。该外推公式产生内核矩阵的延伸到数据相关的Mercer内核功能。我们的经验结果表明，与光谱嵌入方法相比，该嵌入方法对异常值的影响更加稳健。

translated by 谷歌翻译

Finding structure with randomness: Probabilistic algorithms for constructing approximate matrix decompositions

Nathan Halko , Per-Gunnar Martinsson , Joel A. Tropp

分类：

2009-09-22

Low-rank matrix approximations, such as the truncated singular value decomposition and the rank-revealing QR decomposition, play a central role in data analysis and scientific computing. This work surveys and extends recent research which demonstrates that randomization offers a powerful tool for performing low-rank matrix approximation. These techniques exploit modern computational architectures more fully than classical methods and open the possibility of dealing with truly massive data sets.This paper presents a modular framework for constructing randomized algorithms that compute partial matrix decompositions. These methods use random sampling to identify a subspace that captures most of the action of a matrix. The input matrix is then compressed-either explicitly or implicitly-to this subspace, and the reduced matrix is manipulated deterministically to obtain the desired low-rank factorization. In many cases, this approach beats its classical competitors in terms of accuracy, speed, and robustness. These claims are supported by extensive numerical experiments and a detailed error analysis.The specific benefits of randomized techniques depend on the computational environment. Consider the model problem of finding the k dominant components of the singular value decomposition of an m × n matrix. (i) For a dense input matrix, randomized algorithms require O(mn log(k)) floating-point operations (flops) in contrast with O(mnk) for classical algorithms. (ii) For a sparse input matrix, the flop count matches classical Krylov subspace methods, but the randomized approach is more robust and can easily be reorganized to exploit multi-processor architectures. (iii) For a matrix that is too large to fit in fast memory, the randomized techniques require only a constant number of passes over the data, as opposed to O(k) passes for classical algorithms. In fact, it is sometimes possible to perform matrix approximation with a single pass over the data.

translated by 谷歌翻译

Regularized ERM on random subspaces

Andrea Della Vecchia , Jaouad Mourtada , Ernesto De Vito , Lorenzo Rosasco

分类： (统计)机器学习 | 机器学习

2022-12-04

We study a natural extension of classical empirical risk minimization, where the hypothesis space is a random subspace of a given space. In particular, we consider possibly data dependent subspaces spanned by a random subset of the data, recovering as a special case Nystrom approaches for kernel methods. Considering random subspaces naturally leads to computational savings, but the question is whether the corresponding learning accuracy is degraded. These statistical-computational tradeoffs have been recently explored for the least squares loss and self-concordant loss functions, such as the logistic loss. Here, we work to extend these results to convex Lipschitz loss functions, that might not be smooth, such as the hinge loss used in support vector machines. This unified analysis requires developing new proofs, that use different technical tools, such as sub-gaussian inputs, to achieve fast rates. Our main results show the existence of different settings, depending on how hard the learning problem is, for which computational efficiency can be improved with no loss in performance.

translated by 谷歌翻译

Randomly pivoted Cholesky: Practical approximation of a kernel matrix with few entry evaluations

Yifan Chen , Ethan N. Epperly , Joel A. Tropp , Robert J. Webber

分类： (统计)机器学习

2022-07-13

随机旋转的Cholesky（RPCholesky）是一种用于计算N X N阳性半芬酸矩阵（PSD）矩阵的等级K近似的天然算法。RPCholesky只需几行代码就可以实现。它仅需要（k+1）n进入评估，o（k^2 n）其他算术操作。本文对其实验和理论行为进行了首次认真研究。从经验上讲，rpcholesky匹配或改善了低级别PSD近似的替代算法的性能。此外，RPCholesky可证明达到了近乎最佳的近似保证。该算法的简单性，有效性和鲁棒性强烈支持其在科学计算和机器学习应用中的使用。

translated by 谷歌翻译

Nyström Kernel Mean Embeddings

Antoine Chatalic , Nicolas Schreuder , Alessandro Rudi , Lorenzo Rosasco

分类： (统计)机器学习 | 机器学习

2022-01-31

内核平均值嵌入是一种强大的工具，可以代表任意空间上的概率分布作为希尔伯特空间中的单个点。然而，计算和存储此类嵌入的成本禁止其在大规模设置中的直接使用。我们提出了一个基于NyStr \“ Om方法的有效近似过程，该过程利用了数据集的一个小随机子集。我们的主要结果是该过程的近似误差的上限。它在子样本大小上产生足够的条件以获得足够的条件。降低计算成本的同时，标准的$ n^{ - 1/2} $。我们讨论了此结果的应用，以近似的最大平均差异和正交规则，并通过数值实验说明了我们的理论发现。

translated by 谷歌翻译

$p$-Sparsified Sketches for Fast Multiple Output Kernel Methods

Tamim El Ahmad , Pierre Laforgue , Florence d'Alché-Buc

分类： (统计)机器学习 | 机器学习

2022-06-08

内核方法是学习算法，这些算法享有坚实的理论基础，同时遭受了重要的计算局限性。素描包括在缩小尺寸的子空间中寻找解决方案，是一种经过广泛研究的方法来减轻这种数值负担。但是，快速的草图策略（例如非自适应子采样）大大降低了算法的保证，而理论上准确的草图（例如高斯曲线）在实践中的实践相对较慢。在本文中，我们介绍了$ p $ -sparsified的草图，这些草图结合了两种方法的好处，以实现统计准确性和计算效率之间的良好权衡。为了支持我们的方法，我们在单个和多个输出问题上得出了多余的风险范围，并具有通用Lipschitz损失，从可靠的回归到多个分位数回归为广泛的应用提供了新的保证。我们还提供了草图优于最近SOTA方法的优势的经验证据。

translated by 谷歌翻译

Interpolation and Learning with Scale Dependent Kernels

Nicolò Pagliana , Alessandro Rudi , Ernesto De Vito , Lorenzo Rosasco

分类： (统计)机器学习 | 机器学习

2020-06-17

我们研究了非参数脊的最小二乘的学习属性。特别是，我们考虑常见的估计人的估计案例，由比例依赖性内核定义，并专注于规模的作用。这些估计器内插数据，可以显示规模来通过条件号控制其稳定性。我们的分析表明，这是不同的制度，具体取决于样本大小，其尺寸与问题的平滑度之间的相互作用。实际上，当样本大小小于数据维度中的指数时，可以选择比例，以便学习错误减少。随着样本尺寸变大，总体错误停止减小但有趣地可以选择规模，使得噪声引起的差异仍然存在界线。我们的分析结合了概率，具有来自插值理论的许多分析技术。

translated by 谷歌翻译

The Interpolation Phase Transition in Neural Networks: Memorization and Generalization under Lazy Training

Andrea Montanari , Yiqiao Zhong

分类： (统计)机器学习 | 机器学习

2020-07-25

现代神经网络通常以强烈的过度构造状态运行：它们包含许多参数，即使实际标签被纯粹随机的标签代替，它们也可以插入训练集。尽管如此，他们在看不见的数据上达到了良好的预测错误：插值训练集并不会导致巨大的概括错误。此外，过度散色化似乎是有益的，因为它简化了优化景观。在这里，我们在神经切线（NT）制度中的两层神经网络的背景下研究这些现象。我们考虑了一个简单的数据模型，以及各向同性协变量的矢量，$ d $尺寸和$ n $隐藏的神经元。我们假设样本量$ n $和尺寸$ d $都很大，并且它们在多项式上相关。我们的第一个主要结果是对过份术的经验NT内核的特征结构的特征。这种表征意味着必然的表明，经验NT内核的最低特征值在$ ND \ gg n $后立即从零界限，因此网络可以在同一制度中精确插值任意标签。我们的第二个主要结果是对NT Ridge回归的概括误差的表征，包括特殊情况，最小值-ULL_2 $ NORD插值。我们证明，一旦$ nd \ gg n $，测试误差就会被内核岭回归之一相对于无限宽度内核而近似。多项式脊回归的误差依次近似后者，从而通过与激活函数的高度组件相关的“自我诱导的”项增加了正则化参数。多项式程度取决于样本量和尺寸（尤其是$ \ log n/\ log d $）。

translated by 谷歌翻译

Unbiased estimators for random design regression

Michał Dereziński , Manfred K. Warmuth , Daniel Hsu

分类： (统计)机器学习 | 机器学习

2019-07-08

在线性回归中，我们希望根据少量样本估算超过$ d $维的输入点和实价响应的最佳最小二乘预测。根据标准随机设计分析，其中绘制样品i.i.d。从输入分布中，该样品的最小二乘解决方案可以看作是最佳的自然估计器。不幸的是，该估计器几乎总是产生来自输入点的随机性的不良偏置，这在模型平均中是一个重要的瓶颈。在本文中，我们表明可以绘制非i.i.d。输入点的样本，无论响应模型如何，最小二乘解决方案都是最佳的无偏估计器。此外，可以通过增强先前绘制的I.I.D。可以有效地生产该样本。带有额外的$ d $点的样品，根据点由点跨越的平方量重新缩放的输入分布构建的一定确定点过程，共同绘制。在此激励的基础上，我们开发了一个理论框架来研究体积响应的采样，并在此过程中证明了许多新的矩阵期望身份。我们使用它们来表明，对于任何输入分布和$ \ epsilon> 0 $，有一个随机设计由$ o（d \ log d+ d+ d+ d/\ epsilon）$点，从中可以从中构造出无偏见的估计器，其预期的是正方形损耗在整个发行版中，$ 1+\ epsilon $ times最佳损失。我们提供有效的算法来在许多实际设置中生成这种无偏估计量，并在实验中支持我们的主张。

translated by 谷歌翻译

Quasi-Bayesian Dual Instrumental Variable Regression

Ziyu Wang , Yuhao Zhou , Tongzheng Ren , Jun Zhu

分类： (统计)机器学习 | 机器学习

2021-06-16

近年来目睹了采用灵活的机械学习模型进行乐器变量（IV）回归的兴趣，但仍然缺乏不确定性量化方法的发展。在这项工作中，我们为IV次数回归提出了一种新的Quasi-Bayesian程序，建立了最近开发的核化IV模型和IV回归的双/极小配方。我们通过在$ l_2 $和sobolev规范中建立最低限度的最佳收缩率，并讨论可信球的常见有效性来分析所提出的方法的频繁行为。我们进一步推出了一种可扩展的推理算法，可以扩展到与宽神经网络模型一起工作。实证评价表明，我们的方法对复杂的高维问题产生了丰富的不确定性估计。

translated by 谷歌翻译

A rigorous introduction to linear models

Jun Lu

分类：机器学习 | (统计)机器学习

2021-05-10

这项调查旨在提供线性模型及其背后的理论的介绍。我们的目标是对读者进行严格的介绍，并事先接触普通最小二乘。在机器学习中，输出通常是输入的非线性函数。深度学习甚至旨在找到需要大量计算的许多层的非线性依赖性。但是，这些算法中的大多数都基于简单的线性模型。然后，我们从不同视图中描述线性模型，并找到模型背后的属性和理论。线性模型是回归问题中的主要技术，其主要工具是最小平方近似，可最大程度地减少平方误差之和。当我们有兴趣找到回归函数时，这是一个自然的选择，该回归函数可以最大程度地减少相应的预期平方误差。这项调查主要是目的的摘要，即线性模型背后的重要理论的重要性，例如分布理论，最小方差估计器。我们首先从三种不同的角度描述了普通的最小二乘，我们会以随机噪声和高斯噪声干扰模型。通过高斯噪声，该模型产生了可能性，因此我们引入了最大似然估计器。它还通过这种高斯干扰发展了一些分布理论。最小二乘的分布理论将帮助我们回答各种问题并引入相关应用。然后，我们证明最小二乘是均值误差的最佳无偏线性模型，最重要的是，它实际上接近了理论上的极限。我们最终以贝叶斯方法及以后的线性模型结束。

translated by 谷歌翻译

Precise expressions for random projections: Low-rank approximation and randomized Newton

Michał Dereziński , Feynman Liang , Zhenyu Liao , Michael W. Mahoney

分类：机器学习 | (统计)机器学习

2020-06-18

通常希望通过将其投影到低维子空间来降低大数据集的维度。矩阵草图已成为一种非常有效地执行这种维度降低的强大技术。尽管有关于草图最差的表现的广泛文献，但现有的保证通常与实践中观察到的差异截然不同。我们利用随机矩阵的光谱分析中的最新发展来开发新技术，这些技术为通过素描获得的随机投影矩阵的期望值提供了准确的表达。这些表达式可以用来表征各种常见的机器学习任务中尺寸降低的性能，从低级别近似到迭代随机优化。我们的结果适用于几种流行的草图方法，包括高斯和拉德马赫草图，它们可以根据数据的光谱特性对这些方法进行精确的分析。经验结果表明，我们得出的表达式反映了这些草图方法的实际性能，直到低阶效应甚至不变因素。

translated by 谷歌翻译

Sampling-based sublinear low-rank matrix arithmetic framework for dequantizing quantum machine learning

Nai-Hui Chia , András Gilyén , Tongyang Li , Han-Hsuan Lin , Ewin Tang , Chunhao Wang

分类：机器学习

2019-10-14

我们提出了一个算法框架，用于近距离矩阵上的量子启发的经典算法，概括了Tang的突破性量子启发算法开始的一系列结果，用于推荐系统[STOC'19]。由量子线性代数算法和gily \'en，su，low和wiebe [stoc'19]的量子奇异值转换（SVT）框架[SVT）的动机[STOC'19]，我们开发了SVT的经典算法合适的量子启发的采样假设。我们的结果提供了令人信服的证据，表明在相应的QRAM数据结构输入模型中，量子SVT不会产生指数量子加速。由于量子SVT框架基本上概括了量子线性代数的所有已知技术，因此我们的结果与先前工作的采样引理相结合，足以概括所有有关取消量子机器学习算法的最新结果。特别是，我们的经典SVT框架恢复并经常改善推荐系统，主成分分析，监督聚类，支持向量机器，低秩回归和半决赛程序解决方案的取消结果。我们还为汉密尔顿低级模拟和判别分析提供了其他取消化结果。我们的改进来自识别量子启发的输入模型的关键功能，该模型是所有先前量子启发的结果的核心：$ \ ell^2 $ -Norm采样可以及时近似于其尺寸近似矩阵产品。我们将所有主要结果减少到这一事实，使我们的简洁，独立和直观。

translated by 谷歌翻译

Benign overfitting in ridge regression

A. Tsigler , P. L. Bartlett

分类： (统计)机器学习

2020-09-29

In many modern applications of deep learning the neural network has many more parameters than the data points used for its training. Motivated by those practices, a large body of recent theoretical research has been devoted to studying overparameterized models. One of the central phenomena in this regime is the ability of the model to interpolate noisy data, but still have test error lower than the amount of noise in that data. arXiv:1906.11300 characterized for which covariance structure of the data such a phenomenon can happen in linear regression if one considers the interpolating solution with minimum $\ell_2$-norm and the data has independent components: they gave a sharp bound on the variance term and showed that it can be small if and only if the data covariance has high effective rank in a subspace of small co-dimension. We strengthen and complete their results by eliminating the independence assumption and providing sharp bounds for the bias term. Thus, our results apply in a much more general setting than those of arXiv:1906.11300, e.g., kernel regression, and not only characterize how the noise is damped but also which part of the true signal is learned. Moreover, we extend the result to the setting of ridge regression, which allows us to explain another interesting phenomenon: we give general sufficient conditions under which the optimal regularization is negative.

translated by 谷歌翻译

Handling Hard Affine SDP Shape Constraints in RKHSs

Pierre-Cyril Aubin-Frankowski , Zoltan Szabo

分类： (统计)机器学习 | 机器学习

2021-01-05

形状约束，例如非负，单调性，凸度或超模型性，在机器学习和统计的各种应用中都起着关键作用。但是，将此方面的信息以艰苦的方式（例如，在间隔的所有点）纳入预测模型，这是一个众所周知的具有挑战性的问题。我们提出了一个统一和模块化的凸优化框架，依赖于二阶锥（SOC）拧紧，以编码属于矢量值重现的载体内核Hilbert Spaces（VRKHSS）的模型对函数衍生物的硬仿射SDP约束。所提出的方法的模块化性质允许同时处理多个形状约束，并将无限数量的约束限制为有限的许多。我们证明了所提出的方案的收敛及其自适应变体的收敛性，利用VRKHSS的几何特性。由于基于覆盖的拧紧构造，该方法特别适合具有小到中等输入维度的任务。该方法的效率在形状优化，机器人技术和计量经济学的背景下进行了说明。

translated by 谷歌翻译

On the Universality of the Double Descent Peak in Ridgeless Regression

David Holzmüller

分类： (统计)机器学习 | 机器学习 | 神经与进化计算

2020-10-05

对于由缺陷线性回归中的标签噪声引起的预期平均平方概率，我们证明了无渐近分布的下限。我们的下部结合概括了过度公共数据（内插）制度的类似已知结果。与最先前的作品相比，我们的分析适用于广泛的输入分布，几乎肯定的全排列功能矩阵，允许我们涵盖各种类型的确定性或随机特征映射。我们的下限是渐近的锐利，暗示在存在标签噪声时，缺陷的线性回归不会在任何这些特征映射中围绕内插阈值进行良好的。我们详细分析了强加的假设，并为分析（随机）特征映射提供了理论。使用此理论，我们可以表明我们的假设对于具有（Lebesgue）密度的输入分布以及随机深神经网络给出的特征映射，具有Sigmoid，Tanh，SoftPlus或Gelu等分析激活功能。作为进一步的例子，我们示出了来自随机傅里叶特征和多项式内核的特征映射也满足我们的假设。通过进一步的实验和分析结果，我们补充了我们的理论。

translated by 谷歌翻译

Learning Transition Operators From Sparse Space-Time Samples

Christian Kümmerle , Mauro Maggioni , Sui Tang

分类：机器学习 | (统计)机器学习

2022-12-01

We consider the nonlinear inverse problem of learning a transition operator $\mathbf{A}$ from partial observations at different times, in particular from sparse observations of entries of its powers $\mathbf{A},\mathbf{A}^2,\cdots,\mathbf{A}^{T}$. This Spatio-Temporal Transition Operator Recovery problem is motivated by the recent interest in learning time-varying graph signals that are driven by graph operators depending on the underlying graph topology. We address the nonlinearity of the problem by embedding it into a higher-dimensional space of suitable block-Hankel matrices, where it becomes a low-rank matrix completion problem, even if $\mathbf{A}$ is of full rank. For both a uniform and an adaptive random space-time sampling model, we quantify the recoverability of the transition operator via suitable measures of incoherence of these block-Hankel embedding matrices. For graph transition operators these measures of incoherence depend on the interplay between the dynamics and the graph topology. We develop a suitable non-convex iterative reweighted least squares (IRLS) algorithm, establish its quadratic local convergence, and show that, in optimal scenarios, no more than $\mathcal{O}(rn \log(nT))$ space-time samples are sufficient to ensure accurate recovery of a rank-$r$ operator $\mathbf{A}$ of size $n \times n$. This establishes that spatial samples can be substituted by a comparable number of space-time samples. We provide an efficient implementation of the proposed IRLS algorithm with space complexity of order $O(r n T)$ and per-iteration time complexity linear in $n$. Numerical experiments for transition operators based on several graph models confirm that the theoretical findings accurately track empirical phase transitions, and illustrate the applicability and scalability of the proposed algorithm.

translated by 谷歌翻译