智能论文笔记

Near-Optimal Algorithms for Linear Algebra in the Current Matrix Multiplication Time

Nadiia Chepurko , Kenneth L. Clarkson , Praneeth Kacham , David P. Woodruff

分类：机器学习

2021-07-16

在数值线性代数社区中，建议要获得诸如等级计算等各种问题的几乎最佳边界，找到最大线性独立的列（基础），回归或低秩近似，自然方式是解决尼尔森和尼文森的主要开放问题（Focs，2013）。该问题关于现有的忽略子空间嵌入的草图维度的对数因子，实现了恒因子近似的嵌入。我们展示了如何使用精细的草图技术绕过这个问题，并获得这些问题的最佳或几乎最佳的范围。我们使用的关键技术是基于不确定原理和提取器的Indyk的明确映射，在首次应用已知的漏窃子空间嵌入后，允许我们快速展开载体的质量，以便采样现在有效。由此，我们避免了在使用矩阵Chernoff不平等的界限中是标准的草图维度的对数因子。对于排名计算的基本问题和找到基础，我们的算法改善了张，郭和刘（Jacm，2013），并且在恒因因子和多个（日志日志（n）） - 因子中是最佳的。此外，对于恒定因子回归和低秩近似，我们给出了当前矩阵乘法指数的第一个最佳算法。

translated by 谷歌翻译

Sketching Algorithms and Lower Bounds for Ridge Regression

Praneeth Kacham , David P. Woodruff

分类：机器学习

2022-04-13

我们给出了一种基于草图的迭代算法，该算法计算$ 1 +\ varepsilon $近似解决方案，用于脊回归问题$ \ min_x \ | ax-b \ | ax-b \ | _2^2 +\ lambda \ lambda \ | x \ | x \ | _2^2 $ were $ a \ in r^{n \ times d} $带有$ d \ ge n $。我们的算法对于恒定数量的迭代（需要输入量的恒定通过），通过要求素描矩阵仅具有较弱的近似矩阵乘法（AMM）保证，可以改善早期工作（Chowdhury等人）（Chowdhury等人）。在$ \ varepsilon $上，以及恒定的子空间嵌入保证。相反，较早的工作要求素描矩阵具有取决于$ \ varepsilon $的子空间嵌入保证。例如，要在$ 1 $迭代中生产$ 1+\ varepsilon $近似解决方案，需要$ 2 $通过输入，我们的算法需要OSNAP嵌入$ m = o（n \ sigma^2/\ lambda \ lambda \ varepsilon \ varepsilon ）带有稀疏参数$ s = o（\ log（n））$的$行，而Chowdhury等人的早期算法。使用相同数量的OSNAP行需要稀疏$ s = o（\ sqrt {\ sigma^2/\ lambda \ varepsilon} \ cdot \ log（n））$，其中$ \ sigma = \ opnorm = \ opnorm {a}是矩阵$ a $的光谱规范。我们还表明，该算法可用于为内核脊回归提供更快的算法。最后，我们表明，我们的算法所需的草图大小实质上对于山脊回归算法的自然框架实质上是最佳的，它通过证明AMM的遗漏素描矩阵上的下限。 AMM的草图大小的下限可能具有独立的兴趣。

translated by 谷歌翻译

Active Sampling for Linear Regression Beyond the $\ell_2$ Norm

Cameron Musco , Christopher Musco , David P. Woodruff , Taisuke Yasuda

分类：机器学习 | (统计)机器学习

2021-11-09

我们研究了用于线性回归的主动采样算法，该算法仅旨在查询目标向量$ b \ in \ mathbb {r} ^ n $的少量条目，并将近最低限度输出到$ \ min_ {x \ In \ mathbb {r} ^ d} \ | ax-b \ | $，其中$ a \ in \ mathbb {r} ^ {n \ times d} $是一个设计矩阵和$ \ | \ cdot \ | $是一些损失函数。对于$ \ ell_p $ norm回归的任何$ 0 <p <\ idty $，我们提供了一种基于Lewis权重采样的算法，其使用只需$ \ tilde {o}输出$（1+ \ epsilon）$近似解决方案（d ^ {\ max（1，{p / 2}）} / \ mathrm {poly}（\ epsilon））$查询到$ b $。我们表明，这一依赖于$ D $是最佳的，直到对数因素。我们的结果解决了陈和Derezi的最近开放问题，陈和Derezi \'{n} Ski，他们为$ \ ell_1 $ norm提供了附近的最佳界限，以及$ p \中的$ \ ell_p $回归的次优界限（1,2） $。我们还提供了$ O的第一个总灵敏度上限（D ^ {\ max \ {1，p / 2 \} \ log ^ 2 n）$以满足最多的$ p $多项式增长。这改善了Tukan，Maalouf和Feldman的最新结果。通过将此与我们的技术组合起来的$ \ ell_p $回归结果，我们获得了一个使$ \ tilde o的活动回归算法（d ^ {1+ \ max \ {1，p / 2 \}} / \ mathrm {poly}。（\ epsilon））$疑问，回答陈和德里兹的另一个打开问题{n}滑雪。对于Huber损失的重要特殊情况，我们进一步改善了我们对$ \ tilde o的主动样本复杂性的绑定（d ^ {（1+ \ sqrt2）/ 2} / \ epsilon ^ c）$和非活跃$ \ tilde o的样本复杂性（d ^ {4-2 \ sqrt 2} / \ epsilon ^ c）$，由于克拉克森和伍德拉夫而改善了Huber回归的以前的D ^ 4 $。我们的敏感性界限具有进一步的影响，使用灵敏度采样改善了各种先前的结果，包括orlicz规范子空间嵌入和鲁棒子空间近似。最后，我们的主动采样结果为每种$ \ ell_p $ norm提供的第一个Sublinear时间算法。

translated by 谷歌翻译

Low Rank Approximation for General Tensor Networks

Arvind V. Mahankali , David P. Woodruff , Ziyu Zhang

分类：机器学习

2022-07-15

我们研究了用$ q $ modes $ a \ in \ mathbb {r}^{n \ times \ ldots \ times n} $的近似给定张量的问题。图$ g =（v，e）$，其中$ | v | = q $，以及张张量的集合$ \ {u_v \ mid v \ in v \} $，以$ g $指定的方式收缩以获取张量$ t $。对于$ u_v $的每种模式，对应于$ v $的边缘事件，尺寸为$ k $，我们希望找到$ u_v $，以便最小化$ t $和$ a $之间的frobenius norm距离。这概括了许多众所周知的张量网络分解，例如张量列，张量环，塔克和PEPS分解。我们大约是二进制树网络$ t'$带有$ o（q）$核的大约$ a $，因此该网络的每个边缘上的尺寸最多是$ \ widetilde {o}（k^{o（dt） } \ cdot q/\ varepsilon）$，其中$ d $是$ g $的最大度，$ t $是其树宽，因此$ \ | a -t'-t'\ | _f^2 \ leq（1 + \ Varepsilon）\ | a -t \ | _f^2 $。我们算法的运行时间为$ o（q \ cdot \ text {nnz}（a）） + n \ cdot \ text {poly}（k^{dt} q/\ varepsilon）$，其中$ \ text {nnz }（a）$是$ a $的非零条目的数量。我们的算法基于一种可能具有独立感兴趣的张量分解的新维度降低技术。我们还开发了固定参数可处理的$（1 + \ varepsilon）$ - 用于张量火车和塔克分解的近似算法，改善了歌曲的运行时间，Woodruff和Zhong（Soda，2019），并避免使用通用多项式系统求解器。我们表明，我们的算法对$ 1/\ varepsilon $具有几乎最佳的依赖性，假设没有$ O（1）$ - 近似算法的$ 2 \至4 $ norm，并且运行时间比蛮力更好。最后，我们通过可靠的损失函数和固定参数可拖动CP分解给出了塔克分解的其他结果。

translated by 谷歌翻译

Quantum-Inspired Algorithms from Randomized Numerical Linear Algebra

Nadiia Chepurko , Kenneth L. Clarkson , Lior Horesh , Honghao Lin , David P. Woodruff

分类：机器学习

2020-11-09

我们创建经典的（非量词）动态数据结构，为推荐系统和最小二乘回归的查询提供了与量子类似物相当的查询。近年来，这种算法的去量化引起了人们的关注。我们为这些问题获得了更清晰的界限。更重要的是，我们通过争辩说，这些问题的先前量子启发算法正在做杠杆或脊杠杆得分取样，以实现这些改进。这些是随机数值线性代数中强大而标准的技术。有了这种识别，我们能够在数值线性代数中采用大量工作来获得这些问题的算法，这些算法比现有方法更简单或更快（或两者兼而有之）。我们的实验表明，所提出的数据结构在现实世界数据集上也很好地工作。

translated by 谷歌翻译

Subquadratic Kronecker Regression with Applications to Tensor Decomposition

Matthew Fahrbach , Thomas Fu , Mehrdad Ghadiri

分类：机器学习

2022-09-11

kronecker回归是一个高度结构的最小二乘问题$ \ min _ {\ mathbf {x}}} \ lvert \ mathbf {k} \ mathbf {x} - \ mathbf {b} \ rvert_ \ rvert_ {2}^2 $矩阵$ \ mathbf {k} = \ mathbf {a}^{（1）} \ otimes \ cdots \ cdots \ otimes \ mathbf {a}^{（n）} $是因子矩阵的Kronecker产品。这种回归问题是在广泛使用的最小二乘（ALS）算法的每个步骤中都出现的，用于计算张量的塔克分解。我们介绍了第一个用于求解Kronecker回归的子次数算法，以避免在运行时间中避免指数项$ o（\ varepsilon^{ - n}）$的$（1+ \ varepsilon）$。我们的技术结合了利用分数抽样和迭代方法。通过扩展我们对一个块是Kronecker产品的块设计矩阵的方法，我们还实现了（1）Kronecker Ridge回归的亚次级时间算法，并且（2）更新ALS中Tucker分解的因子矩阵，这不是一个不是一个纯Kronecker回归问题，从而改善了Tucker ALS的所有步骤的运行时间。我们证明了该Kronecker回归算法在合成数据和现实世界图像张量上的速度和准确性。

translated by 谷歌翻译

Leverage Score Sampling for Tensor Product Matrices in Input Sparsity Time

David P. Woodruff , Amir Zandieh

分类：机器学习

2022-02-09

我们提出了一种输入稀疏时间抽样算法，该算法可以近似于$ q $ - 折叠的列量张量产品$ q $矩阵的量子矩阵，使用几乎最佳的样品，从（q）$因素。此外，对于数据集的$ q $倍自量量的重要特殊情况，这是学位的功能矩阵-y $ q $ polyenmial kernel，我们方法运行时的领先术语与该方法的大小成正比输入数据集，并且不依赖$ Q $。以前的技术要么在其运行时产生Poly $（Q）$的放缓，要么以$ Q $的依赖性为代价，但要以次优目标维度为代价，并在其运行时四处依赖于数据点的数量。我们的抽样技术依赖于$ q $部分相关的随机预测的集合，这些预测可以同时应用于数据集$ x $的总时间，这仅取决于$ x $的大小，同时又有其$ q $ - fold kronecker产品在$ x^{\ otimes q} $的列跨度中的任何固定向量的近乎等值线。我们还表明，我们的采样方法概括为多项式以外的其他类别的内核，例如高斯和神经切线核。

translated by 谷歌翻译

Algorithmic Gaussianization through Sketching: Converting Data into Sub-gaussian Random Designs

Michał Dereziński

分类：机器学习 | (统计)机器学习

2022-06-21

算法高斯化是一种现象，当使用随机素描或采样方法生成较小的大数据集的较小表示时，可能会出现的现象：对于某些任务，已经观察到这些草图表示表现出许多可靠的性能特征，这些性能是在数据样本中出现的，这些性能来自次高斯随机设计，是一个强大的数据分布统计模型。但是，这种现象仅研究了特定的任务和指标，或依靠计算昂贵的方法。我们通过为平均值提供用于高斯数据分布的算法框架来解决这一问题，并证明可以有效构建几乎无法区分的数据草图（与亚高斯随机设计有关的总变化距离）。特别是，依靠最近引入的素描技术称为杠杆得分稀疏（少）嵌入，我们表明一个人可以构造$ n \ times d $矩阵$ a $的$ n \ times d $ sketch of $ n \ times d $ n \ ll n $，几乎与次高斯设计几乎没有区别$ a $中的非零条目的数量。结果，可以直接适用于我们的草图框架，可直接适用于我们的草图框架。我们通过对草图最小二乘正方形的新近似保证进行了说明。

translated by 谷歌翻译

Low-Rank Approximation with $1/ε^{1/3}$ Matrix-Vector Products

Ainesh Bakshi , Kenneth L. Clarkson , David P. Woodruff

分类：机器学习

2022-02-10

我们研究基于Krylov子空间的迭代方法，用于在任何Schatten $ p $ Norm中的低级别近似值。在这里，通过矩阵向量产品访问矩阵$ a $ $如此$ \ | a（i -zz^\ top）\ | _ {s_p} \ leq（1+ \ epsilon）\ min_ {u^\ top u = i_k} } $，其中$ \ | m \ | _ {s_p} $表示$ m $的单数值的$ \ ell_p $ norm。对于$ p = 2 $（frobenius norm）和$ p = \ infty $（频谱规范）的特殊情况，musco and Musco（Neurips 2015）获得了基于Krylov方法的算法，该方法使用$ \ tilde {o}（k）（k /\ sqrt {\ epsilon}）$ matrix-vector产品，改进na \“ ive $ \ tilde {o}（k/\ epsilon）$依赖性，可以通过功率方法获得，其中$ \ tilde {o} $抑制均可抑制poly $（\ log（dk/\ epsilon））$。我们的主要结果是仅使用$ \ tilde {o}（kp^{1/6}/\ epsilon^{1/3} {1/3}）$ matrix $ matrix的算法 - 矢量产品，并为所有$ p \ geq 1 $。为$ p = 2 $工作，我们的限制改进了先前的$ \ tilde {o}（k/\ epsilon^{1/2}）$绑定到$ \ tilde {o}（k/\ epsilon^{1/3}）$。由于schatten- $ p $和schatten-$ \ infty $ norms在$（1+ \ epsilon）$ pers $ p时相同\ geq（\ log d）/\ epsilon $，我们的界限恢复了Musco和Musco的结果，以$ p = \ infty $。此外，我们证明了矩阵矢量查询$ \ omega的下限（1/\ epsilon^ {1/3}）$对于任何固定常数$ p \ geq 1 $，表明令人惊讶的$ \ tilde {\ theta}（1/\ epsilon^{ 1/3}）$是常数〜$ k $的最佳复杂性。为了获得我们的结果，我们介绍了几种新技术，包括同时对多个Krylov子空间进行优化，以及针对分区操作员的不平等现象。我们在[1,2] $中以$ p \的限制使用了Araki-lieb-thirring Trace不平等，而对于$ p> 2 $，我们呼吁对安装分区操作员的规范压缩不平等。

translated by 谷歌翻译

Online Lewis Weight Sampling

David P. Woodruff , Taisuke Yasuda

分类：机器学习 | (统计)机器学习

2022-07-17

科恩（Cohen）和彭（Peng）的开创性工作向理论计算机科学界推出了刘易斯（Lewis）的重量抽样，从而产生了快速采样算法的近似值$ d $二维子空间$ \ ell_p $ to $ \ ell_p $ to $ \ ell_p $ to $（1+ \ epsilon）$错误。几项工作将这一重要原始性扩展到其他设置，包括在线核心，滑动窗口和对抗流型模型。但是，这些结果仅适用于\ {1,2 \} $中的$ p \，$ p = 1 $的结果需要一个次优$ \ tilde o（d^2/\ epsilon^2）$样本。在这项工作中，我们设计了第一个几乎最佳的$ \ ell_p $ subspace嵌入在（0，\ infty）$中的所有$ p \ in Online Coreset，滑动窗口和对抗流型模型中的第一个$ p \。在所有三个模型中，我们的算法存储$ \ tilde o（d^{1 \ lor（p/2）}/\ epsilon^2）$行。这回答了[bdmmuwz2020]的主要开放问题的实质性概括，并给出了所有$ p \ notin \ {1,2 \} $的第一个结果。为了我们的结果，我们首先分析了“一击”采样行对其刘易斯重量的采样行采样，带有样品复杂性$ \ tilde o（d^{p/2}/\ epsilon^2）$对于$ p> 2 $。以前，该方案仅具有样品复杂性$ \ tilde o（d^{p/2}/\ epsilon^5）$，而$ \ tilde o（d^{p/2） }/\ epsilon^2）$是否使用了更复杂的递归抽样。递归抽样不能在线实施，因此需要对一击刘易斯重量采样进行分析。我们的分析使用与在线数字线性代数的新颖连接。 [MSSW2018]引入的复杂性参数$ \ mu $，我们显示第一个下限表明对$ \ mu $的线性依赖性是必要的。

translated by 谷歌翻译

Dynamic Least-Squares Regression

Shunhua Jiang , Binghui Peng , Omri Weinstein

分类：机器学习

2022-01-01

大规模监督学习中的共同挑战是如何利用新的增量数据到预先训练的模型，而无需从头开始重新培训模型。受到这个问题的激励，我们重新审视动态最小二乘回归（LSR）的规范问题，其中目标是通过增量训练数据学习线性模型。在此设置，数据和标签$（\ mathbf {a} ^ {（t）}，\ mathbf {b} ^ {（t）}）\ in \ mathbb {r} ^ {t \ times d} \ times \ MathBB {R} ^ T $以在线方式发展（$ t \ gg d $），目标是有效地将（近似）解决方案保持为$ \ min _ {\ mathbf {x} ^ {（t）}} \ | \ mathbf {a} ^ {（t）} \ mathbf {x} ^ {（t）} - \ mathbf {b} ^ {（t）} \ | \ | \ |在$中的所有$ t \。我们的主要结果是一种动态数据结构，它将任意小的恒定近似解，与摊销更新时间$ o（d ^ {1 + o（1）}）$，几乎匹配静态的运行时间（草图 - 基于）解决方案。相比之下，对于精确的（甚至$ 1 / \ mathrm {poly}（n）$ - 准确性）解决方案，我们在静态和动态设置之间显示了分离，即动态LSR需要$ \ω（d ^ {2- O（1）}）OMV猜想下的摊销更新时间（Henzinger等，STOC'15）。我们的数据结构在概念上简单，易于实施，并且在理论和实践中快速速度，通过对合成和现实世界数据集的实验进行了证实。

translated by 谷歌翻译

Training Multi-Layer Over-Parametrized Neural Network in Subquadratic Time

Zhao Song , Lichen Zhang , Ruizhe Zhang

分类：机器学习

2021-12-14

我们考虑培训多层过参数化神经网络的问题，以最大限度地减少损失函数引起的经验风险。在过度参数化的典型设置中，网络宽度$ M $远大于数据维度$ D $和培训数量$ N $（$ m = \ mathrm {poly}（n，d）$），其中诱导禁止的大量矩阵$ w \ in \ mathbb {r} ^ {m \ times m} $每层。天真地，一个人必须支付$ O（m ^ 2）$时间读取权重矩阵并评估前向和后向计算中的神经网络功能。在这项工作中，我们展示了如何降低每个迭代的培训成本，具体而言，我们提出了一个仅在初始化阶段使用M ^ 2美元的框架，并且在$ M $的情况下实现了每次迭代的真正子种化成本。，$ m ^ {2- \ oomga（1）} $次迭代。为了获得此结果，我们利用各种技术，包括偏移的基于Relu的稀释器，懒惰的低级维护数据结构，快速矩阵矩阵乘法，张量的草图技术和预处理。

translated by 谷歌翻译

Sampling-based sublinear low-rank matrix arithmetic framework for dequantizing quantum machine learning

Nai-Hui Chia , András Gilyén , Tongyang Li , Han-Hsuan Lin , Ewin Tang , Chunhao Wang

分类：机器学习

2019-10-14

我们提出了一个算法框架，用于近距离矩阵上的量子启发的经典算法，概括了Tang的突破性量子启发算法开始的一系列结果，用于推荐系统[STOC'19]。由量子线性代数算法和gily \'en，su，low和wiebe [stoc'19]的量子奇异值转换（SVT）框架[SVT）的动机[STOC'19]，我们开发了SVT的经典算法合适的量子启发的采样假设。我们的结果提供了令人信服的证据，表明在相应的QRAM数据结构输入模型中，量子SVT不会产生指数量子加速。由于量子SVT框架基本上概括了量子线性代数的所有已知技术，因此我们的结果与先前工作的采样引理相结合，足以概括所有有关取消量子机器学习算法的最新结果。特别是，我们的经典SVT框架恢复并经常改善推荐系统，主成分分析，监督聚类，支持向量机器，低秩回归和半决赛程序解决方案的取消结果。我们还为汉密尔顿低级模拟和判别分析提供了其他取消化结果。我们的改进来自识别量子启发的输入模型的关键功能，该模型是所有先前量子启发的结果的核心：$ \ ell^2 $ -Norm采样可以及时近似于其尺寸近似矩阵产品。我们将所有主要结果减少到这一事实，使我们的简洁，独立和直观。

translated by 谷歌翻译

Online Active Regression

Cheng Chen , Yi Li , Yiming Sun

分类：机器学习 | (统计)机器学习

2022-07-13

主动回归考虑了一个线性回归问题，其中学习者会收到大量数据点，但只能观察到少数标签。由于在线算法可以处理增量培训数据并利用低计算成本，因此我们考虑了主动回归问题的在线扩展：学习者一一接收数据点，并立即决定是否应该收集相应的标签。目的是有效地维护收到的数据点的回归，并具有少量的标签查询回归。我们在$ \ ell_p $损失下为此问题提出了新算法，其中$ p \ in [1,2] $。要获得$（1+ \ epsilon）$ - 近似解决方案，我们提出的算法仅需要$ \ tilde {\ Mathcal {o}}（\ epsilon^{ - 2} d \ log（n \ kappa））$查询标签，其中$ n $是数据点的数量，而$ \ kappa $是数据点的数量，称为条件号。数值结果验证了我们的理论结果，并表明我们的方法与离线活性回归算法具有可比性的性能。

translated by 谷歌翻译

Sub-quadratic Algorithms for Kernel Matrices via Kernel Density Estimation

Ainesh Bakshi , Piotr Indyk , Praneeth Kacham , Sandeep Silwal , Samson Zhou

分类：机器学习

2022-12-01

Kernel matrices, as well as weighted graphs represented by them, are ubiquitous objects in machine learning, statistics and other related fields. The main drawback of using kernel methods (learning and inference using kernel matrices) is efficiency -- given $n$ input points, most kernel-based algorithms need to materialize the full $n \times n$ kernel matrix before performing any subsequent computation, thus incurring $\Omega(n^2)$ runtime. Breaking this quadratic barrier for various problems has therefore, been a subject of extensive research efforts. We break the quadratic barrier and obtain $\textit{subquadratic}$ time algorithms for several fundamental linear-algebraic and graph processing primitives, including approximating the top eigenvalue and eigenvector, spectral sparsification, solving linear systems, local clustering, low-rank approximation, arboricity estimation and counting weighted triangles. We build on the recent Kernel Density Estimation framework, which (after preprocessing in time subquadratic in $n$) can return estimates of row/column sums of the kernel matrix. In particular, we develop efficient reductions from $\textit{weighted vertex}$ and $\textit{weighted edge sampling}$ on kernel graphs, $\textit{simulating random walks}$ on kernel graphs, and $\textit{importance sampling}$ on matrices to Kernel Density Estimation and show that we can generate samples from these distributions in $\textit{sublinear}$ (in the support of the distribution) time. Our reductions are the central ingredient in each of our applications and we believe they may be of independent interest. We empirically demonstrate the efficacy of our algorithms on low-rank approximation (LRA) and spectral sparsification, where we observe a $\textbf{9x}$ decrease in the number of kernel evaluations over baselines for LRA and a $\textbf{41x}$ reduction in the graph size for spectral sparsification.

translated by 谷歌翻译

A Strongly Polynomial Algorithm for Approximate Forster Transforms and its Application to Halfspace Learning

Ilias Diakonikolas , Christos Tzamos , Daniel M. Kane

分类：机器学习 | (统计)机器学习

2022-12-06

The Forster transform is a method of regularizing a dataset by placing it in {\em radial isotropic position} while maintaining some of its essential properties. Forster transforms have played a key role in a diverse range of settings spanning computer science and functional analysis. Prior work had given {\em weakly} polynomial time algorithms for computing Forster transforms, when they exist. Our main result is the first {\em strongly polynomial time} algorithm to compute an approximate Forster transform of a given dataset or certify that no such transformation exists. By leveraging our strongly polynomial Forster algorithm, we obtain the first strongly polynomial time algorithm for {\em distribution-free} PAC learning of halfspaces. This learning result is surprising because {\em proper} PAC learning of halfspaces is {\em equivalent} to linear programming. Our learning approach extends to give a strongly polynomial halfspace learner in the presence of random classification noise and, more generally, Massart noise.

translated by 谷歌翻译

Fast and Near-Optimal Diagonal Preconditioning

Arun Jambulapati , Jerry Li , Christopher Musco , Aaron Sidford , Kevin Tian

分类：机器学习 | (统计)机器学习

2020-08-04

求解线性系统的迭代方法的收敛速率$ \ mathbf {a} x = b $通常取决于矩阵$ \ mathbf {a} $的条件号。预处理是通过以计算廉价的方式减少该条件号来加速这些方法的常用方式。在本文中，我们通过左或右对角线重构重新审视如何最好地提高$ \ mathbf {a}条件号的数十年。我们在几个方向上取得了这个问题。首先，我们为缩放$ \ mathbf {a} $的经典启发式提供了新的界限（a.k.a.jacobi预处理）。我们证明了这种方法将$ \ MATHBF {a} $的条件号减少到最佳可能缩放的二次因素中。其次，我们为结构化混合包装和覆盖了Semidefinite程序（MPC SDP）提供了一个求解器，它计算$ \ mathbf {a} $ in $ \ widetilde {o}（\ text {nnz}（\ mathbf {a}）\ cdot \ text {poly}（\ kappa ^ \ star））$ time;这与在缩放到$ \ widetilde {o}（\ text {poly}（\ kappa ^ \ star））$ factors之后求解线性系统的成本匹配。第三，我们证明了足够一般的宽度无关的MPC SDP求解器将暗示我们考虑的缩放问题的近乎最佳的运行时间，以及与平均调理措施有关的自然变体。最后，我们突出了我们的预处理技术与半随机噪声模型的连接，以及在几种统计回归模型中降低风险的应用。

translated by 谷歌翻译

Tensor Completion Made Practical

Allen Liu , Ankur Moitra

分类：机器学习

2020-06-04

Tensor完成是矩阵完成的自然高阶泛化，其中目标是从其条目的稀疏观察中恢复低级张量。现有算法在没有可证明的担保的情况下是启发式，基于解决运行不切实际的大型半纤维程序，或者需要强大的假设，例如需要因素几乎正交。在本文中，我们介绍了交替最小化的新变型，其又通过了解如何对矩阵设置中的交替最小化的收敛性的进展措施来调整到张量设置的启发。我们展示了强大的可证明的保证，包括表明我们的算法即使当因素高度相关时，我们的算法也会在真正的张量线上会聚，并且可以在几乎线性的时间内实现。此外，我们的算法也非常实用，我们表明我们可以完成具有千维尺寸的三阶张量，从观察其条目的微小一部分。相比之下，有些令人惊讶的是，我们表明，如果没有我们的新扭曲，则表明交替最小化的标准版本可以在实践中以急剧速度收敛。

translated by 谷歌翻译

Generalization Bounds for Data-Driven Numerical Linear Algebra

Peter Bartlett , Piotr Indyk , Tal Wagner

分类：机器学习

2022-06-16

数据驱动的算法可以通过从输入的训练样本中学习，可以使其内部结构或参数适应来自未知应用程序特定分布的输入。最近的一些作品将这种方法应用于数值线性代数中的问题，获得了绩效的显着经验增长。然而，尚无理论上的成功解释。在这项工作中，我们证明了这些算法的概括范围，在Gupta和Roughgarden提出的数据驱动算法选择的PAC学习框架内（Sicomp 2017）。我们的主要结果与Indyk等人的基于学习的低级近似算法的脂肪破碎维度紧密匹配（Neurips 2019）。我们的技术是一般的，并为数值线性代数中的许多其他最近提出的数据驱动算法提供了概括，涵盖了基于草图的基于草图的方法和基于多机的方法。这大大扩展了可用的PAC学习分析的数据驱动算法类别。

translated by 谷歌翻译

Sharp Analysis of Sketch-and-Project Methods via a Connection to Randomized Singular Value Decomposition

Michał Dereziński , Elizaveta Rebrova

分类： (统计)机器学习

2022-08-20

素描和项目是一个框架，它统一了许多已知的迭代方法来求解线性系统及其变体，并进一步扩展了非线性优化问题。它包括流行的方法，例如随机kaczmarz，坐标下降，凸优化的牛顿方法的变体等。在本文中，我们通过新的紧密频谱边界为预期的草图投影矩阵获得了素描和项目的收敛速率的敏锐保证。我们的估计值揭示了素描和项目的收敛率与另一个众所周知但看似无关的算法家族的近似误差之间的联系，这些算法使用草图加速了流行的矩阵因子化，例如QR和SVD。这种连接使我们更接近准确量化草图和项目求解器的性能如何取决于其草图大小。我们的分析不仅涵盖了高斯和次高斯的素描矩阵，还涵盖了一个有效的稀疏素描方法，称为较少的嵌入方法。我们的实验备份了理论，并证明即使极稀疏的草图在实践中也显示出相同的收敛属性。

translated by 谷歌翻译