智能论文笔记

Frank-Wolfe-based Algorithms for Approximating Tyler's M-estimator

Lior Danon , Dan Garber

分类：机器学习 | (统计)机器学习

2022-06-19

泰勒（Tyler）的M-估计器是一种众所周知的稳健和重尾协方差估计的程序。泰勒本人提出了一种用于计算其估计器的迭代定点算法，但是，它需要超级线性（按数据的大小）运行时进行运行时，这可能是大规模的。在这项工作中，据我们所知，我们提出了第一个用于计算泰勒估计器的算法的第一个基于弗兰克 - 沃尔夫的算法。一个变体使用标准的Frank-Wolfe步骤，第二个变体还考虑了\ textit {avey-steps}（afw），第三个是afw（gafw）的\ textit {geodesic}版本。 AFW可证明，最多需要日志系数，每次迭代仅线性时间，而GAFW则以线性时间（最高为日志系数）运行，以$ n $ n $（数量的数据点）制度运行。在标准假设下，所有三个变体都显示出具有肌关系速率的最佳解决方案，尽管基础优化问题不是凸或平滑的。在额外的相当温和的假设下，当（归一化）数据点为I.I.D时，它具有概率1。事实证明，来自整个单元球体，AFW和GAFW的连续分布的样品被证明与线性速率相聚。重要的是，所有三个变体都是无参数的，并且使用自适应步骤尺寸。

translated by 谷歌翻译

Linear Convergence of Frank-Wolfe for Rank-One Matrix Recovery Without Strong Convexity

Dan Garber

分类：机器学习

2019-12-03

我们考虑凸优化问题，这些问题被广泛用作低级基质恢复问题的凸松弛。特别是，在几个重要问题（例如相位检索和鲁棒PCA）中，在许多情况下的基本假设是最佳解决方案是排名一列。在本文中，我们考虑了目标上的简单自然的条件，以使这些放松的最佳解决方案确实是独特的，并且是一个排名。主要是，我们表明，在这种情况下，使用线路搜索的标准Frank-Wolfe方法（即，没有任何参数调整），该方法仅需要单个排名一级的SVD计算，可以找到$ \ epsilon $ - 仅在$ o（\ log {1/\ epsilon}）$迭代（而不是以前最著名的$ o（1/\ epsilon）$）中的近似解决方案，尽管目的不是强烈凸。我们考虑了基本方法的几种变体，具有改善的复杂性，以及由强大的PCA促进的扩展，最后是对非平滑问题的扩展。

translated by 谷歌翻译

Fast and Near-Optimal Diagonal Preconditioning

Arun Jambulapati , Jerry Li , Christopher Musco , Aaron Sidford , Kevin Tian

分类：机器学习 | (统计)机器学习

2020-08-04

求解线性系统的迭代方法的收敛速率$ \ mathbf {a} x = b $通常取决于矩阵$ \ mathbf {a} $的条件号。预处理是通过以计算廉价的方式减少该条件号来加速这些方法的常用方式。在本文中，我们通过左或右对角线重构重新审视如何最好地提高$ \ mathbf {a}条件号的数十年。我们在几个方向上取得了这个问题。首先，我们为缩放$ \ mathbf {a} $的经典启发式提供了新的界限（a.k.a.jacobi预处理）。我们证明了这种方法将$ \ MATHBF {a} $的条件号减少到最佳可能缩放的二次因素中。其次，我们为结构化混合包装和覆盖了Semidefinite程序（MPC SDP）提供了一个求解器，它计算$ \ mathbf {a} $ in $ \ widetilde {o}（\ text {nnz}（\ mathbf {a}）\ cdot \ text {poly}（\ kappa ^ \ star））$ time;这与在缩放到$ \ widetilde {o}（\ text {poly}（\ kappa ^ \ star））$ factors之后求解线性系统的成本匹配。第三，我们证明了足够一般的宽度无关的MPC SDP求解器将暗示我们考虑的缩放问题的近乎最佳的运行时间，以及与平均调理措施有关的自然变体。最后，我们突出了我们的预处理技术与半随机噪声模型的连接，以及在几种统计回归模型中降低风险的应用。

translated by 谷歌翻译

Low-Rank Mirror-Prox for Nonsmooth and Low-Rank Matrix Optimization Problems

Dan Garber , Atara Kaplan

分类：机器学习

2022-06-23

低级和非平滑矩阵优化问题捕获了统计和机器学习中的许多基本任务。尽管近年来在开发\ textIt {平滑}低级优化问题的有效方法方面取得了重大进展，这些问题避免了保持高级矩阵和计算昂贵的高级SVD，但不平滑问题的进步的步伐缓慢。在本文中，我们考虑了针对此类问题的标准凸放松。主要是，我们证明，在\ textit {严格的互补性}条件下，在相对温和的假设下，非平滑目标可以写成最大的光滑功能，近似于两个流行的\ textit {mirriry-prox}方法的变体： \ textIt {外部方法}和带有\ textIt {矩阵启用梯度更新}的镜像 - prox，当用“温暖启动”初始化时，将速率$ o（1/t）$的最佳解决方案收集到最佳解决方案，同时仅需要两个\ textIt {low-rank} svds每迭代。此外，对于外部方法，我们还考虑了严格互补性的放松版本，该版本在所需的SVD等级与我们需要初始化该方法的球的半径之间取决于权衡。我们通过几个非平滑级矩阵恢复任务的经验实验来支持我们的理论结果，这既证明了严格的互补性假设的合理性，又证明了我们所提出的低级镜像 - 镜像变体的有效收敛。

translated by 谷歌翻译

Preconditioned Gradient Descent for Overparameterized Nonconvex Burer--Monteiro Factorization with Global Optimality Certification

Gavin Zhang , Salar Fattahi , Richard Y. Zhang

分类：机器学习 | (统计)机器学习

2022-06-07

我们考虑使用梯度下降来最大程度地减少$ f（x）= \ phi（xx^{t}）$在$ n \ times r $因件矩阵$ x $上，其中$ \ phi是一种基础平稳凸成本函数定义了$ n \ times n $矩阵。虽然只能在合理的时间内发现只有二阶固定点$ x $，但如果$ x $的排名不足，则其排名不足证明其是全球最佳的。这种认证全球最优性的方式必然需要当前迭代$ x $的搜索等级$ r $，以相对于级别$ r^{\ star} $过度参数化。不幸的是，过度参数显着减慢了梯度下降的收敛性，从$ r = r = r = r^{\ star} $的线性速率到$ r> r> r> r> r^{\ star} $，即使$ \ phi $是$ \ phi $强烈凸。在本文中，我们提出了一项廉价的预处理，该预处理恢复了过度参数化的情况下梯度下降回到线性的收敛速率，同时也使在全局最小化器$ x^{\ star} $中可能不良条件变得不可知。

translated by 谷歌翻译

Convergence and Recovery Guarantees of the K-Subspaces Method for Subspace Clustering

Peng Wang , Huikang Liu , Anthony Man-Cho So , Laura Balzano

分类： (统计)机器学习

2022-06-11

K-Subspaces（KSS）方法是用于子空间聚类的K-均值方法的概括。在这项工作中，我们介绍了KSS的本地收敛分析和恢复保证，假设数据是由Smari-random的子空间模型生成的，其中$ n $点是从$ k \ ge 2 $重叠子空间随机采样的。我们表明，如果KSS方法的初始分配位于真实聚类的邻域内，则它以高等的速率收敛，并在$ \ theta（\ log \ log \ log n）$迭代中找到正确的群集。此外，我们提出了一种基于阈值的基于内部产品的光谱方法来初始化，并证明它在该社区中产生了一个点。我们还提出了研究方法的数值结果，以支持我们的理论发展。

translated by 谷歌翻译

Near optimal sample complexity for matrix and tensor normal models via geodesic convexity

Cole Franks , Rafael Oliveira , Akshay Ramachandran , Michael Walter

分类：机器学习

2021-10-14

矩阵正常模型，高斯矩阵变化分布的系列，其协方差矩阵是两个较低尺寸因子的Kronecker乘积，经常用于模拟矩阵变化数据。张量正常模型将该家庭推广到三个或更多因素的Kronecker产品。我们研究了矩阵和张量模型中协方差矩阵的Kronecker因子的估计。我们向几个自然度量中的最大似然估计器（MLE）实现的误差显示了非因素界限。与现有范围相比，我们的结果不依赖于条件良好或稀疏的因素。对于矩阵正常模型，我们所有的所有界限都是最佳的对数因子最佳，对于张量正常模型，我们对最大因数和整体协方差矩阵的绑定是最佳的，所以提供足够的样品以获得足够的样品以获得足够的样品常量Frobenius错误。在与我们的样本复杂性范围相同的制度中，我们表明迭代程序计算称为触发器算法称为触发器算法的MLE的线性地收敛，具有高概率。我们的主要工具是Fisher信息度量诱导的正面矩阵的几何中的测地强凸性。这种强大的凸起由某些随机量子通道的扩展来决定。我们还提供了数值证据，使得将触发器算法与简单的收缩估计器组合可以提高缺乏采样制度的性能。

translated by 谷歌翻译

Fast Projected Newton-like Method for Precision Matrix Estimation with Nonnegative Partial Correlations

Jiaxi Ying , José Vinícius de M. Cardoso , Jian-Feng Cai , Daniel P. Palomar

分类：机器学习

2021-12-03

我们研究了估计多元高斯分布中的精度矩阵的问题，其中所有部分相关性都是非负面的，也称为多变量完全阳性的顺序阳性（$ \ mathrm {mtp} _2 $）。近年来，这种模型得到了重大关注，主要是由于有趣的性质，例如，无论底层尺寸如何，最大似然估计值都存在于两个观察。我们将此问题作为加权$ \ ell_1 $ -norm正常化高斯的最大似然估计下$ \ mathrm {mtp} _2 $约束。在此方向上，我们提出了一种新颖的预计牛顿样算法，该算法包含精心设计的近似牛顿方向，这导致我们具有与一阶方法相同的计算和内存成本的算法。我们证明提出的预计牛顿样算法会聚到问题的最小值。从理论和实验中，我们进一步展示了我们使用加权$ \ ell_1 $ -norm的制剂的最小化器能够正确地恢复基础精密矩阵的支持，而无需在$ \ ell_1 $ -norm中存在不连贯状态方法。涉及合成和实世界数据的实验表明，我们所提出的算法从计算时间透视比最先进的方法显着更有效。最后，我们在金融时序数据中应用我们的方法，这些数据对于显示积极依赖性，在那里我们在学习金融网络上的模块间值方面观察到显着性能。

translated by 谷歌翻译

Low-rank matrix recovery with non-quadratic loss: projected gradient method and regularity projection oracle

Lijun Ding , Yuqian Zhang , Yudong Chen

分类： (统计)机器学习 | 机器学习

2020-08-31

低秩矩阵恢复的现有结果在很大程度上专注于二次损失，这享有有利的性质，例如限制强的强凸/平滑度（RSC / RSM）以及在所有低等级矩阵上的良好调节。然而，许多有趣的问题涉及更一般，非二次损失，这不满足这些属性。对于这些问题，标准的非耦合方法，例如秩约为秩约为预定的梯度下降（A.K.A.迭代硬阈值）和毛刺蒙特罗分解可能具有差的经验性能，并且没有令人满意的理论保证了这些算法的全球和快速收敛。在本文中，我们表明，具有非二次损失的可证实低级恢复中的关键组成部分是规律性投影oracle。该Oracle限制在适当的界限集中迭代到低级矩阵，损耗功能在其上表现良好并且满足一组近似RSC / RSM条件。因此，我们分析配备有这样的甲骨文的（平均）投影的梯度方法，并证明它在全球和线性地收敛。我们的结果适用于广泛的非二次低级估计问题，包括一个比特矩阵感测/完成，个性化排名聚集，以及具有等级约束的更广泛的广义线性模型。

translated by 谷歌翻译

Alternating minimization for generalized rank one matrix sensing: Sharp predictions from a random initialization

Kabir Aladin Chandrasekher , Mengqi Lou , Ashwin Pananjady

分类： (统计)机器学习

2022-07-20

我们考虑估计与I.I.D的排名$ 1 $矩阵因素的问题。高斯，排名$ 1 $的测量值，这些测量值非线性转化和损坏。考虑到非线性的两种典型选择，我们研究了从随机初始化开始的此非convex优化问题的天然交流更新规则的收敛性能。我们通过得出确定性递归，即使在高维问题中也是准确的，我们显示出算法的样本分割版本的敏锐收敛保证。值得注意的是，虽然无限样本的种群更新是非信息性的，并提示单个步骤中的精确恢复，但算法 - 我们的确定性预测 - 从随机初始化中迅速地收敛。我们尖锐的非反应分析也暴露了此问题的其他几种细粒度，包括非线性和噪声水平如何影响收敛行为。从技术层面上讲，我们的结果可以通过证明我们的确定性递归可以通过我们的确定性顺序来预测我们的确定性序列，而当每次迭代都以$ n $观测来运行时，我们的确定性顺序可以通过$ n^{ - 1/2} $的波动。我们的技术利用了源自有关高维$ m $估计文献的遗留工具，并为通过随机数据的其他高维优化问题的随机初始化而彻底地分析了高阶迭代算法的途径。

translated by 谷歌翻译

Simple steps are all you need: Frank-Wolfe and generalized self-concordant functions

Alejandro Carderera , Mathieu Besançon , Sebastian Pokutta

分类：机器学习 | (统计)机器学习

2021-05-28

广义自我符合是许多重要学习问题的目标功能中存在的关键属性。我们建立了一个简单的Frank-Wolfe变体的收敛速率，该变体使用开环步数策略$ \ gamma_t = 2/（t+2）$，获得了$ \ Mathcal {o}（1/t）$收敛率对于这类功能，就原始差距和弗兰克 - 沃尔夫差距而言，$ t $是迭代计数。这避免了使用二阶信息或估计以前工作的局部平滑度参数的需求。我们还显示了各种常见病例的收敛速率的提高，例如，当所考虑的可行区域均匀地凸或多面体时。

translated by 谷歌翻译

A Strongly Polynomial Algorithm for Approximate Forster Transforms and its Application to Halfspace Learning

Ilias Diakonikolas , Christos Tzamos , Daniel M. Kane

分类：机器学习 | (统计)机器学习

2022-12-06

The Forster transform is a method of regularizing a dataset by placing it in {\em radial isotropic position} while maintaining some of its essential properties. Forster transforms have played a key role in a diverse range of settings spanning computer science and functional analysis. Prior work had given {\em weakly} polynomial time algorithms for computing Forster transforms, when they exist. Our main result is the first {\em strongly polynomial time} algorithm to compute an approximate Forster transform of a given dataset or certify that no such transformation exists. By leveraging our strongly polynomial Forster algorithm, we obtain the first strongly polynomial time algorithm for {\em distribution-free} PAC learning of halfspaces. This learning result is surprising because {\em proper} PAC learning of halfspaces is {\em equivalent} to linear programming. Our learning approach extends to give a strongly polynomial halfspace learner in the presence of random classification noise and, more generally, Massart noise.

translated by 谷歌翻译

Robustifying Markowitz

Wolfgang Karl Härdle , Yegor Klochkov , Alla Petukhina , Nikita Zhivotovskiy

分类：机器学习

2022-12-28

Markowitz mean-variance portfolios with sample mean and covariance as input parameters feature numerous issues in practice. They perform poorly out of sample due to estimation error, they experience extreme weights together with high sensitivity to change in input parameters. The heavy-tail characteristics of financial time series are in fact the cause for these erratic fluctuations of weights that consequently create substantial transaction costs. In robustifying the weights we present a toolbox for stabilizing costs and weights for global minimum Markowitz portfolios. Utilizing a projected gradient descent (PGD) technique, we avoid the estimation and inversion of the covariance operator as a whole and concentrate on robust estimation of the gradient descent increment. Using modern tools of robust statistics we construct a computationally efficient estimator with almost Gaussian properties based on median-of-means uniformly over weights. This robustified Markowitz approach is confirmed by empirical studies on equity markets. We demonstrate that robustified portfolios reach the lowest turnover compared to shrinkage-based and constrained portfolios while preserving or slightly improving out-of-sample performance.

translated by 谷歌翻译

Big-Step-Little-Step: Efficient Gradient Methods for Objectives with Multiple Scales

Jonathan Kelner , Annie Marsden , Vatsal Sharan , Aaron Sidford , Gregory Valiant , Honglin Yuan

分类：机器学习 | (统计)机器学习

2021-11-04

我们提供了新的基于梯度的方法，以便有效解决广泛的病态化优化问题。我们考虑最小化函数$ f：\ mathbb {r} ^ d \ lightarrow \ mathbb {r} $的问题，它是隐含的可分解的，作为$ m $未知的非交互方式的总和，强烈的凸起功能并提供方法这解决了这个问题，这些问题是缩放（最快的对数因子）作为组件的条件数量的平方根的乘积。这种复杂性绑定（我们证明几乎是最佳的）可以几乎指出的是加速梯度方法的几乎是指数的，这将作为$ F $的条件数量的平方根。此外，我们提供了求解该多尺度优化问题的随机异标变体的有效方法。而不是学习$ F $的分解（这将是过度昂贵的），而是我们的方法应用一个清洁递归“大步小步”交错标准方法。由此产生的算法使用$ \ tilde {\ mathcal {o}}（d m）$空间，在数字上稳定，并打开门以更细粒度的了解凸优化超出条件号的复杂性。

translated by 谷歌翻译

Hessian Averaging in Stochastic Newton Methods Achieves Superlinear Convergence

Sen Na , Michał Dereziński , Michael W. Mahoney

分类：机器学习 | (统计)机器学习

2022-04-20

We consider minimizing a smooth and strongly convex objective function using a stochastic Newton method. At each iteration, the algorithm is given an oracle access to a stochastic estimate of the Hessian matrix. The oracle model includes popular algorithms such as Subsampled Newton and Newton Sketch. Despite using second-order information, these existing methods do not exhibit superlinear convergence, unless the stochastic noise is gradually reduced to zero during the iteration, which would lead to a computational blow-up in the per-iteration cost. We propose to address this limitation with Hessian averaging: instead of using the most recent Hessian estimate, our algorithm maintains an average of all the past estimates. This reduces the stochastic noise while avoiding the computational blow-up. We show that this scheme exhibits local $Q$-superlinear convergence with a non-asymptotic rate of $(\Upsilon\sqrt{\log (t)/t}\,)^{t}$, where $\Upsilon$ is proportional to the level of stochastic noise in the Hessian oracle. A potential drawback of this (uniform averaging) approach is that the averaged estimates contain Hessian information from the global phase of the method, i.e., before the iterates converge to a local neighborhood. This leads to a distortion that may substantially delay the superlinear convergence until long after the local neighborhood is reached. To address this drawback, we study a number of weighted averaging schemes that assign larger weights to recent Hessians, so that the superlinear convergence arises sooner, albeit with a slightly slower rate. Remarkably, we show that there exists a universal weighted averaging scheme that transitions to local convergence at an optimal stage, and still exhibits a superlinear convergence rate nearly (up to a logarithmic factor) matching that of uniform Hessian averaging.

translated by 谷歌翻译

Nonconvex Stochastic Scaled-Gradient Descent and Generalized Eigenvector Problems

Chris Junchi Li , Michael I. Jordan

分类： (统计)机器学习 | 机器学习

2021-12-29

通过在线规范相关性分析的问题，我们提出了\ emph {随机缩放梯度下降}（SSGD）算法，以最小化通用riemannian歧管上的随机功能的期望。 SSGD概括了投影随机梯度下降的思想，允许使用缩放的随机梯度而不是随机梯度。在特殊情况下，球形约束的特殊情况，在广义特征向量问题中产生的，我们建立了$ \ sqrt {1 / t} $的令人反感的有限样本，并表明该速率最佳最佳，直至具有积极的积极因素相关参数。在渐近方面，一种新的轨迹平均争论使我们能够实现局部渐近常态，其速率与鲁普特 - Polyak-Quaditsky平均的速率匹配。我们将这些想法携带在一个在线规范相关分析，从事文献中的第一次获得了最佳的一次性尺度算法，其具有局部渐近融合到正常性的最佳一次性尺度算法。还提供了用于合成数据的规范相关分析的数值研究。

translated by 谷歌翻译

Sampling-based sublinear low-rank matrix arithmetic framework for dequantizing quantum machine learning

Nai-Hui Chia , András Gilyén , Tongyang Li , Han-Hsuan Lin , Ewin Tang , Chunhao Wang

分类：机器学习

2019-10-14

我们提出了一个算法框架，用于近距离矩阵上的量子启发的经典算法，概括了Tang的突破性量子启发算法开始的一系列结果，用于推荐系统[STOC'19]。由量子线性代数算法和gily \'en，su，low和wiebe [stoc'19]的量子奇异值转换（SVT）框架[SVT）的动机[STOC'19]，我们开发了SVT的经典算法合适的量子启发的采样假设。我们的结果提供了令人信服的证据，表明在相应的QRAM数据结构输入模型中，量子SVT不会产生指数量子加速。由于量子SVT框架基本上概括了量子线性代数的所有已知技术，因此我们的结果与先前工作的采样引理相结合，足以概括所有有关取消量子机器学习算法的最新结果。特别是，我们的经典SVT框架恢复并经常改善推荐系统，主成分分析，监督聚类，支持向量机器，低秩回归和半决赛程序解决方案的取消结果。我们还为汉密尔顿低级模拟和判别分析提供了其他取消化结果。我们的改进来自识别量子启发的输入模型的关键功能，该模型是所有先前量子启发的结果的核心：$ \ ell^2 $ -Norm采样可以及时近似于其尺寸近似矩阵产品。我们将所有主要结果减少到这一事实，使我们的简洁，独立和直观。

translated by 谷歌翻译

Riemannian Optimization via Frank-Wolfe Methods

Melanie Weber , Suvrit Sra

分类：机器学习

2017-10-30

我们研究无限制的黎曼优化的免投影方法。特别是，我们提出了黎曼弗兰克 - 沃尔夫（RFW）方法。我们将RFW的非渐近收敛率分析为最佳（高音）凸起问题，以及非凸起目标的临界点。我们还提出了一种实用的设置，其中RFW可以获得线性收敛速度。作为一个具体的例子，我们将RFW专用于正定矩阵的歧管，并将其应用于两个任务：（i）计算矩阵几何平均值（riemannian质心）; （ii）计算Bures-Wasserstein重心。这两个任务都涉及大量凸间间隔约束，为此，我们表明RFW要求的Riemannian“线性”Oracle承认了闭合形式的解决方案;该结果可能是独立的兴趣。我们进一步专门从事RFW到特殊正交组，并表明这里也可以以封闭形式解决riemannian“线性”甲骨文。在这里，我们描述了数据矩阵同步的应用程序（促使问题）。我们补充了我们的理论结果，并对RFW对最先进的riemananian优化方法进行了实证比较，并观察到RFW竞争性地对计算黎曼心质的任务进行竞争性。

translated by 谷歌翻译

Statistical and Computational Guarantees for Influence Diagnostics

Jillian Fisher , Lang Liu , Krishna Pillutla , Yejin Choi , Zaid Harchaoui

分类： (统计)机器学习 | 机器学习

2022-12-08

Influence diagnostics such as influence functions and approximate maximum influence perturbations are popular in machine learning and in AI domain applications. Influence diagnostics are powerful statistical tools to identify influential datapoints or subsets of datapoints. We establish finite-sample statistical bounds, as well as computational complexity bounds, for influence functions and approximate maximum influence perturbations using efficient inverse-Hessian-vector product implementations. We illustrate our results with generalized linear models and large attention based models on synthetic and real data.

translated by 谷歌翻译

Robust methods for high-dimensional linear learning

Ibrahim Merad , Stéphane Gaïffas

分类： (统计)机器学习 | 机器学习

2022-08-10

我们在高维批处理设置中提出了统计上健壮和计算高效的线性学习方法，其中功能$ d $的数量可能超过样本量$ n $。在通用学习环境中，我们采用两种算法，具体取决于所考虑的损失函数是否为梯度lipschitz。然后，我们将我们的框架实例化，包括几种应用程序，包括香草稀疏，群 - 帕克斯和低升级矩阵恢复。对于每种应用，这导致了有效而强大的学习算法，这些算法在重尾分布和异常值的存在下达到了近乎最佳的估计率。对于香草$ S $ -SPARSITY，我们能够以重型尾巴和$ \ eta $ - 腐败的计算成本与非企业类似物相当的计算成本达到$ s \ log（d）/n $速率。我们通过开放源代码$ \ mathtt {python} $库提供了有效的算法实现文献中提出的最新方法。

translated by 谷歌翻译