智能论文笔记

Analysis of Generalized Bregman Surrogate Algorithms for Nonsmooth Nonconvex Statistical Learning

Yiyuan She , Zhifeng Wang , Jiuwu Jin

分类： (统计)机器学习

2021-12-16

现代统计应用常常涉及最小化可能是非流动和/或非凸起的目标函数。本文侧重于广泛的Bregman-替代算法框架，包括本地线性近似，镜像下降，迭代阈值，DC编程以及许多其他实例。通过广义BREGMAN功能的重新发出使我们能够构建合适的误差测量并在可能高维度下建立非凸起和非凸起和非球形目标的全球收敛速率。对于稀疏的学习问题，在一些规律性条件下，所获得的估算器作为代理人的固定点，尽管不一定是局部最小化者，但享受可明确的统计保障，并且可以证明迭代顺序在所需的情况下接近统计事实准确地快速。本文还研究了如何通过仔细控制步骤和放松参数来设计基于适应性的动力的加速度而不假设凸性或平滑度。

translated by 谷歌翻译

Gaining Outlier Resistance with Progressive Quantiles: Fast Algorithms and Theoretical Studies

Yiyuan She , Zhifeng Wang , Jiahui Shen

分类： (统计)机器学习

2021-12-15

异常值广泛发生在大数据应用中，可能严重影响统计估计和推理。在本文中，引入了抗强估计的框架，以强制任意给出的损耗函数。它与修剪方法密切连接，并且包括所有样本的显式外围参数，这反过来促进计算，理论和参数调整。为了解决非凸起和非体性的问题，我们开发可扩展的算法，以实现轻松和保证快速收敛。特别地，提出了一种新的技术来缓解对起始点的要求，使得在常规数据集上，可以大大减少数据重采样的数量。基于组合的统计和计算处理，我们能够超越M估计来执行非因思分析。所获得的抗性估算器虽然不一定全局甚至是局部最佳的，但在低维度和高维度中享有最小的速率最优性。回归，分类和神经网络的实验表明，在总异常值发生的情况下提出了拟议方法的优异性能。

translated by 谷歌翻译

Supervised Multivariate Learning with Simultaneous Feature Auto-grouping and Dimension Reduction

Yiyuan She , Jiahui Shen , Chao Zhang

分类： (统计)机器学习 | 机器学习

2021-12-17

现代高维方法经常采用“休稀稀物”的原则，而在监督多元学习统计学中可能面临着大量非零系数的“密集”问题。本文提出了一种新的聚类减少秩（CRL）框架，其施加了两个联合矩阵规范化，以自动分组构建预测因素的特征。 CRL比低级别建模更具可解释，并放松变量选择中的严格稀疏假设。在本文中，提出了新的信息 - 理论限制，揭示了寻求集群的内在成本，以及多元学习中的维度的祝福。此外，开发了一种有效的优化算法，其执行子空间学习和具有保证融合的聚类。所获得的定点估计器虽然不一定是全局最佳的，但在某些规则条件下享有超出标准似然设置的所需的统计准确性。此外，提出了一种新的信息标准，以及其无垢形式，用于集群和秩选择，并且具有严格的理论支持，而不假设无限的样本大小。广泛的模拟和实数据实验证明了所提出的方法的统计准确性和可解释性。

translated by 谷歌翻译

Convergence and Complexity of Stochastic Block Majorization-Minimization

Hanbaek Lyu

分类：机器学习 | (统计)机器学习

2022-01-05

随机多变最小化 - 最小化（SMM）是大多数变化最小化的经典原则的在线延伸，这包括采样I.I.D。来自固定数据分布的数据点，并最小化递归定义的主函数的主要替代。在本文中，我们引入了随机块大大化 - 最小化，其中替代品现在只能块多凸，在半径递减内的时间优化单个块。在SMM中的代理人放松标准的强大凸起要求，我们的框架在内提供了更广泛的适用性，包括在线CANDECOMP / PARAFAC（CP）字典学习，并且尤其是当问题尺寸大时产生更大的计算效率。我们对所提出的算法提供广泛的收敛性分析，我们在可能的数据流下派生，放松标准i.i.d。对数据样本的假设。我们表明，所提出的算法几乎肯定会收敛于速率$ O（（\ log n）^ {1+ \ eps} / n ^ {1/2}）$的约束下的非凸起物镜的静止点集合。实证丢失函数和$ O（（\ log n）^ {1+ \ eps} / n ^ {1/4}）$的预期丢失函数，其中$ n $表示处理的数据样本数。在一些额外的假设下，后一趋同率可以提高到$ o（（\ log n）^ {1+ \ eps} / n ^ {1/2}）$。我们的结果为一般马尔维亚数据设置提供了各种在线矩阵和张量分解算法的第一融合率界限。

translated by 谷歌翻译

Convergence of Random Reshuffling Under The Kurdyka-Łojasiewicz Inequality

Xiao Li , Andre Milzarek , Junwen Qiu

分类：机器学习

2021-10-10

我们研究了具有有限和结构的平滑非凸化优化问题的随机重新洗脱（RR）方法。虽然该方法在诸如神经网络的训练之类的实践中广泛利用，但其会聚行为仅在几个有限的环境中被理解。在本文中，在众所周知的Kurdyka-LojasiewiCz（KL）不等式下，我们建立了具有适当递减步长尺寸的RR的强极限点收敛结果，即，RR产生的整个迭代序列是会聚并会聚到单个静止点几乎肯定的感觉。 In addition, we derive the corresponding rate of convergence, depending on the KL exponent and the suitably selected diminishing step sizes.当KL指数在$ [0，\ FRAC12] $以$ [0，\ FRAC12] $时，收敛率以$ \ mathcal {o}（t ^ { - 1}）$的速率计算，以$ t $ counting迭代号。当KL指数属于$（\ FRAC12,1）$时，我们的派生收敛速率是FORM $ \ MATHCAL {O}（T ^ { - Q}）$，$ Q \ IN（0,1）$取决于在KL指数上。基于标准的KL不等式的收敛分析框架仅适用于具有某种阶段性的算法。我们对基于KL不等式的步长尺寸减少的非下降RR方法进行了新的收敛性分析，这概括了标准KL框架。我们总结了我们在非正式分析框架中的主要步骤和核心思想，这些框架是独立的兴趣。作为本框架的直接应用，我们还建立了类似的强极限点收敛结果，为重组的近端点法。

translated by 谷歌翻译

The Performance of Wasserstein Distributionally Robust M-Estimators in High Dimensions

Liviu Aolaritei , Soroosh Shafieezadeh-Abadeh , Florian Dörfler

分类： (统计)机器学习 | 机器学习

2022-06-27

Wasserstein的分布在强大的优化方面已成为强大估计的有力框架，享受良好的样本外部性能保证，良好的正则化效果以及计算上可易处理的双重重新纠正。在这样的框架中，通过将最接近经验分布的所有概率分布中最接近的所有概率分布中最小化的最差预期损失来最大程度地减少估计量。在本文中，我们提出了一个在噪声线性测量中估算未知参数的Wasserstein分布稳定的M估计框架，我们专注于分析此类估计器的平方误差性能的重要且具有挑战性的任务。我们的研究是在现代的高维比例状态下进行的，在该状态下，环境维度和样品数量都以相对的速度进行编码，该速率以编码问题的下/过度参数化的比例。在各向同性高斯特征假设下，我们表明可以恢复平方误差作为凸 - 串联优化问题的解，令人惊讶的是，它在最多四个标量变量中都涉及。据我们所知，这是在Wasserstein分布强劲的M估计背景下研究此问题的第一项工作。

translated by 谷歌翻译

Retire: Robust Expectile Regression in High Dimensions

Rebeka Man , Kean Ming Tan , Zian Wang , Wen-Xin Zhou

分类： (统计)机器学习

2022-12-11

High-dimensional data can often display heterogeneity due to heteroscedastic variance or inhomogeneous covariate effects. Penalized quantile and expectile regression methods offer useful tools to detect heteroscedasticity in high-dimensional data. The former is computationally challenging due to the non-smooth nature of the check loss, and the latter is sensitive to heavy-tailed error distributions. In this paper, we propose and study (penalized) robust expectile regression (retire), with a focus on iteratively reweighted $\ell_1$-penalization which reduces the estimation bias from $\ell_1$-penalization and leads to oracle properties. Theoretically, we establish the statistical properties of the retire estimator under two regimes: (i) low-dimensional regime in which $d \ll n$; (ii) high-dimensional regime in which $s\ll n\ll d$ with $s$ denoting the number of significant predictors. In the high-dimensional setting, we carefully characterize the solution path of the iteratively reweighted $\ell_1$-penalized retire estimation, adapted from the local linear approximation algorithm for folded-concave regularization. Under a mild minimum signal strength condition, we show that after as many as $\log(\log d)$ iterations the final iterate enjoys the oracle convergence rate. At each iteration, the weighted $\ell_1$-penalized convex program can be efficiently solved by a semismooth Newton coordinate descent algorithm. Numerical studies demonstrate the competitive performance of the proposed procedure compared with either non-robust or quantile regression based alternatives.

translated by 谷歌翻译

The Lasso with general Gaussian designs with applications to hypothesis testing

Michael Celentano , Andrea Montanari , Yuting Wei

分类：机器学习 | (统计)机器学习

2020-07-27

套索是一种高维回归的方法，当时，当协变量$ p $的订单数量或大于观测值$ n $时，通常使用它。由于两个基本原因，经典的渐近态性理论不适用于该模型：$（1）$正规风险是非平滑的； $（2）$估算器$ \ wideHat {\ boldsymbol {\ theta}} $与true参数vector $ \ boldsymbol {\ theta}^*$无法忽略。结果，标准的扰动论点是渐近正态性的传统基础。另一方面，套索估计器可以精确地以$ n $和$ p $大，$ n/p $的订单为一。这种表征首先是在使用I.I.D的高斯设计的情况下获得的。协变量：在这里，我们将其推广到具有非偏差协方差结构的高斯相关设计。这是根据更简单的``固定设计''模型表示的。我们在两个模型中各种数量的分布之间的距离上建立了非反应界限，它们在合适的稀疏类别中均匀地固定在信号上$ \ boldsymbol {\ theta}^*$。作为应用程序，我们研究了借助拉索的分布，并表明需要校正程度对于计算有效的置信区间是必要的。

translated by 谷歌翻译

Iterative regularization in classification via hinge loss diagonal descent

Vassilis Apidopoulos , Tomaso Poggio , Lorenzo Rosasco , Silvia Villa

分类： (统计)机器学习 | 机器学习

2022-12-24

Iterative regularization is a classic idea in regularization theory, that has recently become popular in machine learning. On the one hand, it allows to design efficient algorithms controlling at the same time numerical and statistical accuracy. On the other hand it allows to shed light on the learning curves observed while training neural networks. In this paper, we focus on iterative regularization in the context of classification. After contrasting this setting with that of regression and inverse problems, we develop an iterative regularization approach based on the use of the hinge loss function. More precisely we consider a diagonal approach for a family of algorithms for which we prove convergence as well as rates of convergence. Our approach compares favorably with other alternatives, as confirmed also in numerical simulations.

translated by 谷歌翻译

Differentially private inference via noisy optimization

Marco Avella-Medina , Casey Bradshaw , Po-Ling Loh

分类：机器学习 | (统计)机器学习

2021-03-19

我们提出了一种基于优化的基于优化的框架，用于计算差异私有M估算器以及构建差分私立置信区的新方法。首先，我们表明稳健的统计数据可以与嘈杂的梯度下降或嘈杂的牛顿方法结合使用，以便分别获得具有全局线性或二次收敛的最佳私人估算。我们在局部强大的凸起和自我协调下建立当地和全球融合保障，表明我们的私人估算变为对非私人M估计的几乎最佳附近的高概率。其次，我们通过构建我们私有M估计的渐近方差的差异私有估算来解决参数化推断的问题。这自然导致近似枢轴统计，用于构建置信区并进行假设检测。我们展示了偏置校正的有效性，以提高模拟中的小样本实证性能。我们说明了我们在若干数值例子中的方法的好处。

translated by 谷歌翻译

Nonconvex Stochastic Scaled-Gradient Descent and Generalized Eigenvector Problems

Chris Junchi Li , Michael I. Jordan

分类： (统计)机器学习 | 机器学习

2021-12-29

通过在线规范相关性分析的问题，我们提出了\ emph {随机缩放梯度下降}（SSGD）算法，以最小化通用riemannian歧管上的随机功能的期望。 SSGD概括了投影随机梯度下降的思想，允许使用缩放的随机梯度而不是随机梯度。在特殊情况下，球形约束的特殊情况，在广义特征向量问题中产生的，我们建立了$ \ sqrt {1 / t} $的令人反感的有限样本，并表明该速率最佳最佳，直至具有积极的积极因素相关参数。在渐近方面，一种新的轨迹平均争论使我们能够实现局部渐近常态，其速率与鲁普特 - Polyak-Quaditsky平均的速率匹配。我们将这些想法携带在一个在线规范相关分析，从事文献中的第一次获得了最佳的一次性尺度算法，其具有局部渐近融合到正常性的最佳一次性尺度算法。还提供了用于合成数据的规范相关分析的数值研究。

translated by 谷歌翻译

Robust methods for high-dimensional linear learning

Ibrahim Merad , Stéphane Gaïffas

分类： (统计)机器学习 | 机器学习

2022-08-10

我们在高维批处理设置中提出了统计上健壮和计算高效的线性学习方法，其中功能$ d $的数量可能超过样本量$ n $。在通用学习环境中，我们采用两种算法，具体取决于所考虑的损失函数是否为梯度lipschitz。然后，我们将我们的框架实例化，包括几种应用程序，包括香草稀疏，群 - 帕克斯和低升级矩阵恢复。对于每种应用，这导致了有效而强大的学习算法，这些算法在重尾分布和异常值的存在下达到了近乎最佳的估计率。对于香草$ S $ -SPARSITY，我们能够以重型尾巴和$ \ eta $ - 腐败的计算成本与非企业类似物相当的计算成本达到$ s \ log（d）/n $速率。我们通过开放源代码$ \ mathtt {python} $库提供了有效的算法实现文献中提出的最新方法。

translated by 谷歌翻译

Tractability from overparametrization: The example of the negative perceptron

Andrea Montanari , Yiqiao Zhong , Kangjie Zhou

分类：机器学习

2021-10-28

在负面的感知问题中，我们给出了$ n $数据点$（{\ boldsymbol x} _i，y_i）$，其中$ {\ boldsymbol x} _i $是$ d $ -densional vector和$ y_i \ in \ { + 1，-1 \} $是二进制标签。数据不是线性可分离的，因此我们满足自己的内容，以找到最大的线性分类器，具有最大的\ emph {否定}余量。换句话说，我们想找到一个单位常规矢量$ {\ boldsymbol \ theta} $，最大化$ \ min_ {i \ le n} y_i \ langle {\ boldsymbol \ theta}，{\ boldsymbol x} _i \ rangle $ 。这是一个非凸优化问题（它相当于在Polytope中找到最大标准矢量），我们在两个随机模型下研究其典型属性。我们考虑比例渐近，其中$ n，d \ to \ idty $以$ n / d \ to \ delta $，并在最大边缘$ \ kappa _ {\ text {s}}（\ delta）上证明了上限和下限）$或 - 等效 - 在其逆函数$ \ delta _ {\ text {s}}（\ kappa）$。换句话说，$ \ delta _ {\ text {s}}（\ kappa）$是overparametization阈值：以$ n / d \ le \ delta _ {\ text {s}}（\ kappa） - \ varepsilon $一个分类器实现了消失的训练错误，具有高概率，而以$ n / d \ ge \ delta _ {\ text {s}}（\ kappa）+ \ varepsilon $。我们在$ \ delta _ {\ text {s}}（\ kappa）$匹配，以$ \ kappa \ to - \ idty $匹配。然后，我们分析了线性编程算法来查找解决方案，并表征相应的阈值$ \ delta _ {\ text {lin}}（\ kappa）$。我们观察插值阈值$ \ delta _ {\ text {s}}（\ kappa）$和线性编程阈值$ \ delta _ {\ text {lin {lin}}（\ kappa）$之间的差距，提出了行为的问题其他算法。

translated by 谷歌翻译

Global Optimality Guarantees For Policy Gradient Methods

Jalaj Bhandari , Daniel Russo

分类：机器学习 | (统计)机器学习

2019-06-05

策略梯度方法适用于复杂的，不理解的，通过对参数化的策略进行随机梯度下降来控制问题。不幸的是，即使对于可以通过标准动态编程技术解决的简单控制问题，策略梯度算法也会面临非凸优化问题，并且被广泛理解为仅收敛到固定点。这项工作确定了结构属性 - 通过几个经典控制问题共享 - 确保策略梯度目标函数尽管是非凸面，但没有次优的固定点。当这些条件得到加强时，该目标满足了产生收敛速率的Polyak-lojasiewicz（梯度优势）条件。当其中一些条件放松时，我们还可以在任何固定点的最佳差距上提供界限。

translated by 谷歌翻译

Mean field Variational Inference via Wasserstein Gradient Flow

Rentian Yao , Yun Yang

分类： (统计)机器学习

2022-07-17

变性推理（VI）为基于传统的采样方法提供了一种吸引人的替代方法，用于实施贝叶斯推断，因为其概念性的简单性，统计准确性和计算可扩展性。然而，常见的变分近似方案（例如平均场（MF）近似）需要某些共轭结构以促进有效的计算，这可能会增加不必要的限制对可行的先验分布家族，并对变异近似族对差异进行进一步的限制。在这项工作中，我们开发了一个通用计算框架，用于实施MF-VI VIA WASSERSTEIN梯度流（WGF），这是概率度量空间上的梯度流。当专门针对贝叶斯潜在变量模型时，我们将分析基于时间消化的WGF交替最小化方案的算法收敛，用于实现MF近似。特别是，所提出的算法类似于EM算法的分布版本，包括更新潜在变量变异分布的E step以及在参数的变异分布上进行最陡峭下降的m step。我们的理论分析依赖于概率度量空间中的最佳运输理论和细分微积分。我们证明了时间限制的WGF的指数收敛性，以最大程度地减少普通大地测量学严格的凸度的通用物镜功能。我们还提供了通过使用时间限制的WGF的固定点方程从MF近似获得的变异分布的指数收缩的新证明。我们将方法和理论应用于两个经典的贝叶斯潜在变量模型，即高斯混合模型和回归模型的混合物。还进行了数值实验，以补充这两个模型下的理论发现。

translated by 谷歌翻译

A Non-Asymptotic Framework for Approximate Message Passing in Spiked Models

Gen Li , Yuting Wei

分类：机器学习 | (统计)机器学习

2022-08-05

近似消息传递（AMP）是解决高维统计问题的有效迭代范式。但是，当迭代次数超过$ o \ big（\ frac {\ log n} {\ log log \ log \ log n} \时big）$（带有$ n $问题维度）。为了解决这一不足，本文开发了一个非吸附框架，用于理解峰值矩阵估计中的AMP。基于AMP更新的新分解和可控的残差项，我们布置了一个分析配方，以表征在存在独立初始化的情况下AMP的有限样本行为，该过程被进一步概括以进行光谱初始化。作为提出的分析配方的两个具体后果：（i）求解$ \ mathbb {z} _2 $同步时，我们预测了频谱初始化AMP的行为，最高为$ o \ big（\ frac {n} {\ mathrm {\ mathrm { poly} \ log n} \ big）$迭代，表明该算法成功而无需随后的细化阶段（如最近由\ citet {celentano2021local}推测）; （ii）我们表征了稀疏PCA中AMP的非反应性行为（在尖刺的Wigner模型中），以广泛的信噪比。

translated by 谷歌翻译

Asymptotic Errors for Teacher-Student Convex Generalized Linear Models (or : How to Prove Kabashima's Replica Formula)

Cedric Gerbelot , Alia Abbara , Florent Krzakala

分类： (统计)机器学习 | 机器学习

2020-06-11

最近有兴趣的兴趣在教师学生环境中的各种普遍性线性估计问题中的渐近重建性能研究，特别是对于I.I.D标准正常矩阵的案例。在这里，我们超越这些矩阵，并证明了具有具有任意界限频谱的旋转不变数据矩阵的凸遍的线性模型的重建性能的分析公式，严格地确认使用来自统计物理的副本衍生的猜想。该公式包括许多问题，例如压缩感测或稀疏物流分类。通过利用消息通过算法和迭代的统计特性来实现证明，允许表征估计器的渐近实证分布。我们的证据是基于构建Oracle多层向量近似消息传递算法的会聚序列的构建，其中通过检查等效动态系统的稳定性来完成收敛分析。我们说明了我们对主流学习方法的数值示例的要求，例如稀疏的逻辑回归和线性支持矢量分类器，显示中等大小模拟和渐近预测之间的良好一致性。

translated by 谷歌翻译

A Cross Validation framework for Signal Denoising with Applications to Trend Filtering, Dyadic CART and Beyond

Anamitra Chaudhuri , Sabyasachi Chatterjee

分类： (统计)机器学习

2022-01-07

本文为信号去噪提供了一般交叉验证框架。然后将一般框架应用于非参数回归方法，例如趋势过滤和二元推车。然后显示所得到的交叉验证版本以获得最佳调谐的类似物所熟知的几乎相同的收敛速度。没有任何先前的趋势过滤或二元推车的理论分析。为了说明框架的一般性，我们还提出并研究了两个基本估算器的交叉验证版本;套索用于高维线性回归和矩阵估计的奇异值阈值阈值。我们的一般框架是由Chatterjee和Jafarov（2015）的想法的启发，并且可能适用于使用调整参数的广泛估算方法。

translated by 谷歌翻译

Recent Theoretical Advances in Non-Convex Optimization

Marina Danilova , Pavel Dvurechensky , Alexander Gasnikov , Eduard Gorbunov , Sergey Guminov , Dmitry Kamzolov , Innokentiy Shibaev

分类：机器学习

2020-12-11

近期在应用于培训深度神经网络和数据分析中的其他优化问题中的非凸优化的优化算法的兴趣增加，我们概述了最近对非凸优化优化算法的全球性能保证的理论结果。我们从古典参数开始，显示一般非凸面问题无法在合理的时间内有效地解决。然后，我们提供了一个问题列表，可以通过利用问题的结构来有效地找到全球最小化器，因为可能的问题。处理非凸性的另一种方法是放宽目标，从找到全局最小，以找到静止点或局部最小值。对于该设置，我们首先为确定性一阶方法的收敛速率提出了已知结果，然后是最佳随机和随机梯度方案的一般理论分析，以及随机第一阶方法的概述。之后，我们讨论了非常一般的非凸面问题，例如最小化$ \ alpha $ -weakly-are-convex功能和满足Polyak-lojasiewicz条件的功能，这仍然允许获得一阶的理论融合保证方法。然后，我们考虑更高阶和零序/衍生物的方法及其收敛速率，以获得非凸优化问题。

translated by 谷歌翻译

Unifying mirror descent and dual averaging

Anatoli Juditsky , Joon Kwon , Éric Moulines

分类：机器学习

2019-10-30

我们介绍并分析新的一阶优化算法系列，它概括并统一镜像血统和双平均。在该系列的框架内，我们定义了用于约束优化的新算法，这些算法结合了镜像血统和双平均的优点。我们的初步仿真研究表明，这些新算法在某些情况下显着优于可用方法。

translated by 谷歌翻译