智能论文笔记

Convergence and Complexity of Stochastic Block Majorization-Minimization

Hanbaek Lyu

分类：机器学习 | (统计)机器学习

2022-01-05

随机多变最小化 - 最小化（SMM）是大多数变化最小化的经典原则的在线延伸，这包括采样I.I.D。来自固定数据分布的数据点，并最小化递归定义的主函数的主要替代。在本文中，我们引入了随机块大大化 - 最小化，其中替代品现在只能块多凸，在半径递减内的时间优化单个块。在SMM中的代理人放松标准的强大凸起要求，我们的框架在内提供了更广泛的适用性，包括在线CANDECOMP / PARAFAC（CP）字典学习，并且尤其是当问题尺寸大时产生更大的计算效率。我们对所提出的算法提供广泛的收敛性分析，我们在可能的数据流下派生，放松标准i.i.d。对数据样本的假设。我们表明，所提出的算法几乎肯定会收敛于速率$ O（（\ log n）^ {1+ \ eps} / n ^ {1/2}）$的约束下的非凸起物镜的静止点集合。实证丢失函数和$ O（（\ log n）^ {1+ \ eps} / n ^ {1/4}）$的预期丢失函数，其中$ n $表示处理的数据样本数。在一些额外的假设下，后一趋同率可以提高到$ o（（\ log n）^ {1+ \ eps} / n ^ {1/2}）$。我们的结果为一般马尔维亚数据设置提供了各种在线矩阵和张量分解算法的第一融合率界限。

translated by 谷歌翻译

Online nonnegative CP-dictionary learning for Markovian data

Hanbaek Lyu , Christopher Strohmeier , Deanna Needell

分类： (统计)机器学习 | 机器学习

2020-09-16

在线张量分解（OTF）是一种从流媒体多模态数据学习低维解释特征的基本工具。虽然最近已经调查了OTF的各种算法和理论方面，但仍然甚至缺乏任何不连贯或稀疏假设的客观函数的静止点的一般会聚保证仍然缺乏仍然缺乏缺乏。案件。在这项工作中，我们介绍了一种新颖的算法，该算法从一般约束下的给定的张力值数据流中学习了CANDECOMP / PARAFAC（CP），包括诱导学习CP的解释性的非承诺约束。我们证明我们的算法几乎肯定会收敛到目标函数的一组静止点，在该假设下，数据张集的序列由底层马尔可夫链产生。我们的环境涵盖了古典的i.i.d.案例以及广泛的应用程序上下文，包括由独立或MCMC采样生成的数据流。我们的结果缩小了OTF和在线矩阵分解在全局融合分析中的OTF和在线矩阵分解之间的差距\ Commhl {对于CP - 分解}。实验，我们表明我们的算法比合成和实际数据的非负张量分解任务的标准算法更快地收敛得多。此外，我们通过图像，视频和时间序列数据展示了我们算法对来自图像，视频和时间序列数据的多样化示例的实用性，示出了通过以多种方式利用张量结构来利用张量结构，如何从相同的张量数据中学习定性不同的CP字典。。

translated by 谷歌翻译

Analysis of Generalized Bregman Surrogate Algorithms for Nonsmooth Nonconvex Statistical Learning

Yiyuan She , Zhifeng Wang , Jiuwu Jin

分类： (统计)机器学习

2021-12-16

现代统计应用常常涉及最小化可能是非流动和/或非凸起的目标函数。本文侧重于广泛的Bregman-替代算法框架，包括本地线性近似，镜像下降，迭代阈值，DC编程以及许多其他实例。通过广义BREGMAN功能的重新发出使我们能够构建合适的误差测量并在可能高维度下建立非凸起和非凸起和非球形目标的全球收敛速率。对于稀疏的学习问题，在一些规律性条件下，所获得的估算器作为代理人的固定点，尽管不一定是局部最小化者，但享受可明确的统计保障，并且可以证明迭代顺序在所需的情况下接近统计事实准确地快速。本文还研究了如何通过仔细控制步骤和放松参数来设计基于适应性的动力的加速度而不假设凸性或平滑度。

translated by 谷歌翻译

Convergence of Random Reshuffling Under The Kurdyka-Łojasiewicz Inequality

Xiao Li , Andre Milzarek , Junwen Qiu

分类：机器学习

2021-10-10

我们研究了具有有限和结构的平滑非凸化优化问题的随机重新洗脱（RR）方法。虽然该方法在诸如神经网络的训练之类的实践中广泛利用，但其会聚行为仅在几个有限的环境中被理解。在本文中，在众所周知的Kurdyka-LojasiewiCz（KL）不等式下，我们建立了具有适当递减步长尺寸的RR的强极限点收敛结果，即，RR产生的整个迭代序列是会聚并会聚到单个静止点几乎肯定的感觉。 In addition, we derive the corresponding rate of convergence, depending on the KL exponent and the suitably selected diminishing step sizes.当KL指数在$ [0，\ FRAC12] $以$ [0，\ FRAC12] $时，收敛率以$ \ mathcal {o}（t ^ { - 1}）$的速率计算，以$ t $ counting迭代号。当KL指数属于$（\ FRAC12,1）$时，我们的派生收敛速率是FORM $ \ MATHCAL {O}（T ^ { - Q}）$，$ Q \ IN（0,1）$取决于在KL指数上。基于标准的KL不等式的收敛分析框架仅适用于具有某种阶段性的算法。我们对基于KL不等式的步长尺寸减少的非下降RR方法进行了新的收敛性分析，这概括了标准KL框架。我们总结了我们在非正式分析框架中的主要步骤和核心思想，这些框架是独立的兴趣。作为本框架的直接应用，我们还建立了类似的强极限点收敛结果，为重组的近端点法。

translated by 谷歌翻译

Supervised Dictionary Learning with Auxiliary Covariates

Joowon Lee , Hanbaek Lyu , Weixin Yao

分类： (统计)机器学习 | 机器学习

2022-06-14

监督字典学习（SDL）是一种经典的机器学习方法，同时寻求特征提取和分类任务，不一定是先验的目标。 SDL的目的是学习类歧视性词典，这是一组潜在特征向量，可以很好地解释特征以及观察到的数据的标签。在本文中，我们提供了SDL的系统研究，包括SDL的理论，算法和应用。首先，我们提供了一个新颖的框架，该框架将“提升” SDL作为组合因子空间中的凸问题，并提出了一种低级别的投影梯度下降算法，该算法将指数成倍收敛于目标的全局最小化器。我们还制定了SDL的生成模型，并根据高参数制度提供真实参数的全局估计保证。其次，我们被视为一个非convex约束优化问题，我们为SDL提供了有效的块坐标下降算法，该算法可以保证在$ O（\ varepsilon^{ - 1}（\ log）中找到$ \ varepsilon $ - 定位点（\ varepsilon \ varepsilon^{ - 1}）^{2}）$ iterations。对于相应的生成模型，我们为受约束和正则化的最大似然估计问题建立了一种新型的非反应局部一致性结果，这可能是独立的。第三，我们将SDL应用于监督主题建模和胸部X射线图像中的肺炎检测中，以进行不平衡的文档分类。我们还提供了模拟研究，以证明当最佳的重建性和最佳判别词典之间存在差异时，SDL变得更加有效。

translated by 谷歌翻译

Nonconvex Stochastic Scaled-Gradient Descent and Generalized Eigenvector Problems

Chris Junchi Li , Michael I. Jordan

分类： (统计)机器学习 | 机器学习

2021-12-29

通过在线规范相关性分析的问题，我们提出了\ emph {随机缩放梯度下降}（SSGD）算法，以最小化通用riemannian歧管上的随机功能的期望。 SSGD概括了投影随机梯度下降的思想，允许使用缩放的随机梯度而不是随机梯度。在特殊情况下，球形约束的特殊情况，在广义特征向量问题中产生的，我们建立了$ \ sqrt {1 / t} $的令人反感的有限样本，并表明该速率最佳最佳，直至具有积极的积极因素相关参数。在渐近方面，一种新的轨迹平均争论使我们能够实现局部渐近常态，其速率与鲁普特 - Polyak-Quaditsky平均的速率匹配。我们将这些想法携带在一个在线规范相关分析，从事文献中的第一次获得了最佳的一次性尺度算法，其具有局部渐近融合到正常性的最佳一次性尺度算法。还提供了用于合成数据的规范相关分析的数值研究。

translated by 谷歌翻译

Optimal and instance-dependent guarantees for Markovian linear stochastic approximation

Wenlong Mou , Ashwin Pananjady , Martin J. Wainwright , Peter L. Bartlett

分类：机器学习 | (统计)机器学习

2021-12-23

我们研究了随机近似程序，以便基于观察来自ergodic Markov链的长度$ n $的轨迹来求近求解$ d -dimension的线性固定点方程。我们首先表现出$ t _ {\ mathrm {mix}} \ tfrac {n}} \ tfrac {n}} \ tfrac {d}} \ tfrac {d} {n} $的非渐近性界限。$ t _ {\ mathrm {mix $是混合时间。然后，我们证明了一种在适当平均迭代序列上的非渐近实例依赖性，具有匹配局部渐近最小的限制的领先术语，包括对参数$的敏锐依赖（d，t _ {\ mathrm {mix}}） $以高阶术语。我们将这些上限与非渐近Minimax的下限补充，该下限是建立平均SA估计器的实例 - 最优性。我们通过Markov噪声的政策评估导出了这些结果的推导 - 覆盖了所有$ \ lambda \中的TD（$ \ lambda $）算法，以便[0,1）$ - 和线性自回归模型。我们的实例依赖性表征为HyperParameter调整的细粒度模型选择程序的设计开放了门（例如，在运行TD（$ \ Lambda $）算法时选择$ \ lambda $的值）。

translated by 谷歌翻译

Randomized Coordinate Subgradient Method for Nonsmooth Optimization

Lei Zhao , Ding Chen , Daoli Zhu , Xiao Li

分类：机器学习

2022-06-30

非滑动优化在许多工程领域中找到了广泛的应用程序。在这项工作中，我们建议利用{随机坐标亚级别方法}（RCS）来求解非平滑凸凸和非平滑凸（非平滑弱弱凸）优化问题。在每次迭代中，RCS随机选择一个块坐标，而不是所有要更新的坐标。由实用应用激发，我们考虑了目标函数的{线性界限亚级别假设}，这比Lipschitz的连续性假设要笼统得多。在这样的一般假设下，我们在凸和非凸病例中对RCS进行了彻底的收敛分析，并建立了预期的收敛速率和几乎确定的渐近收敛结果。为了得出这些收敛结果，我们建立了收敛的引理以及弱凸功能的全局度量超值属性与其莫罗膜的关系，它们是基本的和独立的利益。最后，我们进行了几项实验，以显示RC的优势比亚级别方法的优势。

translated by 谷歌翻译

Formal guarantees for heuristic optimization algorithms used in machine learning

Xiaoyu Li

分类：机器学习 | (统计)机器学习

2022-07-31

最近，随机梯度下降（SGD）及其变体已成为机器学习（ML）问题大规模优化的主要方法。已经提出了各种策略来调整步骤尺寸，从自适应步骤大小到启发式方法，以更改每次迭代中的步骤大小。此外，动力已被广泛用于ML任务以加速训练过程。然而，我们对它们的理论理解存在差距。在这项工作中，我们开始通过为一些启发式优化方法提供正式保证并提出改进的算法来缩小这一差距。首先，我们分析了凸面和非凸口设置的Adagrad（延迟Adagrad）步骤大小的广义版本，这表明这些步骤尺寸允许算法自动适应随机梯度的噪声水平。我们首次显示延迟Adagrad的足够条件，以确保梯度几乎融合到零。此外，我们对延迟的Adagrad及其在非凸面设置中的动量变体进行了高概率分析。其次，我们用指数级和余弦的步骤分析了SGD，在经验上取得了成功，但缺乏理论支持。我们在平滑和非凸的设置中为它们提供了最初的收敛保证，有或没有polyak-{\ l} ojasiewicz（pl）条件。我们还显示了它们在PL条件下适应噪声的良好特性。第三，我们研究动量方法的最后迭代。我们证明了SGD的最后一个迭代的凸设置中的第一个下限，并以恒定的动量。此外，我们研究了一类跟随基于领先的领导者的动量算法，并随着动量和收缩的更新而增加。我们表明，他们的最后一个迭代具有最佳的收敛性，用于无约束的凸随机优化问题。

translated by 谷歌翻译

A Two-Timescale Framework for Bilevel Optimization: Complexity Analysis and Application to Actor-Critic

Mingyi Hong , Hoi-To Wai , Zhaoran Wang , Zhuoran Yang

分类：机器学习

2020-07-10

本文分析了双模的彼此优化随机算法框架。 Bilevel优化是一类表现出两级结构的问题，其目标是使具有变量的外目标函数最小化，该变量被限制为对（内部）优化问题的最佳解决方案。我们考虑内部问题的情况是不受约束的并且强烈凸起的情况，而外部问题受到约束并具有平滑的目标函数。我们提出了一种用于解决如此偏纤维问题的两次时间尺度随机近似（TTSA）算法。在算法中，使用较大步长的随机梯度更新用于内部问题，而具有较小步长的投影随机梯度更新用于外部问题。我们在各种设置下分析了TTSA算法的收敛速率：当外部问题强烈凸起（RESP。〜弱凸）时，TTSA算法查找$ \ MATHCAL {O}（k ^ { - 2/3}）$ -Optimal（resp。〜$ \ mathcal {o}（k ^ {-2/5}）$ - 静止）解决方案，其中$ k $是总迭代号。作为一个应用程序，我们表明，两个时间尺度的自然演员 - 批评批评近端策略优化算法可以被视为我们的TTSA框架的特殊情况。重要的是，与全球最优政策相比，自然演员批评算法显示以预期折扣奖励的差距，以$ \ mathcal {o}（k ^ { - 1/4}）的速率收敛。

translated by 谷歌翻译

Asymptotic Convergence Rate and Statistical Inference for Stochastic Sequential Quadratic Programming

Sen Na , Michael W. Mahoney

分类：机器学习 | (统计)机器学习

2022-05-27

我们应用随机顺序二次编程（STOSQP）算法来求解受约束的非线性优化问题，在该问题是随机的，并且约束是确定性的。我们研究了一个完全随机的设置，其中每次迭代中只有一个样本可用于估计物镜的梯度和黑森州。我们允许stosqp选择一个随机架子$ \ bar {\ alpha} _t $适应性，使得$ \ beta_t \ leq \ leq \ bar {\ alpha} _t \ leq \ leq \ beta_t+beta_t+\ chi_t+\ chi_t $，wither = o（\ beta_t）$是预定的确定性序列。我们还允许STOSQP通过随机迭代求解器（例如，使用草图和项目方法）求解牛顿系统。而且我们不需要不精确的牛顿方向的近似误差即可消失。对于这个一般的STOSQP框架，我们建立了其最后一次迭代的渐近收敛速率，最差的案例迭代复杂性是副产品。我们执行统计推断。特别是，有了适当的衰减$ \ beta_t，\ chi_t $，我们表明：（i）STOSQP方案最多可以采用$ o（1/\ epsilon^4）$ iterations $ iterations $ iTerations以实现$ \ epsilon $ -Stationarity; （ii）几乎毫无疑问，$ \ |（x_t -x^\ star，\ lambda_t- \ lambda^\ star）\ | | = o（\ sqrt {\ beta_t \ log（1/\ beta_t）}）+o（\ chi_t/\ beta_t）$，其中$（x_t，\ lambda_t）$是primal-dimal-dimal-dialal-dialal-dialal-dual stosqp itselmate; （iii）序列$ 1/\ sqrt {\ beta_t} \ cdot（x_t -x^\ star，\ lambda_t- \ lambda_t- \ lambda^\ star）$收敛到平均零高斯分布，具有非琐事的共价矩阵。此外，我们建立了$（x_t，\ lambda_t）$的Berry-Esseen，以定量地测量其分布功能的收敛性。我们还为协方差矩阵提供了实用的估计器，可以使用iTerates $ \ {（x_t，\ lambda_t）\} _ t $构建$（x^\ star，\ lambda^\ star）$的置信区间（x^\ star，\ lambda^\ star）$。我们的定理使用最可爱的测试集中的非线性问题验证。

translated by 谷歌翻译

Optimal variance-reduced stochastic approximation in Banach spaces

Wenlong Mou , Koulik Khamaru , Martin J. Wainwright , Peter L. Bartlett , Michael I. Jordan

分类：机器学习 | (统计)机器学习

2022-01-21

We study the problem of estimating the fixed point of a contractive operator defined on a separable Banach space. Focusing on a stochastic query model that provides noisy evaluations of the operator, we analyze a variance-reduced stochastic approximation scheme, and establish non-asymptotic bounds for both the operator defect and the estimation error, measured in an arbitrary semi-norm. In contrast to worst-case guarantees, our bounds are instance-dependent, and achieve the local asymptotic minimax risk non-asymptotically. For linear operators, contractivity can be relaxed to multi-step contractivity, so that the theory can be applied to problems like average reward policy evaluation problem in reinforcement learning. We illustrate the theory via applications to stochastic shortest path problems, two-player zero-sum Markov games, as well as policy evaluation and $Q$-learning for tabular Markov decision processes.

translated by 谷歌翻译

Recent Theoretical Advances in Non-Convex Optimization

Marina Danilova , Pavel Dvurechensky , Alexander Gasnikov , Eduard Gorbunov , Sergey Guminov , Dmitry Kamzolov , Innokentiy Shibaev

分类：机器学习

2020-12-11

近期在应用于培训深度神经网络和数据分析中的其他优化问题中的非凸优化的优化算法的兴趣增加，我们概述了最近对非凸优化优化算法的全球性能保证的理论结果。我们从古典参数开始，显示一般非凸面问题无法在合理的时间内有效地解决。然后，我们提供了一个问题列表，可以通过利用问题的结构来有效地找到全球最小化器，因为可能的问题。处理非凸性的另一种方法是放宽目标，从找到全局最小，以找到静止点或局部最小值。对于该设置，我们首先为确定性一阶方法的收敛速率提出了已知结果，然后是最佳随机和随机梯度方案的一般理论分析，以及随机第一阶方法的概述。之后，我们讨论了非常一般的非凸面问题，例如最小化$ \ alpha $ -weakly-are-convex功能和满足Polyak-lojasiewicz条件的功能，这仍然允许获得一阶的理论融合保证方法。然后，我们考虑更高阶和零序/衍生物的方法及其收敛速率，以获得非凸优化问题。

translated by 谷歌翻译

Big-Step-Little-Step: Efficient Gradient Methods for Objectives with Multiple Scales

Jonathan Kelner , Annie Marsden , Vatsal Sharan , Aaron Sidford , Gregory Valiant , Honglin Yuan

分类：机器学习 | (统计)机器学习

2021-11-04

我们提供了新的基于梯度的方法，以便有效解决广泛的病态化优化问题。我们考虑最小化函数$ f：\ mathbb {r} ^ d \ lightarrow \ mathbb {r} $的问题，它是隐含的可分解的，作为$ m $未知的非交互方式的总和，强烈的凸起功能并提供方法这解决了这个问题，这些问题是缩放（最快的对数因子）作为组件的条件数量的平方根的乘积。这种复杂性绑定（我们证明几乎是最佳的）可以几乎指出的是加速梯度方法的几乎是指数的，这将作为$ F $的条件数量的平方根。此外，我们提供了求解该多尺度优化问题的随机异标变体的有效方法。而不是学习$ F $的分解（这将是过度昂贵的），而是我们的方法应用一个清洁递归“大步小步”交错标准方法。由此产生的算法使用$ \ tilde {\ mathcal {o}}（d m）$空间，在数字上稳定，并打开门以更细粒度的了解凸优化超出条件号的复杂性。

translated by 谷歌翻译

Tractability from overparametrization: The example of the negative perceptron

Andrea Montanari , Yiqiao Zhong , Kangjie Zhou

分类：机器学习

2021-10-28

在负面的感知问题中，我们给出了$ n $数据点$（{\ boldsymbol x} _i，y_i）$，其中$ {\ boldsymbol x} _i $是$ d $ -densional vector和$ y_i \ in \ { + 1，-1 \} $是二进制标签。数据不是线性可分离的，因此我们满足自己的内容，以找到最大的线性分类器，具有最大的\ emph {否定}余量。换句话说，我们想找到一个单位常规矢量$ {\ boldsymbol \ theta} $，最大化$ \ min_ {i \ le n} y_i \ langle {\ boldsymbol \ theta}，{\ boldsymbol x} _i \ rangle $ 。这是一个非凸优化问题（它相当于在Polytope中找到最大标准矢量），我们在两个随机模型下研究其典型属性。我们考虑比例渐近，其中$ n，d \ to \ idty $以$ n / d \ to \ delta $，并在最大边缘$ \ kappa _ {\ text {s}}（\ delta）上证明了上限和下限）$或 - 等效 - 在其逆函数$ \ delta _ {\ text {s}}（\ kappa）$。换句话说，$ \ delta _ {\ text {s}}（\ kappa）$是overparametization阈值：以$ n / d \ le \ delta _ {\ text {s}}（\ kappa） - \ varepsilon $一个分类器实现了消失的训练错误，具有高概率，而以$ n / d \ ge \ delta _ {\ text {s}}（\ kappa）+ \ varepsilon $。我们在$ \ delta _ {\ text {s}}（\ kappa）$匹配，以$ \ kappa \ to - \ idty $匹配。然后，我们分析了线性编程算法来查找解决方案，并表征相应的阈值$ \ delta _ {\ text {lin}}（\ kappa）$。我们观察插值阈值$ \ delta _ {\ text {s}}（\ kappa）$和线性编程阈值$ \ delta _ {\ text {lin {lin}}（\ kappa）$之间的差距，提出了行为的问题其他算法。

translated by 谷歌翻译

Differentially private inference via noisy optimization

Marco Avella-Medina , Casey Bradshaw , Po-Ling Loh

分类：机器学习 | (统计)机器学习

2021-03-19

我们提出了一种基于优化的基于优化的框架，用于计算差异私有M估算器以及构建差分私立置信区的新方法。首先，我们表明稳健的统计数据可以与嘈杂的梯度下降或嘈杂的牛顿方法结合使用，以便分别获得具有全局线性或二次收敛的最佳私人估算。我们在局部强大的凸起和自我协调下建立当地和全球融合保障，表明我们的私人估算变为对非私人M估计的几乎最佳附近的高概率。其次，我们通过构建我们私有M估计的渐近方差的差异私有估算来解决参数化推断的问题。这自然导致近似枢轴统计，用于构建置信区并进行假设检测。我们展示了偏置校正的有效性，以提高模拟中的小样本实证性能。我们说明了我们在若干数值例子中的方法的好处。

translated by 谷歌翻译

Stochastic Gradient Descent with Exponential Convergence Rates of Expected Classification Errors

Atsushi Nitanda , Taiji Suzuki

分类： (统计)机器学习 | 机器学习

2018-06-14

我们认为随机梯度下降及其在繁殖内核希尔伯特空间中二进制分类问题的平均变体。在使用损失函数的一致性属性的传统分析中，众所周知，即使在条件标签概率上假设低噪声状态时，预期的分类误差也比预期风险更慢。因此，最终的速率为sublinear。因此，重要的是要考虑是否可以实现预期分类误差的更快收敛。在最近的研究中，随机梯度下降的指数收敛速率在强烈的低噪声条件下显示，但前提是理论分析仅限于平方损耗函数，这对于二元分类任务来说是不足的。在本文中，我们在随机梯度下降的最后阶段中显示了预期分类误差的指数收敛性，用于在相似的假设下进行一类宽类可区分的凸损失函数。至于平均的随机梯度下降，我们表明相同的收敛速率来自训练的早期阶段。在实验中，我们验证了对$ L_2 $调查的逻辑回归的分析。

translated by 谷歌翻译

Global Optimality Guarantees For Policy Gradient Methods

Jalaj Bhandari , Daniel Russo

分类：机器学习 | (统计)机器学习

2019-06-05

策略梯度方法适用于复杂的，不理解的，通过对参数化的策略进行随机梯度下降来控制问题。不幸的是，即使对于可以通过标准动态编程技术解决的简单控制问题，策略梯度算法也会面临非凸优化问题，并且被广泛理解为仅收敛到固定点。这项工作确定了结构属性 - 通过几个经典控制问题共享 - 确保策略梯度目标函数尽管是非凸面，但没有次优的固定点。当这些条件得到加强时，该目标满足了产生收敛速率的Polyak-lojasiewicz（梯度优势）条件。当其中一些条件放松时，我们还可以在任何固定点的最佳差距上提供界限。

translated by 谷歌翻译

Train faster, generalize better: Stability of stochastic gradient descent

Moritz Hardt , Benjamin Recht , Yoram Singer

分类：

2015-09-03

We show that parametric models trained by a stochastic gradient method (SGM) with few iterations have vanishing generalization error. We prove our results by arguing that SGM is algorithmically stable in the sense of Bousquet and Elisseeff. Our analysis only employs elementary tools from convex and continuous optimization. We derive stability bounds for both convex and non-convex optimization under standard Lipschitz and smoothness assumptions.Applying our results to the convex case, we provide new insights for why multiple epochs of stochastic gradient methods generalize well in practice. In the non-convex case, we give a new interpretation of common practices in neural networks, and formally show that popular techniques for training large deep models are indeed stability-promoting. Our findings conceptually underscore the importance of reducing training time beyond its obvious benefit.

translated by 谷歌翻译

Statistical inference with implicit SGD: proximal Robbins-Monro vs. Polyak-Ruppert

Yoonhyung Lee , Sungdong Lee , Joong-Ho Won

分类： (统计)机器学习 | 机器学习

2022-06-25

The implicit stochastic gradient descent (ISGD), a proximal version of SGD, is gaining interest in the literature due to its stability over (explicit) SGD. In this paper, we conduct an in-depth analysis of the two modes of ISGD for smooth convex functions, namely proximal Robbins-Monro (proxRM) and proximal Poylak-Ruppert (proxPR) procedures, for their use in statistical inference on model parameters. Specifically, we derive nonasymptotic point estimation error bounds of both proxRM and proxPR iterates and their limiting distributions, and propose on-line estimators of their asymptotic covariance matrices that require only a single run of ISGD. The latter estimators are used to construct valid confidence intervals for the model parameters. Our analysis is free of the generalized linear model assumption that has limited the preceding analyses, and employs feasible procedures. Our on-line covariance matrix estimators appear to be the first of this kind in the ISGD literature.* Equal contribution 1 Kakao Entertainment Corp.

translated by 谷歌翻译