在这项工作中,我们研究了沉重的尾部噪声下的随机亚级别方法的高概率边界。在这种情况下,仅假定噪声具有有限的方差,而不是次高斯的分布,众所周知,标准亚级别方法具有很高的概率边界。我们分析了投影的随机亚级别方法的剪裁版本,其中每当具有大规范时,亚级别估计值都会被截断。我们表明,这种剪裁策略既导致了许多经典平均方案的任何时间和有限的地平线界限。初步实验显示以支持该方法的有效性。
translated by 谷歌翻译
在机器学习通常与优化通过训练数据定义实证目标的最小化交易。然而,学习的最终目的是尽量减少对未来的数据错误(测试误差),为此,训练数据只提供部分信息。这种观点认为,是实际可行的优化问题是基于不准确的数量在本质上是随机的。在本文中,我们显示了如何概率的结果,特别是浓度梯度,可以用来自不精确优化结果来导出尖锐测试误差保证组合。通过考虑无约束的目标,我们强调优化隐含正规化性学习。
translated by 谷歌翻译
我们考虑使用一阶算法的非凸性随机优化,梯度估计可能具有重尾部。我们表明,当梯度只有有界限$ \ mathfrak {$ th} $ th moments为某些$时,梯度剪辑,动量和归一化梯度下降的组合产生了高概率的临界点,以获得最佳的损失的损失。 \ Mathfrak {P} \ in(1,2] $。我们考虑到二阶流畅损失的情况,在此设置中尚未研究我们的知识,并且再次获得任何$ \ Mathfrak的高概率界限{P} $。此外,我们的结果持有任意平稳规范,与需要Hilbert空间规范的典型SGD分析。此外,我们表明,在合适的“燃烧”时期之后,客观价值将单调减少对于每次迭代,直到识别临界点,这为学习率“预热”的流行实践背后提供了直觉,并且还产生了最后迭代的保证。
translated by 谷歌翻译
随机一阶方法是训练大规模机器学习模型的标准。随机行为可能导致算法的特定运行导​​致高度次优的目标值,而通常证明理论保证是出于目标值的期望。因此,从理论上保证算法具有很高的可能性,这一点至关重要。非平滑随机凸优化的现有方法具有复杂的界限,其依赖性对置信度或对数为负功率,但在额外的假设下是高斯(轻尾)噪声分布的额外假设,这些噪声分布在实践中可能不存在。在我们的论文中,我们解决了这个问题,并得出了第一个高概率收敛的结果,并以对数依赖性对非平滑凸的随机优化问题的置信度依赖,并带有非Sub-Gaussian(重尾)噪声。为了得出我们的结果,我们建议针对两种随机方法进行梯度剪辑的新步骤规则。此外,我们的分析适用于使用H \“较旧连续梯度的通用平滑目标,对于这两种方法,我们都为强烈凸出问题提供了扩展。最后,我们的结果暗示我们认为的第一种(加速)方法也具有最佳的迭代。在所有制度中,Oracle的复杂性,第二个机制在非平滑设置中都是最佳的。
translated by 谷歌翻译
在这项工作中,我们提供了一种基本的统一收敛定理,用于得出一系列随机优化方法的预期和几乎确定的收敛结果。我们的统一定理仅需要验证几种代表性条件,并且不适合任何特定算法。作为直接应用,我们在更一般的设置下恢复了随机梯度方法(SGD)和随机改组(RR)的预期收敛结果。此外,我们为非滑动非convex优化问题的随机近端梯度方法(Prox-SGD)和基于随机模型的方法(SMM)建立了新的预期和几乎确定的收敛结果。这些应用程序表明,我们的统一定理为广泛的随机优化方法提供了插件类型的收敛分析和强大的收敛保证。
translated by 谷歌翻译
最尖锐的已知高概率泛化界限均匀稳定的算法(Feldman,Vondr \'{A} K,2018,2010),(Bousquet,Klochkov,Jhivotovskiy,2020)包含一般不可避免的采样误差术语,订单$ \ Theta(1 / \ sqrt {n})$。当应用于过度的风险范围时,这导致次优导致在几个标准随机凸优化问题中。我们表明,如果满足所谓的伯尔斯坦状况,则可以避免术语$ \θ(1 / \ sqrt {n})$,并且高达$ o(1 / n)$的高概率过剩风险范围通过均匀的稳定性是可能的。使用此结果,我们展示了高概率过度的风险,其速率为O $ O(\ log n / n)$的强大凸,Lipschitz损失为\ emph {任何}经验风险最小化方法。这解决了Shalev-Shwartz,Shamir,Srebro和Sridharan(2009)的问题。我们讨论如何(\ log n / n)$高概率过度风险缩小,在没有通常的平滑度的情况下强烈凸起和嘴唇损耗的情况下,可能的梯度下降可能是可能的。
translated by 谷歌翻译
我们提出了随机方差降低算法,以求解凸 - 凸座鞍点问题,单调变异不平等和单调夹杂物。我们的框架适用于Euclidean和Bregman设置中的外部,前向前后和前反向回复的方法。所有提出的方法都在与确定性的对应物相同的环境中收敛,并且它们要么匹配或改善了解决结构化的最低最大问题的最著名复杂性。我们的结果加强了变异不平等和最小化之间的差异之间的对应关系。我们还通过对矩阵游戏的数值评估来说明方法的改进。
translated by 谷歌翻译
We consider minimizing a smooth and strongly convex objective function using a stochastic Newton method. At each iteration, the algorithm is given an oracle access to a stochastic estimate of the Hessian matrix. The oracle model includes popular algorithms such as Subsampled Newton and Newton Sketch. Despite using second-order information, these existing methods do not exhibit superlinear convergence, unless the stochastic noise is gradually reduced to zero during the iteration, which would lead to a computational blow-up in the per-iteration cost. We propose to address this limitation with Hessian averaging: instead of using the most recent Hessian estimate, our algorithm maintains an average of all the past estimates. This reduces the stochastic noise while avoiding the computational blow-up. We show that this scheme exhibits local $Q$-superlinear convergence with a non-asymptotic rate of $(\Upsilon\sqrt{\log (t)/t}\,)^{t}$, where $\Upsilon$ is proportional to the level of stochastic noise in the Hessian oracle. A potential drawback of this (uniform averaging) approach is that the averaged estimates contain Hessian information from the global phase of the method, i.e., before the iterates converge to a local neighborhood. This leads to a distortion that may substantially delay the superlinear convergence until long after the local neighborhood is reached. To address this drawback, we study a number of weighted averaging schemes that assign larger weights to recent Hessians, so that the superlinear convergence arises sooner, albeit with a slightly slower rate. Remarkably, we show that there exists a universal weighted averaging scheme that transitions to local convergence at an optimal stage, and still exhibits a superlinear convergence rate nearly (up to a logarithmic factor) matching that of uniform Hessian averaging.
translated by 谷歌翻译
最近,随机梯度下降(SGD)及其变体已成为机器学习(ML)问题大规模优化的主要方法。已经提出了各种策略来调整步骤尺寸,从自适应步骤大小到启发式方法,以更改每次迭代中的步骤大小。此外,动力已被广泛用于ML任务以加速训练过程。然而,我们对它们的理论理解存在差距。在这项工作中,我们开始通过为一些启发式优化方法提供正式保证并提出改进的算法来缩小这一差距。首先,我们分析了凸面和非凸口设置的Adagrad(延迟Adagrad)步骤大小的广义版本,这表明这些步骤尺寸允许算法自动适应随机梯度的噪声水平。我们首次显示延迟Adagrad的足够条件,以确保梯度几乎融合到零。此外,我们对延迟的Adagrad及其在非凸面设置中的动量变体进行了高概率分析。其次,我们用指数级和余弦的步骤分析了SGD,在经验上取得了成功,但缺乏理论支持。我们在平滑和非凸的设置中为它们提供了最初的收敛保证,有或没有polyak-{\ l} ojasiewicz(pl)条件。我们还显示了它们在PL条件下适应噪声的良好特性。第三,我们研究动量方法的最后迭代。我们证明了SGD的最后一个迭代的凸设置中的第一个下限,并以恒定的动量。此外,我们研究了一类跟随基于领先的领导者的动量算法,并随着动量和收缩的更新而增加。我们表明,他们的最后一个迭代具有最佳的收敛性,用于无约束的凸随机优化问题。
translated by 谷歌翻译
We study stochastic monotone inclusion problems, which widely appear in machine learning applications, including robust regression and adversarial learning. We propose novel variants of stochastic Halpern iteration with recursive variance reduction. In the cocoercive -- and more generally Lipschitz-monotone -- setup, our algorithm attains $\epsilon$ norm of the operator with $\mathcal{O}(\frac{1}{\epsilon^3})$ stochastic operator evaluations, which significantly improves over state of the art $\mathcal{O}(\frac{1}{\epsilon^4})$ stochastic operator evaluations required for existing monotone inclusion solvers applied to the same problem classes. We further show how to couple one of the proposed variants of stochastic Halpern iteration with a scheduled restart scheme to solve stochastic monotone inclusion problems with ${\mathcal{O}}(\frac{\log(1/\epsilon)}{\epsilon^2})$ stochastic operator evaluations under additional sharpness or strong monotonicity assumptions.
translated by 谷歌翻译
基于实用的缺点风险(UBSR)是一种风险指标,越来越受到金融应用中的流行,由于它享有的某些理想的属性。我们考虑在递归设置中估算UBSR的问题,其中来自潜在损耗分布的样本是一次性的。我们将UBSR估计问题作为根发现问题,并提出了基于随机近似的估计方案。我们在样本数量的估计误差中获得了非渐近界。我们还考虑在随机变量的参数化类中的UBSR优化问题。我们提出了一种用于UBSR优化的随机梯度下降算法,并导出其收敛性的非渐近界。
translated by 谷歌翻译
我们研究了凸面和非凸面设置的差异私有随机优化。对于凸面的情况,我们专注于非平滑通用线性损耗(GLL)的家庭。我们的$ \ ell_2 $ setting算法在近线性时间内实现了最佳的人口风险,而最知名的差异私有算法在超线性时间内运行。我们的$ \ ell_1 $ setting的算法具有近乎最佳的人口风险$ \ tilde {o} \ big(\ sqrt {\ frac {\ log {n \ log {d}} {n \ varepsilon} \ big)$,以及避免\ Cite {ASI:2021}的尺寸依赖性下限为一般非平滑凸损耗。在差别私有的非凸面设置中,我们提供了几种新算法,用于近似居住的人口风险。对于具有平稳损失和多面体约束的$ \ ell_1 $ tuce,我们提供第一个近乎尺寸的独立速率$ \ tilde o \ big(\ frac {\ log ^ {2/3} {d}} {{(n \ varepsilon)^ {1/3}}} \大)在线性时间。对于具有平滑损耗的约束$ \ ell_2 $ -case,我们获得了速率$ \ tilde o \ big(\ frac {1} {n ^ {1/3}} + \ frac {d ^ { 1/5}} {(n \ varepsilon)^ {2/5}} \ big)$。最后,对于$ \ ell_2 $ -case,我们为{\ em非平滑弱凸}的第一种方法提供了速率$ \ tilde o \ big(\ frac {1} {n ^ {1/4}} + \ FRAC {D ^ {1/6}} {(n \ varepsilon)^ {1/3}} \ big)$,它在$ d = o(\ sqrt {n})时匹配最好的现有非私有算法$。我们还将上面的所有结果扩展到Non-Convex $ \ ell_2 $ setting到$ \ ell_p $ setting,其中$ 1 <p \ leq 2 $,只有polylogarithmic(维度在尺寸)的速度下。
translated by 谷歌翻译
近期在应用于培训深度神经网络和数据分析中的其他优化问题中的非凸优化的优化算法的兴趣增加,我们概述了最近对非凸优化优化算法的全球性能保证的理论结果。我们从古典参数开始,显示一般非凸面问题无法在合理的时间内有效地解决。然后,我们提供了一个问题列表,可以通过利用问题的结构来有效地找到全球最小化器,因为可能的问题。处理非凸性的另一种方法是放宽目标,从找到全局最小,以找到静止点或局部最小值。对于该设置,我们首先为确定性一阶方法的收敛速率提出了已知结果,然后是最佳随机和随机梯度方案的一般理论分析,以及随机第一阶方法的概述。之后,我们讨论了非常一般的非凸面问题,例如最小化$ \ alpha $ -weakly-are-convex功能和满足Polyak-lojasiewicz条件的功能,这仍然允许获得一阶的理论融合保证方法。然后,我们考虑更高阶和零序/衍生物的方法及其收敛速率,以获得非凸优化问题。
translated by 谷歌翻译
本文是对解决平滑(强)单调随机变化不平等的方法的调查。首先,我们给出了随机方法最终发展的确定性基础。然后,我们回顾了通用随机配方的方法,并查看有限的总和设置。本文的最后部分致力于各种算法的各种(不一定是随机)的变化不平等现象。
translated by 谷歌翻译
我们在高维批处理设置中提出了统计上健壮和计算高效的线性学习方法,其中功能$ d $的数量可能超过样本量$ n $。在通用学习环境中,我们采用两种算法,具体取决于所考虑的损失函数是否为梯度lipschitz。然后,我们将我们的框架实例化,包括几种应用程序,包括香草稀疏,群 - 帕克斯和低升级矩阵恢复。对于每种应用,这导致了有效而强大的学习算法,这些算法在重尾分布和异常值的存在下达到了近乎最佳的估计率。对于香草$ S $ -SPARSITY,我们能够以重型尾巴和$ \ eta $ - 腐败的计算成本与非企业类似物相当的计算成本达到$ s \ log(d)/n $速率。我们通过开放源代码$ \ mathtt {python} $库提供了有效的算法实现文献中提出的最新方法。
translated by 谷歌翻译
最近有利息线性编程(LP)的一阶方法。在本文中,我们提出了一种使用差异减少的随机算法,并重新启动,用于解决LP等尖锐的原始 - 双重问题。我们表明,所提出的随机方法表现出具有高概率的尖锐实例的线性收敛速率,这提高了现有的确定性和随机算法的复杂性。此外,我们提出了一个有效的基于坐标的随机甲骨文,用于无限制的双线性问题,它具有$ \ Mathcal O(1)$彼得迭代成本并改善总牌数量达到一定的准确性。
translated by 谷歌翻译
在本文中,我们研究了平稳的随机多级组成优化问题,其中目标函数是$ T $函数的嵌套组成。我们假设通过随机的一阶Oracle访问函数及其渐变的噪声评估。为了解决这类问题,我们提出了两个使用移动平均随机估计的两种算法,并分析了它们对问题的$ \ epsilon $ -stationary的趋同。我们表明,第一算法,它是\ Cite {gharuswan20}的泛化到$ t $ letch案例,可以通过使用mini-实现$ \ mathcal {o}(1 / \ epsilon ^ 6)$的样本复杂性每次迭代中的样品批次。通过使用函数值的线性化随机估计修改该算法,我们将样本复杂性提高到$ \ mathcal {o}(1 / \ epsilon ^ 4)$。 {\ Color {Black}此修改不仅可以消除在每次迭代中具有迷你样本的要求,还使算法无参数和易于实现}。据我们所知,这是第一次为(UN)约束的多级设置设计的在线算法,在标准假设下获得平滑单级设置的相同样本复杂度(无偏见和界限第二矩)在随机第一阶Oracle上。
translated by 谷歌翻译
文献中随机梯度方法的绝大多数收敛速率分析集中在预期中的收敛性,而轨迹的几乎确定的收敛对于确保随机算法的任何实例化都会与概率相关。在这里,我们为随机梯度下降(SGD),随机重球(SHB)和随机Nesterov的加速梯度(SNAG)方法提供了几乎确定的收敛速率分析。我们首次显示,这些随机梯度方法在强凸功能上获得的几乎确定的收敛速率已任意接近其最佳收敛速率。对于非凸目标函数,我们不仅表明平方梯度规范的加权平均值几乎可以肯定地收敛到零,而且是算法的最后一次迭代。与文献中的大多数现有结果相反,我们进一步为弱凸平平滑功能的随机梯度方法提供了最后的几乎确定的收敛速率分析,而文献中的大多数现有结果仅提供了对迭代率的加权平均值的预期。
translated by 谷歌翻译
用于解决无约束光滑游戏的两个最突出的算法是经典随机梯度下降 - 上升(SGDA)和最近引入的随机共识优化(SCO)[Mescheder等,2017]。已知SGDA可以收敛到特定类别的游戏的静止点,但是当前的收敛分析需要有界方差假设。 SCO用于解决大规模对抗问题,但其收敛保证仅限于其确定性变体。在这项工作中,我们介绍了预期的共同胁迫条件,解释了它的好处,并在这种情况下提供了SGDA和SCO的第一次迭代收敛保证,以解决可能是非单调的一类随机变分不等式问题。我们将两种方法的线性会聚到解决方案的邻域时,当它们使用恒定的步长时,我们提出了富有识别的步骤化切换规则,以保证对确切解决方案的融合。此外,我们的收敛保证在任意抽样范式下担保,因此,我们对迷你匹配的复杂性进行了解。
translated by 谷歌翻译
We initiate a formal study of reproducibility in optimization. We define a quantitative measure of reproducibility of optimization procedures in the face of noisy or error-prone operations such as inexact or stochastic gradient computations or inexact initialization. We then analyze several convex optimization settings of interest such as smooth, non-smooth, and strongly-convex objective functions and establish tight bounds on the limits of reproducibility in each setting. Our analysis reveals a fundamental trade-off between computation and reproducibility: more computation is necessary (and sufficient) for better reproducibility.
translated by 谷歌翻译