We show that parametric models trained by a stochastic gradient method (SGM) with few iterations have vanishing generalization error. We prove our results by arguing that SGM is algorithmically stable in the sense of Bousquet and Elisseeff. Our analysis only employs elementary tools from convex and continuous optimization. We derive stability bounds for both convex and non-convex optimization under standard Lipschitz and smoothness assumptions.Applying our results to the convex case, we provide new insights for why multiple epochs of stochastic gradient methods generalize well in practice. In the non-convex case, we give a new interpretation of common practices in neural networks, and formally show that popular techniques for training large deep models are indeed stability-promoting. Our findings conceptually underscore the importance of reducing training time beyond its obvious benefit.
translated by 谷歌翻译
我们研究随机梯度下降(SGD)在多大程度上被理解为“常规”学习规则,该规则通过获得良好的培训数据来实现概括性能。我们考虑基本的随机凸优化框架,其中(一通道,无需替代)SGD在经典上是众所周知的,可以最大程度地降低人口风险,以$ o(1/\ sqrt n)$ $ O(1/\ sqrt n)$,并且出人意料地证明,存在问题实例SGD解决方案既表现出$ \ omega(1)$的经验风险和概括差距。因此,事实证明,从任何意义上讲,SGD在算法上都不是稳定的,并且其概括能力不能通过均匀的收敛性或任何其他当前已知的概括性结合技术来解释(除了其经典分析外)。然后,我们继续分析与替代SGD密切相关的相关性,为此我们表明不会发生类似现象,并证明其人口风险实际上确实以最佳速度融合。最后,我们在没有替换SGD的背景下解释了我们的主要结果,用于有限的和凸优化问题,并得出多上类别制度的上限和下限,从而在先前已知的结果上有了显着改善。
translated by 谷歌翻译
最近已经建立了近似稳定的学习算法的指数概括范围。但是,统一稳定性的概念是严格的,因为它是数据生成分布不变的。在稳定性的较弱和分布依赖性的概念下,例如假设稳定性和$ L_2 $稳定性,文献表明,在一般情况下,只有多项式概括界限是可能的。本文解决了这两个结果方案之间的长期紧张关系,并在融合信心的经典框架内取得了进步。为此,我们首先建立了一个预测的第一刻,通用错误限制了具有$ l_2 $稳定性的潜在随机学习算法,然后我们证明了一个正确设计的subbagagging流程会导致几乎紧密的指数概括性限制在上面数据和算法的随机性。我们将这些通用结果进一步实质性地将随机梯度下降(SGD)实现,以提高凸或非凸优化的高概率概括性范围,而自然时间衰减的学习速率则可以通过现有的假设稳定性或均匀的假设稳定性来证明这一点。基于稳定的结果。
translated by 谷歌翻译
随机优化在最小化机器学习中的目标功能方面发现了广泛的应用,这激发了许多理论研究以了解其实际成功。大多数现有研究都集中在优化误差的收敛上,而随机优化的概括分析却落后了。在实践中经常遇到的非洞穴和非平滑问题的情况尤其如此。在本文中,我们初始化了对非凸和非平滑问题的随机优化的系统稳定性和概括分析。我们介绍了新型算法稳定性措施,并在人口梯度和经验梯度之间建立了定量联系,然后进一步扩展,以研究经验风险的莫罗(Moreau)膜之间的差距和人口风险的差距。据我们所知,尚未在文献中研究稳定性与概括之间的这些定量联系。我们引入了一类采样确定的算法,为此我们为三种稳定性度量而开发界限。最后,我们将这些讨论应用于随机梯度下降及其自适应变体的误差界限,我们在其中显示如何通过调整步骤大小和迭代次数来实现隐式正则化。
translated by 谷歌翻译
在本文中,我们研究了模型 - 不可知的元学习(MAML)算法的泛化特性,用于监督学习问题。我们专注于我们培训MAML模型超过$ M $任务的设置,每个都有$ n $数据点,并从两个视角表征其泛化错误:首先,我们假设测试时间的新任务是其中之一培训任务,我们表明,对于强烈凸的客观函数,预期的多余人口损失是由$ {\ mathcal {o}}(1 / mn)$的界限。其次,我们考虑MAML算法的概念任务的泛化,并表明产生的泛化误差取决于新任务的底层分布与培训过程中观察到的任务之间的总变化距离。我们的校对技术依赖于算法稳定性与算法的泛化界之间的连接。特别是,我们为元学习算法提出了一种新的稳定性定义,这使我们能够捕获每项任务的任务数量的任务数量的角色$ N $对MAML的泛化误差。
translated by 谷歌翻译
在本文中,我们重新审视了私人经验风险最小化(DP-erm)和差异私有随机凸优化(DP-SCO)的问题。我们表明,来自统计物理学(Langevin Exfusion(LD))的经过良好研究的连续时间算法同时为DP-SCO和DP-SCO提供了最佳的隐私/实用性权衡,$ \ epsilon $ -DP和$ $ \ epsilon $ -DP和$ (\ epsilon,\ delta)$ - dp均用于凸和强烈凸损失函数。我们为LD提供新的时间和尺寸独立统一稳定性,并使用我们为$ \ epsilon $ -DP提供相应的最佳超额人口风险保证。 $ \ epsilon $ -DP的DP-SCO保证的一个重要属性是,它们将非私人最佳界限匹配为$ \ epsilon \与\ infty $。在此过程中,我们提供了各种技术工具,这些工具可能引起独立的关注:i)在两个相邻数据集上运行损失功能时,一个新的r \'enyi Divergence绑定了LD,ii)最后一个过多的经验风险范围迭代LD,类似于Shamir和Zhang的嘈杂随机梯度下降(SGD)和iii)的LD,对LD进行了两期多余的风险分析,其中第一阶段是当扩散在任何合理意义上都没有在任何合理意义上融合到固定分布时,在第二阶段扩散已收敛到吉布斯分布的变体。我们的普遍性结果至关重要地依赖于LD的动力学。当它融合到固定分布时,我们获得了$ \ epsilon $ -DP的最佳界限。当它仅在很短的时间内运行$ \ propto 1/p $时,我们在$(\ epsilon,\ delta)$ -DP下获得最佳界限。在这里,$ p $是模型空间的维度。
translated by 谷歌翻译
We initiate a formal study of reproducibility in optimization. We define a quantitative measure of reproducibility of optimization procedures in the face of noisy or error-prone operations such as inexact or stochastic gradient computations or inexact initialization. We then analyze several convex optimization settings of interest such as smooth, non-smooth, and strongly-convex objective functions and establish tight bounds on the limits of reproducibility in each setting. Our analysis reveals a fundamental trade-off between computation and reproducibility: more computation is necessary (and sufficient) for better reproducibility.
translated by 谷歌翻译
随机多变最小化 - 最小化(SMM)是大多数变化最小化的经典原则的在线延伸,这包括采样I.I.D。来自固定数据分布的数据点,并最小化递归定义的主函数的主要替代。在本文中,我们引入了随机块大大化 - 最小化,其中替代品现在只能块多凸,在半径递减内的时间优化单个块。在SMM中的代理人放松标准的强大凸起要求,我们的框架在内提供了更广泛的适用性,包括在线CANDECOMP / PARAFAC(CP)字典学习,并且尤其是当问题尺寸大时产生更大的计算效率。我们对所提出的算法提供广泛的收敛性分析,我们在可能的数据流下派生,放松标准i.i.d。对数据样本的假设。我们表明,所提出的算法几乎肯定会收敛于速率$ O((\ log n)^ {1+ \ eps} / n ^ {1/2})$的约束下的非凸起物镜的静止点集合。实证丢失函数和$ O((\ log n)^ {1+ \ eps} / n ^ {1/4})$的预期丢失函数,其中$ n $表示处理的数据样本数。在一些额外的假设下,后一趋同率可以提高到$ o((\ log n)^ {1+ \ eps} / n ^ {1/2})$。我们的结果为一般马尔维亚数据设置提供了各种在线矩阵和张量分解算法的第一融合率界限。
translated by 谷歌翻译
我们考虑设计统一稳定的一阶优化算法以最小化的问题。统一的稳定性通常用于获得优化算法的概括误差范围,我们对实现它的一般方法感兴趣。对于欧几里得的几何形状,我们建议采用黑盒转换,给定平滑的优化算法,它产生了算法的均匀稳定版本,同时将其收敛速率保持在对数因素上。使用此减少,我们获得了一种(几乎)最佳算法,以平滑优化,并通过收敛速率$ \ widetilde {o}(1/t^2)$和均匀的稳定性$ O(t^2/n)$,解决一个开放的问题Chen等。(2018);阿蒂亚和科伦(2021)。对于更一般的几何形状,我们开发了一种镜下下降的变体,以平滑优化,收敛速率$ \ widetilde {o}(1/t)$和统一的稳定性$ O(t/n)$(t/n)$,留下了开放的问题转换方法如欧几里得情况。
translated by 谷歌翻译
我们研究了凸面和非凸面设置的差异私有随机优化。对于凸面的情况,我们专注于非平滑通用线性损耗(GLL)的家庭。我们的$ \ ell_2 $ setting算法在近线性时间内实现了最佳的人口风险,而最知名的差异私有算法在超线性时间内运行。我们的$ \ ell_1 $ setting的算法具有近乎最佳的人口风险$ \ tilde {o} \ big(\ sqrt {\ frac {\ log {n \ log {d}} {n \ varepsilon} \ big)$,以及避免\ Cite {ASI:2021}的尺寸依赖性下限为一般非平滑凸损耗。在差别私有的非凸面设置中,我们提供了几种新算法,用于近似居住的人口风险。对于具有平稳损失和多面体约束的$ \ ell_1 $ tuce,我们提供第一个近乎尺寸的独立速率$ \ tilde o \ big(\ frac {\ log ^ {2/3} {d}} {{(n \ varepsilon)^ {1/3}}} \大)在线性时间。对于具有平滑损耗的约束$ \ ell_2 $ -case,我们获得了速率$ \ tilde o \ big(\ frac {1} {n ^ {1/3}} + \ frac {d ^ { 1/5}} {(n \ varepsilon)^ {2/5}} \ big)$。最后,对于$ \ ell_2 $ -case,我们为{\ em非平滑弱凸}的第一种方法提供了速率$ \ tilde o \ big(\ frac {1} {n ^ {1/4}} + \ FRAC {D ^ {1/6}} {(n \ varepsilon)^ {1/3}} \ big)$,它在$ d = o(\ sqrt {n})时匹配最好的现有非私有算法$。我们还将上面的所有结果扩展到Non-Convex $ \ ell_2 $ setting到$ \ ell_p $ setting,其中$ 1 <p \ leq 2 $,只有polylogarithmic(维度在尺寸)的速度下。
translated by 谷歌翻译
近期在应用于培训深度神经网络和数据分析中的其他优化问题中的非凸优化的优化算法的兴趣增加,我们概述了最近对非凸优化优化算法的全球性能保证的理论结果。我们从古典参数开始,显示一般非凸面问题无法在合理的时间内有效地解决。然后,我们提供了一个问题列表,可以通过利用问题的结构来有效地找到全球最小化器,因为可能的问题。处理非凸性的另一种方法是放宽目标,从找到全局最小,以找到静止点或局部最小值。对于该设置,我们首先为确定性一阶方法的收敛速率提出了已知结果,然后是最佳随机和随机梯度方案的一般理论分析,以及随机第一阶方法的概述。之后,我们讨论了非常一般的非凸面问题,例如最小化$ \ alpha $ -weakly-are-convex功能和满足Polyak-lojasiewicz条件的功能,这仍然允许获得一阶的理论融合保证方法。然后,我们考虑更高阶和零序/衍生物的方法及其收敛速率,以获得非凸优化问题。
translated by 谷歌翻译
在本文中,我们提出了一种针对SGD轨迹的新覆盖技术。该定位提供了一种算法特异性的复杂性,该复杂性通过覆盖数来衡量,与标准均匀覆盖的参数相比,该范围独立于维度的基数,从而导致指数尺寸依赖性。基于这种本地化结构,我们表明,如果目标函数是分段的有限扰动,则用$ p $零件强烈凸出和光滑的功能,即非convex和非平滑词,则概括性误差可以由上限。 $ o(\ sqrt {(\ log n \ log(np))/n})$,其中$ n $是数据示例的数量。特别是,此速率与维度无关,并且不需要尽早停止和衰减的步骤。最后,我们在各种环境中采用这些结果,并为多级线性模型,多级支持向量机和$ k $ - 均值聚类用于硬和软标签设置,并改善已知的最先进的范围,从而改善了已知的最先进的, - 阿尔特费率。
translated by 谷歌翻译
在机器学习通常与优化通过训练数据定义实证目标的最小化交易。然而,学习的最终目的是尽量减少对未来的数据错误(测试误差),为此,训练数据只提供部分信息。这种观点认为,是实际可行的优化问题是基于不准确的数量在本质上是随机的。在本文中,我们显示了如何概率的结果,特别是浓度梯度,可以用来自不精确优化结果来导出尖锐测试误差保证组合。通过考虑无约束的目标,我们强调优化隐含正规化性学习。
translated by 谷歌翻译
The fundamental learning theory behind neural networks remains largely open. What classes of functions can neural networks actually learn? Why doesn't the trained network overfit when it is overparameterized?In this work, we prove that overparameterized neural networks can learn some notable concept classes, including two and three-layer networks with fewer parameters and smooth activations. Moreover, the learning can be simply done by SGD (stochastic gradient descent) or its variants in polynomial time using polynomially many samples. The sample complexity can also be almost independent of the number of parameters in the network.On the technique side, our analysis goes beyond the so-called NTK (neural tangent kernel) linearization of neural networks in prior works. We establish a new notion of quadratic approximation of the neural network (that can be viewed as a second-order variant of NTK), and connect it to the SGD theory of escaping saddle points.
translated by 谷歌翻译
最尖锐的已知高概率泛化界限均匀稳定的算法(Feldman,Vondr \'{A} K,2018,2010),(Bousquet,Klochkov,Jhivotovskiy,2020)包含一般不可避免的采样误差术语,订单$ \ Theta(1 / \ sqrt {n})$。当应用于过度的风险范围时,这导致次优导致在几个标准随机凸优化问题中。我们表明,如果满足所谓的伯尔斯坦状况,则可以避免术语$ \θ(1 / \ sqrt {n})$,并且高达$ o(1 / n)$的高概率过剩风险范围通过均匀的稳定性是可能的。使用此结果,我们展示了高概率过度的风险,其速率为O $ O(\ log n / n)$的强大凸,Lipschitz损失为\ emph {任何}经验风险最小化方法。这解决了Shalev-Shwartz,Shamir,Srebro和Sridharan(2009)的问题。我们讨论如何(\ log n / n)$高概率过度风险缩小,在没有通常的平滑度的情况下强烈凸起和嘴唇损耗的情况下,可能的梯度下降可能是可能的。
translated by 谷歌翻译
成对学习是指损失函数取决于一对情况的学习任务。它实例化了许多重要的机器学习任务,如双级排名和度量学习。一种流行的方法来处理成对学习中的流数据是在线梯度下降(OGD)算法,其中需要将当前实例配对以前具有足够大的尺寸的先前实例的电流实例,因此遭受可扩展性问题。在本文中,我们提出了用于成对学习的简单随机和在线梯度下降方法。与现有研究的显着差异是,我们仅将当前实例与前一个构建梯度方向配对,这在存储和计算复杂性中是有效的。我们为凸和非凸起的展示结果,优化和泛化误差界以及平滑和非光滑问题都开发了新颖的稳定性结果,优化和泛化误差界限。我们引入了新颖的技术来解耦模型的依赖性和前一个例子在优化和泛化分析中。我们的研究解决了使用具有非常小的固定尺寸的缓冲集开发OGD的有意义的泛化范围的开放问题。我们还扩展了我们的算法和稳定性分析,以便为成对学习开发差异私有的SGD算法,这显着提高了现有结果。
translated by 谷歌翻译
最近,随机梯度下降(SGD)及其变体已成为机器学习(ML)问题大规模优化的主要方法。已经提出了各种策略来调整步骤尺寸,从自适应步骤大小到启发式方法,以更改每次迭代中的步骤大小。此外,动力已被广泛用于ML任务以加速训练过程。然而,我们对它们的理论理解存在差距。在这项工作中,我们开始通过为一些启发式优化方法提供正式保证并提出改进的算法来缩小这一差距。首先,我们分析了凸面和非凸口设置的Adagrad(延迟Adagrad)步骤大小的广义版本,这表明这些步骤尺寸允许算法自动适应随机梯度的噪声水平。我们首次显示延迟Adagrad的足够条件,以确保梯度几乎融合到零。此外,我们对延迟的Adagrad及其在非凸面设置中的动量变体进行了高概率分析。其次,我们用指数级和余弦的步骤分析了SGD,在经验上取得了成功,但缺乏理论支持。我们在平滑和非凸的设置中为它们提供了最初的收敛保证,有或没有polyak-{\ l} ojasiewicz(pl)条件。我们还显示了它们在PL条件下适应噪声的良好特性。第三,我们研究动量方法的最后迭代。我们证明了SGD的最后一个迭代的凸设置中的第一个下限,并以恒定的动量。此外,我们研究了一类跟随基于领先的领导者的动量算法,并随着动量和收缩的更新而增加。我们表明,他们的最后一个迭代具有最佳的收敛性,用于无约束的凸随机优化问题。
translated by 谷歌翻译
我们提出了一种基于优化的基于优化的框架,用于计算差异私有M估算器以及构建差分私立置信区的新方法。首先,我们表明稳健的统计数据可以与嘈杂的梯度下降或嘈杂的牛顿方法结合使用,以便分别获得具有全局线性或二次收敛的最佳私人估算。我们在局部强大的凸起和自我协调下建立当地和全球融合保障,表明我们的私人估算变为对非私人M估计的几乎最佳附近的高概率。其次,我们通过构建我们私有M估计的渐近方差的差异私有估算来解决参数化推断的问题。这自然导致近​​似枢轴统计,用于构建置信区并进行假设检测。我们展示了偏置校正的有效性,以提高模拟中的小样本实证性能。我们说明了我们在若干数值例子中的方法的好处。
translated by 谷歌翻译
FEDPROX算法是一种简单但功能强大的分布式近端优化方法,广泛用于联合学习(FL)而不是异质数据。尽管在实践中看到了它的知名度和杰出的成功,但对FEDPROX的理论理解在很大程度上是不足的:FedProx的吸引人的融合行为迄今在某些非标准和不切实际的地方功能的差异假设下的特征是,结果的优化仅限于优化的限制。问题。为了解决这些缺陷,我们通过算法稳定性的镜头开发了FedProx及其Minibatch随机扩展的新型局部差异不变理论。结果,我们有助于得出对FedProx的几个新的和更深入的见解,以实现联合优化的非凸面,包括:1)收敛确保独立于局部差异类型条件; 2)融合保证非平滑FL问题; 3)关于Minibatch的尺寸和采样设备的数量,线性加速。我们的理论首次揭示了局部差异和平稳性对于FedProx获得有利的复杂性界限并不是必备的。据报道,一系列基准FL数据集的初步实验结果证明了小型匹配以提高FEDPROX的样品效率的好处。
translated by 谷歌翻译
我们认为随机梯度下降及其在繁殖内核希尔伯特空间中二进制分类问题的平均变体。在使用损失函数的一致性属性的传统分析中,众所周知,即使在条件标签概率上假设低噪声状态时,预期的分类误差也比预期风险更慢。因此,最终的速率为sublinear。因此,重要的是要考虑是否可以实现预期分类误差的更快收敛。在最近的研究中,随机梯度下降的指数收敛速率在强烈的低噪声条件下显示,但前提是理论分析仅限于平方损耗函数,这对于二元分类任务来说是不足的。在本文中,我们在随机梯度下降的最后阶段中显示了预期分类误差的指数收敛性,用于在相似的假设下进行一类宽类可区分的凸损失函数。至于平均的随机梯度下降,我们表明相同的收敛速率来自训练的早期阶段。在实验中,我们验证了对$ L_2 $调查的逻辑回归的分析。
translated by 谷歌翻译