Two new stochastic variance-reduced algorithms named SARAH and SPIDER have been recently proposed, and SPIDER has been shown to achieve a near-optimal gradient oracle complexity for non-convex optimization. However, the theoretical advantage of SPIDER does not lead to substantial improvement of practical performance over SVRG. To address this issue, momentum technique can be a good candidate to improve the performance of SPIDER. However, existing momentum schemes used in variance-reduced algorithms are designed specifically for convex optimization, and are not applicable to nonconvex scenarios. In this paper, we develop novel momentum schemes with flexible coefficient settings to accelerate SPIDER for nonconvex and nonsmooth composite optimization , and show that the resulting algorithms achieve the near-optimal gradient oracle complexity for achieving a generalized first-order stationary condition. Furthermore, we generalize our algorithm to online nonconvex and nonsmooth optimization, and establish an oracle complexity result that matches the state-of-the-art. Our extensive experiments demonstrate the superior performance of our proposed algorithm over other stochastic variance-reduced algorithms.
translated by 谷歌翻译
已经发现随机梯度下降(SGD)在训练各种深度神经网络方面具有惊人的效果。然而,仍然缺乏对SGD如何以及为何能够将这些复杂网络进行全球最小化培训的理解。在本研究中,我们建立了SGD与全局最小的非凸优化问题的收敛性,这些问题在神经网络训练中经常遇到。我们的论证利用了以下两个重要的性质:1)训练损失可以达到零值(近似值),这在深度学习中被广泛观察到; 2)SGD遵循星 - 凸路径,本文通过各种实验验证。在这样的背景下,超分析表明SGD虽然长期以来被认为是一种随机算法,但却以一种本质上确定的方式收敛于全局最小值。
translated by 谷歌翻译
尽管对生成对抗性网络(GAN)越来越感兴趣,但从理论和实际角度来看,训练GAN仍然是一个具有挑战性的问题。为了应对这一挑战,在本文中,我们提出了一种利用真实数据的独特几何结构的新方法,尤其是流形信息。更具体地说,我们设计了一种通过添加称为流量调节器的附加正则化项来规范GANtraining的方法。流形正则化器迫使发生器尊重实际数据流形的独特几何结构并生成高质量数据。此外,我们在理论上证明在任何一类GAN(包括DCGAN和Wasserstein GAN)中添加该正则化项导致在泛化方面的性能提高,存在均衡和稳定性。初步实验表明,所提出的流量规划有助于避免模式崩溃并导致稳定的训练。
translated by 谷歌翻译
为训练生成对偶网络(GAN)提出的一类重要的距离度量是积分概率度量(IPM),其中神经网络距离通过两个神经网络捕获实际的GAN训练。本文研究了基于分布抽样的神经网络距离的极小极大估计问题。我们在神经网络的估计误差上开发了第一个已知的极小极大下界,并且比经验神经网络距离的估计误差上的现有界限更紧密。我们的下限和上限仅在样本大小的顺序上,但也在神经网络的参数矩阵的范数方面,这证明经验神经网络距离是训练GUAN在实践中的真实神经网络距离的良好近似。
translated by 谷歌翻译
在开发随机方差减少方法以解决大规模优化问题方面进行了广泛的研究。最近,已经在{Fang2018}中开发了一种名为SPIDER的类型的nove算法,其被证明优于现有的相同类型的算法并且在某些制度中满足较低的约束。虽然理论上很有意思,但SPIDER需要$ \ epsilon $ -level步长来保证收敛,从而在实践中运行。本文提出SpiderBoost作为一种改进的SPIDER方案,与SPIDER相比具有两大优势。首先,它允许更大的步长而不牺牲收敛速度,因此在实践中比SPIDER快得多。其次,它更容易扩展到近端算法,保证收敛以解决复合优化问题,由于对每次迭代增量的严格要求以保证其收敛,这对于SPIDER来说似乎具有挑战性。 Bothadvantages可归因于我们为SpiderBoost开发的新收敛分析,它允许更灵活地选择算法参数。作为SpiderBoost的进一步概括,我们展示了近端的SpiderBoost实现了$ \ mathcal {O}的随机一阶oracle(SFO)复杂度(\ min \ {n ^ {1/2} \ epsilon ^ { - 1},\ epsilon ^ { - 3/2} \})$ for compositeoptimization,它将现有的最佳结果提高$ \ mathcal {O}(\ min \ {n ^ {1/6},\ epsilon ^ { - 1 / 6} \})$。
translated by 谷歌翻译
动量是加速实际训练收敛的一种流行技术,其对收敛保证的影响已经为一阶算法得到了很好的研究。然而,这种成功的加速技术还没有被提出用于非凸优化中的二阶算法。本文中,我们将动量方案应用于三次正则化(CR)牛顿法并探索加速的可能性。我们对各种非凸优化问题的数值实验表明,动量方案可以大大促进立方正则化的收敛,并且比Nesterov的CR加速方案表现更好。理论上,我们证明了动量下的CR达到了二阶静态的最佳可能收敛速度。非凸优化点。此外,我们研究了所提出的解决满足误差约束条件的问题的算法,并建立了局部二次收敛速度。然后,特别是对于有限和问题,我们证明了所提出的算法不会降低整体样本复杂度而不会降低收敛速度。
translated by 谷歌翻译
本文考虑了不精确的立方正则化牛顿方法(CR),它已在\ cite {Cartis2011a}中显示,以达到与次要静止点相同的阶级收敛率,如同精确的CR \ citep {Nesterov2006}。但是,\ cite {Cartis2011a}中的不精确条件由于其对未来迭代变量的依赖而无法实现。本文通过在仅依赖于当前迭代的不精确自适应条件下证明非全局优化的相同收敛速率来解决这样的问题。我们的证据控制了函数值在整个迭代中的充分减少,而不是在以前的研究中使用的每次迭代,这在其他情况下可能是独立的。
translated by 谷歌翻译
立方正则化Newton方法(CR)是一种流行的算法,可以保证为解决非凸优化问题而产生二阶固定解。然而,对CR的收敛速度的现有理解取决于目标函数的特殊类型的几何特性。在本文中,我们通过利用普遍的Kurdyka-Lojasiewicz(KL)非凸函数目标函数来探索CR的渐近收敛速度。具体而言,我们描述了CR的各种最优性度量的渐近收敛速度,包括函数值间隙,可变距离间隙,梯度范数和Hessian矩阵的最小特征值。我们的结果充分表征了这些最优性度量在KLproperty全参数体系中的不同收敛行为。此外,我们证明了获得的CR的渐近收敛速度比KL属性下的一阶梯度下降算法快。
translated by 谷歌翻译
本文使用k-medoids算法研究数据序列的聚类。假设所有数据序列都是从\ emph {未知}连续分布生成的,这些分布形成簇,每个簇包含一组紧密定位的分布(基于分布之间的某个距离度量)。假设最大簇内距离小于最小簇间距离,并且假设两个值都是已知的。目标是如果基础生成分布(未知)属于一个集群,则将数据序列分组在一起。针对已知和未知数量的分布集群,提出了基于k-medoids算法的分布距离度量。还提供了大样本制度下的误差概率和收敛结果的上界。结果表明,当每个数据序列中的样本数量变为无穷大时,误差概率以指数方式快速衰减。无论应用何种距离度量,满足不确定条件,errorexponent都有一个简单的形式。特别地,当Kolmogrov-Smirnov距离或最大meandisppancy用作距离度量时,表征误差指数。提供模拟结果以验证分析。
translated by 谷歌翻译
我们研究了梯度下降法在求解线性可分数据集上的二元分类问题时的隐式偏差。分类器由非线性ReLU模型描述,目标函数采用指数损失函数。我们首先描述了损失函数的景观,并表明除了渐近的全局最小值之外,还存在虚假的渐近局部极小值。然后,我们表明梯度下降(GD)可以收敛到全局或局部最大边缘方向,或者可以在一般上下文中偏离所需的最大边缘方向。对于随机梯度下降(SGD),我们表明,如果SGD收敛,它会收敛到全局或局部最大边际方向。我们进一步探讨了这些算法在学习多神经元网络时在某些静止条件下的隐性偏差,并表明学习的分类器在ReLU激活下最大化每个样本模式分区的边缘。
translated by 谷歌翻译