在不同数据分布下由不同优化算法训练的机器学习模型可以表现出明显的泛化行为。在本文中,我们分析了噪声迭代算法训练的模型的概括。通过将噪声迭代算法连接到通信和信息理论中发现的附加噪声信道来源,我们推导出依赖于分布的泛化界限。我们的泛化界限在几种应用中,包括差异私有随机梯度下降(DP-SGD),联合学习和随机梯度Langevin动力学(SGLD)。我们通过数值实验展示了我们的界限,表明他们可以帮助了解神经网络泛化现象的最新实证观察。
translated by 谷歌翻译
基于稳定性的概念,我们研究嘈杂随机迷你批量迭代算法的泛化界限。近年来,基于稳定性(Mou等,2018; Li等,2020)和信息理论方法(Mou等,2018)和信息理论方法(徐和Raginsky,2017; Negrea等,2019年; Steinke和Zakynthinou,2020; Haghifam等,2020)。在本文中,我们统一和基本上概括了基于稳定的泛化范围,并进行了三个技术进步。首先,我们在预期(不统一)稳定性方面绑定了一般噪声随机迭代算法(不一定梯度下降)的泛化误差。预期的稳定性又可以通过LE凸轮风格的偏差界定。与o(1 / \ sqrt {n})的许多现有范围不同,这种界限具有O(1 / n)样本依赖性。其次,我们介绍指数族族朗文动力学(EFLD),这是SGLD的大量概括,其允许与随机梯度下降(SGD)一起使用的指数家庭噪声。我们为一般EFLD算法建立基于数据相关的预期稳定性的泛化界。第三,我们考虑一个重要的特殊情况:EFLD的一个重要特殊情况:嘈杂的符号-SGD,它使用{-1,+ 1}的Bernoulli噪声扩展标志SGD。 EFLD的危识符号的泛化界限暗示了EFLD的暗示,我们还建立了算法的优化保证。此外,我们在基准数据集中呈现实证结果,以说明我们的界限与现有界限不上且定量。
translated by 谷歌翻译
梯度类型优化方法的证明算法依赖性的概括误差范围最近在学习理论中引起了极大的关注。但是,大多数现有的基于轨迹的分析需要对学习率(例如,快速降低学习率)或连续注​​入噪声(例如Langevin Dynamics中的高斯噪声)的限制性假设。在本文中,我们在PAC-Bayesian框架之前引入了一种新的离散数据依赖性,并证明了$ O(\ frac {1} {n} {n} {n} \ cdot \ sum_ {t = 1}^^的高概率概括限制t(\ gamma_t/\ varepsilon_t)^2 \ left \ | {\ mathbf {g} _t} _t} \ right \ |^2)for floored gd(即,梯度下降的版本具有精度下降级别$ \ varepsilon_t $) $ n $是培训样本的数量,$ \ gamma_t $是步骤$ t $,$ \ mathbf {g} _t $的学习率大致是使用所有样本计算的梯度差,并且仅使用先前的样本。 $ \ left \ | {\ mathbf {g} _t} \ right \ | $在上限和典型的范围比梯度范围norm norm $ \ left \ weft \ | {\ nabla f(w_t)} \ right \ right \ | $小得多。我们指出,我们的界限适用于非凸和非平滑场景。此外,我们的理论结果提供了测试错误的数值上限(例如,MNIST $ 0.037 $)。使用类似的技术,我们还可以为SGD的某些变体获得新的概括范围。此外,我们研究了梯度Langevin动力学(GLD)的概括界。使用同一框架与经过精心构造的先验构造的框架,我们显示了$ o(\ frac {1} {n} {n} + \ frac {l^2} {n^2} {n^2} \ sum_ {t = 1}^t(\ gamma_t/\ sigma_t)^2)$ for gld。新的$ 1/n^2 $费率是由于培训样本梯度和先验梯度之间的差异的浓度。
translated by 谷歌翻译
转移学习或域适应性与机器学习问题有关,在这些问题中,培训和测试数据可能来自可能不同的概率分布。在这项工作中,我们在Russo和Xu发起的一系列工作之后,就通用错误和转移学习算法的过量风险进行了信息理论分析。我们的结果也许表明,也许正如预期的那样,kullback-leibler(kl)Divergence $ d(\ mu || \ mu')$在$ \ mu $和$ \ mu'$表示分布的特征中起着重要作用。培训数据和测试测试。具体而言,我们为经验风险最小化(ERM)算法提供了概括误差上限,其中两个分布的数据在训练阶段都可用。我们进一步将分析应用于近似的ERM方法,例如Gibbs算法和随机梯度下降方法。然后,我们概括了与$ \ phi $ -Divergence和Wasserstein距离绑定的共同信息。这些概括导致更紧密的范围,并且在$ \ mu $相对于$ \ mu' $的情况下,可以处理案例。此外,我们应用了一套新的技术来获得替代的上限,该界限为某些学习问题提供了快速(最佳)的学习率。最后,受到派生界限的启发,我们提出了Infoboost算法,其中根据信息测量方法对源和目标数据的重要性权重进行了调整。经验结果表明了所提出的算法的有效性。
translated by 谷歌翻译
To date, no "information-theoretic" frameworks for reasoning about generalization error have been shown to establish minimax rates for gradient descent in the setting of stochastic convex optimization. In this work, we consider the prospect of establishing such rates via several existing information-theoretic frameworks: input-output mutual information bounds, conditional mutual information bounds and variants, PAC-Bayes bounds, and recent conditional variants thereof. We prove that none of these bounds are able to establish minimax rates. We then consider a common tactic employed in studying gradient methods, whereby the final iterate is corrupted by Gaussian noise, producing a noisy "surrogate" algorithm. We prove that minimax rates cannot be established via the analysis of such surrogates. Our results suggest that new ideas are required to analyze gradient descent using information-theoretic techniques.
translated by 谷歌翻译
这项工作讨论了如何通过链接技术导致监督学习算法的预期概括误差的上限。通过开发一个一般的理论框架,我们根据损失函数的规律性及其链式对应物建立二元性界限,这可以通过将损失从损失从其梯度提升到其梯度来获得。这使我们能够根据Wasserstein距离和其他概率指标重新衍生从文献中绑定的链式相互信息,并获得新颖的链接信息理论理论范围。我们在一些玩具示例中表明,链式的概括结合可能比其标准对应物明显更紧,尤其是当算法选择的假设的分布非常集中时。关键字:概括范围;链信息理论范围;相互信息;瓦斯堡的距离; Pac-Bayes。
translated by 谷歌翻译
我们提出并分析了算法,以解决用户级差分隐私约束下的一系列学习任务。用户级DP仅保证只保证个人样本的隐私,而是保护用户的整个贡献($ M \ GE 1 $ Samples),而不是对信息泄漏提供更严格但更现实的保护。我们表明,对于高维平均估计,具有平稳损失,随机凸优化和学习假设类别的经验风险最小化,具有有限度量熵,隐私成本随着用户提供的$ O(1 / \ SQRT {M})$减少更多样本。相比之下,在增加用户数量$ N $时,隐私成本以较快的价格降低(1 / n)$率。我们将这些结果与下界相提并论,显示了我们算法的最低限度估计和随机凸优化的算法。我们的算法依赖于私有平均估计的新颖技术,其任意维度与误差缩放为浓度半径$ \ tai $的分布而不是整个范围。
translated by 谷歌翻译
我们展示了一个联合学习框架,旨在强大地提供具有异构数据的各个客户端的良好预测性能。所提出的方法对基于SuperQualile的学习目标铰接,捕获异构客户端的误差分布的尾统计。我们提出了一种随机训练算法,其与联合平均步骤交织差异私人客户重新重量步骤。该提出的算法支持有限时间收敛保证,保证覆盖凸和非凸面设置。关于联邦学习的基准数据集的实验结果表明,我们的方法在平均误差方面与古典误差竞争,并且在误差的尾统计方面优于它们。
translated by 谷歌翻译
在本文中,我们重新审视了私人经验风险最小化(DP-erm)和差异私有随机凸优化(DP-SCO)的问题。我们表明,来自统计物理学(Langevin Exfusion(LD))的经过良好研究的连续时间算法同时为DP-SCO和DP-SCO提供了最佳的隐私/实用性权衡,$ \ epsilon $ -DP和$ $ \ epsilon $ -DP和$ (\ epsilon,\ delta)$ - dp均用于凸和强烈凸损失函数。我们为LD提供新的时间和尺寸独立统一稳定性,并使用我们为$ \ epsilon $ -DP提供相应的最佳超额人口风险保证。 $ \ epsilon $ -DP的DP-SCO保证的一个重要属性是,它们将非私人最佳界限匹配为$ \ epsilon \与\ infty $。在此过程中,我们提供了各种技术工具,这些工具可能引起独立的关注:i)在两个相邻数据集上运行损失功能时,一个新的r \'enyi Divergence绑定了LD,ii)最后一个过多的经验风险范围迭代LD,类似于Shamir和Zhang的嘈杂随机梯度下降(SGD)和iii)的LD,对LD进行了两期多余的风险分析,其中第一阶段是当扩散在任何合理意义上都没有在任何合理意义上融合到固定分布时,在第二阶段扩散已收敛到吉布斯分布的变体。我们的普遍性结果至关重要地依赖于LD的动力学。当它融合到固定分布时,我们获得了$ \ epsilon $ -DP的最佳界限。当它仅在很短的时间内运行$ \ propto 1/p $时,我们在$(\ epsilon,\ delta)$ -DP下获得最佳界限。在这里,$ p $是模型空间的维度。
translated by 谷歌翻译
古典统计学习理论表示,拟合太多参数导致过度舒服和性能差。尽管大量参数矛盾,但是现代深度神经网络概括了这一发现,并构成了解释深度学习成功的主要未解决的问题。随机梯度下降(SGD)引起的隐式正规被认为是重要的,但其特定原则仍然是未知的。在这项工作中,我们研究了当地最小值周围的能量景观的局部几何学如何影响SGD的统计特性,具有高斯梯度噪声。我们争辩说,在合理的假设下,局部几何形状力强制SGD保持接近低维子空间,这会引起隐式正则化并导致深神经网络的泛化误差界定更严格的界限。为了获得神经网络的泛化误差界限,我们首先引入局部最小值周围的停滞迹象,并施加人口风险的局部基本凸性财产。在这些条件下,推导出SGD的下界,以保留在这些停滞套件中。如果发生停滞,我们会导出涉及权重矩阵的光谱规范的深神经网络的泛化误差的界限,但不是网络参数的数量。从技术上讲,我们的证据基于控制SGD中的参数值的变化以及基于局部最小值周围的合适邻域的熵迭代的参数值和局部均匀收敛。我们的工作试图通过统一收敛更好地连接非凸优化和泛化分析。
translated by 谷歌翻译
随机梯度下降(SGDA)及其变体一直是解决最小值问题的主力。但是,与研究有差异隐私(DP)约束的经过良好研究的随机梯度下降(SGD)相反,在理解具有DP约束的SGDA的概括(实用程序)方面几乎没有工作。在本文中,我们使用算法稳定性方法在不同的设置中建立DP-SGDA的概括(实用程序)。特别是,对于凸 - 凸环设置,我们证明DP-SGDA可以在平滑和非平滑案例中都可以根据弱原始二元人群风险获得最佳的效用率。据我们所知,这是在非平滑案例中DP-SGDA的第一个已知结果。我们进一步在非convex-rong-concave环境中提供了实用性分析,这是原始人口风险的首个已知结果。即使在非私有设置中,此非convex设置的收敛和概括结果也是新的。最后,进行了数值实验,以证明DP-SGDA在凸和非凸病例中的有效性。
translated by 谷歌翻译
我们观察到,给定两个(兼容的)函数类别$ \ MATHCAL {f} $和$ \ MATHCAL {h} $,具有较小的容量,按其均匀覆盖的数字测量,组成类$ \ Mathcal {H} \ Circ \ Mathcal {f} $可能会变得非常大,甚至无限。然后,我们证明,在用$ \ Mathcal {h} $构成$ \ Mathcal {f} $的输出中,添加少量高斯噪声可以有效地控制$ \ Mathcal {H} \ Circ \ Mathcal { F} $,提供模块化设计的一般配方。为了证明我们的结果,我们定义了均匀覆盖随机函数数量的新概念,相对于总变异和瓦斯坦斯坦距离。我们将结果实例化,以实现多层Sigmoid神经​​网络。 MNIST数据集的初步经验结果表明,在现有统一界限上改善所需的噪声量在数值上可以忽略不计(即,元素的I.I.D. I.I.D.高斯噪声,具有标准偏差$ 10^{ - 240} $)。源代码可从https://github.com/fathollahpour/composition_noise获得。
translated by 谷歌翻译
在本文中,我们研究了模型 - 不可知的元学习(MAML)算法的泛化特性,用于监督学习问题。我们专注于我们培训MAML模型超过$ M $任务的设置,每个都有$ n $数据点,并从两个视角表征其泛化错误:首先,我们假设测试时间的新任务是其中之一培训任务,我们表明,对于强烈凸的客观函数,预期的多余人口损失是由$ {\ mathcal {o}}(1 / mn)$的界限。其次,我们考虑MAML算法的概念任务的泛化,并表明产生的泛化误差取决于新任务的底层分布与培训过程中观察到的任务之间的总变化距离。我们的校对技术依赖于算法稳定性与算法的泛化界之间的连接。特别是,我们为元学习算法提出了一种新的稳定性定义,这使我们能够捕获每项任务的任务数量的任务数量的角色$ N $对MAML的泛化误差。
translated by 谷歌翻译
我们提出了Pac-Bayes风格的概括结合,该结合可以用各种积分概率指标(IPM)替换KL-Divergence。我们提供了这种结合的实例,IPM是总变异度量和Wasserstein距离。获得的边界的一个显着特征是,它们在最坏的情况下(当前和后距离彼此远距离时)在经典均匀收敛边界之间自然插值,并且在更好的情况下(后验和先验都关闭时)优选界限。这说明了使用算法和数据依赖性组件加强经典概括界限的可能性,从而使它们更适合分析使用大假设空间的算法。
translated by 谷歌翻译
最近已经建立了近似稳定的学习算法的指数概括范围。但是,统一稳定性的概念是严格的,因为它是数据生成分布不变的。在稳定性的较弱和分布依赖性的概念下,例如假设稳定性和$ L_2 $稳定性,文献表明,在一般情况下,只有多项式概括界限是可能的。本文解决了这两个结果方案之间的长期紧张关系,并在融合信心的经典框架内取得了进步。为此,我们首先建立了一个预测的第一刻,通用错误限制了具有$ l_2 $稳定性的潜在随机学习算法,然后我们证明了一个正确设计的subbagagging流程会导致几乎紧密的指数概括性限制在上面数据和算法的随机性。我们将这些通用结果进一步实质性地将随机梯度下降(SGD)实现,以提高凸或非凸优化的高概率概括性范围,而自然时间衰减的学习速率则可以通过现有的假设稳定性或均匀的假设稳定性来证明这一点。基于稳定的结果。
translated by 谷歌翻译
我们在差分隐私(DP)的约束下,用重型数据研究随机凸优化。大多数关于此问题的事先工作仅限于损耗功能是Lipschitz的情况。相反,正如王,肖,德拉达斯和徐\ Cite {wangxdx20}所引入的那样,假设渐变的分布已涉及$ k $ --th时刻,我们研究了一般凸损失功能。我们在集中DP下提供了改善的上限,用于凸起的凸起和强凸损失功能。一路上,我们在纯粹和集中的DP下获得了私人平均估计的私有平均估计的新算法。最后,我们证明了私有随机凸性优化的近乎匹配的下限,具有强凸损失和平均估计,显示纯净和浓缩的DP之间的新分离。
translated by 谷歌翻译
深度学习的概括分析通常假定训练会收敛到固定点。但是,最近的结果表明,实际上,用随机梯度下降优化的深神经网络的权重通常无限期振荡。为了减少理论和实践之间的这种差异,本文着重于神经网络的概括,其训练动力不一定会融合到固定点。我们的主要贡献是提出一个统计算法稳定性(SAS)的概念,该算法将经典算法稳定性扩展到非convergergent算法并研究其与泛化的联系。与传统的优化和学习理论观点相比,这种崇高的理论方法可导致新的见解。我们证明,学习算法的时间复杂行为的稳定性与其泛化有关,并在经验上证明了损失动力学如何为概括性能提供线索。我们的发现提供了证据表明,即使训练无限期继续并且权重也不会融合,即使训练持续进行训练,训练更好地概括”的网络也是如此。
translated by 谷歌翻译
我们研究了广义熵的连续性属性作为潜在的概率分布的函数,用动作空间和损失函数定义,并使用此属性来回答统计学习理论中的基本问题:各种学习方法的过度风险分析。我们首先在几种常用的F分歧,Wassersein距离的熵差异导出了两个分布的熵差,这取决于动作空间的距离和损失函数,以及由熵产生的Bregman发散,这也诱导了两个分布之间的欧几里德距离方面的界限。对于每个一般结果的讨论给出了示例,使用现有的熵差界进行比较,并且基于新结果导出新的相互信息上限。然后,我们将熵差异界限应用于统计学习理论。结果表明,两种流行的学习范式,频繁学习和贝叶斯学习中的过度风险都可以用不同形式的广义熵的连续性研究。然后将分析扩展到广义条件熵的连续性。扩展为贝叶斯决策提供了不匹配的分布来提供性能范围。它也会导致第三个划分的学习范式的过度风险范围,其中决策规则是在经验分布的预定分布家族的预测下进行最佳设计。因此,我们通过广义熵的连续性建立了统计学习三大范式的过度风险分析的统一方法。
translated by 谷歌翻译
We show that parametric models trained by a stochastic gradient method (SGM) with few iterations have vanishing generalization error. We prove our results by arguing that SGM is algorithmically stable in the sense of Bousquet and Elisseeff. Our analysis only employs elementary tools from convex and continuous optimization. We derive stability bounds for both convex and non-convex optimization under standard Lipschitz and smoothness assumptions.Applying our results to the convex case, we provide new insights for why multiple epochs of stochastic gradient methods generalize well in practice. In the non-convex case, we give a new interpretation of common practices in neural networks, and formally show that popular techniques for training large deep models are indeed stability-promoting. Our findings conceptually underscore the importance of reducing training time beyond its obvious benefit.
translated by 谷歌翻译
随机优化在最小化机器学习中的目标功能方面发现了广泛的应用,这激发了许多理论研究以了解其实际成功。大多数现有研究都集中在优化误差的收敛上,而随机优化的概括分析却落后了。在实践中经常遇到的非洞穴和非平滑问题的情况尤其如此。在本文中,我们初始化了对非凸和非平滑问题的随机优化的系统稳定性和概括分析。我们介绍了新型算法稳定性措施,并在人口梯度和经验梯度之间建立了定量联系,然后进一步扩展,以研究经验风险的莫罗(Moreau)膜之间的差距和人口风险的差距。据我们所知,尚未在文献中研究稳定性与概括之间的这些定量联系。我们引入了一类采样确定的算法,为此我们为三种稳定性度量而开发界限。最后,我们将这些讨论应用于随机梯度下降及其自适应变体的误差界限,我们在其中显示如何通过调整步骤大小和迭代次数来实现隐式正则化。
translated by 谷歌翻译