最近,已经证明了信息理论框架可以获得具有随机噪声的随机梯度Langevin Dynamics(SGLD)训练的大型型号的非持续泛化界限。在本文中,我们通过操纵SGLD中的噪声结构来优化信息 - 理论概括。我们证明,由于限制以保证低经验风险,最佳噪声协方差是预期梯度协方差的平方根,如果先前和后部都是联合优化的。这验证了最佳噪声非常接近经验梯度协方差。从技术上讲,我们开发了一种新的信息 - 理论界,其能够实现这种优化分析。然后,我们应用矩阵分析以导出最佳噪声协方差的形式。呈现的制约和结果是通过经验观察验证的。
translated by 谷歌翻译
梯度类型优化方法的证明算法依赖性的概括误差范围最近在学习理论中引起了极大的关注。但是,大多数现有的基于轨迹的分析需要对学习率(例如,快速降低学习率)或连续注​​入噪声(例如Langevin Dynamics中的高斯噪声)的限制性假设。在本文中,我们在PAC-Bayesian框架之前引入了一种新的离散数据依赖性,并证明了$ O(\ frac {1} {n} {n} {n} \ cdot \ sum_ {t = 1}^^的高概率概括限制t(\ gamma_t/\ varepsilon_t)^2 \ left \ | {\ mathbf {g} _t} _t} \ right \ |^2)for floored gd(即,梯度下降的版本具有精度下降级别$ \ varepsilon_t $) $ n $是培训样本的数量,$ \ gamma_t $是步骤$ t $,$ \ mathbf {g} _t $的学习率大致是使用所有样本计算的梯度差,并且仅使用先前的样本。 $ \ left \ | {\ mathbf {g} _t} \ right \ | $在上限和典型的范围比梯度范围norm norm $ \ left \ weft \ | {\ nabla f(w_t)} \ right \ right \ | $小得多。我们指出,我们的界限适用于非凸和非平滑场景。此外,我们的理论结果提供了测试错误的数值上限(例如,MNIST $ 0.037 $)。使用类似的技术,我们还可以为SGD的某些变体获得新的概括范围。此外,我们研究了梯度Langevin动力学(GLD)的概括界。使用同一框架与经过精心构造的先验构造的框架,我们显示了$ o(\ frac {1} {n} {n} + \ frac {l^2} {n^2} {n^2} \ sum_ {t = 1}^t(\ gamma_t/\ sigma_t)^2)$ for gld。新的$ 1/n^2 $费率是由于培训样本梯度和先验梯度之间的差异的浓度。
translated by 谷歌翻译
我们基于新的有条件共同信息(LOO-CMI)的新量度来得出有关监督学习算法的理论概括界。与其他不利于问题结构的黑框界面相反,在实践中可能很难评估,我们的loo-CMI界限可以轻松计算,并且可以通过与其他概念(例如经典的一对一的交叉验证,优化算法的稳定性和损失景观的几何形状。它既适用于训练算法的输出及其预测。我们从经验上通过评估其在深度学习的情况下评估其预测的概括差距来验证界限的质量。特别是,我们的界限在大规模的图像分类任务上是无效的。
translated by 谷歌翻译
我们通过专注于两个流行的转移学习方法,$ \ Alpha $ -weighted-ERM和两级eRM,提供了一种基于GIBBS的转移学习算法的泛化能力的信息 - 理论分析。我们的关键结果是使用输出假设和给定源样本的输出假设和目标训练样本之间的条件对称的KL信息进行精确表征泛化行为。我们的结果也可以应用于在这两个上述GIBBS算法上提供新的无分布泛化误差上限。我们的方法是多才多艺的,因为它还表征了渐近误差和渐近制度中这两个GIBBS算法的过度风险,它们分别收敛到$ \ alpha $ -winution-eRM和两级eRM。基于我们的理论结果,我们表明,转移学习的好处可以被视为偏差折衷,源分布引起的偏差和缺乏目标样本引起的差异。我们认为这一观点可以指导实践中转移学习算法的选择。
translated by 谷歌翻译
生成的对策网络是一种流行的方法,用于通过根据已知分发的函数来建立目标分布来从数据学习分布的流行方法。经常被称为发电机的功能优化,以最小化所生成和目标分布之间的所选距离测量。这种目的的一个常用措施是Wassersein距离。然而,Wassersein距离难以计算和优化,并且在实践中,使用熵正则化技术来改善数值趋同。然而,正规化对学到的解决方案的影响仍未得到很好的理解。在本文中,我们研究了Wassersein距离的几个流行的熵正规提出如何在一个简单的基准设置中冲击解决方案,其中发电机是线性的,目标分布是高维高斯的。我们表明,熵正则化促进了解决方案稀疏化,同时更换了与秸秆角偏差的Wasserstein距离恢复了不断的解决方案。两种正则化技术都消除了Wasserstein距离所遭受的维度的诅咒。我们表明,可以从目标分布中学习最佳发电机,以$ O(1 / \ epsilon ^ 2)$ samples从目标分布中学习。因此,我们得出结论,这些正则化技术可以提高来自大量分布的经验数据的发电机的质量。
translated by 谷歌翻译
基于稳定性的概念,我们研究嘈杂随机迷你批量迭代算法的泛化界限。近年来,基于稳定性(Mou等,2018; Li等,2020)和信息理论方法(Mou等,2018)和信息理论方法(徐和Raginsky,2017; Negrea等,2019年; Steinke和Zakynthinou,2020; Haghifam等,2020)。在本文中,我们统一和基本上概括了基于稳定的泛化范围,并进行了三个技术进步。首先,我们在预期(不统一)稳定性方面绑定了一般噪声随机迭代算法(不一定梯度下降)的泛化误差。预期的稳定性又可以通过LE凸轮风格的偏差界定。与o(1 / \ sqrt {n})的许多现有范围不同,这种界限具有O(1 / n)样本依赖性。其次,我们介绍指数族族朗文动力学(EFLD),这是SGLD的大量概括,其允许与随机梯度下降(SGD)一起使用的指数家庭噪声。我们为一般EFLD算法建立基于数据相关的预期稳定性的泛化界。第三,我们考虑一个重要的特殊情况:EFLD的一个重要特殊情况:嘈杂的符号-SGD,它使用{-1,+ 1}的Bernoulli噪声扩展标志SGD。 EFLD的危识符号的泛化界限暗示了EFLD的暗示,我们还建立了算法的优化保证。此外,我们在基准数据集中呈现实证结果,以说明我们的界限与现有界限不上且定量。
translated by 谷歌翻译
最近出现了变异推断,成为大规模贝叶斯推理中古典马尔特·卡洛(MCMC)的流行替代品。变异推断的核心思想是贸易统计准确性以达到计算效率。它旨在近似后部,以降低计算成本,但可能损害其统计准确性。在这项工作中,我们通过推论模型选择中的案例研究研究了这种统计和计算权衡。侧重于具有对角和低级精度矩阵的高斯推论模型(又名变异近似族),我们在两个方面启动了对权衡的理论研究,贝叶斯后期推断误差和频繁的不确定性不确定定量误差。从贝叶斯后推理的角度来看,我们表征了相对于精确后部的变异后部的误差。我们证明,鉴于固定的计算预算,较低的推论模型会产生具有较高统计近似误差的变异后期,但计算误差较低。它减少了随机优化的方差,进而加速收敛。从频繁的不确定性定量角度来看,我们将变异后部的精度矩阵视为不确定性估计值。我们发现,相对于真实的渐近精度,变异近似遭受了来自数据的采样不确定性的附加统计误差。此外,随着计算预算的增加,这种统计误差成为主要因素。结果,对于小型数据集,推论模型不必全等级即可达到最佳估计误差。我们最终证明了在经验研究之间的这些统计和计算权衡推论,从而证实了理论发现。
translated by 谷歌翻译
随机梯度下降(SGDA)及其变体一直是解决最小值问题的主力。但是,与研究有差异隐私(DP)约束的经过良好研究的随机梯度下降(SGD)相反,在理解具有DP约束的SGDA的概括(实用程序)方面几乎没有工作。在本文中,我们使用算法稳定性方法在不同的设置中建立DP-SGDA的概括(实用程序)。特别是,对于凸 - 凸环设置,我们证明DP-SGDA可以在平滑和非平滑案例中都可以根据弱原始二元人群风险获得最佳的效用率。据我们所知,这是在非平滑案例中DP-SGDA的第一个已知结果。我们进一步在非convex-rong-concave环境中提供了实用性分析,这是原始人口风险的首个已知结果。即使在非私有设置中,此非convex设置的收敛和概括结果也是新的。最后,进行了数值实验,以证明DP-SGDA在凸和非凸病例中的有效性。
translated by 谷歌翻译
在不同数据分布下由不同优化算法训练的机器学习模型可以表现出明显的泛化行为。在本文中,我们分析了噪声迭代算法训练的模型的概括。通过将噪声迭代算法连接到通信和信息理论中发现的附加噪声信道来源,我们推导出依赖于分布的泛化界限。我们的泛化界限在几种应用中,包括差异私有随机梯度下降(DP-SGD),联合学习和随机梯度Langevin动力学(SGLD)。我们通过数值实验展示了我们的界限,表明他们可以帮助了解神经网络泛化现象的最新实证观察。
translated by 谷歌翻译
Influence diagnostics such as influence functions and approximate maximum influence perturbations are popular in machine learning and in AI domain applications. Influence diagnostics are powerful statistical tools to identify influential datapoints or subsets of datapoints. We establish finite-sample statistical bounds, as well as computational complexity bounds, for influence functions and approximate maximum influence perturbations using efficient inverse-Hessian-vector product implementations. We illustrate our results with generalized linear models and large attention based models on synthetic and real data.
translated by 谷歌翻译
我们推出了元学学习算法概括性的新信息 - 理论分析。具体地,我们的分析提出了对传统学习 - 学习框架和现代模型 - 不可知的元学习(MAML)算法的通用理解。此外,我们为MAML的随机变体提供了一种数据依赖的泛化,这对于深入的少量学习是不受空置的。与以前的范围相比,依赖于梯度方形规范的界限,对模拟数据和众所周知的少量射击基准测试的经验验证表明,我们的绑定是大多数情况下更紧密的级。
translated by 谷歌翻译
收购数据是机器学习的许多应用中的一项艰巨任务,只有一个人希望并且预期人口风险在单调上汇率增加(更好的性能)。事实证明,甚至对于最小化经验风险的最大限度的算法,甚至不令人惊讶的情况。在训练中的风险和不稳定的非单调行为表现出并出现在双重血统描述中的流行深度学习范式中。这些问题突出了目前对学习算法和泛化的理解缺乏了解。因此,追求这种行为的表征是至关重要的,这是至关重要的。在本文中,我们在弱假设下获得了一致和风险的单调算法,从而解决了一个打开问题Viering等。 2019关于如何避免风险曲线的非单调行为。我们进一步表明,风险单调性不一定以更糟糕的风险率的价格出现。为实现这一目标,我们推出了持有某些非I.I.D的独立利益的新经验伯恩斯坦的浓度不等式。鞅差异序列等进程。
translated by 谷歌翻译
To date, no "information-theoretic" frameworks for reasoning about generalization error have been shown to establish minimax rates for gradient descent in the setting of stochastic convex optimization. In this work, we consider the prospect of establishing such rates via several existing information-theoretic frameworks: input-output mutual information bounds, conditional mutual information bounds and variants, PAC-Bayes bounds, and recent conditional variants thereof. We prove that none of these bounds are able to establish minimax rates. We then consider a common tactic employed in studying gradient methods, whereby the final iterate is corrupted by Gaussian noise, producing a noisy "surrogate" algorithm. We prove that minimax rates cannot be established via the analysis of such surrogates. Our results suggest that new ideas are required to analyze gradient descent using information-theoretic techniques.
translated by 谷歌翻译
Autoencoders are a popular model in many branches of machine learning and lossy data compression. However, their fundamental limits, the performance of gradient methods and the features learnt during optimization remain poorly understood, even in the two-layer setting. In fact, earlier work has considered either linear autoencoders or specific training regimes (leading to vanishing or diverging compression rates). Our paper addresses this gap by focusing on non-linear two-layer autoencoders trained in the challenging proportional regime in which the input dimension scales linearly with the size of the representation. Our results characterize the minimizers of the population risk, and show that such minimizers are achieved by gradient methods; their structure is also unveiled, thus leading to a concise description of the features obtained via training. For the special case of a sign activation function, our analysis establishes the fundamental limits for the lossy compression of Gaussian sources via (shallow) autoencoders. Finally, while the results are proved for Gaussian data, numerical simulations on standard datasets display the universality of the theoretical predictions.
translated by 谷歌翻译
随机梯度下降(SGD)在实践中表现出强烈的算法正则化效应,该效果已被认为在现代机器学习方法的概括中起着重要作用。在这项工作中,我们试图在线性回归的更简单环境(包括量身范围的和过度参数化的制度)中理解这些问题,在此,我们的目标是对(未注册)平均SGD与(未注册的)平均SGD进行基于实例的敏锐比较。脊回归的明确正规化。对于一系列最小二乘问题的问题实例(在高维设置中是自然的),我们显示:(1)对于每个问题实例和每个脊参数(未注册)SGD,当时提供比对数的样本比提供的样本更多的样本时对于脊算法,概括的概括不及脊解决方案(提供SGD使用调谐常数步骤); (2)相反,存在(在这个宽阔的问题类中),其中最佳调整的脊回归需要比SGD更高的样本以具有相同的概括性能。综上所述,我们的结果表明,在对数因素上,SGD的概括性能总是不到脊回归的差异,而在各种过度参数的问题中,对于某些问题实例,实际上可能会更好。更普遍地,我们的结果表明,即使在更简单(过度参数化)凸设置中,算法正则化如何产生重要的后果。
translated by 谷歌翻译
最近,有大量的工作致力于研究马尔可夫链随机梯度方法(MC-SGMS),这些方法主要集中于他们解决最小化问题的收敛分析。在本文中,我们通过统计学习理论框架中的算法稳定性镜头对MC-SGM进行了全面的MC-SGMS分析。对于经验风险最小化(ERM)问题,我们通过引入实用的论点稳定性来建立平稳和非平滑案例的最佳人口风险界限。对于最小值问题,我们建立了在平均参数稳定性和概括误差之间的定量连接,该误差扩展了均匀稳定性\ cite {lei2021Staritibal}的现有结果。我们进一步开发了预期和高概率的凸孔问题问题的第一个几乎最佳的收敛速率,这与我们的稳定性结果相结合,表明可以在平滑和非平滑案例中达到最佳的概括界限。据我们所知,这是对梯度从马尔可夫过程采样时对SGM的首次概括分析。
translated by 谷歌翻译
通过在线规范相关性分析的问题,我们提出了\ emph {随机缩放梯度下降}(SSGD)算法,以最小化通用riemannian歧管上的随机功能的期望。 SSGD概括了投影随机梯度下降的思想,允许使用缩放的随机梯度而不是随机梯度。在特殊情况下,球形约束的特殊情况,在广义特征向量问题中产生的,我们建立了$ \ sqrt {1 / t} $的令人反感的有限样本,并表明该速率最佳最佳,直至具有积极的积极因素相关参数。在渐近方面,一种新的轨迹平均争论使我们能够实现局部渐近常态,其速率与鲁普特 - Polyak-Quaditsky平均的速率匹配。我们将这些想法携带在一个在线规范相关分析,从事文献中的第一次获得了最佳的一次性尺度算法,其具有局部渐近融合到正常性的最佳一次性尺度算法。还提供了用于合成数据的规范相关分析的数值研究。
translated by 谷歌翻译
转移学习或域适应性与机器学习问题有关,在这些问题中,培训和测试数据可能来自可能不同的概率分布。在这项工作中,我们在Russo和Xu发起的一系列工作之后,就通用错误和转移学习算法的过量风险进行了信息理论分析。我们的结果也许表明,也许正如预期的那样,kullback-leibler(kl)Divergence $ d(\ mu || \ mu')$在$ \ mu $和$ \ mu'$表示分布的特征中起着重要作用。培训数据和测试测试。具体而言,我们为经验风险最小化(ERM)算法提供了概括误差上限,其中两个分布的数据在训练阶段都可用。我们进一步将分析应用于近似的ERM方法,例如Gibbs算法和随机梯度下降方法。然后,我们概括了与$ \ phi $ -Divergence和Wasserstein距离绑定的共同信息。这些概括导致更紧密的范围,并且在$ \ mu $相对于$ \ mu' $的情况下,可以处理案例。此外,我们应用了一套新的技术来获得替代的上限,该界限为某些学习问题提供了快速(最佳)的学习率。最后,受到派生界限的启发,我们提出了Infoboost算法,其中根据信息测量方法对源和目标数据的重要性权重进行了调整。经验结果表明了所提出的算法的有效性。
translated by 谷歌翻译
元学习在有限的监督数据中表现出了几次学习的巨大成功。在这些设置中,元模型通常被过度参数化。尽管常规的统计学习理论表明,过度参数化的模型倾向于过度合适,但经验证据表明,过度参数化的元学习方法仍然很好地工作 - 这种现象通常称为``良性过度拟合''。我们了解这种现象,我们专注于元学习设置,我们将具有挑战性的嵌套结构称为嵌套的元学习,并在过度参数化的元学习模型下分析其泛化性能。尽管我们的分析使用了相对可牵引的线性模型,但我们的理论有助于理解数据异质性,模型适应和良性过度适应嵌套元学习任务之间的微妙相互作用。我们通过数值模拟证实了我们的理论主张。
translated by 谷歌翻译
在本文中,我们研究了主要成分分析的问题,并采用了生成建模假设,采用了一个普通矩阵的通用模型,该模型包括涉及尖峰矩阵恢复和相位检索在内的明显特殊情况。关键假设是,基础信号位于$ l $ -Lipschitz连续生成模型的范围内,该模型具有有限的$ k $二维输入。我们提出了一个二次估计器,并证明它享有顺序的统计率$ \ sqrt {\ frac {k \ log l} {m} {m}} $,其中$ m $是样本的数量。我们还提供了近乎匹配的算法独立的下限。此外,我们提供了经典功率方法的一种变体,该方法将计算的数据投射到每次迭代期间生成模型的范围内。我们表明,在适当的条件下,该方法将指数级的快速收敛到达到上述统计率的点。我们在各种图像数据集上对峰值矩阵和相位检索模型进行实验,并说明了我们方法的性能提高到经典功率方法,并为稀疏主组件分析设计了截断的功率方法。
translated by 谷歌翻译