Some of the tightest information-theoretic generalization bounds depend on the average information between the learned hypothesis and a single training example. However, these sample-wise bounds were derived only for expected generalization gap. We show that even for expected squared generalization gap no such sample-wise information-theoretic bounds exist. The same is true for PAC-Bayes and single-draw bounds. Remarkably, PAC-Bayes, single-draw and expected squared generalization gap bounds that depend on information in pairs of examples exist.
translated by 谷歌翻译
转移学习或域适应性与机器学习问题有关,在这些问题中,培训和测试数据可能来自可能不同的概率分布。在这项工作中,我们在Russo和Xu发起的一系列工作之后,就通用错误和转移学习算法的过量风险进行了信息理论分析。我们的结果也许表明,也许正如预期的那样,kullback-leibler(kl)Divergence $ d(\ mu || \ mu')$在$ \ mu $和$ \ mu'$表示分布的特征中起着重要作用。培训数据和测试测试。具体而言,我们为经验风险最小化(ERM)算法提供了概括误差上限,其中两个分布的数据在训练阶段都可用。我们进一步将分析应用于近似的ERM方法,例如Gibbs算法和随机梯度下降方法。然后,我们概括了与$ \ phi $ -Divergence和Wasserstein距离绑定的共同信息。这些概括导致更紧密的范围,并且在$ \ mu $相对于$ \ mu' $的情况下,可以处理案例。此外,我们应用了一套新的技术来获得替代的上限,该界限为某些学习问题提供了快速(最佳)的学习率。最后,受到派生界限的启发,我们提出了Infoboost算法,其中根据信息测量方法对源和目标数据的重要性权重进行了调整。经验结果表明了所提出的算法的有效性。
translated by 谷歌翻译
我们研究了学习算法的输出及其$ n $培训数据之间(某些摘要)之间的共同信息,以$ n+1 $ i.i.d.的超级样本为条件。随机选择训练数据而无需更换的数据。这些算法(Steinke and Zakynthinou,2020)的条件相互信息(CMI)的这些剩余变体也被认为可以控制具有有界损耗函数的学习算法的平均通用误差。为了学习在0-1损失(即插值算法)下实现零经验风险的学习算法,我们提供了剩余的CMI与风险的经典保留误差估计之间的明确联系。使用此连接,我们就(评估)保留的CMI获得了上限和下限。当限制风险恒定或多项式衰减时,边界会收敛到两个恒定因子。作为应用程序,我们分析了单个包含图算法的人口风险,这是一种在可实现的环境中的VC类的通用转导学习算法。使用一对一的CMI,我们匹配在可实现的设置中学习VC课程的最佳界限,回答了Steinke和Zakynthinou(2020)提出的开放挑战。最后,为了理解剩余的CMI在研究概括中的作用,我们将剩余的CMI放在措施层次结构中,并在根本上使用新颖的无条件相互信息。对于0-1的损失和插值学习算法,观察到此相互信息恰恰是风险。
translated by 谷歌翻译
To date, no "information-theoretic" frameworks for reasoning about generalization error have been shown to establish minimax rates for gradient descent in the setting of stochastic convex optimization. In this work, we consider the prospect of establishing such rates via several existing information-theoretic frameworks: input-output mutual information bounds, conditional mutual information bounds and variants, PAC-Bayes bounds, and recent conditional variants thereof. We prove that none of these bounds are able to establish minimax rates. We then consider a common tactic employed in studying gradient methods, whereby the final iterate is corrupted by Gaussian noise, producing a noisy "surrogate" algorithm. We prove that minimax rates cannot be established via the analysis of such surrogates. Our results suggest that new ideas are required to analyze gradient descent using information-theoretic techniques.
translated by 谷歌翻译
了解现代机器学习设置中的概括一直是统计学习理论的主要挑战之一。在这种情况下,近年来见证了各种泛化范围的发展,表明了不同的复杂性概念,例如数据样本和算法输出之间的相互信息,假设空间的可压缩性以及假设空间的分形维度。尽管这些界限从不同角度照亮了手头的问题,但它们建议的复杂性概念似乎似乎无关,从而限制了它们的高级影响。在这项研究中,我们通过速率理论的镜头证明了新的概括界定,并明确地将相互信息,可压缩性和分形维度的概念联系起来。我们的方法包括(i)通过使用源编码概念来定义可压缩性的广义概念,(ii)表明“压缩错误率”可以与预期和高概率相关。我们表明,在“无损压缩”设置中,我们恢复并改善了现有的基于信息的界限,而“有损压缩”方案使我们能够将概括与速率延伸维度联系起来,这是分形维度的特定概念。我们的结果为概括带来了更统一的观点,并打开了几个未来的研究方向。
translated by 谷歌翻译
我们研究了广义熵的连续性属性作为潜在的概率分布的函数,用动作空间和损失函数定义,并使用此属性来回答统计学习理论中的基本问题:各种学习方法的过度风险分析。我们首先在几种常用的F分歧,Wassersein距离的熵差异导出了两个分布的熵差,这取决于动作空间的距离和损失函数,以及由熵产生的Bregman发散,这也诱导了两个分布之间的欧几里德距离方面的界限。对于每个一般结果的讨论给出了示例,使用现有的熵差界进行比较,并且基于新结果导出新的相互信息上限。然后,我们将熵差异界限应用于统计学习理论。结果表明,两种流行的学习范式,频繁学习和贝叶斯学习中的过度风险都可以用不同形式的广义熵的连续性研究。然后将分析扩展到广义条件熵的连续性。扩展为贝叶斯决策提供了不匹配的分布来提供性能范围。它也会导致第三个划分的学习范式的过度风险范围,其中决策规则是在经验分布的预定分布家族的预测下进行最佳设计。因此,我们通过广义熵的连续性建立了统计学习三大范式的过度风险分析的统一方法。
translated by 谷歌翻译
在这项工作中,我们调查了Steinke和Zakynthinou(2020)的“条件互信息”(CMI)框架的表现力,以及使用它来提供统一框架,用于在可实现的环境中证明泛化界限。我们首先证明可以使用该框架来表达任何用于从一类界限VC维度输出假设的任何学习算法的非琐碎(但是次优)界限。我们证明了CMI框架在用于学习半个空间的预期风险上产生最佳限制。该结果是我们的一般结果的应用,显示稳定的压缩方案Bousquet al。 (2020)尺寸$ k $有统一有限的命令$ o(k)$。我们进一步表明,适当学习VC类的固有限制与恒定的CMI存在适当的学习者的存在,并且它意味着对Steinke和Zakynthinou(2020)的开放问题的负面分辨率。我们进一步研究了价值最低限度(ERMS)的CMI的级别$ H $,并表明,如果才能使用有界CMI输出所有一致的分类器(版本空间),只有在$ H $具有有界的星号(Hanneke和杨(2015)))。此外,我们证明了一般性的减少,表明“休假”分析通过CMI框架表示。作为推论,我们研究了Haussler等人提出的一包图算法的CMI。 (1994)。更一般地说,我们表明CMI框架是通用的,因为对于每一项一致的算法和数据分布,当且仅当其评估的CMI具有样品的载位增长时,预期的风险就会消失。
translated by 谷歌翻译
用于分类任务的机器学习算法的最终性能通常根据基于测试数据集的经验误差概率(或准确性)来衡量。然而,这些算法通过基于训练集的典型不同 - 更方便的损耗功能而优化了这些算法。对于分类任务,这种损失函数通常是负值损耗,导致众所周知的交叉熵风险,这通常比误差概率更好地表现出(从数值角度)。关于泛化误差的常规研究通常不会考虑训练和测试阶段的损失之间的潜在不匹配。在这项工作中,考虑到基于精度度量和负对数损耗的训练,基于概括的Pock-Wise Pac方法的分析。我们标记此分析Pacman。建立所提到的不匹配可以写成似然比,浓度不平等可以用于根据一些有意义的信息理论量的一些点智选一的界限提供一些关于泛化问题的见解。还提供了对所得界限的分析和与文献中的可用结果进行比较。
translated by 谷歌翻译
We define notions of stability for learning algorithms and show how to use these notions to derive generalization error bounds based on the empirical error and the leave-one-out error. The methods we use can be applied in the regression framework as well as in the classification one when the classifier is obtained by thresholding a real-valued function. We study the stability properties of large classes of learning algorithms such as regularization based algorithms. In particular we focus on Hilbert space regularization and Kullback-Leibler regularization. We demonstrate how to apply the results to SVM for regression and classification.1. For a qualitative discussion about sensitivity analysis with links to other resources see e.g. http://sensitivity-analysis.jrc.cec.eu.int/
translated by 谷歌翻译
这项工作讨论了如何通过链接技术导致监督学习算法的预期概括误差的上限。通过开发一个一般的理论框架,我们根据损失函数的规律性及其链式对应物建立二元性界限,这可以通过将损失从损失从其梯度提升到其梯度来获得。这使我们能够根据Wasserstein距离和其他概率指标重新衍生从文献中绑定的链式相互信息,并获得新颖的链接信息理论理论范围。我们在一些玩具示例中表明,链式的概括结合可能比其标准对应物明显更紧,尤其是当算法选择的假设的分布非常集中时。关键字:概括范围;链信息理论范围;相互信息;瓦斯堡的距离; Pac-Bayes。
translated by 谷歌翻译
We derive upper bounds on the generalization error of a learning algorithm in terms of the mutual information between its input and output. The bounds provide an information-theoretic understanding of generalization in learning problems, and give theoretical guidelines for striking the right balance between data fit and generalization by controlling the input-output mutual information. We propose a number of methods for this purpose, among which are algorithms that regularize the ERM algorithm with relative entropy or with random noise. Our work extends and leads to nontrivial improvements on the recent results of Russo and Zou.
translated by 谷歌翻译
自从Russo和Zou(2016,2019)和Xu and Raginsky(2017)的著名作品以来,众所周知,监督学习算法的概括性错误可以根据其输入和输出,输出和输出之间的相互信息来界定。鉴于任何固定假设的丧失都具有亚高斯的尾巴。在这项工作中,我们将此结果推广到Shannon的共同信息的标准选择之外,以衡量输入和输出之间的依赖性。 Our main result shows that it is indeed possible to replace the mutual information by any strongly convex function of the joint input-output distribution, with the subgaussianity condition on the losses replaced by a bound on an appropriately chosen norm capturing the geometry of the dependence measure 。这使我们能够得出一系列的概括范围,这些范围是全新的,或者增强了以前已知的范围。示例包括按$ p $ norm差异和Wasserstein-2距离表示的界限,这些距离分别适用于重尾损失分布和高度平滑的损失功能。我们的分析完全基于来自凸分析的基本工具,通过跟踪与依赖度量和损失函数相关的潜在功能的增长。
translated by 谷歌翻译
我们提出了Pac-Bayes风格的概括结合,该结合可以用各种积分概率指标(IPM)替换KL-Divergence。我们提供了这种结合的实例,IPM是总变异度量和Wasserstein距离。获得的边界的一个显着特征是,它们在最坏的情况下(当前和后距离彼此远距离时)在经典均匀收敛边界之间自然插值,并且在更好的情况下(后验和先验都关闭时)优选界限。这说明了使用算法和数据依赖性组件加强经典概括界限的可能性,从而使它们更适合分析使用大假设空间的算法。
translated by 谷歌翻译
我们通过专注于两个流行的转移学习方法,$ \ Alpha $ -weighted-ERM和两级eRM,提供了一种基于GIBBS的转移学习算法的泛化能力的信息 - 理论分析。我们的关键结果是使用输出假设和给定源样本的输出假设和目标训练样本之间的条件对称的KL信息进行精确表征泛化行为。我们的结果也可以应用于在这两个上述GIBBS算法上提供新的无分布泛化误差上限。我们的方法是多才多艺的,因为它还表征了渐近误差和渐近制度中这两个GIBBS算法的过度风险,它们分别收敛到$ \ alpha $ -winution-eRM和两级eRM。基于我们的理论结果,我们表明,转移学习的好处可以被视为偏差折衷,源分布引起的偏差和缺乏目标样本引起的差异。我们认为这一观点可以指导实践中转移学习算法的选择。
translated by 谷歌翻译
我们对解决几个自然学习问题的一通流算法所需的记忆量给出了下限。在$ \ {0,1 \}^d $中的示例的环境中,可以使用$ \ kappa $ bits对最佳分类器进行编码,我们表明,使用近距离数量的示例学习的算法,$ \ tilde o(\ kappa)$,必须使用$ \ tilde \ omega(d \ kappa)$空间。我们的空间界限与问题自然参数化的环境空间的维度相匹配,即使在示例和最终分类器的大小上是二次的。例如,在$ d $ -sparse线性分类器的设置中,$ \ kappa = \ theta(d \ log d)$,我们的空间下限是$ \ tilde \ omega(d^^^ 2)$。我们的边界与流长$ n $优雅地降级,通常具有$ \ tilde \ omega \ left(d \ kappa \ cdot \ frac \ frac {\ kappa} {n} {n} \ right)$。 $ \ omega(d \ kappa)$的形式的界限以学习奇偶校验和有限字段定义的其他问题而闻名。在狭窄的样本量范围内适用的边界也以线性回归而闻名。对于最近学习应用程序中常见的类型的问题,我们的第一个范围是适用于各种输入尺寸的问题。
translated by 谷歌翻译
在本文中,我们介绍了超模块化$ \ mf $ -Diverences,并为它们提供了三个应用程序:(i)我们在基于超模型$ \ MF $ - 基于独立随机变量的尾部引入了Sanov的上限。分歧并表明我们的广义萨诺夫(Sanov)严格改善了普通的界限,(ii)我们考虑了有损耗的压缩问题,该问题研究了给定失真和代码长度的一组可实现的速率。我们使用互助$ \ mf $ - 信息扩展了利率 - 延伸函数,并使用超模块化$ \ mf $ -Diverences在有限的区块长度方面提供了新的,严格的更好的界限,并且(iii)我们提供了连接具有有限输入/输出共同$ \ mf $的算法的概括误差和广义率延伸问题。该连接使我们能够使用速率函数的下限来限制学习算法的概括误差。我们的界限是基于对利率延伸函数的新下限,该函数(对于某些示例)严格改善了以前最著名的界限。此外,使用超模块化$ \ mf $ -Divergences来减少问题的尺寸并获得单字母界限。
translated by 谷歌翻译
过度装备数据是与生成模型的众所周知的现象,其模拟太紧密(或准确)的特定数据实例,因此可能无法可靠地预测未来的观察。在实践中,这种行为是由各种 - 有时启发式的 - 正则化技术控制,这是通过将上限发展到泛化误差的激励。在这项工作中,我们研究依赖于在跨熵损失的随机编码上依赖于随机编码的泛化误差,这通常用于深度学习进行分类问题。我们导出界定误差,示出存在根据编码分布随机生成的输入特征和潜在空间中的相应表示之间的相互信息界定的制度。我们的界限提供了对所谓的各种变分类分类中的概括的信息理解,其由Kullback-Leibler(KL)发散项进行规则化。这些结果为变分推理方法提供了高度流行的KL术语的理论理由,这些方法已经认识到作为正则化罚款有效行动。我们进一步观察了具有良好研究概念的连接,例如变形自动化器,信息丢失,信息瓶颈和Boltzmann机器。最后,我们对Mnist和CiFar数据集进行了数值实验,并表明相互信息确实高度代表了泛化误差的行为。
translated by 谷歌翻译
我们推出了可实现的机器学习模型的贝叶斯风险和泛化误差的信息 - 理论下限。特别地,我们采用了一个分析,其中模型参数的速率失真函数在训练样本和模型参数之间界定了所需的互信息,以便向贝叶斯风险约束学习模型。对于可实现的模型,我们表明,速率失真函数和相互信息承认的表达式,方便分析。对于在其参数中(大致)较低的LipsChitz的模型,我们将从下面的速率失真函数绑定,而对于VC类,相互信息以高于$ d_ \ mathrm {vc} \ log(n)$。当这些条件匹配时,贝叶斯相对于零一个损耗尺度的风险不足于$ \ oomega(d_ \ mathrm {vc} / n)$,它与已知的外界和最小界限匹配对数因子。我们还考虑标签噪声的影响,在训练和/或测试样本损坏时提供下限。
translated by 谷歌翻译
尽管在机器学习中无处不在使用随机优化算法,但这些算法的确切影响及其对现实的非凸位设置中的概括性能的动态仍然知之甚少。尽管最近的工作揭示了随机优化中的概括与重尾行为之间的联系,但这项工作主要依赖于连续的近似值。对于原始离散时间迭代的严格处理尚未进行。为了弥合这一差距,我们提出了新颖的界限,将概括与在离散时间和连续时间设置中围绕局部最小值相关联的过渡内核的下尾指数。为了实现这一目标,我们首先证明了根据应用于优化器轨迹的著名的fernique-talagrand功能绑定的数据和算法依赖性的概括。然后,我们通过利用随机优化器的马尔可夫结构,并根据其(数据依赖性)过渡内核来得出界限来擅长于此结果。我们通过各种神经网络的经验结果来支持我们的理论,显示了概括误差与较低尾声之间的相关性。
translated by 谷歌翻译
在不同数据分布下由不同优化算法训练的机器学习模型可以表现出明显的泛化行为。在本文中,我们分析了噪声迭代算法训练的模型的概括。通过将噪声迭代算法连接到通信和信息理论中发现的附加噪声信道来源,我们推导出依赖于分布的泛化界限。我们的泛化界限在几种应用中,包括差异私有随机梯度下降(DP-SGD),联合学习和随机梯度Langevin动力学(SGLD)。我们通过数值实验展示了我们的界限,表明他们可以帮助了解神经网络泛化现象的最新实证观察。
translated by 谷歌翻译