在统计学习中,到目前为止已经提出了许多问题公式,例如多级学习,互补的学习,多标签学习,多任务学习,这些学习为各种现实世界任务提供了理论模型。尽管它们已经进行了广泛的研究,但它们之间的关系尚未得到充分研究。在这项工作中,我们专注于一种称为多构想学习(MIL)的特定问题,并证明包括上述所有问题(以及一些新问题)的各种学习问题可以通过理论上保证的概括范围,在其中将一些新问题降低到MIL减少是根据我们作为副产品提供的新还原方案确定的。结果表明,MIL-REDUCTION为设计和分析各种学习问题的算法提供了一个简化而统一的框架。此外,我们证明了还可以将MIL-REDUCTION框架进行内核。
translated by 谷歌翻译
所有著名的机器学习算法构成了受监督和半监督的学习工作,只有在一个共同的假设下:培训和测试数据遵循相同的分布。当分布变化时,大多数统计模型必须从新收集的数据中重建,对于某些应用程序,这些数据可能是昂贵或无法获得的。因此,有必要开发方法,以减少在相关领域中可用的数据并在相似领域中进一步使用这些数据,从而减少需求和努力获得新的标签样品。这引起了一个新的机器学习框架,称为转移学习:一种受人类在跨任务中推断知识以更有效学习的知识能力的学习环境。尽管有大量不同的转移学习方案,但本调查的主要目的是在特定的,可以说是最受欢迎的转移学习中最受欢迎的次级领域,概述最先进的理论结果,称为域适应。在此子场中,假定数据分布在整个培训和测试数据中发生变化,而学习任务保持不变。我们提供了与域适应性问题有关的现有结果的首次最新描述,该结果涵盖了基于不同统计学习框架的学习界限。
translated by 谷歌翻译
部分标签学习是一种弱监督的学习,不精确的标签,在这里,每个训练示例,我们都有一组候选标签而不是一个真正的标签。最近,在候选标签集的不同一代模型下提出了部分标签学习的各种方法。然而,这些方法需要在生成模型上具有相对强烈的分布假设。当假设不保持时,理论上不保证该方法的性能。在本文中,我们提出了部分标签对适用权的概念。我们表明,这种适当的部分标签学习框架包括许多以前的部分标签学习设置作为特殊情况。然后,我们派生了统一的分类风险估计。我们证明我们的估算器是通过获取其估计误差绑定的风险态度。最后,我们通过实验验证了算法的有效性。
translated by 谷歌翻译
We derive upper bounds on the generalization error of a learning algorithm in terms of the mutual information between its input and output. The bounds provide an information-theoretic understanding of generalization in learning problems, and give theoretical guidelines for striking the right balance between data fit and generalization by controlling the input-output mutual information. We propose a number of methods for this purpose, among which are algorithms that regularize the ERM algorithm with relative entropy or with random noise. Our work extends and leads to nontrivial improvements on the recent results of Russo and Zou.
translated by 谷歌翻译
为了减轻二进制分类中培训有效二进制分类器的数据要求,已经提出了许多弱监督的学习设置。其中,当由于隐私,机密性或安全原因无法访问时,使用成对但不是尖标签的一些考虑。然而,作为一对标签表示两个数据点是否共享尖点标签,如果任一点同样可能是正的或负数,则不能容易地收集。因此,在本文中,我们提出了一种名为成对比较(PCOMP)分类的新颖设置,在那里我们只有一对未标记的数据,我们知道一个人比另一个更有可能是积极的。首先,我们提供了PCOMP数据生成过程,通过理论上保证导出了无偏的风险估计器(URE),并进一步提高了URE使用校正功能。其次,我们将PCOMP分类链接到嘈杂的标签学习,通过强加一致性正规化来开发渐进式,并改善它。最后,我们通过实验证明了我们的方法的有效性,这表明PCOMP是一种有价值的,实际上有用的成对监督类型,除了一对标签。
translated by 谷歌翻译
许多实际优化问题涉及不确定的参数,这些参数具有概率分布,可以使用上下文特征信息来估算。与首先估计不确定参数的分布然后基于估计优化目标的标准方法相反,我们提出了一个\ textIt {集成条件估计 - 优化}(ICEO)框架,该框架估计了随机参数的潜在条件分布同时考虑优化问题的结构。我们将随机参数的条件分布与上下文特征之间的关系直接建模,然后以与下游优化问题对齐的目标估算概率模型。我们表明,我们的ICEO方法在适度的规律性条件下渐近一致,并以概括范围的形式提供有限的性能保证。在计算上,使用ICEO方法执行估计是一种非凸面且通常是非差异的优化问题。我们提出了一种通用方法,用于近似从估计的条件分布到通过可区分函数的最佳决策的潜在非差异映射,这极大地改善了应用于非凸问题的基于梯度的算法的性能。我们还提供了半代理案例中的多项式优化解决方案方法。还进行了数值实验,以显示我们在不同情况下的方法的经验成功,包括数据样本和模型不匹配。
translated by 谷歌翻译
预测到优化的框架在许多实际设置中都是基础:预测优化问题的未知参数,然后使用参数的预测值解决该问题。与参数的预测误差相反,在这种环境中的自然损失函数是考虑预测参数引起的决策成本。最近在Elmachtoub和Grigas(2022)中引入了此损失函数,并被称为智能预测 - 优化(SPO)损失。在这项工作中,我们试图提供有关在SPO损失的背景下,预测模型在训练数据中概括的预测模型的性能如何。由于SPO损失是非凸面和非lipschitz,因此不适用推导概括范围的标准结果。我们首先根据natarajan维度得出界限,在多面体可行区域中,在极端点数中最大程度地比对数扩展,但是,在一般凸的可行区域中,对决策维度具有线性依赖性。通过利用SPO损耗函数的结构和可行区域的关键特性,我们将其表示为强度属性,我们可以显着提高对决策和特征维度的依赖。我们的方法和分析依赖于围绕有问题的预测的利润,这些预测不会产生独特的最佳解决方案,然后在修改后的利润率SPO损失函数的背景下提供了概括界限,而SPO损失函数是Lipschitz的连续。最后,我们表征了强度特性,并表明可以有效地计算出具有显式极端表示的强凸体和多面体的修饰的SPO损耗。
translated by 谷歌翻译
我们考虑在对抗环境中的强大学习模型。学习者获得未腐败的培训数据,并访问可能受到测试期间对手影响的可能腐败。学习者的目标是建立一个强大的分类器,该分类器将在未来的对抗示例中进行测试。每个输入的对手仅限于$ k $可能的损坏。我们将学习者 - 对手互动建模为零和游戏。该模型与Schmidt等人的对抗示例模型密切相关。 (2018); Madry等。 (2017)。我们的主要结果包括对二进制和多类分类的概括界限,以及实现的情况(回归)。对于二元分类设置,我们都拧紧Feige等人的概括。 (2015年),也能够处理无限假设类别。样本复杂度从$ o(\ frac {1} {\ epsilon^4} \ log(\ frac {| h |} {\ delta})$ to $ o \ big(\ frac {1} { epsilon^2}(kvc(h)\ log^{\ frac {3} {2}+\ alpha}(kvc(h))+\ log(\ frac {1} {\ delta} {\ delta})\ big)\ big)\ big)$ for任何$ \ alpha> 0 $。此外,我们将算法和概括从二进制限制到多类和真实价值的案例。一路上,我们获得了脂肪震惊的尺寸和$ k $ fold的脂肪的尺寸和Rademacher复杂性的结果最大值的功能类别;这些可能具有独立的兴趣。对于二进制分类,Feige等人(2015年)使用遗憾的最小化算法和Erm Oracle作为黑匣子;我们适应了多类和回归设置。该算法为我们提供了给定培训样本中的球员的近乎最佳政策。
translated by 谷歌翻译
转移学习或域适应性与机器学习问题有关,在这些问题中,培训和测试数据可能来自可能不同的概率分布。在这项工作中,我们在Russo和Xu发起的一系列工作之后,就通用错误和转移学习算法的过量风险进行了信息理论分析。我们的结果也许表明,也许正如预期的那样,kullback-leibler(kl)Divergence $ d(\ mu || \ mu')$在$ \ mu $和$ \ mu'$表示分布的特征中起着重要作用。培训数据和测试测试。具体而言,我们为经验风险最小化(ERM)算法提供了概括误差上限,其中两个分布的数据在训练阶段都可用。我们进一步将分析应用于近似的ERM方法,例如Gibbs算法和随机梯度下降方法。然后,我们概括了与$ \ phi $ -Divergence和Wasserstein距离绑定的共同信息。这些概括导致更紧密的范围,并且在$ \ mu $相对于$ \ mu' $的情况下,可以处理案例。此外,我们应用了一套新的技术来获得替代的上限,该界限为某些学习问题提供了快速(最佳)的学习率。最后,受到派生界限的启发,我们提出了Infoboost算法,其中根据信息测量方法对源和目标数据的重要性权重进行了调整。经验结果表明了所提出的算法的有效性。
translated by 谷歌翻译
在这项工作中,我们调查了Steinke和Zakynthinou(2020)的“条件互信息”(CMI)框架的表现力,以及使用它来提供统一框架,用于在可实现的环境中证明泛化界限。我们首先证明可以使用该框架来表达任何用于从一类界限VC维度输出假设的任何学习算法的非琐碎(但是次优)界限。我们证明了CMI框架在用于学习半个空间的预期风险上产生最佳限制。该结果是我们的一般结果的应用,显示稳定的压缩方案Bousquet al。 (2020)尺寸$ k $有统一有限的命令$ o(k)$。我们进一步表明,适当学习VC类的固有限制与恒定的CMI存在适当的学习者的存在,并且它意味着对Steinke和Zakynthinou(2020)的开放问题的负面分辨率。我们进一步研究了价值最低限度(ERMS)的CMI的级别$ H $,并表明,如果才能使用有界CMI输出所有一致的分类器(版本空间),只有在$ H $具有有界的星号(Hanneke和杨(2015)))。此外,我们证明了一般性的减少,表明“休假”分析通过CMI框架表示。作为推论,我们研究了Haussler等人提出的一包图算法的CMI。 (1994)。更一般地说,我们表明CMI框架是通用的,因为对于每一项一致的算法和数据分布,当且仅当其评估的CMI具有样品的载位增长时,预期的风险就会消失。
translated by 谷歌翻译
Minimax优化已成为许多机器学习(ML)问题的骨干。尽管优化算法的收敛行为已在minimax设置中进行了广泛的研究,但它们在随机环境中的概括保证,即对经验数据训练的解决方案如何在看不见的测试数据上执行,但相对却相对均未被倍增。一个基本问题仍然难以捉摸:研究最小学习者的概括是什么?在本文中,我们的目标是首先证明原始风险是研究最小化中的普遍性的普遍指标,在简单的最小问题示例中失败了。此外,由于鞍点不存在,另一个流行的指标,即原始的双重风险,也无法表征非凸度问题的最小值问题的概括行为。因此,我们提出了一个新的指标,以研究最小学习者的概括:原始差距,以规避这些问题。接下来,我们在非convex-concave设置中得出原始差距的概括范围。作为我们分析的副产品,我们还解决了两个空旷的问题:在强大意义上,建立原始风险和原始偶发风险的概括范围,即没有强大的凹面或假设最大化和期望可以互换,而这些假设中的任何一个都可以互换在文献中需要。最后,我们利用这一新指标比较了两种流行算法的概括行为 - 梯度下降(GDA)和梯度下降 - 最大趋势 - 最小值优化。
translated by 谷歌翻译
训练数据的量是决定学习算法的概括能力的关键因素之一。直观地,人们期望随着训练数据的增加,错误率将降低。也许令人惊讶的是,自然尝试正式化这种直觉引起了有趣且具有挑战性的数学问题。例如,在他们关于模式识别的古典书籍中,Devroye,Gyorfi和Lugosi(1996)询问是否存在{单调}贝叶斯一致的算法。这个问题一直开放25年以上,直到最近Pestov(2021)使用单调贝叶斯一致算法的复杂构造解决了该问题进行二进制分类。我们得出了多类分类的一般结果,表明每个学习算法A都可以转换为具有相似性能的单调。此外,转换是有效的,仅使用黑盒甲骨文访问A。 Loog(2019),Viering and Loog(2021)和Mhammedi(2021)。我们的转换很容易意味着在各种情况下单调学习者:例如,它将Pestov的结果扩展到具有任意数量的标签的分类任务。这与针对二进制分类量身定制的Pestov的工作形成鲜明对比。另外,我们在单调算法的误差上提供统一的边界。这使我们的转换适用于无分销设置。例如,在PAC学习中,这意味着每个可学习的课程都接受单调PAC学习者。这通过Viering,Mey和Loog(2019)解决了问题; Viering and Loog(2021); Mhammedi(2021)。
translated by 谷歌翻译
最近已经建立了近似稳定的学习算法的指数概括范围。但是,统一稳定性的概念是严格的,因为它是数据生成分布不变的。在稳定性的较弱和分布依赖性的概念下,例如假设稳定性和$ L_2 $稳定性,文献表明,在一般情况下,只有多项式概括界限是可能的。本文解决了这两个结果方案之间的长期紧张关系,并在融合信心的经典框架内取得了进步。为此,我们首先建立了一个预测的第一刻,通用错误限制了具有$ l_2 $稳定性的潜在随机学习算法,然后我们证明了一个正确设计的subbagagging流程会导致几乎紧密的指数概括性限制在上面数据和算法的随机性。我们将这些通用结果进一步实质性地将随机梯度下降(SGD)实现,以提高凸或非凸优化的高概率概括性范围,而自然时间衰减的学习速率则可以通过现有的假设稳定性或均匀的假设稳定性来证明这一点。基于稳定的结果。
translated by 谷歌翻译
在本文中,我们介绍了超模块化$ \ mf $ -Diverences,并为它们提供了三个应用程序:(i)我们在基于超模型$ \ MF $ - 基于独立随机变量的尾部引入了Sanov的上限。分歧并表明我们的广义萨诺夫(Sanov)严格改善了普通的界限,(ii)我们考虑了有损耗的压缩问题,该问题研究了给定失真和代码长度的一组可实现的速率。我们使用互助$ \ mf $ - 信息扩展了利率 - 延伸函数,并使用超模块化$ \ mf $ -Diverences在有限的区块长度方面提供了新的,严格的更好的界限,并且(iii)我们提供了连接具有有限输入/输出共同$ \ mf $的算法的概括误差和广义率延伸问题。该连接使我们能够使用速率函数的下限来限制学习算法的概括误差。我们的界限是基于对利率延伸函数的新下限,该函数(对于某些示例)严格改善了以前最著名的界限。此外,使用超模块化$ \ mf $ -Divergences来减少问题的尺寸并获得单字母界限。
translated by 谷歌翻译
We study a natural extension of classical empirical risk minimization, where the hypothesis space is a random subspace of a given space. In particular, we consider possibly data dependent subspaces spanned by a random subset of the data, recovering as a special case Nystrom approaches for kernel methods. Considering random subspaces naturally leads to computational savings, but the question is whether the corresponding learning accuracy is degraded. These statistical-computational tradeoffs have been recently explored for the least squares loss and self-concordant loss functions, such as the logistic loss. Here, we work to extend these results to convex Lipschitz loss functions, that might not be smooth, such as the hinge loss used in support vector machines. This unified analysis requires developing new proofs, that use different technical tools, such as sub-gaussian inputs, to achieve fast rates. Our main results show the existence of different settings, depending on how hard the learning problem is, for which computational efficiency can be improved with no loss in performance.
translated by 谷歌翻译
Privacy-preserving machine learning algorithms are crucial for the increasingly common setting in which personal data, such as medical or financial records, are analyzed. We provide general techniques to produce privacy-preserving approximations of classifiers learned via (regularized) empirical risk minimization (ERM). These algorithms are private under the ǫ-differential privacy definition due to Dwork et al. (2006). First we apply the output perturbation ideas of Dwork et al. (2006), to ERM classification. Then we propose a new method, objective perturbation, for privacy-preserving machine learning algorithm design. This method entails perturbing the objective function before optimizing over classifiers. If the loss and regularizer satisfy certain convexity and differentiability criteria, we prove theoretical results showing that our algorithms preserve privacy, and provide generalization bounds for linear and nonlinear kernels. We further present a privacy-preserving technique for tuning the parameters in general machine learning algorithms, thereby providing end-to-end privacy guarantees for the training process. We apply these results to produce privacy-preserving analogues of regularized logistic regression and support vector machines. We obtain encouraging results from evaluating their performance on real demographic and benchmark data sets. Our results show that both theoretically and empirically, objective perturbation is superior to the previous state-of-the-art, output perturbation, in managing the inherent tradeoff between privacy and learning performance.
translated by 谷歌翻译
我们考虑训练在延迟反馈(\ emph {df Learning})下培训二进制分类器。例如,在在线广告中的转换预测中,我们最初收到单击广告但没有购买商品的负样本;随后,其中一些样本购买了一个物品,然后更改为正面。在DF学习的环境中,我们会随着时间的推移观察样本,然后在某个时候学习分类器。我们最初收到负样本;随后,其中一些样本变为正变为正。在各种现实世界中,例如在线广告,在首次单击后很长时间进行用户操作,可以想象此问题。由于反馈的延迟,正对正和负样品的天真分类返回偏置分类器。一种解决方案是使用已正确标记这些样品的样品超过一定时间窗口的样品。但是,现有研究报告说,仅根据时间窗口假设使用所有样本的子集的性能不佳,并且使用所有样本以及时间窗口假设可以提高经验性能。我们扩展了这些现有研究,并提出了一种具有无偏见和凸经验风险的方法,该方法是根据时间窗口假设在所有样本中构建的。为了证明所提出的方法的合理性,我们为在线广告中的真实流量日志数据集提供了合成和开放数据集的实验结果。
translated by 谷歌翻译
在监督的学习中,获得大量全标记的培训数据很昂贵。我们表明,我们并不总是需要关于每个培训示例的完整标签信息来培训合格的分类器。具体而言,受统计原则的启发,我们提出了完全标记的培训集的统计量(摘要),该培训集几乎捕获了分类的所有相关信息,但同时更容易直接获得。我们称此统计数据为“足够标记的数据”,并证明其足够的和效率可以找到最佳的隐藏表示形式,可以在其中使用少量随机选择的单个随机选择的全标签示例,可以在其中训练有效的分类器头。可以直接从注释者获得足够标记的数据,而无需首先收集完全标记的数据。我们证明,与获得完全标记的数据相比,直接获得足够标记的数据要容易得多。此外,足够标记的数据自然更加安全,因为它存储了相对而不是绝对的信息。提供广泛的实验结果以支持我们的理论。
translated by 谷歌翻译
数据增强在大型神经网络的培训中很受欢迎;但是,目前,关于如何使用增强数据的不同算法选择之间没有明确的理论比较。在本文中,我们朝这个方向迈出了一步 - 我们首先提出了对线性回归的简单新颖的分析,该分析具有标签不变性增强,这表明数据增强一致性(DAC)本质上比对增强数据的经验风险最小化更为有效(DA- erm)。然后将分析扩展到误指定的增强(即更改标签的增强),这再次证明了DAC比DA-MERM的优点。此外,我们将分析扩展到非线性模型(例如神经网络)并呈现泛化范围。最后,我们使用CIFAR-100和WIDERESNET进行DAC和DA-MER之间的DAC和DA-MER之间进行干净和苹果对比较的实验;这些共同证明了DAC的效果。
translated by 谷歌翻译
可实现和不可知性的可读性的等价性是学习理论的基本现象。与PAC学习和回归等古典设置范围的变种,近期趋势,如对冲强劲和私人学习,我们仍然缺乏统一理论;等同性的传统证据往往是不同的,并且依赖于强大的模型特异性假设,如统一的收敛和样本压缩。在这项工作中,我们给出了第一个独立的框架,解释了可实现和不可知性的可读性的等价性:三行黑箱减少简化,统一,并在各种各样的环境中扩展了我们的理解。这包括没有已知的学报的模型,例如学习任意分布假设或一般损失,以及许多其他流行的设置,例如强大的学习,部分学习,公平学习和统计查询模型。更一般地,我们认为可实现和不可知的学习的等价性实际上是我们调用属性概括的更广泛现象的特殊情况:可以满足有限的学习算法(例如\噪声公差,隐私,稳定性)的任何理想性质假设类(可能在某些变化中)延伸到任何学习的假设类。
translated by 谷歌翻译