We first prove that Littlestone classes, those which model theorists call stable, characterize learnability in a new statistical model: a learner in this new setting outputs the same hypothesis, up to measure zero, with probability one, after a uniformly bounded number of revisions. This fills a certain gap in the literature, and sets the stage for an approximation theorem characterizing Littlestone classes in terms of a range of learning models, by analogy to definability of types in model theory. We then give a complete analogue of Shelah's celebrated (and perhaps a priori untranslatable) Unstable Formula Theorem in the learning setting, with algorithmic arguments taking the place of the infinite.
translated by 谷歌翻译
可实现和不可知性的可读性的等价性是学习理论的基本现象。与PAC学习和回归等古典设置范围的变种,近期趋势,如对冲强劲和私人学习,我们仍然缺乏统一理论;等同性的传统证据往往是不同的,并且依赖于强大的模型特异性假设,如统一的收敛和样本压缩。在这项工作中,我们给出了第一个独立的框架,解释了可实现和不可知性的可读性的等价性:三行黑箱减少简化,统一,并在各种各样的环境中扩展了我们的理解。这包括没有已知的学报的模型,例如学习任意分布假设或一般损失,以及许多其他流行的设置,例如强大的学习,部分学习,公平学习和统计查询模型。更一般地,我们认为可实现和不可知的学习的等价性实际上是我们调用属性概括的更广泛现象的特殊情况:可以满足有限的学习算法(例如\噪声公差,隐私,稳定性)的任何理想性质假设类(可能在某些变化中)延伸到任何学习的假设类。
translated by 谷歌翻译
我们证明,Littlestone Dimension $ d $的每一个在线学习的功能都可以接受具有有限信息复杂性的学习算法。为此,我们使用了全球稳定算法的概念。通常,这种全球稳定算法的信息复杂性是大但有限的,大致在$ d $中。我们还显示有改进的空间;对于规范的在线学习类,尺寸$ d $的仿射子空间的指标函数,信息复杂性可以在$ d $中以上对数。
translated by 谷歌翻译
给定真实的假设类$ \ mathcal {h} $,我们在什么条件下调查有一个差异的私有算法,它从$ \ mathcal {h} $给出的最佳假设.I.i.d.数据。灵感来自最近的成果的二进制分类的相关环境(Alon等,2019; Bun等,2020),其中显示了二进制类的在线学习是必要的,并且足以追随其私人学习,Jung等人。 (2020)显示,在回归的设置中,$ \ mathcal {h} $的在线学习是私人可读性所必需的。这里的在线学习$ \ mathcal {h} $的特点是其$ \ eta $-sequentient胖胖子的优势,$ {\ rm sfat} _ \ eta(\ mathcal {h})$,适用于所有$ \ eta> 0 $。就足够的私人学习条件而言,Jung等人。 (2020)显示$ \ mathcal {h} $私下学习,如果$ \ lim _ {\ eta \ downarrow 0} {\ rm sfat} _ \ eta(\ mathcal {h})$是有限的,这是一个相当限制的健康)状况。我们展示了在轻松的条件下,\ LIM \ INF _ {\ eta \ downarrow 0} \ eta \ cdot {\ rm sfat} _ \ eta(\ mathcal {h})= 0 $,$ \ mathcal {h} $私人学习,为\ \ rm sfat} _ \ eta(\ mathcal {h})$ \ eta \ dockarrow 0 $ divering建立第一个非参数私人学习保证。我们的技术涉及一种新颖的过滤过程,以输出非参数函数类的稳定假设。
translated by 谷歌翻译
学习曲线将学习算法的预期误差绘制为标记输入样本数量的函数。它们被机器学习实践者广泛使用,以衡量算法的性能,但是经典的PAC学习理论无法解释其行为。在本文中,我们介绍了一种称为VCL维度的新组合表征,该表征改进并完善了Bousquet等人的最新结果。 (2021)。我们的表征通过提供细粒度的边界来展示学习曲线的结构,并表明对于有限VCL的类,可以将衰减的速率分解为仅取决于假设类别和指数成分的线性组件,该成分是指数的成分。还取决于目标分布。特别是,VCL维度的细微差别意味着比Bousquet等人的边界更强大的下限。 (2021年),比经典的“无免费午餐”下界强。 VCL表征解决了Antos and Lugosi(1998)研究的一个开放问题,他们询问在哪些情况下存在这种下限。作为推论,我们在$ \ mathbb {r}^d $中恢复了其下限,并以原则性的方式也适用于其他情况。最后,为了对我们的工作以及与传统PAC学习界的比较提供另一个观点,我们还以一种更接近PAC环境的语言展示了结果的替代表述。
translated by 谷歌翻译
Boosting是一种著名的机器学习方法,它基于将弱和适度不准确假设与强烈而准确的假设相结合的想法。我们研究了弱假设属于界限能力类别的假设。这个假设的灵感来自共同的惯例,即虚弱的假设是“易于学习的类别”中的“人数规则”。 (Schapire和Freund〜 '12,Shalev-Shwartz和Ben-David '14。)正式,我们假设弱假设类别具有有界的VC维度。我们关注两个主要问题:(i)甲骨文的复杂性:产生准确的假设需要多少个弱假设?我们设计了一种新颖的增强算法,并证明它绕过了由Freund和Schapire('95,'12)的经典下限。虽然下限显示$ \ omega({1}/{\ gamma^2})$弱假设有时是必要的,而有时则需要使用$ \ gamma $ -margin,但我们的新方法仅需要$ \ tilde {o}({1})({1}) /{\ gamma})$弱假设,前提是它们属于一类有界的VC维度。与以前的增强算法以多数票汇总了弱假设的算法不同,新的增强算法使用了更复杂(“更深”)的聚合规则。我们通过表明复杂的聚合规则实际上是规避上述下限是必要的,从而补充了这一结果。 (ii)表现力:通过提高有限的VC类的弱假设可以学习哪些任务?可以学到“遥远”的复杂概念吗?为了回答第一个问题,我们{介绍组合几何参数,这些参数捕获增强的表现力。}作为推论,我们为认真的班级的第二个问题提供了肯定的答案,包括半空间和决策树桩。一路上,我们建立并利用差异理论的联系。
translated by 谷歌翻译
Learning problems form an important category of computational tasks that generalizes many of the computations researchers apply to large real-life data sets. We ask: what concept classes can be learned privately, namely, by an algorithm whose output does not depend too heavily on any one input or specific training example? More precisely, we investigate learning algorithms that satisfy differential privacy, a notion that provides strong confidentiality guarantees in contexts where aggregate information is released about a database containing sensitive information about individuals.Our goal is a broad understanding of the resources required for private learning in terms of samples, computation time, and interaction. We demonstrate that, ignoring computational constraints, it is possible to privately agnostically learn any concept class using a sample size approximately logarithmic in the cardinality of the concept class. Therefore, almost anything learnable is learnable privately: specifically, if a concept class is learnable by a (non-private) algorithm with polynomial sample complexity and output size, then it can be learned privately using a polynomial number of samples. We also present a computationally efficient private PAC learner for the class of parity functions. This result dispels the similarity between learning with noise and private learning (both must be robust to small changes in inputs), since parity is thought to be very hard to learn given random classification noise.Local (or randomized response) algorithms are a practical class of private algorithms that have received extensive investigation. We provide a precise characterization of local private learning algorithms. We show that a concept class is learnable by a local algorithm if and only if it is learnable in the statistical query (SQ) model. Therefore, for local private learning algorithms, the similarity to learning with noise is stronger: local learning is equivalent to SQ learning, and SQ algorithms include most known noise-tolerant learning algorithms. Finally, we present a separation between the power of interactive and noninteractive local learning algorithms. Because of the equivalence to SQ learning, this result also separates adaptive and nonadaptive SQ learning.
translated by 谷歌翻译
A classical result in learning theory shows the equivalence of PAC learnability of binary hypothesis classes and the finiteness of VC dimension. Extending this to the multiclass setting was an open problem, which was settled in a recent breakthrough result characterizing multiclass PAC learnability via the DS dimension introduced earlier by Daniely and Shalev-Shwartz. In this work we consider list PAC learning where the goal is to output a list of $k$ predictions. List learning algorithms have been developed in several settings before and indeed, list learning played an important role in the recent characterization of multiclass learnability. In this work we ask: when is it possible to $k$-list learn a hypothesis class? We completely characterize $k$-list learnability in terms of a generalization of DS dimension that we call the $k$-DS dimension. Generalizing the recent characterization of multiclass learnability, we show that a hypothesis class is $k$-list learnable if and only if the $k$-DS dimension is finite.
translated by 谷歌翻译
在这项工作中,我们调查了Steinke和Zakynthinou(2020)的“条件互信息”(CMI)框架的表现力,以及使用它来提供统一框架,用于在可实现的环境中证明泛化界限。我们首先证明可以使用该框架来表达任何用于从一类界限VC维度输出假设的任何学习算法的非琐碎(但是次优)界限。我们证明了CMI框架在用于学习半个空间的预期风险上产生最佳限制。该结果是我们的一般结果的应用,显示稳定的压缩方案Bousquet al。 (2020)尺寸$ k $有统一有限的命令$ o(k)$。我们进一步表明,适当学习VC类的固有限制与恒定的CMI存在适当的学习者的存在,并且它意味着对Steinke和Zakynthinou(2020)的开放问题的负面分辨率。我们进一步研究了价值最低限度(ERMS)的CMI的级别$ H $,并表明,如果才能使用有界CMI输出所有一致的分类器(版本空间),只有在$ H $具有有界的星号(Hanneke和杨(2015)))。此外,我们证明了一般性的减少,表明“休假”分析通过CMI框架表示。作为推论,我们研究了Haussler等人提出的一包图算法的CMI。 (1994)。更一般地说,我们表明CMI框架是通用的,因为对于每一项一致的算法和数据分布,当且仅当其评估的CMI具有样品的载位增长时,预期的风险就会消失。
translated by 谷歌翻译
我们建立了量子算法设计与电路下限之间的第一一般连接。具体来说,让$ \ mathfrak {c} $是一类多项式大小概念,假设$ \ mathfrak {c} $可以在统一分布下的成员查询,错误$ 1/2 - \ gamma $通过时间$ t $量子算法。我们证明如果$ \ gamma ^ 2 \ cdot t \ ll 2 ^ n / n $,则$ \ mathsf {bqe} \ nsubseteq \ mathfrak {c} $,其中$ \ mathsf {bqe} = \ mathsf {bque} [2 ^ {o(n)}] $是$ \ mathsf {bqp} $的指数时间模拟。在$ \ gamma $和$ t $中,此结果是最佳的,因为它不难学习(经典)时间$ t = 2 ^ n $(没有错误) ,或在Quantum Time $ t = \ mathsf {poly}(n)$以傅立叶采样为单位为1/2美元(2 ^ { - n / 2})$。换句话说,即使对这些通用学习算法的边际改善也会导致复杂性理论的主要后果。我们的证明在学习理论,伪随机性和计算复杂性的几个作品上构建,并且至关重要地,在非凡的经典学习算法与由Oliveira和Santhanam建立的电路下限之间的联系(CCC 2017)。扩展他们对量子学习算法的方法,结果产生了重大挑战。为此,我们展示了伪随机发电机如何以通用方式意味着学习到较低的连接,构建针对均匀量子计算的第一个条件伪随机发生器,并扩展了Impagliazzo,JaiSwal的本地列表解码算法。 ,Kabanets和Wigderson(Sicomp 2010)通过微妙的分析到量子电路。我们认为,这些贡献是独立的兴趣,可能会发现其他申请。
translated by 谷歌翻译
我们研究了非参数在线回归中的快速收敛速度,即遗憾的是关于具有有界复杂度的任意函数类来定义后悔。我们的贡献是两倍: - 在绝对损失中的非参数网上回归的可实现设置中,我们提出了一种随机适当的学习算法,该算法在假设类的顺序脂肪破碎尺寸方面获得了近乎最佳的错误。在与一类Littlestone维度$ D $的在线分类中,我们的绑定减少到$ d \ cdot {\ rm poly} \ log t $。这结果回答了一个问题,以及适当的学习者是否可以实现近乎最佳错误的界限;以前,即使在线分类,绑定的最知名错误也是$ \ tilde o(\ sqrt {dt})$。此外,对于真实值(回归)设置,在这项工作之前,界定的最佳错误甚至没有以不正当的学习者所知。 - 使用上述结果,我们展示了Littlestone维度$ D $的一般总和二进制游戏的独立学习算法,每个玩家达到后悔$ \ tilde o(d ^ {3/4} \ cdot t ^ {1 / 4})$。该结果概括了Syrgkanis等人的类似结果。 (2015)谁表明,在有限的游戏中,最佳遗憾可以从普通的o(\ sqrt {t})$中的$ o(\ sqrt {t})为游戏设置中的$ o(t ^ {1/4})$。要建立上述结果,我们介绍了几种新技术,包括:分层聚合规则,以实现对实际类别的最佳错误,Hanneke等人的适当在线可实现学习者的多尺度扩展。 (2021),一种方法来表明这种非参数学习算法的输出是稳定的,并且证明Minimax定理在所有在线学习游戏中保持。
translated by 谷歌翻译
训练数据的量是决定学习算法的概括能力的关键因素之一。直观地,人们期望随着训练数据的增加,错误率将降低。也许令人惊讶的是,自然尝试正式化这种直觉引起了有趣且具有挑战性的数学问题。例如,在他们关于模式识别的古典书籍中,Devroye,Gyorfi和Lugosi(1996)询问是否存在{单调}贝叶斯一致的算法。这个问题一直开放25年以上,直到最近Pestov(2021)使用单调贝叶斯一致算法的复杂构造解决了该问题进行二进制分类。我们得出了多类分类的一般结果,表明每个学习算法A都可以转换为具有相似性能的单调。此外,转换是有效的,仅使用黑盒甲骨文访问A。 Loog(2019),Viering and Loog(2021)和Mhammedi(2021)。我们的转换很容易意味着在各种情况下单调学习者:例如,它将Pestov的结果扩展到具有任意数量的标签的分类任务。这与针对二进制分类量身定制的Pestov的工作形成鲜明对比。另外,我们在单调算法的误差上提供统一的边界。这使我们的转换适用于无分销设置。例如,在PAC学习中,这意味着每个可学习的课程都接受单调PAC学习者。这通过Viering,Mey和Loog(2019)解决了问题; Viering and Loog(2021); Mhammedi(2021)。
translated by 谷歌翻译
We construct a universally Bayes consistent learning rule that satisfies differential privacy (DP). We first handle the setting of binary classification and then extend our rule to the more general setting of density estimation (with respect to the total variation metric). The existence of a universally consistent DP learner reveals a stark difference with the distribution-free PAC model. Indeed, in the latter DP learning is extremely limited: even one-dimensional linear classifiers are not privately learnable in this stringent model. Our result thus demonstrates that by allowing the learning rate to depend on the target distribution, one can circumvent the above-mentioned impossibility result and in fact, learn \emph{arbitrary} distributions by a single DP algorithm. As an application, we prove that any VC class can be privately learned in a semi-supervised setting with a near-optimal \emph{labeled} sample complexity of $\tilde{O}(d/\varepsilon)$ labeled examples (and with an unlabeled sample complexity that can depend on the target distribution).
translated by 谷歌翻译
差异隐私通常使用比理论更大的隐私参数应用于理想的理想。已经提出了宽大隐私参数的各种非正式理由。在这项工作中,我们考虑了部分差异隐私(DP),该隐私允许以每个属性为基础量化隐私保证。在此框架中,我们研究了几个基本数据分析和学习任务,并设计了其每个属性隐私参数的算法,其较小的人(即所有属性)的最佳隐私参数比最佳的隐私参数。
translated by 谷歌翻译
使用差异隐私(DP)学习的大多数工作都集中在每个用户具有单个样本的设置上。在这项工作中,我们考虑每个用户持有M $ Samples的设置,并且在每个用户数据的级别强制执行隐私保护。我们展示了,在这个设置中,我们可以学习少数用户。具体而言,我们表明,只要每个用户收到足够多的样本,我们就可以通过$(\ epsilon,\ delta)$ - dp算法使用$ o(\ log(1 / \ delta)来学习任何私人学习的课程/ \ epsilon)$用户。对于$ \ epsilon $ -dp算法,我们展示我们即使在本地模型中也可以使用$ o _ {\ epsilon}(d)$用户学习,其中$ d $是概率表示维度。在这两种情况下,我们在所需用户数量上显示了几乎匹配的下限。我们的结果的一个关键组成部分是全局稳定性的概括[Bun等,Focs 2020]允许使用公共随机性。在这种轻松的概念下,我们采用相关的采样策略来表明全局稳定性可以在样品数量的多项式牺牲中被提升以任意接近一个。
translated by 谷歌翻译
我们为在测试时间内对对抗性示例进行了学习预测的问题,为学习预测的问题提供了最小的最佳学习者。有趣的是,我们发现这需要新的算法思想和方法来实现对抗性的学习。特别是,我们从强烈的负面意义上表明,蒙塔瑟(Montasser),Hanneke和Srebro(2019)提出的强大学习者的次级临时性以及我们确定为本地学习者的更广泛的学习者。我们的结果是通过通过关键技术贡献采用全球视角来实现的:可能具有独立利益的全球单包含图,它概括了由于Haussler,Littlestone和Warminguth引起的经典单包含图(1994年)(1994年) )。最后,作为副产品,我们确定了一个定性和定量表征哪些类别的预测因子$ \ mathcal {h} $的维度。由于Montasser等人,这解决了一个空旷的问题。 (2019年),并在固定稳健学习的样品复杂性上,在已建立的上限和下限之间结束了一个(潜在的)无限差距。
translated by 谷歌翻译
所有著名的机器学习算法构成了受监督和半监督的学习工作,只有在一个共同的假设下:培训和测试数据遵循相同的分布。当分布变化时,大多数统计模型必须从新收集的数据中重建,对于某些应用程序,这些数据可能是昂贵或无法获得的。因此,有必要开发方法,以减少在相关领域中可用的数据并在相似领域中进一步使用这些数据,从而减少需求和努力获得新的标签样品。这引起了一个新的机器学习框架,称为转移学习:一种受人类在跨任务中推断知识以更有效学习的知识能力的学习环境。尽管有大量不同的转移学习方案,但本调查的主要目的是在特定的,可以说是最受欢迎的转移学习中最受欢迎的次级领域,概述最先进的理论结果,称为域适应。在此子场中,假定数据分布在整个培训和测试数据中发生变化,而学习任务保持不变。我们提供了与域适应性问题有关的现有结果的首次最新描述,该结果涵盖了基于不同统计学习框架的学习界限。
translated by 谷歌翻译
我们研究了Agarwal等人介绍的可计算PAC(CPAC)学习。(2020)。首先,我们考虑了发现正确和不当CPAC学习的特征的主要开放问题。我们给出了强大CPAC学习密切相关的概念的特征,并为Agarwal等人提出的柯尔特开放问题提供了负面答案。(2021)所有可决定的VC类是否都是不适当的CPAC。其次,我们考虑(可计算)PAC可学习性的不可证明性。我们给出了一个简单的一般论点来表现出这种方法,并开始研究可学习性的算术复杂性。我们简要讨论了Ben-David等人的不可证明性结果的关系。(2019年),这激发了Agarwal等人的工作。
translated by 谷歌翻译
公司跨行业对机器学习(ML)的快速传播采用了重大的监管挑战。一个这样的挑战就是可伸缩性:监管机构如何有效地审核这些ML模型,以确保它们是公平的?在本文中,我们启动基于查询的审计算法的研究,这些算法可以以查询有效的方式估算ML模型的人口统计学率。我们提出了一种最佳的确定性算法,以及具有可比保证的实用随机,甲骨文效率的算法。此外,我们进一步了解了随机活动公平估计算法的最佳查询复杂性。我们对主动公平估计的首次探索旨在将AI治理置于更坚定的理论基础上。
translated by 谷歌翻译
The one-inclusion graph algorithm of Haussler, Littlestone, and Warmuth achieves an optimal in-expectation risk bound in the standard PAC classification setup. In one of the first COLT open problems, Warmuth conjectured that this prediction strategy always implies an optimal high probability bound on the risk, and hence is also an optimal PAC algorithm. We refute this conjecture in the strongest sense: for any practically interesting Vapnik-Chervonenkis class, we provide an in-expectation optimal one-inclusion graph algorithm whose high probability risk bound cannot go beyond that implied by Markov's inequality. Our construction of these poorly performing one-inclusion graph algorithms uses Varshamov-Tenengolts error correcting codes. Our negative result has several implications. First, it shows that the same poor high-probability performance is inherited by several recent prediction strategies based on generalizations of the one-inclusion graph algorithm. Second, our analysis shows yet another statistical problem that enjoys an estimator that is provably optimal in expectation via a leave-one-out argument, but fails in the high-probability regime. This discrepancy occurs despite the boundedness of the binary loss for which arguments based on concentration inequalities often provide sharp high probability risk bounds.
translated by 谷歌翻译