判别特征反馈是Dastupta等人提出的设置。 (2018年),该协议提供了基于人类老师提供的功能解释的交互式学习协议。这些功能区分了可能类似实例对的标签。这项工作表明,在基于标准标签的交互式学习模型中,在此模型中学习可以具有相当大的统计和计算优势。在这项工作中,我们为判别特征反馈模型提供了新的鲁棒交互式学习算法,其错误界限明显低于此设置的以前可靠算法。在对抗性环境中,我们减少了对协议异常数量的依赖性,从二次到线性。此外,我们为稍微受到限制的模型提供了一种算法,该算法在大型模型中获得了一个甚至较小的错误,但许多例外。在随机环境中,我们提供了第一种算法,该算法以多项式样本复杂性收敛到异常速率。我们对随机设置的算法和分析涉及我们称之为特征影响的新结构,这可能是更广泛的适用性。
translated by 谷歌翻译
我们研究了在观察环境中贝叶斯网络的主动结构学习,其中可以从同一样本中观察到可变值数量的外部限制。随机样品是从网络变量的关节分布中得出的,算法迭代选择了在下一个样本中观察的变量。我们为此设置提出了一种新的主​​动学习算法,该算法的概率很高,其得分为$ \ epsilon $ -Close的结构达到了最佳分数。我们表明,对于我们称为稳定的一类分布,可以获得示例复杂性降低到$ \ widetilde {\ omega}(d^3)$,其中$ d $是网络变量的数量,其中$ d $是。我们进一步表明,在最坏的情况下,积极算法的样品复杂性保证与天真基线算法的样本复杂性几乎相同。为了补充理论结果,我们报告了将新活性算法与天真基线的性能进行比较的实验,并证明了样品复杂性的改善。在https://github.com/noabdavid/activebnsl上提供了算法和实验的代码。
translated by 谷歌翻译
Boosting是一种著名的机器学习方法,它基于将弱和适度不准确假设与强烈而准确的假设相结合的想法。我们研究了弱假设属于界限能力类别的假设。这个假设的灵感来自共同的惯例,即虚弱的假设是“易于学习的类别”中的“人数规则”。 (Schapire和Freund〜 '12,Shalev-Shwartz和Ben-David '14。)正式,我们假设弱假设类别具有有界的VC维度。我们关注两个主要问题:(i)甲骨文的复杂性:产生准确的假设需要多少个弱假设?我们设计了一种新颖的增强算法,并证明它绕过了由Freund和Schapire('95,'12)的经典下限。虽然下限显示$ \ omega({1}/{\ gamma^2})$弱假设有时是必要的,而有时则需要使用$ \ gamma $ -margin,但我们的新方法仅需要$ \ tilde {o}({1})({1}) /{\ gamma})$弱假设,前提是它们属于一类有界的VC维度。与以前的增强算法以多数票汇总了弱假设的算法不同,新的增强算法使用了更复杂(“更深”)的聚合规则。我们通过表明复杂的聚合规则实际上是规避上述下限是必要的,从而补充了这一结果。 (ii)表现力:通过提高有限的VC类的弱假设可以学习哪些任务?可以学到“遥远”的复杂概念吗?为了回答第一个问题,我们{介绍组合几何参数,这些参数捕获增强的表现力。}作为推论,我们为认真的班级的第二个问题提供了肯定的答案,包括半空间和决策树桩。一路上,我们建立并利用差异理论的联系。
translated by 谷歌翻译
我们考虑在对抗环境中的强大学习模型。学习者获得未腐败的培训数据,并访问可能受到测试期间对手影响的可能腐败。学习者的目标是建立一个强大的分类器,该分类器将在未来的对抗示例中进行测试。每个输入的对手仅限于$ k $可能的损坏。我们将学习者 - 对手互动建模为零和游戏。该模型与Schmidt等人的对抗示例模型密切相关。 (2018); Madry等。 (2017)。我们的主要结果包括对二进制和多类分类的概括界限,以及实现的情况(回归)。对于二元分类设置,我们都拧紧Feige等人的概括。 (2015年),也能够处理无限假设类别。样本复杂度从$ o(\ frac {1} {\ epsilon^4} \ log(\ frac {| h |} {\ delta})$ to $ o \ big(\ frac {1} { epsilon^2}(kvc(h)\ log^{\ frac {3} {2}+\ alpha}(kvc(h))+\ log(\ frac {1} {\ delta} {\ delta})\ big)\ big)\ big)$ for任何$ \ alpha> 0 $。此外,我们将算法和概括从二进制限制到多类和真实价值的案例。一路上,我们获得了脂肪震惊的尺寸和$ k $ fold的脂肪的尺寸和Rademacher复杂性的结果最大值的功能类别;这些可能具有独立的兴趣。对于二进制分类,Feige等人(2015年)使用遗憾的最小化算法和Erm Oracle作为黑匣子;我们适应了多类和回归设置。该算法为我们提供了给定培训样本中的球员的近乎最佳政策。
translated by 谷歌翻译
我们研究了非参数在线回归中的快速收敛速度,即遗憾的是关于具有有界复杂度的任意函数类来定义后悔。我们的贡献是两倍: - 在绝对损失中的非参数网上回归的可实现设置中,我们提出了一种随机适当的学习算法,该算法在假设类的顺序脂肪破碎尺寸方面获得了近乎最佳的错误。在与一类Littlestone维度$ D $的在线分类中,我们的绑定减少到$ d \ cdot {\ rm poly} \ log t $。这结果回答了一个问题,以及适当的学习者是否可以实现近乎最佳错误的界限;以前,即使在线分类,绑定的最知名错误也是$ \ tilde o(\ sqrt {dt})$。此外,对于真实值(回归)设置,在这项工作之前,界定的最佳错误甚至没有以不正当的学习者所知。 - 使用上述结果,我们展示了Littlestone维度$ D $的一般总和二进制游戏的独立学习算法,每个玩家达到后悔$ \ tilde o(d ^ {3/4} \ cdot t ^ {1 / 4})$。该结果概括了Syrgkanis等人的类似结果。 (2015)谁表明,在有限的游戏中,最佳遗憾可以从普通的o(\ sqrt {t})$中的$ o(\ sqrt {t})为游戏设置中的$ o(t ^ {1/4})$。要建立上述结果,我们介绍了几种新技术,包括:分层聚合规则,以实现对实际类别的最佳错误,Hanneke等人的适当在线可实现学习者的多尺度扩展。 (2021),一种方法来表明这种非参数学习算法的输出是稳定的,并且证明Minimax定理在所有在线学习游戏中保持。
translated by 谷歌翻译
A classical result in learning theory shows the equivalence of PAC learnability of binary hypothesis classes and the finiteness of VC dimension. Extending this to the multiclass setting was an open problem, which was settled in a recent breakthrough result characterizing multiclass PAC learnability via the DS dimension introduced earlier by Daniely and Shalev-Shwartz. In this work we consider list PAC learning where the goal is to output a list of $k$ predictions. List learning algorithms have been developed in several settings before and indeed, list learning played an important role in the recent characterization of multiclass learnability. In this work we ask: when is it possible to $k$-list learn a hypothesis class? We completely characterize $k$-list learnability in terms of a generalization of DS dimension that we call the $k$-DS dimension. Generalizing the recent characterization of multiclass learnability, we show that a hypothesis class is $k$-list learnable if and only if the $k$-DS dimension is finite.
translated by 谷歌翻译
可实现和不可知性的可读性的等价性是学习理论的基本现象。与PAC学习和回归等古典设置范围的变种,近期趋势,如对冲强劲和私人学习,我们仍然缺乏统一理论;等同性的传统证据往往是不同的,并且依赖于强大的模型特异性假设,如统一的收敛和样本压缩。在这项工作中,我们给出了第一个独立的框架,解释了可实现和不可知性的可读性的等价性:三行黑箱减少简化,统一,并在各种各样的环境中扩展了我们的理解。这包括没有已知的学报的模型,例如学习任意分布假设或一般损失,以及许多其他流行的设置,例如强大的学习,部分学习,公平学习和统计查询模型。更一般地,我们认为可实现和不可知的学习的等价性实际上是我们调用属性概括的更广泛现象的特殊情况:可以满足有限的学习算法(例如\噪声公差,隐私,稳定性)的任何理想性质假设类(可能在某些变化中)延伸到任何学习的假设类。
translated by 谷歌翻译
我们研究了算法收到I.I.D的统计问题中对抗噪声模型的基本问题。从分发$ \ mathcal {d} $绘制。这些对手的定义指定了允许的损坏类型(噪声模型)以及可以进行这些损坏(适应性);后者区别了唯一可以损坏分发$ \ mathcal {d} $和适应性对手的疏忽,这些对手可以损坏他们的腐败依赖于从$ \ mathcal {d} $绘制的特定样本$ s $。在这项工作中,我们调查了在文献中研究的所有噪声模型中是否有效地相当于自适应对手。具体而言,算法$ \ mathcal {a} $的行为可以在不受算法$ \ mathcal {a}'$的情况下始终受到适应性对手的存在的良好近似?我们的第一个结果表明,这确实是在所有合理的噪声模型下广泛的统计查询算法的情况。然后,我们显示在附加噪声的具体情况下,这种等价物适用于所有算法。最后,我们将所有算法和所有合理的噪声模型中的最丰富的一般性映射到最完整的普遍性的方法。
translated by 谷歌翻译
A major problem in machine learning is that of inductive bias: how to choose a learner's hypothesis space so that it is large enough to contain a solution to the problem being learnt, yet small enough to ensure reliable generalization from reasonably-sized training sets. Typically such bias is supplied by hand through the skill and insights of experts. In this paper a model for automatically learning bias is investigated. The central assumption of the model is that the learner is embedded within an environment of related learning tasks. Within such an environment the learner can sample from multiple tasks, and hence it can search for a hypothesis space that contains good solutions to many of the problems in the environment. Under certain restrictions on the set of all hypothesis spaces available to the learner, we show that a hypothesis space that performs well on a sufficiently large number of training tasks will also perform well when learning novel tasks in the same environment. Explicit bounds are also derived demonstrating that learning multiple tasks within an environment of related tasks can potentially give much better generalization than learning a single task.
translated by 谷歌翻译
多集团不可知学习是一个正式的学习标准,涉及人口亚组内的预测因子的条件风险。标准解决了最近的实际问题,如亚组公平和隐藏分层。本文研究了对多组学习问题的解决方案的结构,为学习问题提供了简单和近最佳的算法。
translated by 谷歌翻译
Recently, Robey et al. propose a notion of probabilistic robustness, which, at a high-level, requires a classifier to be robust to most but not all perturbations. They show that for certain hypothesis classes where proper learning under worst-case robustness is \textit{not} possible, proper learning under probabilistic robustness \textit{is} possible with sample complexity exponentially smaller than in the worst-case robustness setting. This motivates the question of whether proper learning under probabilistic robustness is always possible. In this paper, we show that this is \textit{not} the case. We exhibit examples of hypothesis classes $\mathcal{H}$ with finite VC dimension that are \textit{not} probabilistically robustly PAC learnable with \textit{any} proper learning rule. However, if we compare the output of the learner to the best hypothesis for a slightly \textit{stronger} level of probabilistic robustness, we show that not only is proper learning \textit{always} possible, but it is possible via empirical risk minimization.
translated by 谷歌翻译
经典的算法adaboost允许转换一个弱学习者,这是一种算法,它产生的假设比机会略好,成为一个强大的学习者,在获得足够的培训数据时,任意高精度。我们提出了一种新的算法,该算法从弱学习者中构建了一个强大的学习者,但比Adaboost和所有其他弱者到强大的学习者使用训练数据少,以实现相同的概括界限。样本复杂性下限表明我们的新算法使用最小可能的训练数据,因此是最佳的。因此,这项工作解决了从弱学习者中构建强大学习者的经典问题的样本复杂性。
translated by 谷歌翻译
在这项工作中,我们调查了Steinke和Zakynthinou(2020)的“条件互信息”(CMI)框架的表现力,以及使用它来提供统一框架,用于在可实现的环境中证明泛化界限。我们首先证明可以使用该框架来表达任何用于从一类界限VC维度输出假设的任何学习算法的非琐碎(但是次优)界限。我们证明了CMI框架在用于学习半个空间的预期风险上产生最佳限制。该结果是我们的一般结果的应用,显示稳定的压缩方案Bousquet al。 (2020)尺寸$ k $有统一有限的命令$ o(k)$。我们进一步表明,适当学习VC类的固有限制与恒定的CMI存在适当的学习者的存在,并且它意味着对Steinke和Zakynthinou(2020)的开放问题的负面分辨率。我们进一步研究了价值最低限度(ERMS)的CMI的级别$ H $,并表明,如果才能使用有界CMI输出所有一致的分类器(版本空间),只有在$ H $具有有界的星号(Hanneke和杨(2015)))。此外,我们证明了一般性的减少,表明“休假”分析通过CMI框架表示。作为推论,我们研究了Haussler等人提出的一包图算法的CMI。 (1994)。更一般地说,我们表明CMI框架是通用的,因为对于每一项一致的算法和数据分布,当且仅当其评估的CMI具有样品的载位增长时,预期的风险就会消失。
translated by 谷歌翻译
在这项工作中,我们研究了鲁布利地学习Mallows模型的问题。我们给出了一种算法,即使其样本的常数分数是任意损坏的恒定分数,也可以准确估计中央排名。此外,我们的稳健性保证是无关的,因为我们的整体准确性不依赖于排名的替代品的数量。我们的工作可以被认为是从算法稳健统计到投票和信息聚集中的中央推理问题之一的视角的自然输注。具体而言,我们的投票规则是有效的可计算的,并且通过一大群勾结的选民无法改变其结果。
translated by 谷歌翻译
Learning problems form an important category of computational tasks that generalizes many of the computations researchers apply to large real-life data sets. We ask: what concept classes can be learned privately, namely, by an algorithm whose output does not depend too heavily on any one input or specific training example? More precisely, we investigate learning algorithms that satisfy differential privacy, a notion that provides strong confidentiality guarantees in contexts where aggregate information is released about a database containing sensitive information about individuals.Our goal is a broad understanding of the resources required for private learning in terms of samples, computation time, and interaction. We demonstrate that, ignoring computational constraints, it is possible to privately agnostically learn any concept class using a sample size approximately logarithmic in the cardinality of the concept class. Therefore, almost anything learnable is learnable privately: specifically, if a concept class is learnable by a (non-private) algorithm with polynomial sample complexity and output size, then it can be learned privately using a polynomial number of samples. We also present a computationally efficient private PAC learner for the class of parity functions. This result dispels the similarity between learning with noise and private learning (both must be robust to small changes in inputs), since parity is thought to be very hard to learn given random classification noise.Local (or randomized response) algorithms are a practical class of private algorithms that have received extensive investigation. We provide a precise characterization of local private learning algorithms. We show that a concept class is learnable by a local algorithm if and only if it is learnable in the statistical query (SQ) model. Therefore, for local private learning algorithms, the similarity to learning with noise is stronger: local learning is equivalent to SQ learning, and SQ algorithms include most known noise-tolerant learning algorithms. Finally, we present a separation between the power of interactive and noninteractive local learning algorithms. Because of the equivalence to SQ learning, this result also separates adaptive and nonadaptive SQ learning.
translated by 谷歌翻译
我们研究上下文搜索,在较高维度中对二进制搜索的概括,该搜索捕获了设置,例如基于功能的动态定价。该问题的标准公式假定代理根据特定的均匀响应模型起作用。但是,实际上,某些反应可能会受到对抗的腐败。现有的算法在很大程度上取决于假定的响应模型(大约)对所有试剂的准确性,并且在存在一些此类任意错误的情况下的性能较差。当某些代理商以与基本响应模型不一致的方式行为时,我们会启动上下文搜索的研究。特别是,我们提供两种算法,一种基于多维二进制搜索方法,另一种基于梯度下降。我们表明,这些算法在没有对抗性腐败及其性能与此类代理的数量优雅地降低的情况下获得了近乎最佳的遗憾,这为在任何对抗性噪声模型中提供了第一个结果,以进行上下文搜索。我们的技术从学习理论,游戏理论,高维几何形状和凸分析中汲取灵感。
translated by 谷歌翻译
We study crowdsourced PAC learning of threshold functions, where the labels are gathered from a pool of annotators some of whom may behave adversarially. This is yet a challenging problem and until recently has computationally and query efficient PAC learning algorithm been established by Awasthi et al. (2017). In this paper, we show that by leveraging the more easily acquired pairwise comparison queries, it is possible to exponentially reduce the label complexity while retaining the overall query complexity and runtime. Our main algorithmic contributions are a comparison-equipped labeling scheme that can faithfully recover the true labels of a small set of instances, and a label-efficient filtering process that in conjunction with the small labeled set can reliably infer the true labels of a large instance set.
translated by 谷歌翻译
我们考虑了一个批处理活动的方案,其中学习者可以适应地向标签Oracle发出批处理。由于具有标签Oracle(通常是人类)的互动次数较少,因此在批处理中的采样标签在实践中是非常可取的。但是,批处理主动学习通常会支付降低的适应性的价格,从而导致次优结果。在本文中,我们提出了一种解决方案,该解决方案需要在查询点的信息和多样性的信息之间进行仔细的权衡。我们从理论上研究了在实际相关的方案中研究批次的活动,其中未标记的数据库事先可用({\ em池基}主动学习)。我们分析了一种新颖的阶段贪婪算法,并表明,作为标签复杂性的函数,该算法的过量风险与标准统计学习环境中已知的最小值率相匹配。我们的结果还表现出对批处理大小的温和依赖。这些是在信息性和多样性之间进行仔细的交易来严格量化基于池的情况下批处理主动学习的统计表现的第一个理论结果。
translated by 谷歌翻译
我们对解决几个自然学习问题的一通流算法所需的记忆量给出了下限。在$ \ {0,1 \}^d $中的示例的环境中,可以使用$ \ kappa $ bits对最佳分类器进行编码,我们表明,使用近距离数量的示例学习的算法,$ \ tilde o(\ kappa)$,必须使用$ \ tilde \ omega(d \ kappa)$空间。我们的空间界限与问题自然参数化的环境空间的维度相匹配,即使在示例和最终分类器的大小上是二次的。例如,在$ d $ -sparse线性分类器的设置中,$ \ kappa = \ theta(d \ log d)$,我们的空间下限是$ \ tilde \ omega(d^^^ 2)$。我们的边界与流长$ n $优雅地降级,通常具有$ \ tilde \ omega \ left(d \ kappa \ cdot \ frac \ frac {\ kappa} {n} {n} \ right)$。 $ \ omega(d \ kappa)$的形式的界限以学习奇偶校验和有限字段定义的其他问题而闻名。在狭窄的样本量范围内适用的边界也以线性回归而闻名。对于最近学习应用程序中常见的类型的问题,我们的第一个范围是适用于各种输入尺寸的问题。
translated by 谷歌翻译
The problem of learning threshold functions is a fundamental one in machine learning. Classical learning theory implies sample complexity of $O(\xi^{-1} \log(1/\beta))$ (for generalization error $\xi$ with confidence $1-\beta$). The private version of the problem, however, is more challenging and in particular, the sample complexity must depend on the size $|X|$ of the domain. Progress on quantifying this dependence, via lower and upper bounds, was made in a line of works over the past decade. In this paper, we finally close the gap for approximate-DP and provide a nearly tight upper bound of $\tilde{O}(\log^* |X|)$, which matches a lower bound by Alon et al (that applies even with improper learning) and improves over a prior upper bound of $\tilde{O}((\log^* |X|)^{1.5})$ by Kaplan et al. We also provide matching upper and lower bounds of $\tilde{\Theta}(2^{\log^*|X|})$ for the additive error of private quasi-concave optimization (a related and more general problem). Our improvement is achieved via the novel Reorder-Slice-Compute paradigm for private data analysis which we believe will have further applications.
translated by 谷歌翻译