我们研究了利润率的二元和多类分类器的精确积极学习。给定一个$ n $ - 点集$ x \ subset \ mathbb {r}^m $,我们想在$ x $上学习任何未知分类器,其类具有有限的strong convex hull保证金,这是一个扩展SVM保证金的新概念。在标准的主动学习环境中,只有标签查询,在最坏的情况下学习具有强凸额的分类器$ \ gamma $需要$ \ omega \ big(1+ \ frac {1} {\ gamma} {\ gamma} \ big big )^{(M-1)/2} $查询。另一方面,使用更强大的种子查询(一种等价查询的变体),可以通过littlestone's缩小算法在$ o(m \ log n)$ Queries中学习目标分类器;但是,减半在计算上效率低下。在这项工作中,我们表明,通过仔细组合两种类型的查询,可以在时间上学习二进制分类器$ \ operatatorName {poly}(n+m)$,仅使用$ o(m^2 \ log n)$ label查询和$ o \ big(m \ log \ frac {m} {\ gamma} \ big)$ seed queries;结果以$ k!k^2 $乘法开销的价格扩展到$ k $ class分类器。当输入点具有界限的位复杂性时,或者仅一个类具有强凸壳边缘时,相似的结果就成立了。我们通过证明在最坏的情况下任何算法需要$ \ omega \ big(k m \ log \ frac {1} {\ gamma} \ big)$ seed $ seed和标签质量质量来学习$ k $ -Class classifier具有强大的凸壳保证金$ \ gamma $。
translated by 谷歌翻译
我们研究了用于线性回归的主动采样算法,该算法仅旨在查询目标向量$ b \ in \ mathbb {r} ^ n $的少量条目,并将近最低限度输出到$ \ min_ {x \ In \ mathbb {r} ^ d} \ | ax-b \ | $,其中$ a \ in \ mathbb {r} ^ {n \ times d} $是一个设计矩阵和$ \ | \ cdot \ | $是一些损失函数。对于$ \ ell_p $ norm回归的任何$ 0 <p <\ idty $,我们提供了一种基于Lewis权重采样的算法,其使用只需$ \ tilde {o}输出$(1+ \ epsilon)$近似解决方案(d ^ {\ max(1,{p / 2})} / \ mathrm {poly}(\ epsilon))$查询到$ b $。我们表明,这一依赖于$ D $是最佳的,直到对数因素。我们的结果解决了陈和Derezi的最近开放问题,陈和Derezi \'{n} Ski,他们为$ \ ell_1 $ norm提供了附近的最佳界限,以及$ p \中的$ \ ell_p $回归的次优界限(1,2) $。我们还提供了$ O的第一个总灵敏度上限(D ^ {\ max \ {1,p / 2 \} \ log ^ 2 n)$以满足最多的$ p $多项式增长。这改善了Tukan,Maalouf和Feldman的最新结果。通过将此与我们的技术组合起来的$ \ ell_p $回归结果,我们获得了一个使$ \ tilde o的活动回归算法(d ^ {1+ \ max \ {1,p / 2 \}} / \ mathrm {poly}。 (\ epsilon))$疑问,回答陈和德里兹的另一个打开问题{n}滑雪。对于Huber损失的重要特殊情况,我们进一步改善了我们对$ \ tilde o的主动样本复杂性的绑定(d ^ {(1+ \ sqrt2)/ 2} / \ epsilon ^ c)$和非活跃$ \ tilde o的样本复杂性(d ^ {4-2 \ sqrt 2} / \ epsilon ^ c)$,由于克拉克森和伍德拉夫而改善了Huber回归的以前的D ^ 4 $。我们的敏感性界限具有进一步的影响,使用灵敏度采样改善了各种先前的结果,包括orlicz规范子空间嵌入和鲁棒子空间近似。最后,我们的主动采样结果为每种$ \ ell_p $ norm提供的第一个Sublinear时间算法。
translated by 谷歌翻译
We study the relationship between adversarial robustness and differential privacy in high-dimensional algorithmic statistics. We give the first black-box reduction from privacy to robustness which can produce private estimators with optimal tradeoffs among sample complexity, accuracy, and privacy for a wide range of fundamental high-dimensional parameter estimation problems, including mean and covariance estimation. We show that this reduction can be implemented in polynomial time in some important special cases. In particular, using nearly-optimal polynomial-time robust estimators for the mean and covariance of high-dimensional Gaussians which are based on the Sum-of-Squares method, we design the first polynomial-time private estimators for these problems with nearly-optimal samples-accuracy-privacy tradeoffs. Our algorithms are also robust to a constant fraction of adversarially-corrupted samples.
translated by 谷歌翻译
我们在高斯分布下使用Massart噪声与Massart噪声进行PAC学习半个空间的问题。在Massart模型中,允许对手将每个点$ \ mathbf {x} $的标签与未知概率$ \ eta(\ mathbf {x})\ leq \ eta $,用于某些参数$ \ eta \ [0,1 / 2] $。目标是找到一个假设$ \ mathrm {opt} + \ epsilon $的错误分类错误,其中$ \ mathrm {opt} $是目标半空间的错误。此前已经在两个假设下研究了这个问题:(i)目标半空间是同质的(即,分离超平面通过原点),并且(ii)参数$ \ eta $严格小于$ 1/2 $。在此工作之前,当除去这些假设中的任何一个时,不知道非增长的界限。我们研究了一般问题并建立以下内容:对于$ \ eta <1/2 $,我们为一般半个空间提供了一个学习算法,采用样本和计算复杂度$ d ^ {o_ {\ eta}(\ log(1 / \ gamma) )))}} \ mathrm {poly}(1 / \ epsilon)$,其中$ \ gamma = \ max \ {\ epsilon,\ min \ {\ mathbf {pr} [f(\ mathbf {x})= 1], \ mathbf {pr} [f(\ mathbf {x})= -1] \} \} $是目标半空间$ f $的偏差。现有的高效算法只能处理$ \ gamma = 1/2 $的特殊情况。有趣的是,我们建立了$ d ^ {\ oomega(\ log(\ log(\ log(\ log))}}的质量匹配的下限,而是任何统计查询(SQ)算法的复杂性。对于$ \ eta = 1/2 $,我们为一般半空间提供了一个学习算法,具有样本和计算复杂度$ o_ \ epsilon(1)d ^ {o(\ log(1 / epsilon))} $。即使对于均匀半空间的子类,这个结果也是新的;均匀Massart半个空间的现有算法为$ \ eta = 1/2 $提供可持续的保证。我们与D ^ {\ omega(\ log(\ log(\ log(\ log(\ epsilon))} $的近似匹配的sq下限补充了我们的上限,这甚至可以为同类半空间的特殊情况而保持。
translated by 谷歌翻译
众所周知,给定顺滑,界限 - 下面,并且可能的非透露函数,标准梯度的方法可以找到$ \ epsilon $ -stationary积分(渐变范围小于$ \ epsilon $)$ \ mathcal {O}(1 / \ epsilon ^ 2)$迭代。然而,许多重要的非渗透优化问题,例如与培训现代神经网络相关的问题,本质上是不平衡的,使这些结果不适用。在本文中,我们研究了来自Oracle复杂性视点的非透射性优化,其中假设算法仅向各个点处的函数提供访问。我们提供两个主要结果:首先,我们考虑越近$ \ epsilon $ -storationary积分的问题。这也许是找到$ \ epsilon $ -storationary积分的最自然的放松,这在非对象案例中是不可能的。我们证明,对于任何距离和epsilon $小于某些常数,无法有效地实现这种轻松的目标。我们的第二次结果涉及通过减少到平滑的优化来解决非光度非渗透优化的可能性:即,在光滑的近似值对目标函数的平滑近似下应用平滑的优化方法。对于这种方法,我们在温和的假设下证明了oracle复杂性和平滑度之间的固有权衡:一方面,可以非常有效地平滑非光滑非凸函数(例如,通过随机平滑),但具有尺寸依赖性因子在平滑度参数中,在插入标准平滑优化方法时,这会强烈影响迭代复杂性。另一方面,可以用合适的平滑方法消除这些尺寸因子,而是仅通过使平滑过程的Oracle复杂性呈指数大。
translated by 谷歌翻译
我们研究了通过边缘检测查询学习超图的问题。在此问题中,学习者查询隐藏超图的顶点的子集,并观察这些子集是否包含边缘。通常,学习具有最大尺寸$ d $的$ m $边缘的超图需要$ \ omega((2m/d)^{d/2})$ queries。在本文中,我们旨在确定可以学习的超图族的家庭,而不会遭受查询复杂性,该查询复杂性在边缘的大小上呈指数增长。我们表明,使用Poly $(n)$ Queries可以学习高度匹配和低度近均匀的超图。对于学习超匹配(最大程度的超图$ 1 $),我们给出$ O(\ log^3 n)$ - 圆形算法,使用$ o(n \ log^5 n)$查询。我们通过表明没有算法的poly $(n)$查询来补充这种上限,这些算法在$ o(\ log \ log n)$自适应回合中学习超匹配。对于具有最大度$ \ delta $和边缘大小比率$ \ rho $的超级图形,我们给出了一种非自适应算法,并使用$ o((2n)^{\ rho \ delta+1} \ log^2 n)$ queries。据我们所知,这些是使用Poly $(n,m)$查询复杂性的第一批算法,用于学习具有超恒定尺寸的超稳定数量边缘的非平凡家族。
translated by 谷歌翻译
我们建立了量子算法设计与电路下限之间的第一一般连接。具体来说,让$ \ mathfrak {c} $是一类多项式大小概念,假设$ \ mathfrak {c} $可以在统一分布下的成员查询,错误$ 1/2 - \ gamma $通过时间$ t $量子算法。我们证明如果$ \ gamma ^ 2 \ cdot t \ ll 2 ^ n / n $,则$ \ mathsf {bqe} \ nsubseteq \ mathfrak {c} $,其中$ \ mathsf {bqe} = \ mathsf {bque} [2 ^ {o(n)}] $是$ \ mathsf {bqp} $的指数时间模拟。在$ \ gamma $和$ t $中,此结果是最佳的,因为它不难学习(经典)时间$ t = 2 ^ n $(没有错误) ,或在Quantum Time $ t = \ mathsf {poly}(n)$以傅立叶采样为单位为1/2美元(2 ^ { - n / 2})$。换句话说,即使对这些通用学习算法的边际改善也会导致复杂性理论的主要后果。我们的证明在学习理论,伪随机性和计算复杂性的几个作品上构建,并且至关重要地,在非凡的经典学习算法与由Oliveira和Santhanam建立的电路下限之间的联系(CCC 2017)。扩展他们对量子学习算法的方法,结果产生了重大挑战。为此,我们展示了伪随机发电机如何以通用方式意味着学习到较低的连接,构建针对均匀量子计算的第一个条件伪随机发生器,并扩展了Impagliazzo,JaiSwal的本地列表解码算法。 ,Kabanets和Wigderson(Sicomp 2010)通过微妙的分析到量子电路。我们认为,这些贡献是独立的兴趣,可能会发现其他申请。
translated by 谷歌翻译
公司跨行业对机器学习(ML)的快速传播采用了重大的监管挑战。一个这样的挑战就是可伸缩性:监管机构如何有效地审核这些ML模型,以确保它们是公平的?在本文中,我们启动基于查询的审计算法的研究,这些算法可以以查询有效的方式估算ML模型的人口统计学率。我们提出了一种最佳的确定性算法,以及具有可比保证的实用随机,甲骨文效率的算法。此外,我们进一步了解了随机活动公平估计算法的最佳查询复杂性。我们对主动公平估计的首次探索旨在将AI治理置于更坚定的理论基础上。
translated by 谷歌翻译
本文展示了如何适应$ k $ -MEANS问题的几种简单和经典的基于采样的算法,以使用离群值设置。最近,Bhaskara等人。 (Neurips 2019)展示了如何将古典$ K $ -MEANS ++算法适应与异常值的设置。但是,他们的算法需要输出$ o(\ log(k)\ cdot z)$ outiers,其中$ z $是true Outliers的数量,以匹配$ o(\ log k)$ - 近似值的$ k的近似保证$ -Means ++。在本文中,我们以他们的想法为基础,并展示了如何适应几个顺序和分布式的$ k $ - 均值算法,但使用离群值来设置,但具有更强的理论保证:我们的算法输出$(1+ \ VAREPSILON)z $ OUTLIERS Z $ OUTLIERS在实现$ o(1 / \ varepsilon)$ - 近似目标函数的同时。在顺序世界中,我们通过改编Lattanzi和Sohler的最新算法来实现这一目标(ICML 2019)。在分布式设置中,我们适应了Guha等人的简单算法。 (IEEE Trans。知道和数据工程2003)以及Bahmani等人的流行$ K $ -Means $ \ | $。 (PVLDB 2012)。我们技术的理论应用是一种具有运行时间$ \ tilde {o}(nk^2/z)$的算法,假设$ k \ ll z \ ll n $。这与Omacle模型中此问题的$ \ Omega(NK^2/z)$的匹配下限相互补。
translated by 谷歌翻译
我们研究了在存在$ \ epsilon $ - 对抗异常值的高维稀疏平均值估计的问题。先前的工作为此任务获得了该任务的样本和计算有效算法,用于辅助性Subgaussian分布。在这项工作中,我们开发了第一个有效的算法,用于强大的稀疏平均值估计,而没有对协方差的先验知识。对于$ \ Mathbb r^d $上的分布,带有“认证有限”的$ t $ tum-矩和足够轻的尾巴,我们的算法达到了$ o(\ epsilon^{1-1/t})$带有样品复杂性$的错误(\ epsilon^{1-1/t}) m =(k \ log(d))^{o(t)}/\ epsilon^{2-2/t} $。对于高斯分布的特殊情况,我们的算法达到了$ \ tilde o(\ epsilon)$的接近最佳错误,带有样品复杂性$ m = o(k^4 \ mathrm {polylog}(d)(d))/\ epsilon^^ 2 $。我们的算法遵循基于方形的总和,对算法方法的证明。我们通过统计查询和低度多项式测试的下限来补充上限,提供了证据,表明我们算法实现的样本时间 - 错误权衡在质量上是最好的。
translated by 谷歌翻译
我们提出了改进的算法,并为身份测试$ n $维分布的问题提供了统计和计算下限。在身份测试问题中,我们将作为输入作为显式分发$ \ mu $,$ \ varepsilon> 0 $,并访问对隐藏分布$ \ pi $的采样甲骨文。目标是区分两个分布$ \ mu $和$ \ pi $是相同的还是至少$ \ varepsilon $ -far分开。当仅从隐藏分布$ \ pi $中访问完整样本时,众所周知,可能需要许多样本,因此以前的作品已经研究了身份测试,并额外访问了各种有条件采样牙齿。我们在这里考虑一个明显弱的条件采样甲骨文,称为坐标Oracle,并在此新模型中提供了身份测试问题的相当完整的计算和统计表征。我们证明,如果一个称为熵的分析属性为可见分布$ \ mu $保留,那么对于任何使用$ \ tilde {o}(n/\ tilde {o}),有一个有效的身份测试算法Varepsilon)$查询坐标Oracle。熵的近似张力是一种经典的工具,用于证明马尔可夫链的最佳混合时间边界用于高维分布,并且最近通过光谱独立性为许多分布族建立了最佳的混合时间。我们将算法结果与匹配的$ \ omega(n/\ varepsilon)$统计下键进行匹配的算法结果补充,以供坐标Oracle下的查询数量。我们还证明了一个计算相变:对于$ \ {+1,-1,-1 \}^n $以上的稀疏抗抗铁磁性模型,在熵失败的近似张力失败的状态下,除非RP = np,否则没有有效的身份测试算法。
translated by 谷歌翻译
我们调查了布尔功能多任务函数多任务的计算效率,这些函数在$ d $二维的超立方体上通过大小$ k \ ll d $在所有任务中共享的功能表示相关。我们提供了一个多项式时间多任务学习算法,用于带有保证金$ \ gamma $的概念类别的概念类别,该算法基于同时增强技术,仅需要$ \ textrm {poly}(k/\ gamma)和$ \ textrm {poly}(k \ log(d)/\ gamma)$样本总共。此外,我们证明了一个计算分离,表明假设存在一个无法在属性效率模型中学习的概念类,我们可以构建另一个可以在属性效率模型中学到的概念类,但不能是多任务。有效学习的 - 多任务学习此概念类要么需要超级顺序的时间复杂性,要么需要更大的样本总数。
translated by 谷歌翻译
The Forster transform is a method of regularizing a dataset by placing it in {\em radial isotropic position} while maintaining some of its essential properties. Forster transforms have played a key role in a diverse range of settings spanning computer science and functional analysis. Prior work had given {\em weakly} polynomial time algorithms for computing Forster transforms, when they exist. Our main result is the first {\em strongly polynomial time} algorithm to compute an approximate Forster transform of a given dataset or certify that no such transformation exists. By leveraging our strongly polynomial Forster algorithm, we obtain the first strongly polynomial time algorithm for {\em distribution-free} PAC learning of halfspaces. This learning result is surprising because {\em proper} PAC learning of halfspaces is {\em equivalent} to linear programming. Our learning approach extends to give a strongly polynomial halfspace learner in the presence of random classification noise and, more generally, Massart noise.
translated by 谷歌翻译
Learning problems form an important category of computational tasks that generalizes many of the computations researchers apply to large real-life data sets. We ask: what concept classes can be learned privately, namely, by an algorithm whose output does not depend too heavily on any one input or specific training example? More precisely, we investigate learning algorithms that satisfy differential privacy, a notion that provides strong confidentiality guarantees in contexts where aggregate information is released about a database containing sensitive information about individuals.Our goal is a broad understanding of the resources required for private learning in terms of samples, computation time, and interaction. We demonstrate that, ignoring computational constraints, it is possible to privately agnostically learn any concept class using a sample size approximately logarithmic in the cardinality of the concept class. Therefore, almost anything learnable is learnable privately: specifically, if a concept class is learnable by a (non-private) algorithm with polynomial sample complexity and output size, then it can be learned privately using a polynomial number of samples. We also present a computationally efficient private PAC learner for the class of parity functions. This result dispels the similarity between learning with noise and private learning (both must be robust to small changes in inputs), since parity is thought to be very hard to learn given random classification noise.Local (or randomized response) algorithms are a practical class of private algorithms that have received extensive investigation. We provide a precise characterization of local private learning algorithms. We show that a concept class is learnable by a local algorithm if and only if it is learnable in the statistical query (SQ) model. Therefore, for local private learning algorithms, the similarity to learning with noise is stronger: local learning is equivalent to SQ learning, and SQ algorithms include most known noise-tolerant learning algorithms. Finally, we present a separation between the power of interactive and noninteractive local learning algorithms. Because of the equivalence to SQ learning, this result also separates adaptive and nonadaptive SQ learning.
translated by 谷歌翻译
我们考虑多级分类的问题,其中普遍选择的查询流到达,并且必须在线分配标签。与寻求最小化错误分类率的传统界定不同,我们将每个查询的总距离最小化到与其正确标签相对应的区域。当通过最近的邻分区确定真正的标签时 - 即点的标签由它最接近欧几里德距离所提供的点,我们表明人们可以实现独立的损失查询总数。我们通过显示学习常规凸集每查询需要几乎线性损耗来补充此结果。我们的结果为语境搜索的几何问题而被遗憾地构建了遗憾的保证。此外,我们制定了一种从多字符分类到二进制分类的新型还原技术,这可能具有独立兴趣。
translated by 谷歌翻译
我们考虑使用对抗鲁棒性学习的样本复杂性。对于此问题的大多数现有理论结果已经考虑了数据中不同类别在一起或重叠的设置。通过一些实际应用程序,我们认为,相比之下,存在具有完美精度和稳健性的分类器的分类器的良好分离的情况,并表明样品复杂性叙述了一个完全不同的故事。具体地,对于线性分类器,我们显示了大类分离的分布式,其中任何算法的预期鲁棒丢失至少是$ \ω(\ FRAC {D} {n})$,而最大边距算法已预期标准亏损$ o(\ frac {1} {n})$。这表明了通过现有技术不能获得的标准和鲁棒损耗中的间隙。另外,我们介绍了一种算法,给定鲁棒率半径远小于类之间的间隙的实例,给出了预期鲁棒损失的解决方案是$ O(\ FRAC {1} {n})$。这表明,对于非常好的数据,可实现$ O(\ FRAC {1} {n})$的收敛速度,否则就是这样。我们的结果适用于任何$ \ ell_p $ norm以$ p> 1 $(包括$ p = \ idty $)为稳健。
translated by 谷歌翻译
我们研究无名概率分布的无分发物业测试和学习问题是超过$ \ mathbb {r} ^ d $的产品分布。对于许多重要的功能,例如半空间,多项式阈值函数,凸集和$ k $ -alternation函数的交叉点,所知的算法具有复杂性,这取决于分配的支持大小,或者仅被证明仅工作对于产品分布的具体例子。我们介绍了一般方法,我们调用DownS采样,解决了这些问题。 Downs采样使用对产品分布的“直线等异仪”的概念,这进一步加强了等偏移,测试和学习之间的连接。使用这种技术,我们在$ \ mathbb {r} ^ d $的产品分布下获得了新的高效分布算法:1。用于函数$ [n] ^ d \的非自适应,单调单调测试的更简单证明\ {0,1 \} $,并改进了对未知产品分布的单调性的样本复杂性,从$ O(d ^ 7)$ [黑色,chakrabarty,&seshadhri,soda 2020]到$ \ widetilde o(d ^ 3)$。 2.多项式禁止学习算法,用于恒定数量的半空间和恒定程度多项式阈值函数。 3. $ \ exp(o(d \ log(dk)))$ - 时间不可知学习算法,以及$ \ exp(o(d \ log(dk)))$ - 样本容差测试仪,用于$的函数K $凸套;和2 ^ {\ widetilde o(d)} $ satmas的单面测试仪,用于凸套。 4. $ \ exp(\ widetilde o(k \ sqrt d))$ - 时间可靠学习算法,以$ k $ -alternation函数,以及具有相同复杂性的基于样本的容忍测试仪。
translated by 谷歌翻译
我们研究了测试有序域上的离散概率分布是否是指定数量的垃圾箱的直方图。$ k $的简洁近似值的最常见工具之一是$ k $ [n] $,是概率分布,在一组$ k $间隔上是分段常数的。直方图测试问题如下:从$ [n] $上的未知分布中给定样品$ \ mathbf {p} $,我们想区分$ \ mathbf {p} $的情况从任何$ k $ - 组织图中,总变化距离的$ \ varepsilon $ -far。我们的主要结果是针对此测试问题的样本接近最佳和计算有效的算法,以及几乎匹配的(在对数因素内)样品复杂性下限。具体而言,我们表明直方图测试问题具有样品复杂性$ \ widetilde \ theta(\ sqrt {nk} / \ varepsilon + k / \ varepsilon^2 + \ sqrt {n} / \ varepsilon^2)$。
translated by 谷歌翻译
Robust mean estimation is one of the most important problems in statistics: given a set of samples in $\mathbb{R}^d$ where an $\alpha$ fraction are drawn from some distribution $D$ and the rest are adversarially corrupted, we aim to estimate the mean of $D$. A surge of recent research interest has been focusing on the list-decodable setting where $\alpha \in (0, \frac12]$, and the goal is to output a finite number of estimates among which at least one approximates the target mean. In this paper, we consider that the underlying distribution $D$ is Gaussian with $k$-sparse mean. Our main contribution is the first polynomial-time algorithm that enjoys sample complexity $O\big(\mathrm{poly}(k, \log d)\big)$, i.e. poly-logarithmic in the dimension. One of our core algorithmic ingredients is using low-degree sparse polynomials to filter outliers, which may find more applications.
translated by 谷歌翻译
We study crowdsourced PAC learning of threshold functions, where the labels are gathered from a pool of annotators some of whom may behave adversarially. This is yet a challenging problem and until recently has computationally and query efficient PAC learning algorithm been established by Awasthi et al. (2017). In this paper, we show that by leveraging the more easily acquired pairwise comparison queries, it is possible to exponentially reduce the label complexity while retaining the overall query complexity and runtime. Our main algorithmic contributions are a comparison-equipped labeling scheme that can faithfully recover the true labels of a small set of instances, and a label-efficient filtering process that in conjunction with the small labeled set can reliably infer the true labels of a large instance set.
translated by 谷歌翻译