智能论文笔记

Optimal Coresets for Gaussian Kernel Density Estimates

Wai Ming Tai

分类：机器学习

2020-07-15

给定点设置$ p \ subset \ mathbb {r} ^ $，$ p $的内核密度估计被定义为\ [\ overline {\ mathcal {g}} _ p（x）= \ frac {1} {\ left | p \ light |} \ sum_ {p \ in p} e ^ { - \ ltver \ ltvert xp \ light \ rvert ^ 2}为任何$ x \ in \ mathbb {r} ^ d $。我们研究如何构建一个小额Q $ q $，使得$ p $的内核密度估计是由$ q $的内核密度估计近似。此子集$ q $称为coreset。这项工作中的主要技术是在差异理论上设定$ p $的$ \ PM 1 $焦虑，我们利用BANASZCZYK定理。当$ d> 1 $是一个常数时，我们的施工给出了一个尺寸的尺寸$ o \ o \ lex（\ frac {1} {\ varepsilon} \右），而不是$ o lex的最熟知的结果（\Frac {1} {\ varepsilon} \ sqrt {\ log \ frac {1} {\ varepsilon}} \右）$。它是第一个结果，在$ \ sqrt {\ log} $ factor的屏障上突破即使是d = 2 $。

translated by 谷歌翻译

Tight bounds on the hardness of learning simple nonparametric mixtures

Bryon Aragam , Wai Ming Tai

分类：机器学习 | (统计)机器学习

2022-03-28

我们研究有限混合物中学习非参数分布的问题，并在样品复杂性上建立紧密的界限，以学习此类模型中的组件分布。也就是说，我们得到了I.I.D.来自pdf $ f $ whene $$ f = \ sum_ {i = 1}^k w_i f_i，\ quad \ sum_ {i = 1}^k w_i = 1，\ quad w_i> 0 $$的样品在学习每个组件$ f_i $时。没有关于$ f_i $的任何假设，此问题是错误的。为了识别组件$ f_i $，我们假设每个$ f_i $都可以写为高斯的卷积和紧凑的密度密度$ \ nu_i $，带有$ \ text {supp {supp}（\ nu_i）\ cap \ text \ text {supp}（\ nu_j）= \ emptyset $。我们的主要结果表明，$（\ frac {1} {\ varepsilon}）^{\ omega（\ log \ log \ log \ frac {1} {\ varepsilon}）} $ samples $ samples是估计每个$ f_i $的样本所必需的。与参数混合物不同，难度不是源于$ k $或小重量$ w_i $的订单，并且与非参数密度估计不同，它不是源于维度，不规则性或不均匀性的诅咒。证明依赖于与高斯人的近似值的快速率，这可能是独立的。要证明这很紧，我们还提出了一种算法，该算法使用$（\ frac {1} {\ varepsilon}）^{o（\ log \ log \ log \ frac {1} {\ varepsilon} {\ varepsilon}} $ sample f_i $。与基于力矩匹配和张量方法学习潜在变量模型的现有方法不同，我们的证明涉及通过正交功能对不良条件线性系统进行微妙的分析。结合了这些界限，我们得出结论，该问题的最佳样本复杂性正确在于多项式和指数之间，这在学习理论中并不常见。

translated by 谷歌翻译

Active Sampling for Linear Regression Beyond the $\ell_2$ Norm

Cameron Musco , Christopher Musco , David P. Woodruff , Taisuke Yasuda

分类：机器学习 | (统计)机器学习

2021-11-09

我们研究了用于线性回归的主动采样算法，该算法仅旨在查询目标向量$ b \ in \ mathbb {r} ^ n $的少量条目，并将近最低限度输出到$ \ min_ {x \ In \ mathbb {r} ^ d} \ | ax-b \ | $，其中$ a \ in \ mathbb {r} ^ {n \ times d} $是一个设计矩阵和$ \ | \ cdot \ | $是一些损失函数。对于$ \ ell_p $ norm回归的任何$ 0 <p <\ idty $，我们提供了一种基于Lewis权重采样的算法，其使用只需$ \ tilde {o}输出$（1+ \ epsilon）$近似解决方案（d ^ {\ max（1，{p / 2}）} / \ mathrm {poly}（\ epsilon））$查询到$ b $。我们表明，这一依赖于$ D $是最佳的，直到对数因素。我们的结果解决了陈和Derezi的最近开放问题，陈和Derezi \'{n} Ski，他们为$ \ ell_1 $ norm提供了附近的最佳界限，以及$ p \中的$ \ ell_p $回归的次优界限（1,2） $。我们还提供了$ O的第一个总灵敏度上限（D ^ {\ max \ {1，p / 2 \} \ log ^ 2 n）$以满足最多的$ p $多项式增长。这改善了Tukan，Maalouf和Feldman的最新结果。通过将此与我们的技术组合起来的$ \ ell_p $回归结果，我们获得了一个使$ \ tilde o的活动回归算法（d ^ {1+ \ max \ {1，p / 2 \}} / \ mathrm {poly}。（\ epsilon））$疑问，回答陈和德里兹的另一个打开问题{n}滑雪。对于Huber损失的重要特殊情况，我们进一步改善了我们对$ \ tilde o的主动样本复杂性的绑定（d ^ {（1+ \ sqrt2）/ 2} / \ epsilon ^ c）$和非活跃$ \ tilde o的样本复杂性（d ^ {4-2 \ sqrt 2} / \ epsilon ^ c）$，由于克拉克森和伍德拉夫而改善了Huber回归的以前的D ^ 4 $。我们的敏感性界限具有进一步的影响，使用灵敏度采样改善了各种先前的结果，包括orlicz规范子空间嵌入和鲁棒子空间近似。最后，我们的主动采样结果为每种$ \ ell_p $ norm提供的第一个Sublinear时间算法。

translated by 谷歌翻译

Private Query Release via the Johnson-Lindenstrauss Transform

Aleksandar Nikolov

分类：机器学习 | (统计)机器学习

2022-08-15

我们介绍了一种基于约翰逊·林登斯特劳斯引理的统计查询的新方法，以释放具有差异隐私的统计查询的答案。关键的想法是随机投影查询答案，以较低的维空间，以便将可行的查询答案的任何两个向量之间的距离保留到添加性错误。然后，我们使用简单的噪声机制回答投影的查询，并将答案提升到原始维度。使用这种方法，我们首次给出了纯粹的私人机制，具有最佳情况下的最佳情况样本复杂性，在平均错误下，以回答$ n $ $ n $的宇宙的$ k $ Queries的工作量。作为其他应用，我们给出了具有最佳样品复杂性的第一个纯私人有效机制，用于计算有限的高维分布的协方差，并用于回答2向边缘查询。我们还表明，直到对错误的依赖性，我们机制的变体对于每个给定的查询工作负载几乎是最佳的。

translated by 谷歌翻译

Bounding the Width of Neural Networks via Coupled Initialization -- A Worst Case Analysis

Alexander Munteanu , Simon Omlor , Zhao Song , David P. Woodruff

分类：机器学习 | (统计)机器学习

2022-06-26

训练神经网络的一种常见方法是将所有权重初始化为独立的高斯向量。我们观察到，通过将权重初始化为独立对，每对由两个相同的高斯向量组成，我们可以显着改善收敛分析。虽然已经研究了类似的技术来进行随机输入[Daniely，Neurips 2020]，但尚未使用任意输入进行分析。使用此技术，我们展示了如何显着减少两层relu网络所需的神经元数量，均在逻辑损失的参数化设置不足的情况下，大约$ \ gamma^{ - 8} $ [Ji and telgarsky，ICLR， 2020]至$ \ gamma^{ - 2} $，其中$ \ gamma $表示带有神经切线内核的分离边距，以及在与平方损失的过度参数化设置中，从大约$ n^4 $ [song [song]和Yang，2019年]至$ n^2 $，隐含地改善了[Brand，Peng，Song和Weinstein，ITCS 2021]的近期运行时间。对于参数不足的设置，我们还证明了在先前工作时改善的新下限，并且在某些假设下是最好的。

translated by 谷歌翻译

Near-Optimal Bounds for Testing Histogram Distributions

Clément L. Canonne , Ilias Diakonikolas , Daniel M. Kane , Sihan Liu

分类：机器学习

2022-07-14

我们研究了测试有序域上的离散概率分布是否是指定数量的垃圾箱的直方图。$ k $的简洁近似值的最常见工具之一是$ k $ [n] $，是概率分布，在一组$ k $间隔上是分段常数的。直方图测试问题如下：从$ [n] $上的未知分布中给定样品$ \ mathbf {p} $，我们想区分$ \ mathbf {p} $的情况从任何$ k $ - 组织图中，总变化距离的$ \ varepsilon $ -far。我们的主要结果是针对此测试问题的样本接近最佳和计算有效的算法，以及几乎匹配的（在对数因素内）样品复杂性下限。具体而言，我们表明直方图测试问题具有样品复杂性$ \ widetilde \ theta（\ sqrt {nk} / \ varepsilon + k / \ varepsilon^2 + \ sqrt {n} / \ varepsilon^2）$。

translated by 谷歌翻译

Kernel Thinning

Raaz Dwivedi , Lester Mackey

分类： (统计)机器学习 | 机器学习

2021-05-12

我们介绍内核变薄，更有效地压缩了一个新的程序，而不是i.i.d. \采样或标准变薄。给定合适的再现内核$ \ mathbf {k} $和$ \ mathcal {o}（n ^ 2）$ time，内核变薄将$ n $ thepoint近似压缩为$ \ mathbb {p} $ to to $ \ sqrt {n} $ - 点近似与相关的再现内核希尔伯特空间相比的可比最坏情况集成错误。具有高概率，集成错误中的最大差异是$ \ mathcal {o} _d（n ^ { - 1/2} \ sqrt {\ log n}）$，用于紧凑地支持$ \ mathbb {p} $和$ \ mathcal {o} _d（n ^ { - \ frac {1} {2}}（\ log n）^ {（d + 1）/ 2} \ sqrt {\ log \ log n}）$ for子指数$ \ $ \ mathbb {r} ^ d $上的mathbb {p} $。相反，来自$ \ mathbb {p} $ \ oomega（n ^ { - 1/4}）$ Integration错误的平等大小。我们的子指数保证类似于统一$ \ mathbb {p} $ on $ [0,1] ^ d $的典型准蒙特卡洛错误速率，但适用于$ \ mathbb {r} ^ d $和a的常规发行版广泛的常见内核。我们使用我们的结果推导出Gaussian，Mat \'ern和B样曲线内部的显式非渐近最大平均差异界限，并提出了两个渐晕，说明了内核变薄的实际益处，而\采样和标准马尔可夫链蒙特卡罗稀疏，尺寸$ d = 2美元到100美元。

translated by 谷歌翻译

Outlier-Robust Sparse Mean Estimation for Heavy-Tailed Distributions

Ilias Diakonikolas , Daniel M. Kane , Jasper C. H. Lee , Ankit Pensia

分类：机器学习 | (统计)机器学习

2022-11-29

We study the fundamental task of outlier-robust mean estimation for heavy-tailed distributions in the presence of sparsity. Specifically, given a small number of corrupted samples from a high-dimensional heavy-tailed distribution whose mean $\mu$ is guaranteed to be sparse, the goal is to efficiently compute a hypothesis that accurately approximates $\mu$ with high probability. Prior work had obtained efficient algorithms for robust sparse mean estimation of light-tailed distributions. In this work, we give the first sample-efficient and polynomial-time robust sparse mean estimator for heavy-tailed distributions under mild moment assumptions. Our algorithm achieves the optimal asymptotic error using a number of samples scaling logarithmically with the ambient dimension. Importantly, the sample complexity of our method is optimal as a function of the failure probability $\tau$, having an additive $\log(1/\tau)$ dependence. Our algorithm leverages the stability-based approach from the algorithmic robust statistics literature, with crucial (and necessary) adaptations required in our setting. Our analysis may be of independent interest, involving the delicate design of a (non-spectral) decomposition for positive semi-definite matrices satisfying certain sparsity properties.

translated by 谷歌翻译

Efficient Mean Estimation with Pure Differential Privacy via a Sum-of-Squares Exponential Mechanism

Samuel B. Hopkins , Gautam Kamath , Mahbod Majid

分类： (统计)机器学习

2021-11-25

我们给出了第一个多项式算法来估计$ d $ -variate概率分布的平均值，从$ \ tilde {o}（d）$独立的样本受到纯粹的差异隐私的界限。此问题的现有算法无论是呈指数运行时间，需要$ \ OMEGA（D ^ {1.5}）$样本，或仅满足较弱的集中或近似差分隐私条件。特别地，所有先前的多项式算法都需要$ d ^ {1+ \ omega（1）} $ samples，以保证“加密”高概率，1-2 ^ { - d ^ {\ omega（1） $，虽然我们的算法保留$ \ tilde {o}（d）$ SAMPS复杂性即使在此严格设置中也是如此。我们的主要技术是使用强大的方块方法（SOS）来设计差异私有算法的新方法。算法的证据是在高维算法统计数据中的许多近期作品中的一个关键主题 - 显然需要指数运行时间，但可以通过低度方块证明可以捕获其分析可以自动变成多项式 - 时间算法具有相同的可证明担保。我们展示了私有算法的类似证据现象：工作型指数机制的实例显然需要指数时间，但可以用低度SOS样张分析的指数时间，可以自动转换为多项式差异私有算法。我们证明了捕获这种现象的元定理，我们希望在私人算法设计中广泛使用。我们的技术还在高维度之间绘制了差异私有和强大统计数据之间的新连接。特别是通过我们的校验算法镜头来看，几次研究的SOS证明在近期作品中的算法稳健统计中直接产生了我们差异私有平均估计算法的关键组成部分。

translated by 谷歌翻译

Learning General Halfspaces with General Massart Noise under the Gaussian Distribution

Ilias Diakonikolas , Daniel M. Kane , Vasilis Kontonis , Christos Tzamos , Nikos Zarifis

分类：机器学习 | (统计)机器学习

2021-08-19

我们在高斯分布下使用Massart噪声与Massart噪声进行PAC学习半个空间的问题。在Massart模型中，允许对手将每个点$ \ mathbf {x} $的标签与未知概率$ \ eta（\ mathbf {x}）\ leq \ eta $，用于某些参数$ \ eta \ [0,1 / 2] $。目标是找到一个假设$ \ mathrm {opt} + \ epsilon $的错误分类错误，其中$ \ mathrm {opt} $是目标半空间的错误。此前已经在两个假设下研究了这个问题：（i）目标半空间是同质的（即，分离超平面通过原点），并且（ii）参数$ \ eta $严格小于$ 1/2 $。在此工作之前，当除去这些假设中的任何一个时，不知道非增长的界限。我们研究了一般问题并建立以下内容：对于$ \ eta <1/2 $，我们为一般半个空间提供了一个学习算法，采用样本和计算复杂度$ d ^ {o_ {\ eta}（\ log（1 / \ gamma））））}} \ mathrm {poly}（1 / \ epsilon）$，其中$ \ gamma = \ max \ {\ epsilon，\ min \ {\ mathbf {pr} [f（\ mathbf {x}）= 1]， \ mathbf {pr} [f（\ mathbf {x}）= -1] \} \} $是目标半空间$ f $的偏差。现有的高效算法只能处理$ \ gamma = 1/2 $的特殊情况。有趣的是，我们建立了$ d ^ {\ oomega（\ log（\ log（\ log（\ log））}}的质量匹配的下限，而是任何统计查询（SQ）算法的复杂性。对于$ \ eta = 1/2 $，我们为一般半空间提供了一个学习算法，具有样本和计算复杂度$ o_ \ epsilon（1）d ^ {o（\ log（1 / epsilon））} $。即使对于均匀半空间的子类，这个结果也是新的;均匀Massart半个空间的现有算法为$ \ eta = 1/2 $提供可持续的保证。我们与D ^ {\ omega（\ log（\ log（\ log（\ log（\ epsilon））} $的近似匹配的sq下限补充了我们的上限，这甚至可以为同类半空间的特殊情况而保持。

translated by 谷歌翻译

Robust Sparse Mean Estimation via Sum of Squares

Ilias Diakonikolas , Daniel M. Kane , Sushrut Karmalkar , Ankit Pensia , Thanasis Pittas

分类：机器学习 | (统计)机器学习

2022-06-07

我们研究了在存在$ \ epsilon $ - 对抗异常值的高维稀疏平均值估计的问题。先前的工作为此任务获得了该任务的样本和计算有效算法，用于辅助性Subgaussian分布。在这项工作中，我们开发了第一个有效的算法，用于强大的稀疏平均值估计，而没有对协方差的先验知识。对于$ \ Mathbb r^d $上的分布，带有“认证有限”的$ t $ tum-矩和足够轻的尾巴，我们的算法达到了$ o（\ epsilon^{1-1/t}）$带有样品复杂性$的错误（\ epsilon^{1-1/t}） m =（k \ log（d））^{o（t）}/\ epsilon^{2-2/t} $。对于高斯分布的特殊情况，我们的算法达到了$ \ tilde o（\ epsilon）$的接近最佳错误，带有样品复杂性$ m = o（k^4 \ mathrm {polylog}（d）（d））/\ epsilon^^ 2 $。我们的算法遵循基于方形的总和，对算法方法的证明。我们通过统计查询和低度多项式测试的下限来补充上限，提供了证据，表明我们算法实现的样本时间 - 错误权衡在质量上是最好的。

translated by 谷歌翻译

Minimum complexity interpolation in random features models

Michael Celentano , Theodor Misiakiewicz , Andrea Montanari

分类：机器学习 | (统计)机器学习

2021-03-30

尽管有许多有吸引力的财产，但内核方法受到维度的诅咒受到严重影响。例如，在$ \ mathbb {r} ^ d $的内部产品内核的情况下，再现内核希尔伯特空间（RKHS）规范对于依赖于小方向子集（RIDGE函数）的功能往往非常大。相应地，使用内核方法难以学习这样的功能。这种观察结果有动力研究内核方法的概括，由此rkhs规范 - 它等同于加权$ \ ell_2 $ norm - 被加权函数$ \ ell_p $ norm替换，我们将其称为$ \ mathcal {f} _p $ norm。不幸的是，这些方法的陶油是不清楚的。内核技巧不可用，最大限度地减少这些规范要求解决无限维凸面问题。我们将随机特征近似于这些规范，表明，对于$ p> 1 $，近似于原始学习问题所需的随机功能的数量是由样本大小的多项式的上限。因此，使用$ \ mathcal {f} _p $ norms在这些情况下是易行的。我们介绍了一种基于双重均匀浓度的证明技术，这可以对超分子化模型的研究更广泛。对于$ p = 1 $，我们对随机功能的保证近似分解。我们证明了使用$ \ mathcal {f} _1 $ norm的学习是在随机减少的$ \ mathsf {np} $ - 基于噪音的半个空间问题的问题。

translated by 谷歌翻译

Robustness Implies Privacy in Statistical Estimation

Samuel B. Hopkins , Gautam Kamath , Mahbod Majid , Shyam Narayanan

分类： (统计)机器学习

2022-12-09

We study the relationship between adversarial robustness and differential privacy in high-dimensional algorithmic statistics. We give the first black-box reduction from privacy to robustness which can produce private estimators with optimal tradeoffs among sample complexity, accuracy, and privacy for a wide range of fundamental high-dimensional parameter estimation problems, including mean and covariance estimation. We show that this reduction can be implemented in polynomial time in some important special cases. In particular, using nearly-optimal polynomial-time robust estimators for the mean and covariance of high-dimensional Gaussians which are based on the Sum-of-Squares method, we design the first polynomial-time private estimators for these problems with nearly-optimal samples-accuracy-privacy tradeoffs. Our algorithms are also robust to a constant fraction of adversarially-corrupted samples.

translated by 谷歌翻译

Fast Neural Kernel Embeddings for General Activations

Insu Han , Amir Zandieh , Jaehoon Lee , Roman Novak , Lechao Xiao , Amin Karbasi

分类：机器学习 | 人工智能 | (统计)机器学习

2022-09-09

通过建立神经网络和内核方法之间的联系，无限宽度极限阐明了深度学习的概括和优化方面。尽管它们的重要性，但这些内核方法的实用性在大规模学习设置中受到限制，因为它们（超）二次运行时和内存复杂性。此外，大多数先前关于神经内核的作品都集中在relu激活上，这主要是由于其受欢迎程度，但这也是由于很难计算此类内核来进行一般激活。在这项工作中，我们通过提供进行一般激活的方法来克服此类困难。首先，我们编译和扩展激活功能的列表，该函数允许精确的双重激活表达式计算神经内核。当确切的计算未知时，我们提出有效近似它们的方法。我们提出了一种快速的素描方法，该方法近似于任何多种多层神经网络高斯过程（NNGP）内核和神经切线核（NTK）矩阵，以实现广泛的激活功能，这超出了常见的经过分析的RELU激活。这是通过显示如何使用任何所需激活函数的截短的Hermite膨胀来近似神经内核来完成的。虽然大多数先前的工作都需要单位球体上的数据点，但我们的方法不受此类限制的影响，并且适用于$ \ Mathbb {r}^d $中的任何点数据集。此外，我们为NNGP和NTK矩阵提供了一个子空间嵌入，具有接近输入的距离运行时和接近最佳的目标尺寸，该目标尺寸适用于任何\ EMPH {均质}双重激活功能，具有快速收敛的Taylor膨胀。从经验上讲，关于精确的卷积NTK（CNTK）计算，我们的方法可实现$ 106 \ times $速度，用于在CIFAR-10数据集上的5层默特网络的近似CNTK。

translated by 谷歌翻译

List-Decodable Sparse Mean Estimation

Shiwei Zeng , Jie Shen

分类：机器学习

2022-05-28

Robust mean estimation is one of the most important problems in statistics: given a set of samples in $\mathbb{R}^d$ where an $\alpha$ fraction are drawn from some distribution $D$ and the rest are adversarially corrupted, we aim to estimate the mean of $D$. A surge of recent research interest has been focusing on the list-decodable setting where $\alpha \in (0, \frac12]$, and the goal is to output a finite number of estimates among which at least one approximates the target mean. In this paper, we consider that the underlying distribution $D$ is Gaussian with $k$-sparse mean. Our main contribution is the first polynomial-time algorithm that enjoys sample complexity $O\big(\mathrm{poly}(k, \log d)\big)$, i.e. poly-logarithmic in the dimension. One of our core algorithmic ingredients is using low-degree sparse polynomials to filter outliers, which may find more applications.

translated by 谷歌翻译

Continuous LWE is as Hard as LWE & Applications to Learning Gaussian Mixtures

Aparna Gupte , Neekon Vafa , Vinod Vaikuntanathan

分类：机器学习

2022-04-06

我们显示出与错误（LWE）问题的经典学习之间的直接和概念上的简单减少，其连续类似物（Bruna，Regev，Song and Tang，STOC 2021）。这使我们能够将基于LWE的密码学的强大机械带到Clwe的应用中。例如，我们在GAP最短矢量问题的经典最坏情况下获得了Clwe的硬度。以前，这仅在晶格问题的量子最坏情况下才知道。更广泛地说，随着我们在两个问题之间的减少，LWE的未来发展也将适用于CLWE及其下游应用程序。作为一种具体的应用，我们显示了高斯混合物密度估计的硬度结果改善。在此计算问题中，给定样品访问高斯人的混合物，目标是输出估计混合物密度函数的函数。在经典LWE问题的（合理且被广泛相信的）指数硬度下，我们表明高斯混合物密度估计$ \ Mathbb {r}^n $，大约$ \ log n $ gaussian组件给定$ \ mathsf {poly}（poly}（poly}（poly}）） n）$样品需要$ n $的时间准分线性。在LWE的（保守）多项式硬度下，我们显示出$ n^{\ epsilon} $高斯的密度估计，对于任何常数$ \ epsilon> 0 $，它可以改善Bruna，Regev，Song和Tang（Stoc 2021），在多项式（量子）硬度假设下，他们至少以$ \ sqrt {n} $高斯的表现表现出硬度。我们的关键技术工具是从古典LWE到LWE的缩短，并使用$ k $ -sparse Secrets，其中噪声的乘法增加仅为$ o（\ sqrt {k}）$，与环境尺寸$ n $无关。

translated by 谷歌翻译

Scaling Neural Tangent Kernels via Sketching and Random Features

Amir Zandieh , Insu Han , Haim Avron , Neta Shoham , Chaewon Kim , Jinwoo Shin

分类：机器学习 | 计算机视觉

2021-06-15

神经切线内核（NTK）表征无限宽的神经网络的行为通过梯度下降训练在最小方形损失下训练。最近的作品还报告说，NTK回归可以优于在小型数据集上培训的有限范围的神经网络。然而，内核方法的计算复杂性限制了在大规模学习任务中的使用。为了加速NTK学习，我们设计了NTK的近输入 - 稀疏时间近似算法，通过绘制arc-anine内核的多项式扩展：我们的NTK卷积对应物的草图（CNTK）可以使用线性运行时转换任何图像像素数。此外，通过将随机特征（基于杠杆分数采样）与草图算法组合，我们证明了NTK矩阵的光谱近似保证。我们在各种大规模回归和分类任务上基准于我们的方法，并显示在我们的CNTK特征上培训的线性回归线符合CIFAR-10数据集上精确CNTK的准确性，同时实现了150倍的加速。

translated by 谷歌翻译

Privately Estimating a Gaussian: Efficient, Robust and Optimal

Daniel Alabi , Pravesh K. Kothari , Pranay Tankala , Prayaag Venkat , Fred Zhang

分类： (统计)机器学习

2022-12-15

In this work, we give efficient algorithms for privately estimating a Gaussian distribution in both pure and approximate differential privacy (DP) models with optimal dependence on the dimension in the sample complexity. In the pure DP setting, we give an efficient algorithm that estimates an unknown $d$-dimensional Gaussian distribution up to an arbitrary tiny total variation error using $\widetilde{O}(d^2 \log \kappa)$ samples while tolerating a constant fraction of adversarial outliers. Here, $\kappa$ is the condition number of the target covariance matrix. The sample bound matches best non-private estimators in the dependence on the dimension (up to a polylogarithmic factor). We prove a new lower bound on differentially private covariance estimation to show that the dependence on the condition number $\kappa$ in the above sample bound is also tight. Prior to our work, only identifiability results (yielding inefficient super-polynomial time algorithms) were known for the problem. In the approximate DP setting, we give an efficient algorithm to estimate an unknown Gaussian distribution up to an arbitrarily tiny total variation error using $\widetilde{O}(d^2)$ samples while tolerating a constant fraction of adversarial outliers. Prior to our work, all efficient approximate DP algorithms incurred a super-quadratic sample cost or were not outlier-robust. For the special case of mean estimation, our algorithm achieves the optimal sample complexity of $\widetilde O(d)$, improving on a $\widetilde O(d^{1.5})$ bound from prior work. Our pure DP algorithm relies on a recursive private preconditioning subroutine that utilizes the recent work on private mean estimation [Hopkins et al., 2022]. Our approximate DP algorithms are based on a substantial upgrade of the method of stabilizing convex relaxations introduced in [Kothari et al., 2022].

translated by 谷歌翻译

Oracle Complexity in Nonsmooth Nonconvex Optimization

Guy Kornowski , Ohad Shamir

分类：机器学习

2021-04-14

众所周知，给定顺滑，界限 - 下面，并且可能的非透露函数，标准梯度的方法可以找到$ \ epsilon $ -stationary积分（渐变范围小于$ \ epsilon $）$ \ mathcal {O}（1 / \ epsilon ^ 2）$迭代。然而，许多重要的非渗透优化问题，例如与培训现代神经网络相关的问题，本质上是不平衡的，使这些结果不适用。在本文中，我们研究了来自Oracle复杂性视点的非透射性优化，其中假设算法仅向各个点处的函数提供访问。我们提供两个主要结果：首先，我们考虑越近$ \ epsilon $ -storationary积分的问题。这也许是找到$ \ epsilon $ -storationary积分的最自然的放松，这在非对象案例中是不可能的。我们证明，对于任何距离和epsilon $小于某些常数，无法有效地实现这种轻松的目标。我们的第二次结果涉及通过减少到平滑的优化来解决非光度非渗透优化的可能性：即，在光滑的近似值对目标函数的平滑近似下应用平滑的优化方法。对于这种方法，我们在温和的假设下证明了oracle复杂性和平滑度之间的固有权衡：一方面，可以非常有效地平滑非光滑非凸函数（例如，通过随机平滑），但具有尺寸依赖性因子在平滑度参数中，在插入标准平滑优化方法时，这会强烈影响迭代复杂性。另一方面，可以用合适的平滑方法消除这些尺寸因子，而是仅通过使平滑过程的Oracle复杂性呈指数大。

translated by 谷歌翻译

Why Robust Generalization in Deep Learning is Difficult: Perspective of Expressive Power

Binghui Li , Jikai Jin , Han Zhong , John E. Hopcroft , Liwei Wang

分类：机器学习 | 人工智能 | (统计)机器学习

2022-05-27

众所周知，现代神经网络容易受到对抗例子的影响。为了减轻这个问题，已经提出了一系列强大的学习算法。但是，尽管通过某些方法可以通过某些方法接近稳定的训练误差，但所有现有的算法都会导致较高的鲁棒概括误差。在本文中，我们从深层神经网络的表达能力的角度提供了对这种令人困惑的现象的理论理解。具体而言，对于二进制分类数据，我们表明，对于Relu网络，虽然轻度的过度参数足以满足较高的鲁棒训练精度，但存在持续的稳健概括差距，除非神经网络的大小是指数的，却是指数的。数据维度$ d $。即使数据是线性可分离的，这意味着要实现低清洁概括错误很容易，我们仍然可以证明$ \ exp（{\ omega}（d））$下限可用于鲁棒概括。通常，只要它们的VC维度最多是参数数量，我们的指数下限也适用于各种神经网络家族和其他功能类别。此外，我们为网络大小建立了$ \ exp（{\ mathcal {o}}（k））$的改进的上限，当数据放在具有内在尺寸$ k $的歧管上时，以实现低鲁棒的概括错误（$） k \ ll d $）。尽管如此，我们也有一个下限，相对于$ k $成倍增长 - 维度的诅咒是不可避免的。通过证明网络大小之间的指数分离以实现较低的鲁棒训练和泛化错误，我们的结果表明，鲁棒概括的硬度可能源于实用模型的表现力。

translated by 谷歌翻译