智能论文笔记

Near-Optimal Statistical Query Hardness of Learning Halfspaces with Massart Noise

Ilias Diakonikolas , Daniel M. Kane

分类：机器学习 | (统计)机器学习

2020-12-17

我们研究了Massart噪声的PAC学习半圆的问题。给定标记的样本$（x，y）$从$ \ mathbb {r} ^ {d} ^ {d} \ times \ times \ {\ pm 1 \} $，这样的例子是任意的和标签$ y $ y $ y $ x $是由按萨塔特对手损坏的目标半空间与翻转概率$ \ eta（x）\ leq \ eta \ leq 1/2 $，目标是用小小的假设计算假设错误分类错误。这个问题的最佳已知$ \ mathrm {poly}（d，1 / \ epsilon）$时间算法实现$ \ eta + \ epsilon $的错误，这可能远离$ \ mathrm {opt} +的最佳界限\ epsilon $，$ \ mathrm {opt} = \ mathbf {e} _ {x \ sim d_x} [\ eta（x）] $。虽然已知实现$ \ mathrm {opt} + O（1）$误差需要超级多项式时间在统计查询模型中，但是在已知的上限和下限之间存在大的间隙。在这项工作中，我们基本上表征了统计查询（SQ）模型中Massart HalfSpaces的有效可读性。具体来说，我们表明，在$ \ mathbb {r} ^ d $中没有高效的sq算法用于学习massart halfpaces ^ d $可以比$ \ omega（\ eta）$更好地实现错误，即使$ \ mathrm {opt} = 2 ^ { - - \ log ^ {c}（d）$，适用于任何通用常量$ c \ in（0,1）$。此外，当噪声上限$ \ eta $接近$ 1/2 $时，我们的错误下限变为$ \ eta - o _ {\ eta}（1）$，其中$ o _ {\ eta}（1）$当$ \ eta $接近$ 1/2 $时，术语达到0美元。我们的结果提供了强有力的证据表明，大规模半空间的已知学习算法几乎是最可能的，从而解决学习理论中的长期开放问题。

translated by 谷歌翻译

Learning General Halfspaces with General Massart Noise under the Gaussian Distribution

Ilias Diakonikolas , Daniel M. Kane , Vasilis Kontonis , Christos Tzamos , Nikos Zarifis

分类：机器学习 | (统计)机器学习

2021-08-19

我们在高斯分布下使用Massart噪声与Massart噪声进行PAC学习半个空间的问题。在Massart模型中，允许对手将每个点$ \ mathbf {x} $的标签与未知概率$ \ eta（\ mathbf {x}）\ leq \ eta $，用于某些参数$ \ eta \ [0,1 / 2] $。目标是找到一个假设$ \ mathrm {opt} + \ epsilon $的错误分类错误，其中$ \ mathrm {opt} $是目标半空间的错误。此前已经在两个假设下研究了这个问题：（i）目标半空间是同质的（即，分离超平面通过原点），并且（ii）参数$ \ eta $严格小于$ 1/2 $。在此工作之前，当除去这些假设中的任何一个时，不知道非增长的界限。我们研究了一般问题并建立以下内容：对于$ \ eta <1/2 $，我们为一般半个空间提供了一个学习算法，采用样本和计算复杂度$ d ^ {o_ {\ eta}（\ log（1 / \ gamma））））}} \ mathrm {poly}（1 / \ epsilon）$，其中$ \ gamma = \ max \ {\ epsilon，\ min \ {\ mathbf {pr} [f（\ mathbf {x}）= 1]， \ mathbf {pr} [f（\ mathbf {x}）= -1] \} \} $是目标半空间$ f $的偏差。现有的高效算法只能处理$ \ gamma = 1/2 $的特殊情况。有趣的是，我们建立了$ d ^ {\ oomega（\ log（\ log（\ log（\ log））}}的质量匹配的下限，而是任何统计查询（SQ）算法的复杂性。对于$ \ eta = 1/2 $，我们为一般半空间提供了一个学习算法，具有样本和计算复杂度$ o_ \ epsilon（1）d ^ {o（\ log（1 / epsilon））} $。即使对于均匀半空间的子类，这个结果也是新的;均匀Massart半个空间的现有算法为$ \ eta = 1/2 $提供可持续的保证。我们与D ^ {\ omega（\ log（\ log（\ log（\ log（\ epsilon））} $的近似匹配的sq下限补充了我们的上限，这甚至可以为同类半空间的特殊情况而保持。

translated by 谷歌翻译

Cryptographic Hardness of Learning Halfspaces with Massart Noise

Ilias Diakonikolas , Daniel M. Kane , Pasin Manurangsi , Lisheng Ren

分类：机器学习

2022-07-28

我们研究了Massart噪声存在下PAC学习半空间的复杂性。在这个问题中，我们得到了I.I.D.标记的示例$（\ mathbf {x}，y）\ in \ mathbb {r}^n \ times \ {\ pm 1 \} $，其中$ \ mathbf {x} $的分布是任意的，标签$ y y y y y y。 $是$ f（\ mathbf {x}）$的MassArt损坏，对于未知的半空间$ f：\ mathbb {r}^n \ to \ to \ {\ pm 1 \} $，带有翻转概率$ \ eta（\ eta）（\ eta） Mathbf {x}）\ leq \ eta <1/2 $。学习者的目的是计算一个小于0-1误差的假设。我们的主要结果是该学习问题的第一个计算硬度结果。具体而言，假设学习错误（LWE）问题（LWE）问题的（被认为是广泛的）超指定时间硬度，我们表明，即使最佳，也没有多项式时间MassArt Halfspace学习者可以更好地达到错误的错误，即使是最佳0-1错误很小，即$ \ mathrm {opt} = 2^{ - \ log^{c}（n）} $对于任何通用常数$ c \ in（0，1）$。先前的工作在统计查询模型中提供了定性上类似的硬度证据。我们的计算硬度结果基本上可以解决Massart Halfspaces的多项式PAC可学习性，这表明对该问题的已知有效学习算法几乎是最好的。

translated by 谷歌翻译

Optimal SQ Lower Bounds for Robustly Learning Discrete Product Distributions and Ising Models

Ilias Diakonikolas , Daniel M. Kane , Yuxin Sun

分类：机器学习 | (统计)机器学习

2022-06-09

我们建立了最佳的统计查询（SQ）下限，以鲁棒地学习某些离散高维分布的家庭。特别是，我们表明，没有访问$ \ epsilon $ -Cruntupted二进制产品分布的有效SQ算法可以在$ \ ell_2 $ -error $ o（\ epsilon \ sqrt {\ log（\ log（1/\ epsilon））内学习其平均值}）$。同样，我们表明，没有访问$ \ epsilon $ - 腐败的铁磁高温岛模型的有效SQ算法可以学习到总变量距离$ O（\ Epsilon \ log（1/\ Epsilon））$。我们的SQ下限符合这些问题已知算法的错误保证，提供证据表明这些任务的当前上限是最好的。在技术层面上，我们为离散的高维分布开发了一个通用的SQ下限，从低维矩匹配构建体开始，我们认为这将找到其他应用程序。此外，我们介绍了新的想法，以分析这些矩匹配的结构，以进行离散的单变量分布。

translated by 谷歌翻译

Robust Sparse Mean Estimation via Sum of Squares

Ilias Diakonikolas , Daniel M. Kane , Sushrut Karmalkar , Ankit Pensia , Thanasis Pittas

分类：机器学习 | (统计)机器学习

2022-06-07

我们研究了在存在$ \ epsilon $ - 对抗异常值的高维稀疏平均值估计的问题。先前的工作为此任务获得了该任务的样本和计算有效算法，用于辅助性Subgaussian分布。在这项工作中，我们开发了第一个有效的算法，用于强大的稀疏平均值估计，而没有对协方差的先验知识。对于$ \ Mathbb r^d $上的分布，带有“认证有限”的$ t $ tum-矩和足够轻的尾巴，我们的算法达到了$ o（\ epsilon^{1-1/t}）$带有样品复杂性$的错误（\ epsilon^{1-1/t}） m =（k \ log（d））^{o（t）}/\ epsilon^{2-2/t} $。对于高斯分布的特殊情况，我们的算法达到了$ \ tilde o（\ epsilon）$的接近最佳错误，带有样品复杂性$ m = o（k^4 \ mathrm {polylog}（d）（d））/\ epsilon^^ 2 $。我们的算法遵循基于方形的总和，对算法方法的证明。我们通过统计查询和低度多项式测试的下限来补充上限，提供了证据，表明我们算法实现的样本时间 - 错误权衡在质量上是最好的。

translated by 谷歌翻译

A Strongly Polynomial Algorithm for Approximate Forster Transforms and its Application to Halfspace Learning

Ilias Diakonikolas , Christos Tzamos , Daniel M. Kane

分类：机器学习 | (统计)机器学习

2022-12-06

The Forster transform is a method of regularizing a dataset by placing it in {\em radial isotropic position} while maintaining some of its essential properties. Forster transforms have played a key role in a diverse range of settings spanning computer science and functional analysis. Prior work had given {\em weakly} polynomial time algorithms for computing Forster transforms, when they exist. Our main result is the first {\em strongly polynomial time} algorithm to compute an approximate Forster transform of a given dataset or certify that no such transformation exists. By leveraging our strongly polynomial Forster algorithm, we obtain the first strongly polynomial time algorithm for {\em distribution-free} PAC learning of halfspaces. This learning result is surprising because {\em proper} PAC learning of halfspaces is {\em equivalent} to linear programming. Our learning approach extends to give a strongly polynomial halfspace learner in the presence of random classification noise and, more generally, Massart noise.

translated by 谷歌翻译

Non-Gaussian Component Analysis via Lattice Basis Reduction

Ilias Diakonikolas , Daniel M. Kane

分类：机器学习 | (统计)机器学习

2021-12-16

非高斯分量分析（NGCA）是以下分布学习问题：给予I.I.D.来自$ \ mathbb {r} ^ d $的分布上的样本，这是一个隐藏方向的非高斯和一个独立的标准高斯在正交方向上，目标是近似隐藏方向$ v $。先前的工作\ Cite {DKS17-SQ}提供了在单变量非高斯分配$ a $的适当时刻匹配条件下为NGCA提供信息计算权衡的正式证据。当分配$ a $是离散的时，后者的结果不适用。自然问题是信息计算权衡是否持续存在。在本文中，我们通过在规定的技术意义上获得$ a $的规范中的NGCA的样本和计算有效的算法来回答阴性的问题。在算法中利用的关键工具是LATTICE基础减少的LLL方法\ Cite {LLL82}。

translated by 谷歌翻译

Learning a Single Neuron with Adversarial Label Noise via Gradient Descent

Ilias Diakonikolas , Vasilis Kontonis , Christos Tzamos , Nikos Zarifis

分类：机器学习 | (统计)机器学习

2022-06-17

我们研究了学习单个神经元的基本问题，即$ \ mathbf {x} \ mapsto \ sigma（\ mathbf {w} \ cdot \ cdot \ mathbf {x}）$单调激活$ \ sigma $ \ sigma： \ mathbb {r} \ mapsto \ mathbb {r} $，相对于$ l_2^2 $ -loss，在存在对抗标签噪声的情况下。具体来说，我们将在$（\ mathbf {x}，y）\ in \ mathbb {r}^d \ times \ times \ mathbb {r} $上给我们从$（\ mathbf {x}，y）\ on a发行$ d $中给我们标记的示例。 }^\ ast \ in \ mathbb {r}^d $ achieving $ f（\ mathbf {w}^\ ast）= \ epsilon $，其中$ f（\ mathbf {w}）= \ m马理bf {e} （\ mathbf {x}，y）\ sim d} [（\ sigma（\ mathbf {w} \ cdot \ mathbf {x}） - y）^2] $。学习者的目标是输出假设向量$ \ mathbf {w} $，以使$ f（\ m athbb {w}）= c \，\ epsilon $具有高概率，其中$ c> 1 $是通用常数。作为我们的主要贡献，我们为广泛的分布（包括对数 - 循环分布）和激活功能提供有效的恒定因素近似学习者。具体地说，对于各向同性对数凸出分布的类别，我们获得以下重要的推论：对于逻辑激活，我们获得了第一个多项式时间常数因子近似（即使在高斯分布下）。我们的算法具有样品复杂性$ \ widetilde {o}（d/\ epsilon）$，这在多毛体因子中很紧。对于relu激活，我们给出了一个有效的算法，带有样品复杂性$ \ tilde {o}（d \，\ polylog（1/\ epsilon））$。在我们工作之前，最著名的常数因子近似学习者具有样本复杂性$ \ tilde {\ omega}（d/\ epsilon）$。在这两个设置中，我们的算法很简单，在（正规）$ L_2^2 $ -LOSS上执行梯度散发。我们的算法的正确性取决于我们确定的新结构结果，表明（本质上是基本上）基础非凸损失的固定点大约是最佳的。

translated by 谷歌翻译

Hardness of Agnostically Learning Halfspaces from Worst-Case Lattice Problems

Stefan Tiegel

分类：机器学习 | (统计)机器学习

2022-07-28

我们显示了基于最坏情况的晶格问题（例如，近似多项式因子中的最短载体），在不当模型中学习不当学习的半空间的硬度。特别是，我们表明，在此假设下，没有有效的算法可以输出任何二元假设，不一定是半空间，即使最佳错误分类误差也一样小，即使最佳错误分类误差也一样，也比$ \ frac 1 2- \ epsilon $更好地实现错误分类误差。小为$ \ delta $。在这里，$ \ epsilon $可以小于尺寸中任何多项式的倒数，而$ \ delta $则小于$ \ mathrm {exp} \ left（ - \ omega \ left（\ log^{1-c}）（\ log^{1-c}（ d）\ right）\ right）$，其中$ 0 <c <1 $是任意常数，$ d $是尺寸。此问题的先前硬度结果[Daniely16]基于平均案例复杂性假设，特别是Feige随机3SAT假设的变体。我们的工作为基于最坏情况的复杂性假设提供了这个问题的第一个硬度。它的灵感来自最近的一系列作品，显示出基于最坏情况的晶格问题学习良好的高斯混合物的硬度。

translated by 谷歌翻译

Near-Optimal Bounds for Testing Histogram Distributions

Clément L. Canonne , Ilias Diakonikolas , Daniel M. Kane , Sihan Liu

分类：机器学习

2022-07-14

我们研究了测试有序域上的离散概率分布是否是指定数量的垃圾箱的直方图。$ k $的简洁近似值的最常见工具之一是$ k $ [n] $，是概率分布，在一组$ k $间隔上是分段常数的。直方图测试问题如下：从$ [n] $上的未知分布中给定样品$ \ mathbf {p} $，我们想区分$ \ mathbf {p} $的情况从任何$ k $ - 组织图中，总变化距离的$ \ varepsilon $ -far。我们的主要结果是针对此测试问题的样本接近最佳和计算有效的算法，以及几乎匹配的（在对数因素内）样品复杂性下限。具体而言，我们表明直方图测试问题具有样品复杂性$ \ widetilde \ theta（\ sqrt {nk} / \ varepsilon + k / \ varepsilon^2 + \ sqrt {n} / \ varepsilon^2）$。

translated by 谷歌翻译

Identity Testing for High-Dimensional Distributions via Entropy Tensorization

Antonio Blanca , Zongchen Chen , Daniel Štefankovič , Eric Vigoda

分类：机器学习

2022-07-19

我们提出了改进的算法，并为身份测试$ n $维分布的问题提供了统计和计算下限。在身份测试问题中，我们将作为输入作为显式分发$ \ mu $，$ \ varepsilon> 0 $，并访问对隐藏分布$ \ pi $的采样甲骨文。目标是区分两个分布$ \ mu $和$ \ pi $是相同的还是至少$ \ varepsilon $ -far分开。当仅从隐藏分布$ \ pi $中访问完整样本时，众所周知，可能需要许多样本，因此以前的作品已经研究了身份测试，并额外访问了各种有条件采样牙齿。我们在这里考虑一个明显弱的条件采样甲骨文，称为坐标Oracle，并在此新模型中提供了身份测试问题的相当完整的计算和统计表征。我们证明，如果一个称为熵的分析属性为可见分布$ \ mu $保留，那么对于任何使用$ \ tilde {o}（n/\ tilde {o}），有一个有效的身份测试算法Varepsilon）$查询坐标Oracle。熵的近似张力是一种经典的工具，用于证明马尔可夫链的最佳混合时间边界用于高维分布，并且最近通过光谱独立性为许多分布族建立了最佳的混合时间。我们将算法结果与匹配的$ \ omega（n/\ varepsilon）$统计下键进行匹配的算法结果补充，以供坐标Oracle下的查询数量。我们还证明了一个计算相变：对于$ \ {+1，-1，-1 \}^n $以上的稀疏抗抗铁磁性模型，在熵失败的近似张力失败的状态下，除非RP = np，否则没有有效的身份测试算法。

translated by 谷歌翻译

Lattice-Based Methods Surpass Sum-of-Squares in Clustering

Ilias Zadik , Min Jae Song , Alexander S. Wein , Joan Bruna

分类：机器学习 | (统计)机器学习

2021-12-07

聚类是无监督学习中的基本原始，它引发了丰富的计算挑战性推理任务。在这项工作中，我们专注于将$ D $ -dimential高斯混合的规范任务与未知（和可能的退化）协方差集成。最近的作品（Ghosh等人。恢复在高斯聚类实例中种植的某些隐藏结构。在许多类似的推理任务上的工作开始，这些较低界限强烈建议存在群集的固有统计到计算间隙，即群集任务是\ yringit {statistically}可能但没有\ texit {多项式 - 时间}算法成功。我们考虑的聚类任务的一个特殊情况相当于在否则随机子空间中找到种植的超立体载体的问题。我们表明，也许令人惊讶的是，这种特定的聚类模型\ extent {没有展示}统计到计算间隙，即使在这种情况下继续应用上述的低度和SOS下限。为此，我们提供了一种基于Lenstra - Lenstra - Lovasz晶格基础减少方法的多项式算法，该方法实现了$ D + 1 $样本的统计上最佳的样本复杂性。该结果扩展了猜想统计到计算间隙的问题的类问题可以通过“脆弱”多项式算法“关闭”，突出显示噪声在统计到计算间隙的发作中的关键而微妙作用。

translated by 谷歌翻译

Quantum learning algorithms imply circuit lower bounds

Srinivasan Arunachalam , Alex B. Grilo , Tom Gur , Igor C. Oliveira , Aarthi Sundaram

分类：机器学习

2020-12-03

我们建立了量子算法设计与电路下限之间的第一一般连接。具体来说，让$ \ mathfrak {c} $是一类多项式大小概念，假设$ \ mathfrak {c} $可以在统一分布下的成员查询，错误$ 1/2 - \ gamma $通过时间$ t $量子算法。我们证明如果$ \ gamma ^ 2 \ cdot t \ ll 2 ^ n / n $，则$ \ mathsf {bqe} \ nsubseteq \ mathfrak {c} $，其中$ \ mathsf {bqe} = \ mathsf {bque} [2 ^ {o（n）}] $是$ \ mathsf {bqp} $的指数时间模拟。在$ \ gamma $和$ t $中，此结果是最佳的，因为它不难学习（经典）时间$ t = 2 ^ n $（没有错误），或在Quantum Time $ t = \ mathsf {poly}（n）$以傅立叶采样为单位为1/2美元（2 ^ { - n / 2}）$。换句话说，即使对这些通用学习算法的边际改善也会导致复杂性理论的主要后果。我们的证明在学习理论，伪随机性和计算复杂性的几个作品上构建，并且至关重要地，在非凡的经典学习算法与由Oliveira和Santhanam建立的电路下限之间的联系（CCC 2017）。扩展他们对量子学习算法的方法，结果产生了重大挑战。为此，我们展示了伪随机发电机如何以通用方式意味着学习到较低的连接，构建针对均匀量子计算的第一个条件伪随机发生器，并扩展了Impagliazzo，JaiSwal的本地列表解码算法。，Kabanets和Wigderson（Sicomp 2010）通过微妙的分析到量子电路。我们认为，这些贡献是独立的兴趣，可能会发现其他申请。

translated by 谷歌翻译

Realizable Learning is All You Need

Max Hopkins , Daniel Kane , Shachar Lovett , Gaurav Mahajan

分类：机器学习 | (统计)机器学习

2021-11-08

可实现和不可知性的可读性的等价性是学习理论的基本现象。与PAC学习和回归等古典设置范围的变种，近期趋势，如对冲强劲和私人学习，我们仍然缺乏统一理论;等同性的传统证据往往是不同的，并且依赖于强大的模型特异性假设，如统一的收敛和样本压缩。在这项工作中，我们给出了第一个独立的框架，解释了可实现和不可知性的可读性的等价性：三行黑箱减少简化，统一，并在各种各样的环境中扩展了我们的理解。这包括没有已知的学报的模型，例如学习任意分布假设或一般损失，以及许多其他流行的设置，例如强大的学习，部分学习，公平学习和统计查询模型。更一般地，我们认为可实现和不可知的学习的等价性实际上是我们调用属性概括的更广泛现象的特殊情况：可以满足有限的学习算法（例如\噪声公差，隐私，稳定性）的任何理想性质假设类（可能在某些变化中）延伸到任何学习的假设类。

translated by 谷歌翻译

Computational Barriers to Estimation from Low-Degree Polynomials

Tselil Schramm , Alexander S. Wein

分类： (统计)机器学习

2020-08-05

高维统计数据的一个基本目标是检测或恢复嘈杂数据中隐藏的种植结构（例如低级别矩阵）。越来越多的工作研究低级多项式作为此类问题的计算模型的限制模型：在各种情况下，数据的低级多项式可以与最知名的多项式时间算法的统计性能相匹配。先前的工作已经研究了低度多项式的力量，以检测隐藏结构的存在。在这项工作中，我们将这些方法扩展到解决估计和恢复问题（而不是检测）。对于大量的“信号加噪声”问题，我们给出了一个用户友好的下限，以获得最佳的均衡误差。据我们所知，这些是建立相关检测问题的恢复问题低度硬度的第一个结果。作为应用，我们对种植的子静脉和种植的密集子图问题的低度最小平方误差进行了严格的特征，在两种情况下都解决了有关恢复的计算复杂性的开放问题（在低度框架中）。

translated by 谷歌翻译

Active Sampling for Linear Regression Beyond the $\ell_2$ Norm

Cameron Musco , Christopher Musco , David P. Woodruff , Taisuke Yasuda

分类：机器学习 | (统计)机器学习

2021-11-09

我们研究了用于线性回归的主动采样算法，该算法仅旨在查询目标向量$ b \ in \ mathbb {r} ^ n $的少量条目，并将近最低限度输出到$ \ min_ {x \ In \ mathbb {r} ^ d} \ | ax-b \ | $，其中$ a \ in \ mathbb {r} ^ {n \ times d} $是一个设计矩阵和$ \ | \ cdot \ | $是一些损失函数。对于$ \ ell_p $ norm回归的任何$ 0 <p <\ idty $，我们提供了一种基于Lewis权重采样的算法，其使用只需$ \ tilde {o}输出$（1+ \ epsilon）$近似解决方案（d ^ {\ max（1，{p / 2}）} / \ mathrm {poly}（\ epsilon））$查询到$ b $。我们表明，这一依赖于$ D $是最佳的，直到对数因素。我们的结果解决了陈和Derezi的最近开放问题，陈和Derezi \'{n} Ski，他们为$ \ ell_1 $ norm提供了附近的最佳界限，以及$ p \中的$ \ ell_p $回归的次优界限（1,2） $。我们还提供了$ O的第一个总灵敏度上限（D ^ {\ max \ {1，p / 2 \} \ log ^ 2 n）$以满足最多的$ p $多项式增长。这改善了Tukan，Maalouf和Feldman的最新结果。通过将此与我们的技术组合起来的$ \ ell_p $回归结果，我们获得了一个使$ \ tilde o的活动回归算法（d ^ {1+ \ max \ {1，p / 2 \}} / \ mathrm {poly}。（\ epsilon））$疑问，回答陈和德里兹的另一个打开问题{n}滑雪。对于Huber损失的重要特殊情况，我们进一步改善了我们对$ \ tilde o的主动样本复杂性的绑定（d ^ {（1+ \ sqrt2）/ 2} / \ epsilon ^ c）$和非活跃$ \ tilde o的样本复杂性（d ^ {4-2 \ sqrt 2} / \ epsilon ^ c）$，由于克拉克森和伍德拉夫而改善了Huber回归的以前的D ^ 4 $。我们的敏感性界限具有进一步的影响，使用灵敏度采样改善了各种先前的结果，包括orlicz规范子空间嵌入和鲁棒子空间近似。最后，我们的主动采样结果为每种$ \ ell_p $ norm提供的第一个Sublinear时间算法。

translated by 谷歌翻译

Privacy Induces Robustness: Information-Computation Gaps and Sparse Mean Estimation

Kristian Georgiev , Samuel B. Hopkins

分类： (统计)机器学习 | 机器学习

2022-11-01

We establish a simple connection between robust and differentially-private algorithms: private mechanisms which perform well with very high probability are automatically robust in the sense that they retain accuracy even if a constant fraction of the samples they receive are adversarially corrupted. Since optimal mechanisms typically achieve these high success probabilities, our results imply that optimal private mechanisms for many basic statistics problems are robust. We investigate the consequences of this observation for both algorithms and computational complexity across different statistical problems. Assuming the Brennan-Bresler secret-leakage planted clique conjecture, we demonstrate a fundamental tradeoff between computational efficiency, privacy leakage, and success probability for sparse mean estimation. Private algorithms which match this tradeoff are not yet known -- we achieve that (up to polylogarithmic factors) in a polynomially-large range of parameters via the Sum-of-Squares method. To establish an information-computation gap for private sparse mean estimation, we also design new (exponential-time) mechanisms using fewer samples than efficient algorithms must use. Finally, we give evidence for privacy-induced information-computation gaps for several other statistics and learning problems, including PAC learning parity functions and estimation of the mean of a multivariate Gaussian.

translated by 谷歌翻译

Privately Estimating a Gaussian: Efficient, Robust and Optimal

Daniel Alabi , Pravesh K. Kothari , Pranay Tankala , Prayaag Venkat , Fred Zhang

分类： (统计)机器学习

2022-12-15

In this work, we give efficient algorithms for privately estimating a Gaussian distribution in both pure and approximate differential privacy (DP) models with optimal dependence on the dimension in the sample complexity. In the pure DP setting, we give an efficient algorithm that estimates an unknown $d$-dimensional Gaussian distribution up to an arbitrary tiny total variation error using $\widetilde{O}(d^2 \log \kappa)$ samples while tolerating a constant fraction of adversarial outliers. Here, $\kappa$ is the condition number of the target covariance matrix. The sample bound matches best non-private estimators in the dependence on the dimension (up to a polylogarithmic factor). We prove a new lower bound on differentially private covariance estimation to show that the dependence on the condition number $\kappa$ in the above sample bound is also tight. Prior to our work, only identifiability results (yielding inefficient super-polynomial time algorithms) were known for the problem. In the approximate DP setting, we give an efficient algorithm to estimate an unknown Gaussian distribution up to an arbitrarily tiny total variation error using $\widetilde{O}(d^2)$ samples while tolerating a constant fraction of adversarial outliers. Prior to our work, all efficient approximate DP algorithms incurred a super-quadratic sample cost or were not outlier-robust. For the special case of mean estimation, our algorithm achieves the optimal sample complexity of $\widetilde O(d)$, improving on a $\widetilde O(d^{1.5})$ bound from prior work. Our pure DP algorithm relies on a recursive private preconditioning subroutine that utilizes the recent work on private mean estimation [Hopkins et al., 2022]. Our approximate DP algorithms are based on a substantial upgrade of the method of stabilizing convex relaxations introduced in [Kothari et al., 2022].

translated by 谷歌翻译

Learning GMMs with Nearly Optimal Robustness Guarantees

Allen Liu , Ankur Moitra

分类：机器学习 | (统计)机器学习

2021-04-19

在这项工作中，我们解决了从$ \ epsilon $ -corrupted样本的$ k $组件稳健地学习高斯高斯混合模型的问题，以准确率$ \ widetilde {o}（\ epsilon）在总变化距离中持续$ k $，并在混合物上具有温和的假设。这种稳健性保证是最佳的积极因素因素。主要挑战是，大多数早期的作品依赖于在混合中学习各个组件，但在我们的环境中是不可能的，至少对于我们旨在保证的强大稳健性的类型是不可能的。相反，我们介绍了一个新的框架，我们称之为{\ em强烈的可观察性}，这为我们提供了一条规避这障碍的途径。

translated by 谷歌翻译

List-Decodable Sparse Mean Estimation via Difference-of-Pairs Filtering

Ilias Diakonikolas , Daniel M. Kane , Sushrut Karmalkar , Ankit Pensia , Thanasis Pittas

分类：机器学习 | (统计)机器学习

2022-06-10

我们研究列表可解码的稀疏平均估计问题。具体来说，对于（0，1/2）$的参数$ \ alpha \，我们获得了$ \ mathbb {r}^n $，$ \ lfloor \ alpha m \ rfloor $的$ m $点。来自分销$ d $的样品，带有未知$ k $ -sparse的平均$ \ mu $。没有对剩余点的假设，该点构成了数据集的大多数。目标是返回包含矢量$ \ widehat \ mu $的候选人列表，以便$ \ | \ widehat \ mu - \ mu \ | _2 $很小。先前的工作研究了在密集设置中可列表可调式估计的问题。在这项工作中，我们开发了一种新颖的，概念上的简单技术，用于列表可解码的均值估计。作为我们方法的主要应用，我们为列表可解码的稀疏平均值估计提供了第一个样本和计算有效算法。特别是，对于带有``认证有限的''$ t $ t $ thements in $ k $ -sparse方向和足够轻的尾巴的发行版，我们的算法达到了$（1/\ alpha）^{o（1/t）的错误（1/\ alpha） } $带有示例复杂性$ m =（k \ log（n））^{o（t）}/\ alpha $和运行时间$ \ mathrm {poly}（mn^t）$。对于高斯嵌入式的特殊情况，我们的算法实现了$ \ theta（\ sqrt {\ log（1/\ alpha）}）$的最佳错误保证，并具有Quasi-PolyNomial样本和计算复杂性。我们通过几乎匹配的统计查询和低度多项式测试的下限来补充上限。

translated by 谷歌翻译