智能论文笔记

Learning convex polyhedra with margin

Lee-Ad Gottlieb , Eran Kaufman , Aryeh Kontorovich , Gabriel Nivasch

分类：机器学习 | (统计)机器学习

2018-05-24

我们在可实现的PAC设置中从带有边距的可实现的PAC设置中介绍了一种改进的{\ em准正确}学习凸多面体。我们的学习算法将一致的多面体构造为大约$ t \ log t $ halfpace，在$ t $的时间多项式中的恒定尺寸边距（其中$ t $是形成最佳多面体的半个空间的数量）。我们还确定了从覆盖物到多层的覆盖率概念的明显概括，并调查它们如何与几何上的关系;此结果可能具有超出学习设置的后果。

translated by 谷歌翻译

Active Sampling for Linear Regression Beyond the $\ell_2$ Norm

Cameron Musco , Christopher Musco , David P. Woodruff , Taisuke Yasuda

分类：机器学习 | (统计)机器学习

2021-11-09

我们研究了用于线性回归的主动采样算法，该算法仅旨在查询目标向量$ b \ in \ mathbb {r} ^ n $的少量条目，并将近最低限度输出到$ \ min_ {x \ In \ mathbb {r} ^ d} \ | ax-b \ | $，其中$ a \ in \ mathbb {r} ^ {n \ times d} $是一个设计矩阵和$ \ | \ cdot \ | $是一些损失函数。对于$ \ ell_p $ norm回归的任何$ 0 <p <\ idty $，我们提供了一种基于Lewis权重采样的算法，其使用只需$ \ tilde {o}输出$（1+ \ epsilon）$近似解决方案（d ^ {\ max（1，{p / 2}）} / \ mathrm {poly}（\ epsilon））$查询到$ b $。我们表明，这一依赖于$ D $是最佳的，直到对数因素。我们的结果解决了陈和Derezi的最近开放问题，陈和Derezi \'{n} Ski，他们为$ \ ell_1 $ norm提供了附近的最佳界限，以及$ p \中的$ \ ell_p $回归的次优界限（1,2） $。我们还提供了$ O的第一个总灵敏度上限（D ^ {\ max \ {1，p / 2 \} \ log ^ 2 n）$以满足最多的$ p $多项式增长。这改善了Tukan，Maalouf和Feldman的最新结果。通过将此与我们的技术组合起来的$ \ ell_p $回归结果，我们获得了一个使$ \ tilde o的活动回归算法（d ^ {1+ \ max \ {1，p / 2 \}} / \ mathrm {poly}。（\ epsilon））$疑问，回答陈和德里兹的另一个打开问题{n}滑雪。对于Huber损失的重要特殊情况，我们进一步改善了我们对$ \ tilde o的主动样本复杂性的绑定（d ^ {（1+ \ sqrt2）/ 2} / \ epsilon ^ c）$和非活跃$ \ tilde o的样本复杂性（d ^ {4-2 \ sqrt 2} / \ epsilon ^ c）$，由于克拉克森和伍德拉夫而改善了Huber回归的以前的D ^ 4 $。我们的敏感性界限具有进一步的影响，使用灵敏度采样改善了各种先前的结果，包括orlicz规范子空间嵌入和鲁棒子空间近似。最后，我们的主动采样结果为每种$ \ ell_p $ norm提供的第一个Sublinear时间算法。

translated by 谷歌翻译

Robustness Implies Privacy in Statistical Estimation

Samuel B. Hopkins , Gautam Kamath , Mahbod Majid , Shyam Narayanan

分类： (统计)机器学习

2022-12-09

We study the relationship between adversarial robustness and differential privacy in high-dimensional algorithmic statistics. We give the first black-box reduction from privacy to robustness which can produce private estimators with optimal tradeoffs among sample complexity, accuracy, and privacy for a wide range of fundamental high-dimensional parameter estimation problems, including mean and covariance estimation. We show that this reduction can be implemented in polynomial time in some important special cases. In particular, using nearly-optimal polynomial-time robust estimators for the mean and covariance of high-dimensional Gaussians which are based on the Sum-of-Squares method, we design the first polynomial-time private estimators for these problems with nearly-optimal samples-accuracy-privacy tradeoffs. Our algorithms are also robust to a constant fraction of adversarially-corrupted samples.

translated by 谷歌翻译

Learning General Halfspaces with General Massart Noise under the Gaussian Distribution

Ilias Diakonikolas , Daniel M. Kane , Vasilis Kontonis , Christos Tzamos , Nikos Zarifis

分类：机器学习 | (统计)机器学习

2021-08-19

我们在高斯分布下使用Massart噪声与Massart噪声进行PAC学习半个空间的问题。在Massart模型中，允许对手将每个点$ \ mathbf {x} $的标签与未知概率$ \ eta（\ mathbf {x}）\ leq \ eta $，用于某些参数$ \ eta \ [0,1 / 2] $。目标是找到一个假设$ \ mathrm {opt} + \ epsilon $的错误分类错误，其中$ \ mathrm {opt} $是目标半空间的错误。此前已经在两个假设下研究了这个问题：（i）目标半空间是同质的（即，分离超平面通过原点），并且（ii）参数$ \ eta $严格小于$ 1/2 $。在此工作之前，当除去这些假设中的任何一个时，不知道非增长的界限。我们研究了一般问题并建立以下内容：对于$ \ eta <1/2 $，我们为一般半个空间提供了一个学习算法，采用样本和计算复杂度$ d ^ {o_ {\ eta}（\ log（1 / \ gamma））））}} \ mathrm {poly}（1 / \ epsilon）$，其中$ \ gamma = \ max \ {\ epsilon，\ min \ {\ mathbf {pr} [f（\ mathbf {x}）= 1]， \ mathbf {pr} [f（\ mathbf {x}）= -1] \} \} $是目标半空间$ f $的偏差。现有的高效算法只能处理$ \ gamma = 1/2 $的特殊情况。有趣的是，我们建立了$ d ^ {\ oomega（\ log（\ log（\ log（\ log））}}的质量匹配的下限，而是任何统计查询（SQ）算法的复杂性。对于$ \ eta = 1/2 $，我们为一般半空间提供了一个学习算法，具有样本和计算复杂度$ o_ \ epsilon（1）d ^ {o（\ log（1 / epsilon））} $。即使对于均匀半空间的子类，这个结果也是新的;均匀Massart半个空间的现有算法为$ \ eta = 1/2 $提供可持续的保证。我们与D ^ {\ omega（\ log（\ log（\ log（\ log（\ epsilon））} $的近似匹配的sq下限补充了我们的上限，这甚至可以为同类半空间的特殊情况而保持。

translated by 谷歌翻译

Sample Complexity of Adversarially Robust Linear Classification on Separated Data

Robi Bhattacharjee , Somesh Jha , Kamalika Chaudhuri

分类：机器学习 | (统计)机器学习

2020-12-19

我们考虑使用对抗鲁棒性学习的样本复杂性。对于此问题的大多数现有理论结果已经考虑了数据中不同类别在一起或重叠的设置。通过一些实际应用程序，我们认为，相比之下，存在具有完美精度和稳健性的分类器的分类器的良好分离的情况，并表明样品复杂性叙述了一个完全不同的故事。具体地，对于线性分类器，我们显示了大类分离的分布式，其中任何算法的预期鲁棒丢失至少是$ \ω（\ FRAC {D} {n}）$，而最大边距算法已预期标准亏损$ o（\ frac {1} {n}）$。这表明了通过现有技术不能获得的标准和鲁棒损耗中的间隙。另外，我们介绍了一种算法，给定鲁棒率半径远小于类之间的间隙的实例，给出了预期鲁棒损失的解决方案是$ O（\ FRAC {1} {n}）$。这表明，对于非常好的数据，可实现$ O（\ FRAC {1} {n}）$的收敛速度，否则就是这样。我们的结果适用于任何$ \ ell_p $ norm以$ p> 1 $（包括$ p = \ idty $）为稳健。

translated by 谷歌翻译

Why Robust Generalization in Deep Learning is Difficult: Perspective of Expressive Power

Binghui Li , Jikai Jin , Han Zhong , John E. Hopcroft , Liwei Wang

分类：机器学习 | 人工智能 | (统计)机器学习

2022-05-27

众所周知，现代神经网络容易受到对抗例子的影响。为了减轻这个问题，已经提出了一系列强大的学习算法。但是，尽管通过某些方法可以通过某些方法接近稳定的训练误差，但所有现有的算法都会导致较高的鲁棒概括误差。在本文中，我们从深层神经网络的表达能力的角度提供了对这种令人困惑的现象的理论理解。具体而言，对于二进制分类数据，我们表明，对于Relu网络，虽然轻度的过度参数足以满足较高的鲁棒训练精度，但存在持续的稳健概括差距，除非神经网络的大小是指数的，却是指数的。数据维度$ d $。即使数据是线性可分离的，这意味着要实现低清洁概括错误很容易，我们仍然可以证明$ \ exp（{\ omega}（d））$下限可用于鲁棒概括。通常，只要它们的VC维度最多是参数数量，我们的指数下限也适用于各种神经网络家族和其他功能类别。此外，我们为网络大小建立了$ \ exp（{\ mathcal {o}}（k））$的改进的上限，当数据放在具有内在尺寸$ k $的歧管上时，以实现低鲁棒的概括错误（$） k \ ll d $）。尽管如此，我们也有一个下限，相对于$ k $成倍增长 - 维度的诅咒是不可避免的。通过证明网络大小之间的指数分离以实现较低的鲁棒训练和泛化错误，我们的结果表明，鲁棒概括的硬度可能源于实用模型的表现力。

translated by 谷歌翻译

Boosting Simple Learners

Noga Alon , Alon Gonen , Elad Hazan , Shay Moran

分类：机器学习 | (统计)机器学习

2020-01-31

Boosting是一种著名的机器学习方法，它基于将弱和适度不准确假设与强烈而准确的假设相结合的想法。我们研究了弱假设属于界限能力类别的假设。这个假设的灵感来自共同的惯例，即虚弱的假设是“易于学习的类别”中的“人数规则”。（Schapire和Freund〜 '12，Shalev-Shwartz和Ben-David '14。）正式，我们假设弱假设类别具有有界的VC维度。我们关注两个主要问题：（i）甲骨文的复杂性：产生准确的假设需要多少个弱假设？我们设计了一种新颖的增强算法，并证明它绕过了由Freund和Schapire（'95，'12）的经典下限。虽然下限显示$ \ omega（{1}/{\ gamma^2}）$弱假设有时是必要的，而有时则需要使用$ \ gamma $ -margin，但我们的新方法仅需要$ \ tilde {o}（{1}）（{1}） /{\ gamma}）$弱假设，前提是它们属于一类有界的VC维度。与以前的增强算法以多数票汇总了弱假设的算法不同，新的增强算法使用了更复杂（“更深”）的聚合规则。我们通过表明复杂的聚合规则实际上是规避上述下限是必要的，从而补充了这一结果。（ii）表现力：通过提高有限的VC类的弱假设可以学习哪些任务？可以学到“遥远”的复杂概念吗？为了回答第一个问题，我们{介绍组合几何参数，这些参数捕获增强的表现力。}作为推论，我们为认真的班级的第二个问题提供了肯定的答案，包括半空间和决策树桩。一路上，我们建立并利用差异理论的联系。

translated by 谷歌翻译

Johnson Coverage Hypothesis: Inapproximability of k-means and k-median in L_p metrics

Vincent Cohen-Addad , Karthik C. S , Euiwoong Lee

分类：机器学习

2021-11-21

K-MEDIAN和K-MEACE是聚类算法的两个最受欢迎的目标。尽管有密集的努力，但对这些目标的近似性很好地了解，特别是在$ \ ell_p $ -metrics中，仍然是一个重大的开放问题。在本文中，我们在$ \ ell_p $ -metrics中显着提高了文献中已知的近似因素的硬度。我们介绍了一个名为Johnson覆盖假说（JCH）的新假设，这大致断言设定系统上的良好的Max K-Coverage问题难以近似于1-1 / e，即使是成员图形设置系统是Johnson图的子图。然后，我们展示了Cohen-Addad和Karthik引入的嵌入技术的概括（Focs'19），JCH意味着K-MEDIAN和K-MERION在$ \ ell_p $ -metrics中的近似结果的近似值的硬度为近距离对于一般指标获得的人。特别地，假设JCH我们表明很难近似K-Meator目标：$ \ Bullet $离散情况：$ \ ell_1 $ 3.94 - $ \ ell_2中的1.73因素为1.73倍$$ - 这分别在UGC下获得了1.56和1.17的先前因子。 $ \ bullet $持续案例：$ \ ell_1 $ 2210 - $ \ ell_2 $的$ \ ell_1 $ 210。$ \ ell_2 $-metric;这在UGC下获得的$ \ ell_2 $的$ \ ell_2 $的先前因子提高了1.07。对于K-Median目标，我们还获得了类似的改进。此外，我们使用Dinure等人的工作证明了JCH的弱版本。（Sicomp'05）在超图顶点封面上，恢复Cohen-Addad和Karthik（Focs'19 Focs'19）上面的所有结果（近）相同的不可识别因素，但现在在标准的NP $ \ NEQ $ P假设下（代替UGC）。

translated by 谷歌翻译

Active Learning of Classifiers with Label and Seed Queries

Marco Bressan , Nicolò Cesa-Bianchi , Silvio Lattanzi , Andrea Paudice , Maximilian Thiessen

分类：机器学习

2022-09-08

我们研究了利润率的二元和多类分类器的精确积极学习。给定一个$ n $ - 点集$ x \ subset \ mathbb {r}^m $，我们想在$ x $上学习任何未知分类器，其类具有有限的strong convex hull保证金，这是一个扩展SVM保证金的新概念。在标准的主动学习环境中，只有标签查询，在最坏的情况下学习具有强凸额的分类器$ \ gamma $需要$ \ omega \ big（1+ \ frac {1} {\ gamma} {\ gamma} \ big big ）^{（M-1）/2} $查询。另一方面，使用更强大的种子查询（一种等价查询的变体），可以通过littlestone's缩小算法在$ o（m \ log n）$ Queries中学习目标分类器；但是，减半在计算上效率低下。在这项工作中，我们表明，通过仔细组合两种类型的查询，可以在时间上学习二进制分类器$ \ operatatorName {poly}（n+m）$，仅使用$ o（m^2 \ log n）$ label查询和$ o \ big（m \ log \ frac {m} {\ gamma} \ big）$ seed queries;结果以$ k！k^2 $乘法开销的价格扩展到$ k $ class分类器。当输入点具有界限的位复杂性时，或者仅一个类具有强凸壳边缘时，相似的结果就成立了。我们通过证明在最坏的情况下任何算法需要$ \ omega \ big（k m \ log \ frac {1} {\ gamma} \ big）$ seed $ seed和标签质量质量来学习$ k $ -Class classifier具有强大的凸壳保证金$ \ gamma $。

translated by 谷歌翻译

Margin-Independent Online Multiclass Learning via Convex Geometry

Guru Guruganesh , Allen Liu , Jon Schneider , Joshua Wang

分类：机器学习

2021-11-15

我们考虑多级分类的问题，其中普遍选择的查询流到达，并且必须在线分配标签。与寻求最小化错误分类率的传统界定不同，我们将每个查询的总距离最小化到与其正确标签相对应的区域。当通过最近的邻分区确定真正的标签时 - 即点的标签由它最接近欧几里德距离所提供的点，我们表明人们可以实现独立的损失查询总数。我们通过显示学习常规凸集每查询需要几乎线性损耗来补充此结果。我们的结果为语境搜索的几何问题而被遗憾地构建了遗憾的保证。此外，我们制定了一种从多字符分类到二进制分类的新型还原技术，这可能具有独立兴趣。

translated by 谷歌翻译

Wasserstein barycenters are NP-hard to compute

Jason M. Altschuler , Enric Boix-Adsera

分类：机器学习

2021-01-04

计算Wassersein BaryCenters（A.K.A.最佳运输重构）是由于数据科学的许多应用，最近引起了相当大的关注的几何问题。虽然存在任何固定维度的多项式时间算法，但所有已知的运行时间都在维度中呈指数级。这是一个开放的问题，无论是这种指数依赖性是否可改进到多项式依赖性。本文证明，除非P = NP，答案是否定的。这揭示了Wassersein的BaryCenter计算的“维度诅咒”，其不会发生最佳运输计算。此外，我们对计算Wassersein的硬度结果延伸到近似计算，看似简单的问题案例，以及在其他最佳运输指标中平均概率分布。

translated by 谷歌翻译

Near-Optimal Statistical Query Hardness of Learning Halfspaces with Massart Noise

Ilias Diakonikolas , Daniel M. Kane

分类：机器学习 | (统计)机器学习

2020-12-17

我们研究了Massart噪声的PAC学习半圆的问题。给定标记的样本$（x，y）$从$ \ mathbb {r} ^ {d} ^ {d} \ times \ times \ {\ pm 1 \} $，这样的例子是任意的和标签$ y $ y $ y $ x $是由按萨塔特对手损坏的目标半空间与翻转概率$ \ eta（x）\ leq \ eta \ leq 1/2 $，目标是用小小的假设计算假设错误分类错误。这个问题的最佳已知$ \ mathrm {poly}（d，1 / \ epsilon）$时间算法实现$ \ eta + \ epsilon $的错误，这可能远离$ \ mathrm {opt} +的最佳界限\ epsilon $，$ \ mathrm {opt} = \ mathbf {e} _ {x \ sim d_x} [\ eta（x）] $。虽然已知实现$ \ mathrm {opt} + O（1）$误差需要超级多项式时间在统计查询模型中，但是在已知的上限和下限之间存在大的间隙。在这项工作中，我们基本上表征了统计查询（SQ）模型中Massart HalfSpaces的有效可读性。具体来说，我们表明，在$ \ mathbb {r} ^ d $中没有高效的sq算法用于学习massart halfpaces ^ d $可以比$ \ omega（\ eta）$更好地实现错误，即使$ \ mathrm {opt} = 2 ^ { - - \ log ^ {c}（d）$，适用于任何通用常量$ c \ in（0,1）$。此外，当噪声上限$ \ eta $接近$ 1/2 $时，我们的错误下限变为$ \ eta - o _ {\ eta}（1）$，其中$ o _ {\ eta}（1）$当$ \ eta $接近$ 1/2 $时，术语达到0美元。我们的结果提供了强有力的证据表明，大规模半空间的已知学习算法几乎是最可能的，从而解决学习理论中的长期开放问题。

translated by 谷歌翻译

Efficient Mean Estimation with Pure Differential Privacy via a Sum-of-Squares Exponential Mechanism

Samuel B. Hopkins , Gautam Kamath , Mahbod Majid

分类： (统计)机器学习

2021-11-25

我们给出了第一个多项式算法来估计$ d $ -variate概率分布的平均值，从$ \ tilde {o}（d）$独立的样本受到纯粹的差异隐私的界限。此问题的现有算法无论是呈指数运行时间，需要$ \ OMEGA（D ^ {1.5}）$样本，或仅满足较弱的集中或近似差分隐私条件。特别地，所有先前的多项式算法都需要$ d ^ {1+ \ omega（1）} $ samples，以保证“加密”高概率，1-2 ^ { - d ^ {\ omega（1） $，虽然我们的算法保留$ \ tilde {o}（d）$ SAMPS复杂性即使在此严格设置中也是如此。我们的主要技术是使用强大的方块方法（SOS）来设计差异私有算法的新方法。算法的证据是在高维算法统计数据中的许多近期作品中的一个关键主题 - 显然需要指数运行时间，但可以通过低度方块证明可以捕获其分析可以自动变成多项式 - 时间算法具有相同的可证明担保。我们展示了私有算法的类似证据现象：工作型指数机制的实例显然需要指数时间，但可以用低度SOS样张分析的指数时间，可以自动转换为多项式差异私有算法。我们证明了捕获这种现象的元定理，我们希望在私人算法设计中广泛使用。我们的技术还在高维度之间绘制了差异私有和强大统计数据之间的新连接。特别是通过我们的校验算法镜头来看，几次研究的SOS证明在近期作品中的算法稳健统计中直接产生了我们差异私有平均估计算法的关键组成部分。

translated by 谷歌翻译

Downsampling for Testing and Learning in Product Distributions

Nathaniel Harms , Yuichi Yoshida

分类：机器学习

2020-07-15

我们研究无名概率分布的无分发物业测试和学习问题是超过$ \ mathbb {r} ^ d $的产品分布。对于许多重要的功能，例如半空间，多项式阈值函数，凸集和$ k $ -alternation函数的交叉点，所知的算法具有复杂性，这取决于分配的支持大小，或者仅被证明仅工作对于产品分布的具体例子。我们介绍了一般方法，我们调用DownS采样，解决了这些问题。 Downs采样使用对产品分布的“直线等异仪”的概念，这进一步加强了等偏移，测试和学习之间的连接。使用这种技术，我们在$ \ mathbb {r} ^ d $的产品分布下获得了新的高效分布算法：1。用于函数$ [n] ^ d \的非自适应，单调单调测试的更简单证明\ {0,1 \} $，并改进了对未知产品分布的单调性的样本复杂性，从$ O（d ^ 7）$ [黑色，chakrabarty，＆seshadhri，soda 2020]到$ \ widetilde o（d ^ 3）$。 2.多项式禁止学习算法，用于恒定数量的半空间和恒定程度多项式阈值函数。 3. $ \ exp（o（d \ log（dk）））$ - 时间不可知学习算法，以及$ \ exp（o（d \ log（dk）））$ - 样本容差测试仪，用于$的函数K $凸套;和2 ^ {\ widetilde o（d）} $ satmas的单面测试仪，用于凸套。 4. $ \ exp（\ widetilde o（k \ sqrt d））$ - 时间可靠学习算法，以$ k $ -alternation函数，以及具有相同复杂性的基于样本的容忍测试仪。

translated by 谷歌翻译

Private Query Release via the Johnson-Lindenstrauss Transform

Aleksandar Nikolov

分类：机器学习 | (统计)机器学习

2022-08-15

我们介绍了一种基于约翰逊·林登斯特劳斯引理的统计查询的新方法，以释放具有差异隐私的统计查询的答案。关键的想法是随机投影查询答案，以较低的维空间，以便将可行的查询答案的任何两个向量之间的距离保留到添加性错误。然后，我们使用简单的噪声机制回答投影的查询，并将答案提升到原始维度。使用这种方法，我们首次给出了纯粹的私人机制，具有最佳情况下的最佳情况样本复杂性，在平均错误下，以回答$ n $ $ n $的宇宙的$ k $ Queries的工作量。作为其他应用，我们给出了具有最佳样品复杂性的第一个纯私人有效机制，用于计算有限的高维分布的协方差，并用于回答2向边缘查询。我们还表明，直到对错误的依赖性，我们机制的变体对于每个给定的查询工作负载几乎是最佳的。

translated by 谷歌翻译

Oracle Complexity in Nonsmooth Nonconvex Optimization

Guy Kornowski , Ohad Shamir

分类：机器学习

2021-04-14

众所周知，给定顺滑，界限 - 下面，并且可能的非透露函数，标准梯度的方法可以找到$ \ epsilon $ -stationary积分（渐变范围小于$ \ epsilon $）$ \ mathcal {O}（1 / \ epsilon ^ 2）$迭代。然而，许多重要的非渗透优化问题，例如与培训现代神经网络相关的问题，本质上是不平衡的，使这些结果不适用。在本文中，我们研究了来自Oracle复杂性视点的非透射性优化，其中假设算法仅向各个点处的函数提供访问。我们提供两个主要结果：首先，我们考虑越近$ \ epsilon $ -storationary积分的问题。这也许是找到$ \ epsilon $ -storationary积分的最自然的放松，这在非对象案例中是不可能的。我们证明，对于任何距离和epsilon $小于某些常数，无法有效地实现这种轻松的目标。我们的第二次结果涉及通过减少到平滑的优化来解决非光度非渗透优化的可能性：即，在光滑的近似值对目标函数的平滑近似下应用平滑的优化方法。对于这种方法，我们在温和的假设下证明了oracle复杂性和平滑度之间的固有权衡：一方面，可以非常有效地平滑非光滑非凸函数（例如，通过随机平滑），但具有尺寸依赖性因子在平滑度参数中，在插入标准平滑优化方法时，这会强烈影响迭代复杂性。另一方面，可以用合适的平滑方法消除这些尺寸因子，而是仅通过使平滑过程的Oracle复杂性呈指数大。

translated by 谷歌翻译

A Strongly Polynomial Algorithm for Approximate Forster Transforms and its Application to Halfspace Learning

Ilias Diakonikolas , Christos Tzamos , Daniel M. Kane

分类：机器学习 | (统计)机器学习

2022-12-06

The Forster transform is a method of regularizing a dataset by placing it in {\em radial isotropic position} while maintaining some of its essential properties. Forster transforms have played a key role in a diverse range of settings spanning computer science and functional analysis. Prior work had given {\em weakly} polynomial time algorithms for computing Forster transforms, when they exist. Our main result is the first {\em strongly polynomial time} algorithm to compute an approximate Forster transform of a given dataset or certify that no such transformation exists. By leveraging our strongly polynomial Forster algorithm, we obtain the first strongly polynomial time algorithm for {\em distribution-free} PAC learning of halfspaces. This learning result is surprising because {\em proper} PAC learning of halfspaces is {\em equivalent} to linear programming. Our learning approach extends to give a strongly polynomial halfspace learner in the presence of random classification noise and, more generally, Massart noise.

translated by 谷歌翻译

List-Decodable Sparse Mean Estimation via Difference-of-Pairs Filtering

Ilias Diakonikolas , Daniel M. Kane , Sushrut Karmalkar , Ankit Pensia , Thanasis Pittas

分类：机器学习 | (统计)机器学习

2022-06-10

我们研究列表可解码的稀疏平均估计问题。具体来说，对于（0，1/2）$的参数$ \ alpha \，我们获得了$ \ mathbb {r}^n $，$ \ lfloor \ alpha m \ rfloor $的$ m $点。来自分销$ d $的样品，带有未知$ k $ -sparse的平均$ \ mu $。没有对剩余点的假设，该点构成了数据集的大多数。目标是返回包含矢量$ \ widehat \ mu $的候选人列表，以便$ \ | \ widehat \ mu - \ mu \ | _2 $很小。先前的工作研究了在密集设置中可列表可调式估计的问题。在这项工作中，我们开发了一种新颖的，概念上的简单技术，用于列表可解码的均值估计。作为我们方法的主要应用，我们为列表可解码的稀疏平均值估计提供了第一个样本和计算有效算法。特别是，对于带有``认证有限的''$ t $ t $ thements in $ k $ -sparse方向和足够轻的尾巴的发行版，我们的算法达到了$（1/\ alpha）^{o（1/t）的错误（1/\ alpha） } $带有示例复杂性$ m =（k \ log（n））^{o（t）}/\ alpha $和运行时间$ \ mathrm {poly}（mn^t）$。对于高斯嵌入式的特殊情况，我们的算法实现了$ \ theta（\ sqrt {\ log（1/\ alpha）}）$的最佳错误保证，并具有Quasi-PolyNomial样本和计算复杂性。我们通过几乎匹配的统计查询和低度多项式测试的下限来补充上限。

translated by 谷歌翻译

Tight and Robust Private Mean Estimation with Few Users

Hossein Esfandiari , Vahab Mirrokni , Shyam Narayanan

分类：机器学习

2021-10-22

在这项工作中，我们在用户级差异隐私下研究高维平均值估计，并设计$（\ varepsilon，\ delta）$ - 使用尽可能少的用户差异化私人机制。特别是，即使用户数量低至$ o（\ frac {1} {\ varepsilon } \ log \ frac {1} {\ delta}）$。有趣的是，这对\ emph {users}的数量绑定到独立于维度（尽管\ emph {samples aper users}的数量被允许以多项式依赖于尺寸），这与先前需要用户数量的工作数量不同。在多项式上依赖于维度。这解决了Amin等人首先提出的问题。此外，我们的机制可抵抗高达$ 49 \％用户的损坏。最后，我们的结果还适用于与少数用户私下学习离散分布的最佳算法，回答Liu等人的问题，以及更广泛的问题，例如随机凸优化和通过差异化的随机梯度优化和随机梯度下降的变体私人平均估计。

translated by 谷歌翻译

Robust Sparse Mean Estimation via Sum of Squares

Ilias Diakonikolas , Daniel M. Kane , Sushrut Karmalkar , Ankit Pensia , Thanasis Pittas

分类：机器学习 | (统计)机器学习

2022-06-07

我们研究了在存在$ \ epsilon $ - 对抗异常值的高维稀疏平均值估计的问题。先前的工作为此任务获得了该任务的样本和计算有效算法，用于辅助性Subgaussian分布。在这项工作中，我们开发了第一个有效的算法，用于强大的稀疏平均值估计，而没有对协方差的先验知识。对于$ \ Mathbb r^d $上的分布，带有“认证有限”的$ t $ tum-矩和足够轻的尾巴，我们的算法达到了$ o（\ epsilon^{1-1/t}）$带有样品复杂性$的错误（\ epsilon^{1-1/t}） m =（k \ log（d））^{o（t）}/\ epsilon^{2-2/t} $。对于高斯分布的特殊情况，我们的算法达到了$ \ tilde o（\ epsilon）$的接近最佳错误，带有样品复杂性$ m = o（k^4 \ mathrm {polylog}（d）（d））/\ epsilon^^ 2 $。我们的算法遵循基于方形的总和，对算法方法的证明。我们通过统计查询和低度多项式测试的下限来补充上限，提供了证据，表明我们算法实现的样本时间 - 错误权衡在质量上是最好的。

translated by 谷歌翻译