近年来,保护隐私数据分析已成为普遍存在。在本文中,我们提出了分布式私人多数票投票机制,以解决分布式设置中的标志选择问题。为此,我们将迭代剥离应用于稳定性函数,并使用指数机制恢复符号。作为应用程序,我们研究了分布式系统中的平均估计和线性回归问题的私人标志选择。我们的方法与非私有场景一样,用最佳的信噪比恢复了支持和标志,这比私人变量选择的现代作品要好。此外,符号选择一致性具有理论保证是合理的。进行了模拟研究以证明我们提出的方法的有效性。
translated by 谷歌翻译
在本文中,我们研究了非交互性局部差异隐私(NLDP)模型中估计平滑普遍线性模型(GLM)的问题。与其经典设置不同,我们的模型允许服务器访问一些其他公共但未标记的数据。在本文的第一部分中,我们专注于GLM。具体而言,我们首先考虑每个数据记录均为I.I.D.的情况。从零均值的多元高斯分布中取样。由Stein的引理动机,我们提出了GLMS的$(Epsilon,\ delta)$ -NLDP算法。此外,算法的公共数据和私人数据的示例复杂性以实现$ \ alpha $的$ \ ell_2 $ -norm估计错误(具有高概率)为$ {o}(p \ alpha^{ - 2})$和$ \ tilde {o}(p^3 \ alpha^{ - 2} \ epsilon^{ - 2})$,其中$ p $是特征向量的维度。这是对$ \ alpha^{ - 1} $中先前已知的指数或准过程的重大改进,或者在$ p $中的指数smack sample sample smack glms的复杂性,没有公共数据。然后,我们考虑一个更通用的设置,每个数据记录为I.I.D.从某些次高斯分布中取样,有限制的$ \ ell_1 $ -norm。基于Stein的引理的变体,我们提出了一个$(\ epsilon,\ delta)$ - NLDP算法,用于GLMS的公共和私人数据的样本复杂性,以实现$ \ ell_ \ elfty $ - infty $ -NOMM估计的$ \ alpha误差$是$ is $ {o}(p^2 \ alpha^{ - 2})$和$ \ tilde {o}(p^2 \ alpha^{ - 2} \ epsilon^{ - 2})$,温和的假设,如果$ \ alpha $不太小({\ em i.e.,} $ \ alpha \ geq \ omega(\ frac {1} {\ sqrt {p}}})$)。在本文的第二部分中,我们将我们的想法扩展到估计非线性回归的问题,并显示出与多元高斯和次高斯案例的GLMS相似的结果。最后,我们通过对合成和现实世界数据集的实验来证明算法的有效性。
translated by 谷歌翻译
我们介绍了一个普遍的框架,用于表征差异隐私保证的统计估算问题的统计效率。我们的框架,我们呼叫高维建议 - 试验释放(HPTR),在三个重要组件上建立:指数机制,强大的统计和提议 - 试验释放机制。将所有这些粘在一起是恢复力的概念,这是强大的统计估计的核心。弹性指导算法的设计,灵敏度分析和试验步骤的成功概率分析。关键识别是,如果我们设计了一种仅通过一维鲁棒统计数据访问数据的指数机制,则可以大大减少所产生的本地灵敏度。使用弹性,我们可以提供紧密的本地敏感界限。这些紧张界限在几个案例中容易转化为近乎最佳的实用程序。我们给出了将HPTR应用于统计估计问题的给定实例的一般配方,并在平均估计,线性回归,协方差估计和主成分分析的规范问题上证明了它。我们介绍了一般的公用事业分析技术,证明了HPTR几乎在文献中研究的若干场景下实现了最佳的样本复杂性。
translated by 谷歌翻译
在本文中,我们利用过度参数化来设计高维单索索引模型的无规矩算法,并为诱导的隐式正则化现象提供理论保证。具体而言,我们研究了链路功能是非线性且未知的矢量和矩阵单索引模型,信号参数是稀疏向量或低秩对称矩阵,并且响应变量可以是重尾的。为了更好地理解隐含正规化的角色而没有过度的技术性,我们假设协变量的分布是先验的。对于载体和矩阵设置,我们通过采用分数函数变换和专为重尾数据的强大截断步骤来构造过度参数化最小二乘损耗功能。我们建议通过将无规则化的梯度下降应用于损耗函数来估计真实参数。当初始化接近原点并且步骤中足够小时,我们证明了所获得的解决方案在载体和矩阵案件中实现了最小的收敛统计速率。此外,我们的实验结果支持我们的理论调查结果,并表明我们的方法在$ \ ell_2 $ -staticatisticated率和变量选择一致性方面具有明确的正则化的经验卓越。
translated by 谷歌翻译
我们提出了一种基于优化的基于优化的框架,用于计算差异私有M估算器以及构建差分私立置信区的新方法。首先,我们表明稳健的统计数据可以与嘈杂的梯度下降或嘈杂的牛顿方法结合使用,以便分别获得具有全局线性或二次收敛的最佳私人估算。我们在局部强大的凸起和自我协调下建立当地和全球融合保障,表明我们的私人估算变为对非私人M估计的几乎最佳附近的高概率。其次,我们通过构建我们私有M估计的渐近方差的差异私有估算来解决参数化推断的问题。这自然导致近​​似枢轴统计,用于构建置信区并进行假设检测。我们展示了偏置校正的有效性,以提高模拟中的小样本实证性能。我们说明了我们在若干数值例子中的方法的好处。
translated by 谷歌翻译
We establish a simple connection between robust and differentially-private algorithms: private mechanisms which perform well with very high probability are automatically robust in the sense that they retain accuracy even if a constant fraction of the samples they receive are adversarially corrupted. Since optimal mechanisms typically achieve these high success probabilities, our results imply that optimal private mechanisms for many basic statistics problems are robust. We investigate the consequences of this observation for both algorithms and computational complexity across different statistical problems. Assuming the Brennan-Bresler secret-leakage planted clique conjecture, we demonstrate a fundamental tradeoff between computational efficiency, privacy leakage, and success probability for sparse mean estimation. Private algorithms which match this tradeoff are not yet known -- we achieve that (up to polylogarithmic factors) in a polynomially-large range of parameters via the Sum-of-Squares method. To establish an information-computation gap for private sparse mean estimation, we also design new (exponential-time) mechanisms using fewer samples than efficient algorithms must use. Finally, we give evidence for privacy-induced information-computation gaps for several other statistics and learning problems, including PAC learning parity functions and estimation of the mean of a multivariate Gaussian.
translated by 谷歌翻译
我们提出并分析了算法,以解决用户级差分隐私约束下的一系列学习任务。用户级DP仅保证只保证个人样本的隐私,而是保护用户的整个贡献($ M \ GE 1 $ Samples),而不是对信息泄漏提供更严格但更现实的保护。我们表明,对于高维平均估计,具有平稳损失,随机凸优化和学习假设类别的经验风险最小化,具有有限度量熵,隐私成本随着用户提供的$ O(1 / \ SQRT {M})$减少更多样本。相比之下,在增加用户数量$ N $时,隐私成本以较快的价格降低(1 / n)$率。我们将这些结果与下界相提并论,显示了我们算法的最低限度估计和随机凸优化的算法。我们的算法依赖于私有平均估计的新颖技术,其任意维度与误差缩放为浓度半径$ \ tai $的分布而不是整个范围。
translated by 谷歌翻译
In this work, we give efficient algorithms for privately estimating a Gaussian distribution in both pure and approximate differential privacy (DP) models with optimal dependence on the dimension in the sample complexity. In the pure DP setting, we give an efficient algorithm that estimates an unknown $d$-dimensional Gaussian distribution up to an arbitrary tiny total variation error using $\widetilde{O}(d^2 \log \kappa)$ samples while tolerating a constant fraction of adversarial outliers. Here, $\kappa$ is the condition number of the target covariance matrix. The sample bound matches best non-private estimators in the dependence on the dimension (up to a polylogarithmic factor). We prove a new lower bound on differentially private covariance estimation to show that the dependence on the condition number $\kappa$ in the above sample bound is also tight. Prior to our work, only identifiability results (yielding inefficient super-polynomial time algorithms) were known for the problem. In the approximate DP setting, we give an efficient algorithm to estimate an unknown Gaussian distribution up to an arbitrarily tiny total variation error using $\widetilde{O}(d^2)$ samples while tolerating a constant fraction of adversarial outliers. Prior to our work, all efficient approximate DP algorithms incurred a super-quadratic sample cost or were not outlier-robust. For the special case of mean estimation, our algorithm achieves the optimal sample complexity of $\widetilde O(d)$, improving on a $\widetilde O(d^{1.5})$ bound from prior work. Our pure DP algorithm relies on a recursive private preconditioning subroutine that utilizes the recent work on private mean estimation [Hopkins et al., 2022]. Our approximate DP algorithms are based on a substantial upgrade of the method of stabilizing convex relaxations introduced in [Kothari et al., 2022].
translated by 谷歌翻译
我们研究在计算和通信约束下分布式设置中高维稀疏线性回归的问题。具体来说,我们考虑了一个星形拓扑网络,该网络将几台机器连接到融合中心,他们可以与他们交换相对较短的消息。每台机器都有来自线性回归模型的嘈杂样品,该模型具有相同的未知稀疏$ d $ - 维数二维矢量$ \ theta $。融合中心的目标是使用几乎没有计算和有限的通信在每台机器上估算矢量$ \ theta $及其支持。在这项工作中,我们考虑基于正交匹配追求(OMP)的分布式算法,并理论上研究了他们精确收回$ \ theta $的支持的能力。我们证明,在某些条件下,即使在单个机器无法检测到$ \ theta $的支持下,分布式式方法在$ \ theta $的支持下,在$ d $中的总通信sublinear中正确恢复了它。此外,我们提出的模拟说明了基于分布式OMP的算法的性能,并表明它们的性能类似于更复杂和计算密集的方法,在某些情况下甚至表现优于它们。
translated by 谷歌翻译
构建差异私有(DP)估计器需要得出观察结果的最大影响,如果在输入数据或估计器上没有外源性界限,这可能很困难,尤其是在高维度设置中。本文表明,在这方面,统计深度(即半空间深度和回归深度)的标准概念在这方面尤其有利,这在于单个观察值的最大影响很容易分析,并且该值通常很低。这用于使用这两个统计深度概念的最大值来激励新的近似DP位置和回归估计器。还提供了近似DP回归估计器的更高效的变体。此外,为了避免要求用户对估计和/或观察结果指定先验界限,描述了这些DP机制的变体,即满足随机差异隐私(RDP),这是Hall,Wasserman和Wasserman和Wasserman和Wasserman提供的差异隐私的放松Rinaldo(2013)。我们还提供了此处提出的两种DP回归方法的模拟。当样本量至少为100-200或隐私性损失预算足够高时,提出的估计器似乎相对于现有的DP回归方法表现出色。
translated by 谷歌翻译
We study the relationship between adversarial robustness and differential privacy in high-dimensional algorithmic statistics. We give the first black-box reduction from privacy to robustness which can produce private estimators with optimal tradeoffs among sample complexity, accuracy, and privacy for a wide range of fundamental high-dimensional parameter estimation problems, including mean and covariance estimation. We show that this reduction can be implemented in polynomial time in some important special cases. In particular, using nearly-optimal polynomial-time robust estimators for the mean and covariance of high-dimensional Gaussians which are based on the Sum-of-Squares method, we design the first polynomial-time private estimators for these problems with nearly-optimal samples-accuracy-privacy tradeoffs. Our algorithms are also robust to a constant fraction of adversarially-corrupted samples.
translated by 谷歌翻译
我们给出了第一个多项式 - 时间,多项式 - 样本,差异私人估算器,用于任意高斯分发$ \ mathcal {n}(\ mu,\ sigma)$ in $ \ mathbb {r} ^ d $。所有以前的估算器都是非变性的,具有无限的运行时间,或者要求用户在参数$ \ mu $和$ \ sigma $上指定先验的绑定。我们算法中的主要新技术工具是一个新的差别私有预处理器,它从任意高斯$ \ mathcal {n}(0,\ sigma)$中采用样本,并返回矩阵$ a $,使得$ a \ sigma a ^ t$具有恒定的条件号。
translated by 谷歌翻译
最大信息系数(MIC)是一个强大的统计量,可以识别变量之间的依赖性。但是,它可以应用于敏感数据,并且发布可能会泄漏私人信息。作为解决方案,我们提出算法以提供差异隐私的方式近似麦克风。我们表明,经典拉普拉斯机制的自然应用产生的精度不足。因此,我们介绍了MICT统计量,这是一种新的MIC近似值,与差异隐私更加兼容。我们证明MICS是麦克风的一致估计器,我们提供了两个差异性私有版本。我们对各种真实和合成数据集进行实验。结果表明,私人微统计数据极大地超过了拉普拉斯机制的直接应用。此外,对现实世界数据集的实验显示出准确性,当样本量至少适中时可用。
translated by 谷歌翻译
我们为高维分布的身份测试提供了改进的差异私有算法。具体来说,对于带有已知协方差$ \ sigma $的$ d $二维高斯分布,我们可以测试该分布是否来自$ \ Mathcal {n}(\ mu^*,\ sigma)$,对于某些固定$ \ mu^** $或从某个$ \ MATHCAL {n}(\ mu,\ sigma)$,总变化距离至少$ \ alpha $ from $ \ mathcal {n}(\ mu^*,\ sigma)$(\ varepsilon) ,0)$ - 微分隐私,仅使用\ [\ tilde {o} \ left(\ frac {d^{1/2}}} {\ alpha^2} + \ frac {d^{1/3}} {1/3}} { \ alpha^{4/3} \ cdot \ varepsilon^{2/3}}} + \ frac {1} {\ alpha \ cdot \ cdot \ cdot \ varepsilon} \ right)\]唯一\ [\ tilde {o} \ left(\ frac {d^{1/2}}} {\ alpha^2} + \ frac {d^{1/4}} {\ alpha \ alpha \ cdot \ cdot \ cdot \ varepsilon} \ right )\]用于计算有效算法的样品。我们还提供了一个匹配的下限,表明我们的计算效率低下的算法具有最佳的样品复杂性。我们还将算法扩展到各种相关问题,包括对具有有限但未知协方差的高斯人的平均测试,对$ \ { - 1,1,1 \}^d $的产品分布的均匀性测试以及耐受性测试。我们的结果改善了Canonne等人的先前最佳工作。 (\ frac {\ sqrt {d}} {\ alpha^2} \ right)$在许多标准参数设置中。此外,我们的结果表明,令人惊讶的是,可以使用$ d $二维高斯的私人身份测试,可以用少于离散分布的私人身份测试尺寸$ d $ \ cite {actharyasz18}的私人身份测试来完成,以重组猜测〜\ cite {canonnekmuz20}的下限。
translated by 谷歌翻译
我们研究了差异私有线性回归的问题,其中每个数据点都是从固定的下高斯样式分布中采样的。我们提出和分析了一个单次迷你批次随机梯度下降法(DP-AMBSSGD),其中每次迭代中的点都在没有替换的情况下进行采样。为DP添加了噪声,但噪声标准偏差是在线估计的。与现有$(\ epsilon,\ delta)$ - 具有子最佳错误界限的DP技术相比,DP-AMBSSGD能够在关键参数(如多维参数)(如多维参数)等方面提供几乎最佳的错误范围$,以及观测值的噪声的标准偏差$ \ sigma $。例如,当对$ d $二维的协变量进行采样时。从正常分布中,然后由于隐私而引起的DP-AMBSSGD的多余误差为$ \ frac {\ sigma^2 d} {n} {n}(1+ \ frac {d} {\ epsilon^2 n})$,即当样本数量$ n = \ omega(d \ log d)$,这是线性回归的标准操作制度时,错误是有意义的。相比之下,在此设置中现有有效方法的错误范围为:$ \ mathcal {o} \ big(\ frac {d^3} {\ epsilon^2 n^2} \ big)$,即使是$ \ sigma = 0 $。也就是说,对于常量的$ \ epsilon $,现有技术需要$ n = \ omega(d \ sqrt {d})$才能提供非平凡的结果。
translated by 谷歌翻译
在本文中,我们研究了代理人(个人)具有战略性或自我利益的情况,并且在报告数据时关注其隐私。与经典环境相比,我们的目标是设计机制,这些机制既可以激励大多数代理来真实地报告他们的数据并保留个人报告的隐私,而它们的输出也应接近基础参数。在本文的第一部分中,我们考虑了协变量是次高斯的情况,并且在他们只有有限的第四瞬间的情况下进行了重尾。首先,我们是受可能性功能最大化器的固定条件的动机,我们得出了一种新颖的私人和封闭式估计量。基于估算器,我们提出了一种机制,该机制通过对几种规范模型的计算和付款方案进行一些适当的设计具有以下属性,例如线性回归,逻辑回归和泊松回归:(1)机制为$ O(1) $ - 接点差异私有(概率至少$ 1-O(1)$); (2)这是一个$ o(\ frac {1} {n})$ - 近似于$(1-o(1))$的代理的近似贝叶斯nash平衡,以真实地报告其数据,其中$ n $是代理人的数量; (3)输出可能会达到基础参数的$ O(1)$; (4)对于机制中的$(1-o(1))$的代理分数是个人合理的; (5)分析师运行该机制所需的付款预算为$ O(1)$。在第二部分中,我们考虑了在更通用的环境下的线性回归模型,在该设置中,协变量和响应都是重尾,只有有限的第四次矩。通过使用$ \ ell_4 $ -norm收缩运算符,我们提出了一种私人估算器和付款方案,该方案具有与次高斯案例相似的属性。
translated by 谷歌翻译
在本文中,我们提出了一种均匀抖动的一位量化方案,以进行高维统计估计。该方案包含截断,抖动和量化,作为典型步骤。作为规范示例,量化方案应用于三个估计问题:稀疏协方差矩阵估计,稀疏线性回归和矩阵完成。我们研究了高斯和重尾政权,假定重尾数据的基本分布具有有限的第二或第四刻。对于每个模型,我们根据一位量化的数据提出新的估计器。在高斯次级政权中,我们的估计器达到了对数因素的最佳最小速率,这表明我们的量化方案几乎没有额外的成本。在重尾状态下,虽然我们的估计量基本上变慢,但这些结果是在这种单位量化和重型尾部设置中的第一个结果,或者比现有可比结果表现出显着改善。此外,我们为一位压缩传感和一位矩阵完成的问题做出了巨大贡献。具体而言,我们通过凸面编程将一位压缩感传感扩展到次高斯甚至是重尾传感向量。对于一位矩阵完成,我们的方法与标准似然方法基本不同,并且可以处理具有未知分布的预量化随机噪声。提出了有关合成数据的实验结果,以支持我们的理论分析。
translated by 谷歌翻译
在本文中,我们研究了差异化的私人经验风险最小化(DP-erm)。已经表明,随着尺寸的增加,DP-MER的(最坏的)效用会减小。这是私下学习大型机器学习模型的主要障碍。在高维度中,某些模型的参数通常比其他参数更多的信息是常见的。为了利用这一点,我们提出了一个差异化的私有贪婪坐标下降(DP-GCD)算法。在每次迭代中,DP-GCD私人沿梯度(大约)最大条目执行坐标梯度步骤。从理论上讲,DP-GCD可以通过利用问题解决方案的结构特性(例如稀疏性或准方面的)来改善实用性,并在早期迭代中取得非常快速的进展。然后,我们在合成数据集和真实数据集上以数值说明。最后,我们描述了未来工作的有前途的方向。
translated by 谷歌翻译
我们给出了第一个多项式算法来估计$ d $ -variate概率分布的平均值,从$ \ tilde {o}(d)$独立的样本受到纯粹的差异隐私的界限。此问题的现有算法无论是呈指数运行时间,需要$ \ OMEGA(D ^ {1.5})$样本,或仅满足较弱的集中或近似差分隐私条件。特别地,所有先前的多项式算法都需要$ d ^ {1+ \ omega(1)} $ samples,以保证“加密”高概率,1-2 ^ { - d ^ {\ omega(1) $,虽然我们的算法保留$ \ tilde {o}(d)$ SAMPS复杂性即使在此严格设置中也是如此。我们的主要技术是使用强大的方块方法(SOS)来设计差异私有算法的新方法。算法的证据是在高维算法统计数据中的许多近期作品中的一个关键主题 - 显然需要指数运行时间,但可以通过低度方块证明可以捕获其分析可以自动变成多项式 - 时间算法具有相同的可证明担保。我们展示了私有算法的类似证据现象:工作型指数机制的实例显然需要指数时间,但可以用低度SOS样张分析的指数时间,可以自动转换为多项式差异私有算法。我们证明了捕获这种现象的元定理,我们希望在私人算法设计中广泛使用。我们的技术还在高维度之间绘制了差异私有和强大统计数据之间的新连接。特别是通过我们的校验算法镜头来看,几次研究的SOS证明在近期作品中的算法稳健统计中直接产生了我们差异私有平均估计算法的关键组成部分。
translated by 谷歌翻译
This paper studies the quantization of heavy-tailed data in some fundamental statistical estimation problems, where the underlying distributions have bounded moments of some order. We propose to truncate and properly dither the data prior to a uniform quantization. Our major standpoint is that (near) minimax rates of estimation error are achievable merely from the quantized data produced by the proposed scheme. In particular, concrete results are worked out for covariance estimation, compressed sensing, and matrix completion, all agreeing that the quantization only slightly worsens the multiplicative factor. Besides, we study compressed sensing where both covariate (i.e., sensing vector) and response are quantized. Under covariate quantization, although our recovery program is non-convex because the covariance matrix estimator lacks positive semi-definiteness, all local minimizers are proved to enjoy near optimal error bound. Moreover, by the concentration inequality of product process and covering argument, we establish near minimax uniform recovery guarantee for quantized compressed sensing with heavy-tailed noise.
translated by 谷歌翻译