对于$ d $ -dimensional log-tand distribus $ \ pi(\ theta)\ propto e ^ { - f(\ theta)} $ on polytope $ k $,我们考虑从分发$ \输出样本的问题nu $哪个是$ o(\ varepsilon)$ - 关闭无限距离$ \ sup _ {\ theta \在k} | \ log \ frac {\ nu(\ theta)} {\ pi(\ theta)} | $ $ \ pi $。具有无限远距离保证的这种采样器对于差异私密优化,特别是具有总变化距离或KL发散界限的传统采样算法不足以保证差别隐私。我们的主要结果是一种从分发$ o(\ varepsilon)$的点输出点 - 接近$ \ pi $ infifinity - 距离,需要$ o((md + dl ^ 2r ^ 2)\ times(lr + d \ log(\ frac {rd + lrd} {\ varepsilon r}))\ times md ^ {\ omega-1})$算术运算,其中$ f $ in $ l $ -lipschitz,$ k $由$ m $不平等,包含在半径$ r $的球中,并包含一个较小的半径$ $ $ $ r $,$ \ omega $是矩阵乘法常量。特别地,此运行时是在$ \ FRAC {1} {\ varepsilon} $中的对数,并显着提高了先前的作品。从技术上讲,我们从先前的作品离开,在$ \ frac {1} {\ varepsilon ^ 2} $ - 以$ k $的离散化,以获得$ o(\ varepsilon)$无限距离错误,并呈现一种方法将连续样本从$ k $转换为与具有无限界限的样本到样本。为了实现对$ D $的改进依赖,我们提出了一个“软阈值”版本的Dikin Walk,可能是独立的兴趣。将我们的算法插入指数机制的框架,在$ \ varepsilon $ -pure的运行时间内输出类似的改进,用于优化问题,例如Lipschitz-convex功能的经验风险和低秩近似,同时仍然实现最有名的已知效用范围。
translated by 谷歌翻译
我们考虑从$ d $ d $二维log-concave分发进行抽样的问题。我们的主要结果是Dikin Walk Markov链的“软阈值”变体,最多需要$ o(((md + d l^2 r^2)\ times md^{\ omega-1})\ log( \ frac {w} {\ delta}))$算术操作以从$ \ pi $中采样错误$ \ delta> 0 $在与$ w $ -warm启动的总变化距离中,其中$ l $是lipschitz - $ f $,$ k $包含在半径$ r $的球中,包含一个较小半径$ r $的球,而$ \ omega $是矩阵 - multiplication常数。当没有温暖的开始时,这意味着改进了$ \ tilde {o}(d^{3.5- \ omega})$ arithmetic操作,以前从$ \ pi $采样中,在总变化错误$ \ delta $中采样,这是通过获得的在$ k $中,$ m = o(d)$不等式和$ lr = o(\ sqrt {d})$。我们的算法在此环境中最佳以前的界限上提高了$ d^2 $算术操作,这是针对其他vers获得的Dikin Walk算法的离子。将我们的Dikin Walk Markov链插入Mangoubi和Vishnoi(2021)的后处理算法,我们在运行时间的依赖性方面取得了进一步的改进当$ k $是多层人士时。
translated by 谷歌翻译
We study the relationship between adversarial robustness and differential privacy in high-dimensional algorithmic statistics. We give the first black-box reduction from privacy to robustness which can produce private estimators with optimal tradeoffs among sample complexity, accuracy, and privacy for a wide range of fundamental high-dimensional parameter estimation problems, including mean and covariance estimation. We show that this reduction can be implemented in polynomial time in some important special cases. In particular, using nearly-optimal polynomial-time robust estimators for the mean and covariance of high-dimensional Gaussians which are based on the Sum-of-Squares method, we design the first polynomial-time private estimators for these problems with nearly-optimal samples-accuracy-privacy tradeoffs. Our algorithms are also robust to a constant fraction of adversarially-corrupted samples.
translated by 谷歌翻译
在本文中,我们研究了非平滑凸函数的私人优化问题$ f(x)= \ mathbb {e} _i f_i(x)$ on $ \ mathbb {r}^d $。我们表明,通过将$ \ ell_2^2 $正规器添加到$ f(x)$并从$ \ pi(x)\ propto \ exp(-k(f(x)+\ mu \ \ | | x \ | _2^2/2))$恢复已知的最佳经验风险和$(\ epsilon,\ delta)$ - dp的已知最佳经验风险和人口损失。此外,我们将展示如何使用$ \ widetilde {o}(n \ min(d,n))$ QUERIES $ QUERIES $ f_i(x)$用于DP-SCO,其中$ n $是示例数/用户和$ d $是环境维度。我们还在评估查询的数量上给出了一个(几乎)匹配的下限$ \ widetilde {\ omega}(n \ min(d,n))$。我们的结果利用以下具有独立感兴趣的工具:(1)如果损失函数强烈凸出并且扰动是Lipschitz,则证明指数机制的高斯差异隐私(GDP)。我们的隐私约束是\ emph {optimal},因为它包括高斯机制的隐私性,并使用等仪不等式证明了强烈的对数concove措施。 (2)我们展示如何从$ \ exp(-f(x) - \ mu \ | x \ | |^2_2/2)$ g $ -lipschitz $ f $带有$ \ eta $的总变化中的错误(电视)使用$ \ widetilde {o}((g^2/\ mu)\ log^2(d/\ eta))$无偏查询到$ f(x)$。这是第一个在dimension $ d $和精度$ \ eta $上具有\ emph {polylogarithmic依赖的查询复杂性的采样器。
translated by 谷歌翻译
在本文中,我们重新审视了私人经验风险最小化(DP-erm)和差异私有随机凸优化(DP-SCO)的问题。我们表明,来自统计物理学(Langevin Exfusion(LD))的经过良好研究的连续时间算法同时为DP-SCO和DP-SCO提供了最佳的隐私/实用性权衡,$ \ epsilon $ -DP和$ $ \ epsilon $ -DP和$ (\ epsilon,\ delta)$ - dp均用于凸和强烈凸损失函数。我们为LD提供新的时间和尺寸独立统一稳定性,并使用我们为$ \ epsilon $ -DP提供相应的最佳超额人口风险保证。 $ \ epsilon $ -DP的DP-SCO保证的一个重要属性是,它们将非私人最佳界限匹配为$ \ epsilon \与\ infty $。在此过程中,我们提供了各种技术工具,这些工具可能引起独立的关注:i)在两个相邻数据集上运行损失功能时,一个新的r \'enyi Divergence绑定了LD,ii)最后一个过多的经验风险范围迭代LD,类似于Shamir和Zhang的嘈杂随机梯度下降(SGD)和iii)的LD,对LD进行了两期多余的风险分析,其中第一阶段是当扩散在任何合理意义上都没有在任何合理意义上融合到固定分布时,在第二阶段扩散已收敛到吉布斯分布的变体。我们的普遍性结果至关重要地依赖于LD的动力学。当它融合到固定分布时,我们获得了$ \ epsilon $ -DP的最佳界限。当它仅在很短的时间内运行$ \ propto 1/p $时,我们在$(\ epsilon,\ delta)$ -DP下获得最佳界限。在这里,$ p $是模型空间的维度。
translated by 谷歌翻译
We consider the constrained sampling problem where the goal is to sample from a distribution $\pi(x)\propto e^{-f(x)}$ and $x$ is constrained on a convex body $\mathcal{C}\subset \mathbb{R}^d$. Motivated by penalty methods from optimization, we propose penalized Langevin Dynamics (PLD) and penalized Hamiltonian Monte Carlo (PHMC) that convert the constrained sampling problem into an unconstrained one by introducing a penalty function for constraint violations. When $f$ is smooth and the gradient is available, we show $\tilde{\mathcal{O}}(d/\varepsilon^{10})$ iteration complexity for PLD to sample the target up to an $\varepsilon$-error where the error is measured in terms of the total variation distance and $\tilde{\mathcal{O}}(\cdot)$ hides some logarithmic factors. For PHMC, we improve this result to $\tilde{\mathcal{O}}(\sqrt{d}/\varepsilon^{7})$ when the Hessian of $f$ is Lipschitz and the boundary of $\mathcal{C}$ is sufficiently smooth. To our knowledge, these are the first convergence rate results for Hamiltonian Monte Carlo methods in the constrained sampling setting that can handle non-convex $f$ and can provide guarantees with the best dimension dependency among existing methods with deterministic gradients. We then consider the setting where unbiased stochastic gradients are available. We propose PSGLD and PSGHMC that can handle stochastic gradients without Metropolis-Hasting correction steps. When $f$ is strongly convex and smooth, we obtain an iteration complexity of $\tilde{\mathcal{O}}(d/\varepsilon^{18})$ and $\tilde{\mathcal{O}}(d\sqrt{d}/\varepsilon^{39})$ respectively in the 2-Wasserstein distance. For the more general case, when $f$ is smooth and non-convex, we also provide finite-time performance bounds and iteration complexity results. Finally, we test our algorithms on Bayesian LASSO regression and Bayesian constrained deep learning problems.
translated by 谷歌翻译
我们在差分隐私(DP)的约束下,用重型数据研究随机凸优化。大多数关于此问题的事先工作仅限于损耗功能是Lipschitz的情况。相反,正如王,肖,德拉达斯和徐\ Cite {wangxdx20}所引入的那样,假设渐变的分布已涉及$ k $ --th时刻,我们研究了一般凸损失功能。我们在集中DP下提供了改善的上限,用于凸起的凸起和强凸损失功能。一路上,我们在纯粹和集中的DP下获得了私人平均估计的私有平均估计的新算法。最后,我们证明了私有随机凸性优化的近乎匹配的下限,具有强凸损失和平均估计,显示纯净和浓缩的DP之间的新分离。
translated by 谷歌翻译
在本文中,我们在使用离散的Langevin扩散的三个方案中从目标密度采样的误差提供非渐近上限。第一个方案是Langevin Monte Carlo(LMC)算法,歌曲的欧拉分散化的歌曲扩散。第二个和第三种方案分别是用于可微分电位和动力学Langevin Monte Carlo的动力学Langevin Monte Carlo(KLMC),用于两次可分视电位(KLMC2)。主要焦点是在$ \ mathbb r ^ p $的目标密度上,但不一定强烈地抖动。在两种类型的平滑假设下获得计算复杂度的界限:电位具有嘴唇连续梯度,并且电位具有嘴角连续的Hessian基质。采样误差由Wassersein-$ Q $距离测量。我们倡导在计算复杂性定义中使用新的维度适应缩放,当考虑Wasserstein-$ Q $距离时。所获得的结果表明,实现小于规定值的缩放误差的迭代次数仅取决于多项尺寸。
translated by 谷歌翻译
我们给出了第一个多项式算法来估计$ d $ -variate概率分布的平均值,从$ \ tilde {o}(d)$独立的样本受到纯粹的差异隐私的界限。此问题的现有算法无论是呈指数运行时间,需要$ \ OMEGA(D ^ {1.5})$样本,或仅满足较弱的集中或近似差分隐私条件。特别地,所有先前的多项式算法都需要$ d ^ {1+ \ omega(1)} $ samples,以保证“加密”高概率,1-2 ^ { - d ^ {\ omega(1) $,虽然我们的算法保留$ \ tilde {o}(d)$ SAMPS复杂性即使在此严格设置中也是如此。我们的主要技术是使用强大的方块方法(SOS)来设计差异私有算法的新方法。算法的证据是在高维算法统计数据中的许多近期作品中的一个关键主题 - 显然需要指数运行时间,但可以通过低度方块证明可以捕获其分析可以自动变成多项式 - 时间算法具有相同的可证明担保。我们展示了私有算法的类似证据现象:工作型指数机制的实例显然需要指数时间,但可以用低度SOS样张分析的指数时间,可以自动转换为多项式差异私有算法。我们证明了捕获这种现象的元定理,我们希望在私人算法设计中广泛使用。我们的技术还在高维度之间绘制了差异私有和强大统计数据之间的新连接。特别是通过我们的校验算法镜头来看,几次研究的SOS证明在近期作品中的算法稳健统计中直接产生了我们差异私有平均估计算法的关键组成部分。
translated by 谷歌翻译
We introduce a new tool for stochastic convex optimization (SCO): a Reweighted Stochastic Query (ReSQue) estimator for the gradient of a function convolved with a (Gaussian) probability density. Combining ReSQue with recent advances in ball oracle acceleration [CJJJLST20, ACJJS21], we develop algorithms achieving state-of-the-art complexities for SCO in parallel and private settings. For a SCO objective constrained to the unit ball in $\mathbb{R}^d$, we obtain the following results (up to polylogarithmic factors). We give a parallel algorithm obtaining optimization error $\epsilon_{\text{opt}}$ with $d^{1/3}\epsilon_{\text{opt}}^{-2/3}$ gradient oracle query depth and $d^{1/3}\epsilon_{\text{opt}}^{-2/3} + \epsilon_{\text{opt}}^{-2}$ gradient queries in total, assuming access to a bounded-variance stochastic gradient estimator. For $\epsilon_{\text{opt}} \in [d^{-1}, d^{-1/4}]$, our algorithm matches the state-of-the-art oracle depth of [BJLLS19] while maintaining the optimal total work of stochastic gradient descent. We give an $(\epsilon_{\text{dp}}, \delta)$-differentially private algorithm which, given $n$ samples of Lipschitz loss functions, obtains near-optimal optimization error and makes $\min(n, n^2\epsilon_{\text{dp}}^2 d^{-1}) + \min(n^{4/3}\epsilon_{\text{dp}}^{1/3}, (nd)^{2/3}\epsilon_{\text{dp}}^{-1})$ queries to the gradients of these functions. In the regime $d \le n \epsilon_{\text{dp}}^{2}$, where privacy comes at no cost in terms of the optimal loss up to constants, our algorithm uses $n + (nd)^{2/3}\epsilon_{\text{dp}}^{-1}$ queries and improves recent advancements of [KLL21, AFKT21]. In the moderately low-dimensional setting $d \le \sqrt n \epsilon_{\text{dp}}^{3/2}$, our query complexity is near-linear.
translated by 谷歌翻译
考虑以下优化问题:给定$ n \ times n $矩阵$ a $和$ \ lambda $,最大化$ \ langle a,u \ lambda u^*\ rangle $,其中$ u $ $ u $在unital Group $ \ mathrm上变化{u}(n)$。这个问题试图通过矩阵大约$ a $,其频谱与$ \ lambda $相同,并且通过将$ \ lambda $设置为适当的对角矩阵,可以恢复矩阵近似问题,例如pca和等级$ k $近似。我们研究了在使用用户的私人数据构建矩阵$ a $的设置中,为这种优化问题设计差异化私有算法的问题。我们给出有效的私有算法,在近似误差上带有上和下限。我们的结果统一并改进了有关私人矩阵近似问题的几项先前的作品。他们依靠格拉斯曼尼亚人的包装/覆盖数量范围扩展到应该具有独立利益的单一轨道。
translated by 谷歌翻译
我们启动量子算法的研究,以优化近似凸功能。给定一个凸集$ {\ cal k} \ subseteq \ mathbb {r}^{n} $和一个函数$ f \ colon \ colon \ mathbb {r}^{n}^{n} \ to \ mathbb {r} $一个convex函数$ f \ colon \ mathcal {k} \ to \ mathbb {r} $满足$ \ sup_ {x \ in {\ cal k}}} | f(x)-f(x)-f(x)| \ leq \ epsilon/ epsilon/ n $,我们的量子算法在{\ cal k} $ in {\ cal k} $中找到$ x^{*} \,以便$ f(x^{*}) - \ min_ {x \ in {\ cal k}} f(x) \ leq \ epsilon $使用$ \ tilde {o}(n^{3})$量子评估查询到$ f $。与最著名的经典算法相比,这实现了多项式量子加速。作为一个应用程序,我们给出了$ \ tilde {o}(n^{5} \ log^{2} t)$ t $的量子算法,用于$ \ tilde {o}(n^{5} \ log^{2} t)$ hearry,与$ t $相比的指数加速经典$ \ omega(\ sqrt {t})$下限。从技术上讲,我们通过利用模拟退火的量子框架并采用了命中式步行的量子版本来实现$ n $的量子加速。我们在$ t $中的加速零订单随机凸Bistits是由于平均估计的乘法误差中的二次量子加速。
translated by 谷歌翻译
我们提出并分析了算法,以解决用户级差分隐私约束下的一系列学习任务。用户级DP仅保证只保证个人样本的隐私,而是保护用户的整个贡献($ M \ GE 1 $ Samples),而不是对信息泄漏提供更严格但更现实的保护。我们表明,对于高维平均估计,具有平稳损失,随机凸优化和学习假设类别的经验风险最小化,具有有限度量熵,隐私成本随着用户提供的$ O(1 / \ SQRT {M})$减少更多样本。相比之下,在增加用户数量$ N $时,隐私成本以较快的价格降低(1 / n)$率。我们将这些结果与下界相提并论,显示了我们算法的最低限度估计和随机凸优化的算法。我们的算法依赖于私有平均估计的新颖技术,其任意维度与误差缩放为浓度半径$ \ tai $的分布而不是整个范围。
translated by 谷歌翻译
在这项工作中,我们在用户级差异隐私下研究高维平均值估计,并设计$(\ varepsilon,\ delta)$ - 使用尽可能少的用户差异化私人机制。特别是,即使用户数量低至$ o(\ frac {1} {\ varepsilon } \ log \ frac {1} {\ delta})$。有趣的是,这对\ emph {users}的数量绑定到独立于维度(尽管\ emph {samples aper users}的数量被允许以多项式依赖于尺寸),这与先前需要用户数量的工作数量不同。在多项式上依赖于维度。这解决了Amin等人首先提出的问题。此外,我们的机制可抵抗高达$ 49 \%用户的损坏。最后,我们的结果还适用于与少数用户私下学习离散分布的最佳算法,回答Liu等人的问题,以及更广泛的问题,例如随机凸优化和通过差异化的随机梯度优化和随机梯度下降的变体私人平均估计。
translated by 谷歌翻译
经典地,连续时间兰富文队扩散在唯一的假设下迅速迅速迅速迅速迅速,以至于$ \ PI $满足POINCAR的不平等。使用这一事实来为离散时间Langevin Monte Carlo(LMC)算法提供保证,因此由于需要与Chi Squared或R \'enyi分歧的需要,并且在很大程度上主要重点关注日志凹形目标。在这项工作中,我们为LMC提供了第一个收敛保证,假设$ \ PI $满足Lata {\ l} a - oleszkiewicz或修改的log-sobolev不等式,它在Poincar \ e和log-sobolev设置之间插值。与现有作品不同,我们的结果允许弱滑性,并且不需要凸起或耗散条件。
translated by 谷歌翻译
In this work, we give efficient algorithms for privately estimating a Gaussian distribution in both pure and approximate differential privacy (DP) models with optimal dependence on the dimension in the sample complexity. In the pure DP setting, we give an efficient algorithm that estimates an unknown $d$-dimensional Gaussian distribution up to an arbitrary tiny total variation error using $\widetilde{O}(d^2 \log \kappa)$ samples while tolerating a constant fraction of adversarial outliers. Here, $\kappa$ is the condition number of the target covariance matrix. The sample bound matches best non-private estimators in the dependence on the dimension (up to a polylogarithmic factor). We prove a new lower bound on differentially private covariance estimation to show that the dependence on the condition number $\kappa$ in the above sample bound is also tight. Prior to our work, only identifiability results (yielding inefficient super-polynomial time algorithms) were known for the problem. In the approximate DP setting, we give an efficient algorithm to estimate an unknown Gaussian distribution up to an arbitrarily tiny total variation error using $\widetilde{O}(d^2)$ samples while tolerating a constant fraction of adversarial outliers. Prior to our work, all efficient approximate DP algorithms incurred a super-quadratic sample cost or were not outlier-robust. For the special case of mean estimation, our algorithm achieves the optimal sample complexity of $\widetilde O(d)$, improving on a $\widetilde O(d^{1.5})$ bound from prior work. Our pure DP algorithm relies on a recursive private preconditioning subroutine that utilizes the recent work on private mean estimation [Hopkins et al., 2022]. Our approximate DP algorithms are based on a substantial upgrade of the method of stabilizing convex relaxations introduced in [Kothari et al., 2022].
translated by 谷歌翻译
我们给出了第一个多项式 - 时间,多项式 - 样本,差异私人估算器,用于任意高斯分发$ \ mathcal {n}(\ mu,\ sigma)$ in $ \ mathbb {r} ^ d $。所有以前的估算器都是非变性的,具有无限的运行时间,或者要求用户在参数$ \ mu $和$ \ sigma $上指定先验的绑定。我们算法中的主要新技术工具是一个新的差别私有预处理器,它从任意高斯$ \ mathcal {n}(0,\ sigma)$中采用样本,并返回矩阵$ a $,使得$ a \ sigma a ^ t$具有恒定的条件号。
translated by 谷歌翻译
我们提出了一个新的框架,用于对凸函数的差异私有优化,这些功能是任意规范$ \ normx {\ cdot} $中的Lipschitz。我们的算法基于一种正规的指数机制,该机制从密度$ \ propto \ exp(-k(f+\ mu r))$中进行样品,其中$ f $是经验损失,$ r $是一种常规化器,它与强烈的convex convex converize尊重$ \ normx {\ cdot} $,将\ cite {gll22}的最新作品推广到非Euclidean设置。我们表明,这种机制可以满足高斯差异隐私,并通过使用凸几何形状的本地化工具来解决DP-MER(经验风险最小化)和DP-SCO(随机凸优化)。我们的框架是第一个在一般规范空间中适用于私有凸优化的框架,并直接恢复了镜下下降的非私有SCO率,作为隐私参数$ \ eps \ to \ infty $。作为应用程序,对于LipsChitz优化了$ \ ell_p $ norms for(1,2)$中的所有$ p \ norms,我们获得了第一个最佳隐私性权衡权衡;对于$ p = 1 $,我们提高了最近的作品\ cite {asifkt21,bassilygn21}获得的权衡,至少通过对数因素。我们的$ \ ell_p $ norm和schatten- $ p $规范优化框架与多项式时间采样器相辅相成,我们的查询复杂性明确绑定。
translated by 谷歌翻译
我们为其非私人对准减少$(\ varepsilon,\ delta)$差异私人(dp)统计估计,提供了一个相当一般的框架。作为本框架的主要应用,我们提供多项式时间和$(\ varepsilon,\ delta)$ - DP算法用于学习(不受限制的)高斯分布在$ \ mathbb {r} ^ d $。我们学习高斯的方法的样本复杂度高斯距离总变化距离$ \ alpha $是$ \ widetilde {o} \ left(\ frac {d ^ 2} {\ alpha ^ 2} + \ frac {d ^ 2 \ sqrt {\ ln {1 / \ delta}} {\ alpha \ varepsilon} \右)$,匹配(最多为对数因子)最佳已知的信息理论(非高效)样本复杂性上限的aden-ali, Ashtiani,Kamath〜(alt'21)。在一个独立的工作中,Kamath,Mouzakis,Singhal,Steinke和Ullman〜(Arxiv:2111.04609)使用不同的方法证明了类似的结果,并以$ O(d ^ {5/2})$样本复杂性依赖于$ d $ 。作为我们的框架的另一个应用,我们提供了第一次多项式时间$(\ varepsilon,\ delta)$-dp算法,用于鲁棒学习(不受限制的)高斯。
translated by 谷歌翻译
We establish a simple connection between robust and differentially-private algorithms: private mechanisms which perform well with very high probability are automatically robust in the sense that they retain accuracy even if a constant fraction of the samples they receive are adversarially corrupted. Since optimal mechanisms typically achieve these high success probabilities, our results imply that optimal private mechanisms for many basic statistics problems are robust. We investigate the consequences of this observation for both algorithms and computational complexity across different statistical problems. Assuming the Brennan-Bresler secret-leakage planted clique conjecture, we demonstrate a fundamental tradeoff between computational efficiency, privacy leakage, and success probability for sparse mean estimation. Private algorithms which match this tradeoff are not yet known -- we achieve that (up to polylogarithmic factors) in a polynomially-large range of parameters via the Sum-of-Squares method. To establish an information-computation gap for private sparse mean estimation, we also design new (exponential-time) mechanisms using fewer samples than efficient algorithms must use. Finally, we give evidence for privacy-induced information-computation gaps for several other statistics and learning problems, including PAC learning parity functions and estimation of the mean of a multivariate Gaussian.
translated by 谷歌翻译