差异化(DP)随机凸优化(SCO)在可信赖的机器学习算法设计中无处不在。本文研究了DP-SCO问题,该问题是从分布中采样并顺序到达的流媒体数据。我们还考虑了连续发布模型,其中与私人信息相关的参数已在每个新数据(通常称为在线算法)上更新和发布。尽管已经开发了许多算法,以实现不同$ \ ell_p $ norm几何的最佳多余风险,但是没有一个现有的算法可以适应流和持续发布设置。为了解决诸如在线凸优化和隐私保护的挑战,我们提出了一种在线弗兰克 - 沃尔夫算法的私人变体,并带有递归梯度,以减少差异,以更新和揭示每个数据上的参数。结合自适应差异隐私分析,我们的在线算法在线性时间中实现了最佳的超额风险,当$ 1 <p \ leq 2 $和最先进的超额风险达到了非私人较低的风险时,当$ 2 <p \ p \ $ 2 <p \ leq \ infty $。我们的算法也可以扩展到$ p = 1 $的情况,以实现几乎与维度无关的多余风险。虽然先前的递归梯度降低结果仅在独立和分布的样本设置中才具有理论保证,但我们在非平稳环境中建立了这样的保证。为了展示我们方法的优点,我们设计了第一个DP算法,用于具有对数遗憾的高维广义线性土匪。使用多种DP-SCO和DP-Bandit算法的比较实验表现出所提出的算法的功效和实用性。
translated by 谷歌翻译
我们研究了凸面和非凸面设置的差异私有随机优化。对于凸面的情况,我们专注于非平滑通用线性损耗(GLL)的家庭。我们的$ \ ell_2 $ setting算法在近线性时间内实现了最佳的人口风险,而最知名的差异私有算法在超线性时间内运行。我们的$ \ ell_1 $ setting的算法具有近乎最佳的人口风险$ \ tilde {o} \ big(\ sqrt {\ frac {\ log {n \ log {d}} {n \ varepsilon} \ big)$,以及避免\ Cite {ASI:2021}的尺寸依赖性下限为一般非平滑凸损耗。在差别私有的非凸面设置中,我们提供了几种新算法,用于近似居住的人口风险。对于具有平稳损失和多面体约束的$ \ ell_1 $ tuce,我们提供第一个近乎尺寸的独立速率$ \ tilde o \ big(\ frac {\ log ^ {2/3} {d}} {{(n \ varepsilon)^ {1/3}}} \大)在线性时间。对于具有平滑损耗的约束$ \ ell_2 $ -case,我们获得了速率$ \ tilde o \ big(\ frac {1} {n ^ {1/3}} + \ frac {d ^ { 1/5}} {(n \ varepsilon)^ {2/5}} \ big)$。最后,对于$ \ ell_2 $ -case,我们为{\ em非平滑弱凸}的第一种方法提供了速率$ \ tilde o \ big(\ frac {1} {n ^ {1/4}} + \ FRAC {D ^ {1/6}} {(n \ varepsilon)^ {1/3}} \ big)$,它在$ d = o(\ sqrt {n})时匹配最好的现有非私有算法$。我们还将上面的所有结果扩展到Non-Convex $ \ ell_2 $ setting到$ \ ell_p $ setting,其中$ 1 <p \ leq 2 $,只有polylogarithmic(维度在尺寸)的速度下。
translated by 谷歌翻译
土匪算法已成为交互式建议的参考解决方案。但是,由于这种算法直接与用户进行改进的建议,因此对其实际使用提出了严重的隐私问题。在这项工作中,我们通过基于树的机制提出了一种差异性的线性上下文匪徒算法,以将拉普拉斯或高斯噪声添加到模型参数中。我们的关键见解是,随着模型在在线更新过程中收敛时,其参数的全局灵敏度随着时间的推移而缩小(因此命名为动态全局灵敏度)。与现有解决方案相比,我们动态的全球敏感性分析使我们能够减少噪声以获得$(\ epsilon,\ delta)$ - 差异隐私,并具有$ \ tilde o(\ log {t} \ sqrt中的噪声注入引起的额外遗憾) {t}/\ epsilon)$。我们通过动态全局灵敏度和我们提出的算法的相应上后悔界限提供了严格的理论分析。合成和现实世界数据集的实验结果证实了该算法对现有解决方案的优势。
translated by 谷歌翻译
我们在差分隐私(DP)的约束下,用重型数据研究随机凸优化。大多数关于此问题的事先工作仅限于损耗功能是Lipschitz的情况。相反,正如王,肖,德拉达斯和徐\ Cite {wangxdx20}所引入的那样,假设渐变的分布已涉及$ k $ --th时刻,我们研究了一般凸损失功能。我们在集中DP下提供了改善的上限,用于凸起的凸起和强凸损失功能。一路上,我们在纯粹和集中的DP下获得了私人平均估计的私有平均估计的新算法。最后,我们证明了私有随机凸性优化的近乎匹配的下限,具有强凸损失和平均估计,显示纯净和浓缩的DP之间的新分离。
translated by 谷歌翻译
我们考虑在差异隐私(DP)的分布式信任模型下考虑标准的$ k $武装匪徒问题,该问题使得无需可信赖的服务器保证隐私。在此信任模型下,先前的工作主要集中在使用Shuffle协议实现隐私,在此过程中,在发送到中央服务器之前,将一批用户数据随机排列。通过牺牲额外的添加剂$ o \!\ left(\!\ frac {k \ log t \ sqrt {\ log(1/\ delta)}} } {\ epsilon} \!\ right)\!$在$ t $ - 步骤累积遗憾中成本。相比之下,在广泛使用的中央信托模型下实现更强($ \ epsilon,0 $)或纯dp保证的最佳隐私成本仅为$ \ theta \!\ left(\!\ frac {k \ log t t t } {\ epsilon} \!\ right)\!$,但是,需要一个受信任的服务器。在这项工作中,我们旨在获得分布式信托模型下的纯DP保证,同时牺牲比中央信托模型的遗憾。我们通过基于连续的ARM消除设计通用的匪徒算法来实现这一目标,在这种情况下,通过使用安全的计算协议确保使用等效的离散拉普拉斯噪声来损坏奖励来保证隐私。我们还表明,当使用Skellam噪声和安全协议实例化时,我们的算法可确保\ emph {r \'{e} nyi差异隐私} - 一个比分布式信任模型的近似dp更强的概念$ o \!\ left(\!\ frac {k \ sqrt {\ log t}}}} {\ epsilon} \!\ right)\!$。
translated by 谷歌翻译
我们提出并分析了算法,以解决用户级差分隐私约束下的一系列学习任务。用户级DP仅保证只保证个人样本的隐私,而是保护用户的整个贡献($ M \ GE 1 $ Samples),而不是对信息泄漏提供更严格但更现实的保护。我们表明,对于高维平均估计,具有平稳损失,随机凸优化和学习假设类别的经验风险最小化,具有有限度量熵,隐私成本随着用户提供的$ O(1 / \ SQRT {M})$减少更多样本。相比之下,在增加用户数量$ N $时,隐私成本以较快的价格降低(1 / n)$率。我们将这些结果与下界相提并论,显示了我们算法的最低限度估计和随机凸优化的算法。我们的算法依赖于私有平均估计的新颖技术,其任意维度与误差缩放为浓度半径$ \ tai $的分布而不是整个范围。
translated by 谷歌翻译
在本文中,我们重新审视了私人经验风险最小化(DP-erm)和差异私有随机凸优化(DP-SCO)的问题。我们表明,来自统计物理学(Langevin Exfusion(LD))的经过良好研究的连续时间算法同时为DP-SCO和DP-SCO提供了最佳的隐私/实用性权衡,$ \ epsilon $ -DP和$ $ \ epsilon $ -DP和$ (\ epsilon,\ delta)$ - dp均用于凸和强烈凸损失函数。我们为LD提供新的时间和尺寸独立统一稳定性,并使用我们为$ \ epsilon $ -DP提供相应的最佳超额人口风险保证。 $ \ epsilon $ -DP的DP-SCO保证的一个重要属性是,它们将非私人最佳界限匹配为$ \ epsilon \与\ infty $。在此过程中,我们提供了各种技术工具,这些工具可能引起独立的关注:i)在两个相邻数据集上运行损失功能时,一个新的r \'enyi Divergence绑定了LD,ii)最后一个过多的经验风险范围迭代LD,类似于Shamir和Zhang的嘈杂随机梯度下降(SGD)和iii)的LD,对LD进行了两期多余的风险分析,其中第一阶段是当扩散在任何合理意义上都没有在任何合理意义上融合到固定分布时,在第二阶段扩散已收敛到吉布斯分布的变体。我们的普遍性结果至关重要地依赖于LD的动力学。当它融合到固定分布时,我们获得了$ \ epsilon $ -DP的最佳界限。当它仅在很短的时间内运行$ \ propto 1/p $时,我们在$(\ epsilon,\ delta)$ -DP下获得最佳界限。在这里,$ p $是模型空间的维度。
translated by 谷歌翻译
随机梯度下降(SGDA)及其变体一直是解决最小值问题的主力。但是,与研究有差异隐私(DP)约束的经过良好研究的随机梯度下降(SGD)相反,在理解具有DP约束的SGDA的概括(实用程序)方面几乎没有工作。在本文中,我们使用算法稳定性方法在不同的设置中建立DP-SGDA的概括(实用程序)。特别是,对于凸 - 凸环设置,我们证明DP-SGDA可以在平滑和非平滑案例中都可以根据弱原始二元人群风险获得最佳的效用率。据我们所知,这是在非平滑案例中DP-SGDA的第一个已知结果。我们进一步在非convex-rong-concave环境中提供了实用性分析,这是原始人口风险的首个已知结果。即使在非私有设置中,此非convex设置的收敛和概括结果也是新的。最后,进行了数值实验,以证明DP-SGDA在凸和非凸病例中的有效性。
translated by 谷歌翻译
我们研究了差异私有线性回归的问题,其中每个数据点都是从固定的下高斯样式分布中采样的。我们提出和分析了一个单次迷你批次随机梯度下降法(DP-AMBSSGD),其中每次迭代中的点都在没有替换的情况下进行采样。为DP添加了噪声,但噪声标准偏差是在线估计的。与现有$(\ epsilon,\ delta)$ - 具有子最佳错误界限的DP技术相比,DP-AMBSSGD能够在关键参数(如多维参数)(如多维参数)等方面提供几乎最佳的错误范围$,以及观测值的噪声的标准偏差$ \ sigma $。例如,当对$ d $二维的协变量进行采样时。从正常分布中,然后由于隐私而引起的DP-AMBSSGD的多余误差为$ \ frac {\ sigma^2 d} {n} {n}(1+ \ frac {d} {\ epsilon^2 n})$,即当样本数量$ n = \ omega(d \ log d)$,这是线性回归的标准操作制度时,错误是有意义的。相比之下,在此设置中现有有效方法的错误范围为:$ \ mathcal {o} \ big(\ frac {d^3} {\ epsilon^2 n^2} \ big)$,即使是$ \ sigma = 0 $。也就是说,对于常量的$ \ epsilon $,现有技术需要$ n = \ omega(d \ sqrt {d})$才能提供非平凡的结果。
translated by 谷歌翻译
我们研究依靠敏感数据(例如医疗记录)的环境的顺序决策中,研究隐私的探索。特别是,我们专注于解决在线性MDP设置中受(联合)差异隐私的约束的增强学习问题(RL),在该设置中,动态和奖励均由线性函数给出。由于Luyo等人而引起的此问题的事先工作。 (2021)实现了$ o(k^{3/5})$的依赖性的遗憾率。我们提供了一种私人算法,其遗憾率提高,最佳依赖性为$ o(\ sqrt {k})$对情节数量。我们强烈遗憾保证的关键配方是策略更新时间表中的适应性,其中仅在检测到数据足够更改时才发生更新。结果,我们的算法受益于低切换成本,并且仅执行$ o(\ log(k))$更新,这大大降低了隐私噪声的量。最后,在最普遍的隐私制度中,隐私参数$ \ epsilon $是一个常数,我们的算法会造成可忽略不计的隐私成本 - 与现有的非私人遗憾界限相比,由于隐私而引起的额外遗憾在低阶中出现了术语。
translated by 谷歌翻译
我们研究了具有$ \ epsilon $ -Global差异隐私(DP)的多臂土匪的问题。首先,我们证明了使用$ \ epsilon $ -Global DP量化土匪硬度的随机和线性土匪的最小值和问题依赖的后悔下限。这些界限表明存在两个硬度制度,具体取决于隐私预算$ \ epsilon $。在高私人制度(小$ \ epsilon $)中,硬度取决于隐私的耦合效果以及有关奖励分布的部分信息。在低私人制度(大$ \ epsilon $)中,具有$ \ epsilon $ -Global DP的土匪并不比没有隐私的土匪更难。对于随机匪徒,我们进一步提出了一个通用框架,以设计基于索引的乐观强盗算法的近乎最佳的$ \ epsilon $全局DP扩展。该框架由三种成分组成:拉普拉斯机制,依赖手臂的自适应发作以及仅在最后一集中收集的奖励来计算私人统计数据。具体而言,我们实例化了UCB和KL-UCB算法的Epsilon $ -Global DP扩展,即ADAP-UCB和ADAP-KLUCB。 Adap-klucb是两者都满足$ \ epsilon $ -Global DP的第一种算法,并产生了遗憾的上限,与问题依赖性下限与乘法常数相匹配。
translated by 谷歌翻译
成对学习是指损失函数取决于一对情况的学习任务。它实例化了许多重要的机器学习任务,如双级排名和度量学习。一种流行的方法来处理成对学习中的流数据是在线梯度下降(OGD)算法,其中需要将当前实例配对以前具有足够大的尺寸的先前实例的电流实例,因此遭受可扩展性问题。在本文中,我们提出了用于成对学习的简单随机和在线梯度下降方法。与现有研究的显着差异是,我们仅将当前实例与前一个构建梯度方向配对,这在存储和计算复杂性中是有效的。我们为凸和非凸起的展示结果,优化和泛化误差界以及平滑和非光滑问题都开发了新颖的稳定性结果,优化和泛化误差界限。我们引入了新颖的技术来解耦模型的依赖性和前一个例子在优化和泛化分析中。我们的研究解决了使用具有非常小的固定尺寸的缓冲集开发OGD的有意义的泛化范围的开放问题。我们还扩展了我们的算法和稳定性分析,以便为成对学习开发差异私有的SGD算法,这显着提高了现有结果。
translated by 谷歌翻译
We introduce a new tool for stochastic convex optimization (SCO): a Reweighted Stochastic Query (ReSQue) estimator for the gradient of a function convolved with a (Gaussian) probability density. Combining ReSQue with recent advances in ball oracle acceleration [CJJJLST20, ACJJS21], we develop algorithms achieving state-of-the-art complexities for SCO in parallel and private settings. For a SCO objective constrained to the unit ball in $\mathbb{R}^d$, we obtain the following results (up to polylogarithmic factors). We give a parallel algorithm obtaining optimization error $\epsilon_{\text{opt}}$ with $d^{1/3}\epsilon_{\text{opt}}^{-2/3}$ gradient oracle query depth and $d^{1/3}\epsilon_{\text{opt}}^{-2/3} + \epsilon_{\text{opt}}^{-2}$ gradient queries in total, assuming access to a bounded-variance stochastic gradient estimator. For $\epsilon_{\text{opt}} \in [d^{-1}, d^{-1/4}]$, our algorithm matches the state-of-the-art oracle depth of [BJLLS19] while maintaining the optimal total work of stochastic gradient descent. We give an $(\epsilon_{\text{dp}}, \delta)$-differentially private algorithm which, given $n$ samples of Lipschitz loss functions, obtains near-optimal optimization error and makes $\min(n, n^2\epsilon_{\text{dp}}^2 d^{-1}) + \min(n^{4/3}\epsilon_{\text{dp}}^{1/3}, (nd)^{2/3}\epsilon_{\text{dp}}^{-1})$ queries to the gradients of these functions. In the regime $d \le n \epsilon_{\text{dp}}^{2}$, where privacy comes at no cost in terms of the optimal loss up to constants, our algorithm uses $n + (nd)^{2/3}\epsilon_{\text{dp}}^{-1}$ queries and improves recent advancements of [KLL21, AFKT21]. In the moderately low-dimensional setting $d \le \sqrt n \epsilon_{\text{dp}}^{3/2}$, our query complexity is near-linear.
translated by 谷歌翻译
当算法的内部状态\ emph {private}时,迭代随机学习算法的信息泄漏是什么?每个特定培训时期对通过已发布的模型泄漏的贡献是多少?我们研究了此问题的嘈杂梯度下降算法,并在整个训练过程中对r \'enyi差异隐私损失的\ emph {dynamics}进行建模。我们的分析跟踪了\ emph {tigh}绑定在r \'enyi差异上的一对概率分布之间的差异,而不是在相邻数据集中训练的模型的参数。我们证明,隐私损失对平稳且强烈凸出的损失函数的呈指数呈指数收敛,这是对组成定理的显着改进(通过在所有中间梯度计算中,其总价值高于其总价值来过度估计隐私损失)。对于Lipschitz,光滑且强烈凸出的损失功能,我们证明了最佳效用,具有较小的梯度复杂性,用于嘈杂的梯度下降算法。
translated by 谷歌翻译
我们提出了一种基于优化的基于优化的框架,用于计算差异私有M估算器以及构建差分私立置信区的新方法。首先,我们表明稳健的统计数据可以与嘈杂的梯度下降或嘈杂的牛顿方法结合使用,以便分别获得具有全局线性或二次收敛的最佳私人估算。我们在局部强大的凸起和自我协调下建立当地和全球融合保障,表明我们的私人估算变为对非私人M估计的几乎最佳附近的高概率。其次,我们通过构建我们私有M估计的渐近方差的差异私有估算来解决参数化推断的问题。这自然导致近​​似枢轴统计,用于构建置信区并进行假设检测。我们展示了偏置校正的有效性,以提高模拟中的小样本实证性能。我们说明了我们在若干数值例子中的方法的好处。
translated by 谷歌翻译
我们在非静止环境中调查在线凸优化,然后选择\ emph {动态后悔}作为性能测量,定义为在线算法产生的累积损失与任何可行比较器序列之间的差异。让$ t $是$ p_t $ be的路径长度,基本上反映了环境的非平稳性,最先进的动态遗憾是$ \ mathcal {o}(\ sqrt {t( 1 + p_t)})$。虽然这一界限被证明是凸函数最佳的最低限度,但在本文中,我们证明可以进一步提高一些简单的问题实例的保证,特别是当在线功能平滑时。具体而言,我们提出了新的在线算法,可以利用平滑度并替换动态遗憾的$ t $替换依据\ {问题依赖性}数量:损耗函数梯度的变化,比较器序列的累积损失,以及比较器序列的累积损失最低术语的最低限度。这些数量是大多数$ \ mathcal {o}(t)$,良性环境中可能更小。因此,我们的结果适应了问题的内在难度,因为边界比现有结果更严格,以便在最坏的情况下保证相同的速率。值得注意的是,我们的算法只需要\ emph {一个}渐变,这与开发的方法共享相同的渐变查询复杂性,以优化静态遗憾。作为进一步的应用,我们将来自全信息设置的结果扩展到具有两点反馈的强盗凸优化,从而达到此类强盗任务的第一个相关的动态遗憾。
translated by 谷歌翻译
在本文中,我们研究了差异化的私人经验风险最小化(DP-erm)。已经表明,随着尺寸的增加,DP-MER的(最坏的)效用会减小。这是私下学习大型机器学习模型的主要障碍。在高维度中,某些模型的参数通常比其他参数更多的信息是常见的。为了利用这一点,我们提出了一个差异化的私有贪婪坐标下降(DP-GCD)算法。在每次迭代中,DP-GCD私人沿梯度(大约)最大条目执行坐标梯度步骤。从理论上讲,DP-GCD可以通过利用问题解决方案的结构特性(例如稀疏性或准方面的)来改善实用性,并在早期迭代中取得非常快速的进展。然后,我们在合成数据集和真实数据集上以数值说明。最后,我们描述了未来工作的有前途的方向。
translated by 谷歌翻译
The first large-scale deployment of private federated learning uses differentially private counting in the continual release model as a subroutine (Google AI blog titled "Federated Learning with Formal Differential Privacy Guarantees"). In this case, a concrete bound on the error is very relevant to reduce the privacy parameter. The standard mechanism for continual counting is the binary mechanism. We present a novel mechanism and show that its mean squared error is both asymptotically optimal and a factor 10 smaller than the error of the binary mechanism. We also show that the constants in our analysis are almost tight by giving non-asymptotic lower and upper bounds that differ only in the constants of lower-order terms. Our algorithm is a matrix mechanism for the counting matrix and takes constant time per release. We also use our explicit factorization of the counting matrix to give an upper bound on the excess risk of the private learning algorithm of Denisov et al. (NeurIPS 2022). Our lower bound for any continual counting mechanism is the first tight lower bound on continual counting under approximate differential privacy. It is achieved using a new lower bound on a certain factorization norm, denoted by $\gamma_F(\cdot)$, in terms of the singular values of the matrix. In particular, we show that for any complex matrix, $A \in \mathbb{C}^{m \times n}$, \[ \gamma_F(A) \geq \frac{1}{\sqrt{m}}\|A\|_1, \] where $\|\cdot \|$ denotes the Schatten-1 norm. We believe this technique will be useful in proving lower bounds for a larger class of linear queries. To illustrate the power of this technique, we show the first lower bound on the mean squared error for answering parity queries.
translated by 谷歌翻译
在本文中,通过引入低噪声条件,我们研究了在随机凸出优化(SCO)的环境中,差异私有随机梯度下降(SGD)算法的隐私和效用(概括)表现。对于点心学习,我们建立了订单$ \ Mathcal {o} \ big(\ frac {\ sqrt {\ sqrt {d \ log(1/\ delta)}} {n \ epsilon} \ big)和$ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \\ \ \ \ \\ \ \ \ \ \ big(\ frac {\ frac {\ sqrt {\ sqrt {\ sqrt {\ sqrt {\ sqrt {\ sqrt {\ sqrt {\ sqrt {\ sqrt { Mathcal {o} \ big({n^{ - \ frac {1+ \ alpha} {2}}}}}}+\ frac {\ sqrt {d \ log(1/\ delta)}}} )$(\ epsilon,\ delta)$ - 差异化私有SGD算法,分别是较高的和$ \ alpha $ -h \'分别较旧的光滑损失,其中$ n $是样本尺寸,$ d $是维度。对于成对学习,受\ cite {lei2020sharper,lei2021Generalization}的启发,我们提出了一种基于梯度扰动的简单私人SGD算法,该算法满足$(\ epsilon,\ delta)$ - 差异性限制,并开发出了新颖的私密性,并且算法。特别是,我们证明我们的算法可以实现多余的风险利率$ \ MATHCAL {o} \ big(\ frac {1} {\ sqrt {n}}}+\ frac {\ frac {\ sqrt { delta)}}} {n \ epsilon} \ big)$带有梯度复杂性$ \ mathcal {o}(n)$和$ \ mathcal {o} \ big(n^{\ frac {\ frac {2- \ alpha} {1+ alpha} {1+ \ alpha}}}+n \ big)$,用于强烈平滑和$ \ alpha $ -h \'olde R平滑损失。此外,在低噪声环境中建立了更快的学习率,以实现平滑和非平滑损失。据我们所知,这是第一次实用分析,它提供了超过$ \ Mathcal {o} \ big(\ frac {1} {\ sqrt {\ sqrt {n}}+\ frac {\ sqrt {d sqrt {d \ sqrt {d \ sqrt { log(1/\ delta)}}} {n \ epsilon} \ big)$用于隐私提供成对学习。
translated by 谷歌翻译
我们考虑使用迷你批量梯度进行差异隐私(DP)的培训模型。现有的最先进的差异私有随机梯度下降(DP-SGD)需要通过采样或洗机来获得最佳隐私/准确性/计算权衡的隐私放大。不幸的是,在重要的实际情况下,精确采样和洗牌的精确要求可能很难获得,特别是联邦学习(FL)。我们设计和分析跟随 - 正规的领导者(DP-FTRL)的DP变体,其比较(理论上和经验地)与放大的DP-SGD相比,同时允许更灵活的数据访问模式。DP-FTRL不使用任何形式的隐私放大。该代码可在https://github.com/google-Research/federated/tree/master/dp_ftrl和https://github.com/google-reesearch/dp-ftrl处获得。
translated by 谷歌翻译