在均匀的Lipschitzness的简单假设下,即每样本样本梯度均匀地界限的大多数先前的收敛结果是在均匀的私有随机梯度下降(DP-SGD)中得出的。在许多问题,例如使用高斯数据的线性回归中,此假设是不现实的。我们可以通过假设每个样本梯度具有\ textit {样品依赖性}上限,即每样本的Lipschitz常数,而它们本身可能是无限的,那么我们就会放松均匀的唇。当按样本Lipschitz常数具有有限的矩时,我们在凸函数和非凸函数上得出DP-SGD的新收敛结果。此外,我们还提供了针对DP-SGD中选择剪辑标准的原则指导,以使其满足我们轻松的Lipschitzness的凸设置,而无需在Lipschitz常数上做出分配假设。我们通过基准测试数据集的实验来验证建议的有效性。
translated by 谷歌翻译
我们在差分隐私(DP)的约束下,用重型数据研究随机凸优化。大多数关于此问题的事先工作仅限于损耗功能是Lipschitz的情况。相反,正如王,肖,德拉达斯和徐\ Cite {wangxdx20}所引入的那样,假设渐变的分布已涉及$ k $ --th时刻,我们研究了一般凸损失功能。我们在集中DP下提供了改善的上限,用于凸起的凸起和强凸损失功能。一路上,我们在纯粹和集中的DP下获得了私人平均估计的私有平均估计的新算法。最后,我们证明了私有随机凸性优化的近乎匹配的下限,具有强凸损失和平均估计,显示纯净和浓缩的DP之间的新分离。
translated by 谷歌翻译
我们研究了差异私有线性回归的问题,其中每个数据点都是从固定的下高斯样式分布中采样的。我们提出和分析了一个单次迷你批次随机梯度下降法(DP-AMBSSGD),其中每次迭代中的点都在没有替换的情况下进行采样。为DP添加了噪声,但噪声标准偏差是在线估计的。与现有$(\ epsilon,\ delta)$ - 具有子最佳错误界限的DP技术相比,DP-AMBSSGD能够在关键参数(如多维参数)(如多维参数)等方面提供几乎最佳的错误范围$,以及观测值的噪声的标准偏差$ \ sigma $。例如,当对$ d $二维的协变量进行采样时。从正常分布中,然后由于隐私而引起的DP-AMBSSGD的多余误差为$ \ frac {\ sigma^2 d} {n} {n}(1+ \ frac {d} {\ epsilon^2 n})$,即当样本数量$ n = \ omega(d \ log d)$,这是线性回归的标准操作制度时,错误是有意义的。相比之下,在此设置中现有有效方法的错误范围为:$ \ mathcal {o} \ big(\ frac {d^3} {\ epsilon^2 n^2} \ big)$,即使是$ \ sigma = 0 $。也就是说,对于常量的$ \ epsilon $,现有技术需要$ n = \ omega(d \ sqrt {d})$才能提供非平凡的结果。
translated by 谷歌翻译
通过确保学习算法中的差异隐私,可以严格降低大型模型记忆敏感培训数据的风险。在本文中,我们为此目的研究了两种算法,即DP-SGD和DP-NSGD,它们首先剪辑或归一化\ textIt \ textIt {每样本}梯度以绑定灵敏度,然后添加噪声以使精确信息混淆。我们通过两个常见的假设分析了非凸优化设置中这两种算法的收敛行为,并实现了$ \ nathcal {o} \ left(\ sqrt [4] {\ frac {\ frac {d \ log(1/\ delta) )} {n^2 \ epsilon^2}} \ right)$ $ d $ - 二维模型,$ n $ samples和$(\ epsilon,\ delta)$ - dp,它改进了以前的改进在较弱的假设下的界限。具体而言,我们在DP-NSGD中引入了一个正规化因素,并表明它对融合证明至关重要,并巧妙地控制了偏见和噪声权衡。我们的证明故意处理针对私人环境指定的按样本梯度剪辑和标准化。从经验上讲,我们证明这两种算法达到了相似的最佳准确性,而DP-NSGD比DP-SGD更容易调整,因此在计算调整工作时可能有助于进一步节省隐私预算。
translated by 谷歌翻译
我们考虑对重尾数据的随机凸优化,并保证成为私人(DP)。此问题的先前工作仅限于梯度下降(GD)方法,这对于大规模问题效率低下。在本文中,我们解决了此问题,并通过剪辑得出了私人随机方法的第一个高概率范围。对于一般凸问题,我们得出过多的人口风险$ \ tilde {o} \ left(\ frac {d^{1/7} \ sqrt {\ ln \ frac {(n \ epsilon) }}} {(n \ epsilon)^{2/7}}} \ right)$和$ \ tilde {o} \ left(\ frac {d^{1/7} \ ln \ ln \ frac {(n \ epsilon)^(n \ epsilon)^ 2} {\ beta d}} {(n \ epsilon)^{2/7}}} \ right)$分别在有限或无限的域假设下(此处$ n $是样本大小,$ d $是数据,$ \ beta $是置信度,$ \ epsilon $是私人级别)。然后,我们将分析扩展到强烈的凸情况和非平滑案例(可用于使用H $ \ ddot {\ text {o}} $ lder-lder-continuule梯度的通用光滑目标)。我们建立了新的超额风险界限,而没有有限的域名。在相应情况下,上面的结果比现有方法降低了多余的风险和梯度复杂性。进行数值实验以证明理论改进是合理的。
translated by 谷歌翻译
在本文中,通过引入低噪声条件,我们研究了在随机凸出优化(SCO)的环境中,差异私有随机梯度下降(SGD)算法的隐私和效用(概括)表现。对于点心学习,我们建立了订单$ \ Mathcal {o} \ big(\ frac {\ sqrt {\ sqrt {d \ log(1/\ delta)}} {n \ epsilon} \ big)和$ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \\ \ \ \ \\ \ \ \ \ \ big(\ frac {\ frac {\ sqrt {\ sqrt {\ sqrt {\ sqrt {\ sqrt {\ sqrt {\ sqrt {\ sqrt {\ sqrt { Mathcal {o} \ big({n^{ - \ frac {1+ \ alpha} {2}}}}}}+\ frac {\ sqrt {d \ log(1/\ delta)}}} )$(\ epsilon,\ delta)$ - 差异化私有SGD算法,分别是较高的和$ \ alpha $ -h \'分别较旧的光滑损失,其中$ n $是样本尺寸,$ d $是维度。对于成对学习,受\ cite {lei2020sharper,lei2021Generalization}的启发,我们提出了一种基于梯度扰动的简单私人SGD算法,该算法满足$(\ epsilon,\ delta)$ - 差异性限制,并开发出了新颖的私密性,并且算法。特别是,我们证明我们的算法可以实现多余的风险利率$ \ MATHCAL {o} \ big(\ frac {1} {\ sqrt {n}}}+\ frac {\ frac {\ sqrt { delta)}}} {n \ epsilon} \ big)$带有梯度复杂性$ \ mathcal {o}(n)$和$ \ mathcal {o} \ big(n^{\ frac {\ frac {2- \ alpha} {1+ alpha} {1+ \ alpha}}}+n \ big)$,用于强烈平滑和$ \ alpha $ -h \'olde R平滑损失。此外,在低噪声环境中建立了更快的学习率,以实现平滑和非平滑损失。据我们所知,这是第一次实用分析,它提供了超过$ \ Mathcal {o} \ big(\ frac {1} {\ sqrt {\ sqrt {n}}+\ frac {\ sqrt {d sqrt {d \ sqrt {d \ sqrt { log(1/\ delta)}}} {n \ epsilon} \ big)$用于隐私提供成对学习。
translated by 谷歌翻译
我们研究了凸面和非凸面设置的差异私有随机优化。对于凸面的情况,我们专注于非平滑通用线性损耗(GLL)的家庭。我们的$ \ ell_2 $ setting算法在近线性时间内实现了最佳的人口风险,而最知名的差异私有算法在超线性时间内运行。我们的$ \ ell_1 $ setting的算法具有近乎最佳的人口风险$ \ tilde {o} \ big(\ sqrt {\ frac {\ log {n \ log {d}} {n \ varepsilon} \ big)$,以及避免\ Cite {ASI:2021}的尺寸依赖性下限为一般非平滑凸损耗。在差别私有的非凸面设置中,我们提供了几种新算法,用于近似居住的人口风险。对于具有平稳损失和多面体约束的$ \ ell_1 $ tuce,我们提供第一个近乎尺寸的独立速率$ \ tilde o \ big(\ frac {\ log ^ {2/3} {d}} {{(n \ varepsilon)^ {1/3}}} \大)在线性时间。对于具有平滑损耗的约束$ \ ell_2 $ -case,我们获得了速率$ \ tilde o \ big(\ frac {1} {n ^ {1/3}} + \ frac {d ^ { 1/5}} {(n \ varepsilon)^ {2/5}} \ big)$。最后,对于$ \ ell_2 $ -case,我们为{\ em非平滑弱凸}的第一种方法提供了速率$ \ tilde o \ big(\ frac {1} {n ^ {1/4}} + \ FRAC {D ^ {1/6}} {(n \ varepsilon)^ {1/3}} \ big)$,它在$ d = o(\ sqrt {n})时匹配最好的现有非私有算法$。我们还将上面的所有结果扩展到Non-Convex $ \ ell_2 $ setting到$ \ ell_p $ setting,其中$ 1 <p \ leq 2 $,只有polylogarithmic(维度在尺寸)的速度下。
translated by 谷歌翻译
我们提出并分析了算法,以解决用户级差分隐私约束下的一系列学习任务。用户级DP仅保证只保证个人样本的隐私,而是保护用户的整个贡献($ M \ GE 1 $ Samples),而不是对信息泄漏提供更严格但更现实的保护。我们表明,对于高维平均估计,具有平稳损失,随机凸优化和学习假设类别的经验风险最小化,具有有限度量熵,隐私成本随着用户提供的$ O(1 / \ SQRT {M})$减少更多样本。相比之下,在增加用户数量$ N $时,隐私成本以较快的价格降低(1 / n)$率。我们将这些结果与下界相提并论,显示了我们算法的最低限度估计和随机凸优化的算法。我们的算法依赖于私有平均估计的新颖技术,其任意维度与误差缩放为浓度半径$ \ tai $的分布而不是整个范围。
translated by 谷歌翻译
当算法的内部状态\ emph {private}时,迭代随机学习算法的信息泄漏是什么?每个特定培训时期对通过已发布的模型泄漏的贡献是多少?我们研究了此问题的嘈杂梯度下降算法,并在整个训练过程中对r \'enyi差异隐私损失的\ emph {dynamics}进行建模。我们的分析跟踪了\ emph {tigh}绑定在r \'enyi差异上的一对概率分布之间的差异,而不是在相邻数据集中训练的模型的参数。我们证明,隐私损失对平稳且强烈凸出的损失函数的呈指数呈指数收敛,这是对组成定理的显着改进(通过在所有中间梯度计算中,其总价值高于其总价值来过度估计隐私损失)。对于Lipschitz,光滑且强烈凸出的损失功能,我们证明了最佳效用,具有较小的梯度复杂性,用于嘈杂的梯度下降算法。
translated by 谷歌翻译
我们研究了私人(DP)随机优化(SO),其中包含非Lipschitz连续的离群值和损失函数的数据。迄今为止,DP上的绝大多数工作,因此假设损失是Lipschitz(即随机梯度均匀边界),并且它们的误差界限与损失的Lipschitz参数。尽管此假设很方便,但通常是不现实的:在需要隐私的许多实际问题中,数据可能包含异常值或无限制,导致某些随机梯度具有较大的规范。在这种情况下,Lipschitz参数可能过于较大,从而导致空虚的多余风险范围。因此,在最近的工作[WXDX20,KLZ22]上,我们做出了较弱的假设,即随机梯度已经限制了$ k $ - them-th Moments for Boy $ k \ geq 2 $。与DP Lipschitz上的作品相比,我们的多余风险量表与$ k $ 3的时刻限制,而不是损失的Lipschitz参数,从而在存在异常值的情况下允许速度明显更快。对于凸面和强烈凸出损失函数,我们提供了第一个渐近最佳的过量风险范围(最多可对数因素)。此外,与先前的作品[WXDX20,KLZ22]相反,我们的边界不需要损失函数是可区分的/平滑的。我们还设计了一种加速算法,该算法在线性时间内运行并提高了(与先前的工作相比),并且几乎最佳的过量风险因平滑损失而产生。此外,我们的工作是第一个解决非convex non-lipschitz损失功能的工作,以满足近端不平等现象。这涵盖了一些类别的神经网,以及其他实用模型。我们的近端PL算法几乎具有最佳的多余风险,几乎与强凸的下限相匹配。最后,我们提供了算法的洗牌DP变化,这些变化不需要受信任的策展人(例如,用于分布式学习)。
translated by 谷歌翻译
Privacy in AI remains a topic that draws attention from researchers and the general public in recent years. As one way to implement privacy-preserving AI, differentially private learning is a framework that enables AI models to use differential privacy (DP). To achieve DP in the learning process, existing algorithms typically limit the magnitude of gradients with a constant clipping, which requires carefully tuned due to its significant impact on model performance. As a solution to this issue, latest works NSGD and Auto-S innovatively propose to use normalization instead of clipping to avoid hyperparameter tuning. However, normalization-based approaches like NSGD and Auto-S rely on a monotonic weight function, which imposes excessive weight on small gradient samples and introduces extra deviation to the update. In this paper, we propose a Differentially Private Per-Sample Adaptive Clipping (DP-PSAC) algorithm based on a non-monotonic adaptive weight function, which guarantees privacy without the typical hyperparameter tuning process of using a constant clipping while significantly reducing the deviation between the update and true batch-averaged gradient. We provide a rigorous theoretical convergence analysis and show that with convergence rate at the same order, the proposed algorithm achieves a lower non-vanishing bound, which is maintained over training iterations, compared with NSGD/Auto-S. In addition, through extensive experimental evaluation, we show that DP-PSAC outperforms or matches the state-of-the-art methods on multiple main-stream vision and language tasks.
translated by 谷歌翻译
在本文中,我们重新审视了私人经验风险最小化(DP-erm)和差异私有随机凸优化(DP-SCO)的问题。我们表明,来自统计物理学(Langevin Exfusion(LD))的经过良好研究的连续时间算法同时为DP-SCO和DP-SCO提供了最佳的隐私/实用性权衡,$ \ epsilon $ -DP和$ $ \ epsilon $ -DP和$ (\ epsilon,\ delta)$ - dp均用于凸和强烈凸损失函数。我们为LD提供新的时间和尺寸独立统一稳定性,并使用我们为$ \ epsilon $ -DP提供相应的最佳超额人口风险保证。 $ \ epsilon $ -DP的DP-SCO保证的一个重要属性是,它们将非私人最佳界限匹配为$ \ epsilon \与\ infty $。在此过程中,我们提供了各种技术工具,这些工具可能引起独立的关注:i)在两个相邻数据集上运行损失功能时,一个新的r \'enyi Divergence绑定了LD,ii)最后一个过多的经验风险范围迭代LD,类似于Shamir和Zhang的嘈杂随机梯度下降(SGD)和iii)的LD,对LD进行了两期多余的风险分析,其中第一阶段是当扩散在任何合理意义上都没有在任何合理意义上融合到固定分布时,在第二阶段扩散已收敛到吉布斯分布的变体。我们的普遍性结果至关重要地依赖于LD的动力学。当它融合到固定分布时,我们获得了$ \ epsilon $ -DP的最佳界限。当它仅在很短的时间内运行$ \ propto 1/p $时,我们在$(\ epsilon,\ delta)$ -DP下获得最佳界限。在这里,$ p $是模型空间的维度。
translated by 谷歌翻译
Privacy noise may negate the benefits of using adaptive optimizers in differentially private model training. Prior works typically address this issue by using auxiliary information (e.g., public data) to boost the effectiveness of adaptive optimization. In this work, we explore techniques to estimate and efficiently adapt to gradient geometry in private adaptive optimization without auxiliary data. Motivated by the observation that adaptive methods can tolerate stale preconditioners, we propose differentially private adaptive training with delayed preconditioners (DP^2), a simple method that constructs delayed but less noisy preconditioners to better realize the benefits of adaptivity. Theoretically, we provide convergence guarantees for our method for both convex and non-convex problems, and analyze trade-offs between delay and privacy noise reduction. Empirically, we explore DP^2 across several real-world datasets, demonstrating that it can improve convergence speed by as much as 4x relative to non-adaptive baselines and match the performance of state-of-the-art optimization methods that require auxiliary data.
translated by 谷歌翻译
大型预审慎的模型可以私下微调以实现非私有模型的性能。这些结果中的一个共同主题是令人惊讶的观察结果,即高维模型可以实现有利的隐私性权衡。这似乎与差异私有凸学习的模型尺寸依赖性相矛盾,并提出了以下研究问题:差异私人学习的性能何时不会随着模型大小的增加而降低?我们确定投影到子空间上的梯度的幅度是决定性能的关键因素。为了确切地为私人凸学习的特征,我们引入了一个条件,即我们将限制Lipschitz的连续性限制并得出了在其他条件下与维度无关的过多经验和人口风险的界限。我们从经验上表明,在大型语言模型的私人微调中,在本地最佳距离附近评估的梯度主要由一些主要组件控制。这种行为类似于我们在凸面设置中获得尺寸独立界限的条件。我们的理论和经验结果共同为大规模私人微调成功提供了可能的解释。
translated by 谷歌翻译
差异化(DP)随机凸优化(SCO)在可信赖的机器学习算法设计中无处不在。本文研究了DP-SCO问题,该问题是从分布中采样并顺序到达的流媒体数据。我们还考虑了连续发布模型,其中与私人信息相关的参数已在每个新数据(通常称为在线算法)上更新和发布。尽管已经开发了许多算法,以实现不同$ \ ell_p $ norm几何的最佳多余风险,但是没有一个现有的算法可以适应流和持续发布设置。为了解决诸如在线凸优化和隐私保护的挑战,我们提出了一种在线弗兰克 - 沃尔夫算法的私人变体,并带有递归梯度,以减少差异,以更新和揭示每个数据上的参数。结合自适应差异隐私分析,我们的在线算法在线性时间中实现了最佳的超额风险,当$ 1 <p \ leq 2 $和最先进的超额风险达到了非私人较低的风险时,当$ 2 <p \ p \ $ 2 <p \ leq \ infty $。我们的算法也可以扩展到$ p = 1 $的情况,以实现几乎与维度无关的多余风险。虽然先前的递归梯度降低结果仅在独立和分布的样本设置中才具有理论保证,但我们在非平稳环境中建立了这样的保证。为了展示我们方法的优点,我们设计了第一个DP算法,用于具有对数遗憾的高维广义线性土匪。使用多种DP-SCO和DP-Bandit算法的比较实验表现出所提出的算法的功效和实用性。
translated by 谷歌翻译
自适应优化方法已成为许多机器学习任务的默认求解器。不幸的是,适应性的好处可能会在具有不同隐私的训练时降低,因为噪声增加了,以确保隐私会降低自适应预处理的有效性。为此,我们提出了ADADP,这是一个使用非敏感的侧面信息来预处梯度的一般框架,从而可以在私有设置中有效使用自适应方法。我们正式显示ADADPS减少了获得类似隐私保证所需的噪声量,从而提高了优化性能。从经验上讲,我们利用简单且随时可用的侧面信息来探索实践中ADADP的性能,与集中式和联合设置中的强大基线相比。我们的结果表明,ADADP平均提高了准确性7.7%(绝对) - 在大规模文本和图像基准上产生最先进的隐私性权衡权衡。
translated by 谷歌翻译
我们重新审视使​​用公共数据来改善差异私有(DP)模型培训的隐私/实用权折衷的问题。在这里,公共数据是指没有隐私问题的辅助数据集。我们考虑与私人培训数据相同的分发的公共数据。对于凸损失,我们表明镜子血清的变体提供了与模型的维度($ p $)的人口风险保证。具体地,我们将镜像血液应用于由公共数据生成的丢失作为镜像映射,并使用私有(敏感)数据生成的丢失的DP梯度。为了获得维度独立性,我们需要$ g_q ^ 2 \ leq p $公共数据样本,其中$ g_q $是损失功能各向同性的量度。我们进一步表明,我们的算法具有天然的“噪音稳定性”属性:如果围绕当前迭代公共损失,请以$ V $的方向满足$ \ alpha_v $ -strong凸性,然后使用嘈杂的渐变而不是确切的渐变偏移我们的下一次迭代$ v $ v $比例为$ 1 / alpha_v $(与DP-SGD相比,换档是各向同性的)。在前作品中的类似结果必须使用预处理器矩阵形式的公共数据明确地学习几何图形。我们的方法也适用于非凸损失,因为它不依赖于凸起假设以确保DP保证。我们通过显示线性回归,深度学习基准数据集(Wikitext-2,Cifar-10和Emnist)以及联合学习(StackOverflow)来证明我们的算法的经验效果。我们表明,我们的算法不仅显着改善了传统的DP-SGD和DP-FedAVG,它没有访问公共数据,而且还可以改善DP-SGD和DP-FedAVG对已与公众预先培训的模型数据开始。
translated by 谷歌翻译
每个例子梯度剪辑是一个关键算法步骤,可实现对深度学习模型的实用差异私有(DP)培训。但是,剪辑规范$ r $的选择对于在DP下实现高精度至关重要。我们提出了一个易于使用的替代品,称为Autoclipping,它消除了任何DP优化器(包括DP-SGD,DP-ADAM,DP-LAMB等)调整$ R $的需求。自动变体与现有的DP优化器一样私有和计算效率,但不需要DP特定的超参数,因此使DP培训与标准的非私人培训一样适合。我们在非凸vex设置中对自动DP-SGD进行了严格的融合分析,这表明它具有与标准SGD相匹配的渐近收敛速率。我们还展示了各种语言和视觉任务,这些任务自动剪辑优于或匹配最新的,并且可以轻松使用对现有代码库的最小更改。
translated by 谷歌翻译
在本文中,我们研究了差异化的私人经验风险最小化(DP-erm)。已经表明,随着尺寸的增加,DP-MER的(最坏的)效用会减小。这是私下学习大型机器学习模型的主要障碍。在高维度中,某些模型的参数通常比其他参数更多的信息是常见的。为了利用这一点,我们提出了一个差异化的私有贪婪坐标下降(DP-GCD)算法。在每次迭代中,DP-GCD私人沿梯度(大约)最大条目执行坐标梯度步骤。从理论上讲,DP-GCD可以通过利用问题解决方案的结构特性(例如稀疏性或准方面的)来改善实用性,并在早期迭代中取得非常快速的进展。然后,我们在合成数据集和真实数据集上以数值说明。最后,我们描述了未来工作的有前途的方向。
translated by 谷歌翻译
随机梯度下降(SGDA)及其变体一直是解决最小值问题的主力。但是,与研究有差异隐私(DP)约束的经过良好研究的随机梯度下降(SGD)相反,在理解具有DP约束的SGDA的概括(实用程序)方面几乎没有工作。在本文中,我们使用算法稳定性方法在不同的设置中建立DP-SGDA的概括(实用程序)。特别是,对于凸 - 凸环设置,我们证明DP-SGDA可以在平滑和非平滑案例中都可以根据弱原始二元人群风险获得最佳的效用率。据我们所知,这是在非平滑案例中DP-SGDA的第一个已知结果。我们进一步在非convex-rong-concave环境中提供了实用性分析,这是原始人口风险的首个已知结果。即使在非私有设置中,此非convex设置的收敛和概括结果也是新的。最后,进行了数值实验,以证明DP-SGDA在凸和非凸病例中的有效性。
translated by 谷歌翻译