我们考虑对跨用户设备分发的私人数据培训模型。为了确保隐私,我们添加了设备的噪声并使用安全的聚合,以便仅向服务器揭示嘈杂的总和。我们提出了一个综合的端到端系统,该系统适当地离散数据并在执行安全聚合之前添加离散的高斯噪声。我们为离散高斯人的总和提供了新的隐私分析,并仔细分析了数据量化和模块化求和算术的影响。我们的理论保证突出了沟通,隐私和准确性之间的复杂张力。我们广泛的实验结果表明,我们的解决方案基本上能够将准确性与中央差分隐私相匹配,而每个值的精度少于16位。
translated by 谷歌翻译
Deep neural networks have strong capabilities of memorizing the underlying training data, which can be a serious privacy concern. An effective solution to this problem is to train models with differential privacy, which provides rigorous privacy guarantees by injecting random noise to the gradients. This paper focuses on the scenario where sensitive data are distributed among multiple participants, who jointly train a model through federated learning (FL), using both secure multiparty computation (MPC) to ensure the confidentiality of each gradient update, and differential privacy to avoid data leakage in the resulting model. A major challenge in this setting is that common mechanisms for enforcing DP in deep learning, which inject real-valued noise, are fundamentally incompatible with MPC, which exchanges finite-field integers among the participants. Consequently, most existing DP mechanisms require rather high noise levels, leading to poor model utility. Motivated by this, we propose Skellam mixture mechanism (SMM), an approach to enforce DP on models built via FL. Compared to existing methods, SMM eliminates the assumption that the input gradients must be integer-valued, and, thus, reduces the amount of noise injected to preserve DP. Further, SMM allows tight privacy accounting due to the nice composition and sub-sampling properties of the Skellam distribution, which are key to accurate deep learning with DP. The theoretical analysis of SMM is highly non-trivial, especially considering (i) the complicated math of differentially private deep learning in general and (ii) the fact that the mixture of two Skellam distributions is rather complex, and to our knowledge, has not been studied in the DP literature. Extensive experiments on various practical settings demonstrate that SMM consistently and significantly outperforms existing solutions in terms of the utility of the resulting model.
translated by 谷歌翻译
我们展示了一个联合学习框架,旨在强大地提供具有异构数据的各个客户端的良好预测性能。所提出的方法对基于SuperQualile的学习目标铰接,捕获异构客户端的误差分布的尾统计。我们提出了一种随机训练算法,其与联合平均步骤交织差异私人客户重新重量步骤。该提出的算法支持有限时间收敛保证,保证覆盖凸和非凸面设置。关于联邦学习的基准数据集的实验结果表明,我们的方法在平均误差方面与古典误差竞争,并且在误差的尾统计方面优于它们。
translated by 谷歌翻译
隐私和沟通效率是联邦神经网络培训中的重要挑战,并将它们组合仍然是一个公开的问题。在这项工作中,我们开发了一种统一高度压缩通信和差异隐私(DP)的方法。我们引入基于相对熵编码(REC)到联合设置的压缩技术。通过对REC进行微小的修改,我们获得了一种可怕的私立学习算法,DP-REC,并展示了如何计算其隐私保证。我们的实验表明,DP-REC大大降低了通信成本,同时提供与最先进的隐私保证。
translated by 谷歌翻译
我们设计可扩展的算法,以私下生成从数百万用户设备的分散数据的位置热量。它旨在确保在服务提供商对服务提供商可见之前的差异隐私,同时保持高数据准确性和最小化用户设备的资源消耗。为实现这一目标,我们根据安全多方计算领域的最新结果重新审视分布式差异隐私概念,并设计用于位置分析的可扩展和自适应分布式差分隐私方法。关于公共位置数据集的评估表明,该方法成功地从数百万用户样本中成功地生成了大量的客户样本,最坏的客户端通信开销明显小于现有的类似准确性的现有最先进的私有协议。
translated by 谷歌翻译
联邦机器学习利用边缘计算来开发网络用户数据的模型,但联合学习的隐私仍然是一个重大挑战。已经提出了使用差异隐私的技术来解决这一点,但是带来了自己的挑战 - 许多人需要一个值得信赖的第三方,或者增加了太多的噪音来生产有用的模型。使用多方计算的\ EMPH {SERVE聚合}的最新进步消除了对第三方的需求,但是在计算上尤其在规模上昂贵。我们提出了一种新的联合学习协议,利用了一种基于与错误学习的技术的新颖差异私有的恶意安全聚合协议。我们的协议优于当前最先进的技术,并且经验结果表明它缩放到大量方面,具有任何差别私有联合学习方案的最佳精度。
translated by 谷歌翻译
我们考虑在差异隐私(DP)的分布式信任模型下考虑标准的$ k $武装匪徒问题,该问题使得无需可信赖的服务器保证隐私。在此信任模型下,先前的工作主要集中在使用Shuffle协议实现隐私,在此过程中,在发送到中央服务器之前,将一批用户数据随机排列。通过牺牲额外的添加剂$ o \!\ left(\!\ frac {k \ log t \ sqrt {\ log(1/\ delta)}} } {\ epsilon} \!\ right)\!$在$ t $ - 步骤累积遗憾中成本。相比之下,在广泛使用的中央信托模型下实现更强($ \ epsilon,0 $)或纯dp保证的最佳隐私成本仅为$ \ theta \!\ left(\!\ frac {k \ log t t t } {\ epsilon} \!\ right)\!$,但是,需要一个受信任的服务器。在这项工作中,我们旨在获得分布式信托模型下的纯DP保证,同时牺牲比中央信托模型的遗憾。我们通过基于连续的ARM消除设计通用的匪徒算法来实现这一目标,在这种情况下,通过使用安全的计算协议确保使用等效的离散拉普拉斯噪声来损坏奖励来保证隐私。我们还表明,当使用Skellam噪声和安全协议实例化时,我们的算法可确保\ emph {r \'{e} nyi差异隐私} - 一个比分布式信任模型的近似dp更强的概念$ o \!\ left(\!\ frac {k \ sqrt {\ log t}}}} {\ epsilon} \!\ right)\!$。
translated by 谷歌翻译
联合数据分析是一个用于分布式数据分析的框架,其中服务器从一组分布式的低型带宽用户设备中编译了嘈杂的响应,以估算总统计信息。该框架中的两个主要挑战是隐私,因为用户数据通常很敏感,并且压缩,因为用户设备的网络带宽较低。先前的工作通过将标准压缩算法与已知的隐私机制相结合,从而分别解决了这些挑战。在这项工作中,我们对问题进行了整体研究,并设计了一个适合任何给定沟通预算的隐私感知压缩机制。我们首先提出了一种在某些条件下传输具有最佳方差的单个实数的机制。然后,我们展示如何将其扩展到位置隐私用例以及向量的指标差异隐私,以应用于联合学习。我们的实验表明,在许多设置中,我们的机制可以导致更好的实用性与压缩权衡。
translated by 谷歌翻译
Distributing machine learning predictors enables the collection of large-scale datasets while leaving sensitive raw data at trustworthy sites. We show that locally training support vector machines (SVMs) and computing their averages leads to a learning technique that is scalable to a large number of users, satisfies differential privacy, and is applicable to non-trivial tasks, such as CIFAR-10. For a large number of participants, communication cost is one of the main challenges. We achieve a low communication cost by requiring only a single invocation of an efficient secure multiparty summation protocol. By relying on state-of-the-art feature extractors (SimCLR), we are able to utilize differentially private convex learners for non-trivial tasks such as CIFAR-10. Our experimental results illustrate that for $1{,}000$ users with $50$ data points each, our scheme outperforms state-of-the-art scalable distributed learning methods (differentially private federated learning, short DP-FL) while requiring around $500$ times fewer communication costs: For CIFAR-10, we achieve a classification accuracy of $79.7\,\%$ for an $\varepsilon = 0.59$ while DP-FL achieves $57.6\,\%$. More generally, we prove learnability properties for the average of such locally trained models: convergence and uniform stability. By only requiring strongly convex, smooth, and Lipschitz-continuous objective functions, locally trained via stochastic gradient descent (SGD), we achieve a strong utility-privacy tradeoff.
translated by 谷歌翻译
联合学习(FL)是一种从分散数据源训练机器学习模型的技术。我们根据当地的隐私约束概念研究FL,该概念通过在离开客户之前使数据混淆,为敏感数据披露提供了强烈的保护。我们确定了设计实用隐私的FL算法的两个主要问题:沟通效率和高维度的兼容性。然后,我们开发一种基于梯度的学习算法,称为\ emph {sqsgd}(选择性量化的随机梯度下降),以解决这两个问题。所提出的算法基于一种新颖的隐私量化方案,该方案使用每个客户每个维度的恒定位数。然后,我们通过三种方式改进基本算法:首先,我们采用梯度亚采样策略,同时在固定隐私预算下提供更好的培训性能和较小的沟通成本。其次,我们利用随机旋转作为预处理步骤来减少量化误差。第三,采用了自适应梯度标准上限策略来提高准确性和稳定训练。最后,在基准数据集中证明了拟议框架的实用性。实验结果表明,SQSGD成功地学习了Lenet和Resnet等局部隐私约束的大型模型。此外,凭借固定的隐私和通信水平,SQSGD的性能显着主导了各种基线算法。
translated by 谷歌翻译
最近对具有正式隐私保证的分布式计算的研究,例如联合学习的差异私有(DP),利用每回合中客户的随机抽样(通过亚采样进行的隐私放大)来达到令人满意的隐私水平。然而,实现这一目标需要强大的假设,这些假设可能无法实践,包括对客户的精确和统一的亚采样,以及高度信任的聚合器来处理客户的数据。在本文中,我们探讨了一个更实用的协议,改组了办理登机手续,以解决上述问题。该协议依靠客户端做出独立和随机的决定来参与计算,释放服务器发射的亚采样要求,并启用客户端辍学的强大建模。此外,采用了称为洗牌模型的较弱的信任模型,而不是使用受信任的聚合器。为此,我们介绍了新工具来表征洗牌的r \'enyi差异隐私(RDP)。我们表明,我们的新技术在隐私保证中至少提高了三次,而在各种参数制度下使用近似DP的强大组成的人进行了三倍。此外,我们提供了一种数值方法来跟踪通用洗牌机构的隐私,包括具有高斯机制的分布式随机梯度下降(SGD)。据我们所知,这也是文献中分布式设置下本地/洗牌模型中高斯机制的首次评估,这可能具有独立的兴趣。
translated by 谷歌翻译
We consider private federated learning (FL), where a server aggregates differentially private gradient updates from a large number of clients in order to train a machine learning model. The main challenge is balancing privacy with both classification accuracy of the learned model as well as the amount of communication between the clients and server. In this work, we build on a recently proposed method for communication-efficient private FL -- the MVU mechanism -- by introducing a new interpolation mechanism that can accommodate a more efficient privacy analysis. The result is the new Interpolated MVU mechanism that provides SOTA results on communication-efficient private FL on a variety of datasets.
translated by 谷歌翻译
我们考虑使用迷你批量梯度进行差异隐私(DP)的培训模型。现有的最先进的差异私有随机梯度下降(DP-SGD)需要通过采样或洗机来获得最佳隐私/准确性/计算权衡的隐私放大。不幸的是,在重要的实际情况下,精确采样和洗牌的精确要求可能很难获得,特别是联邦学习(FL)。我们设计和分析跟随 - 正规的领导者(DP-FTRL)的DP变体,其比较(理论上和经验地)与放大的DP-SGD相比,同时允许更灵活的数据访问模式。DP-FTRL不使用任何形式的隐私放大。该代码可在https://github.com/google-Research/federated/tree/master/dp_ftrl和https://github.com/google-reesearch/dp-ftrl处获得。
translated by 谷歌翻译
分析若干缔约方拥有的数据,同时在效用和隐私之间实现良好的权衡是联邦学习和分析的关键挑战。在这项工作中,我们介绍了一种新颖的差异隐私(LDP)的放松,自然地出现在完全分散的算法中,即,当参与者通过沿着网络图的边缘传播没有中央协调员的边缘交换信息时。我们呼叫网络DP的这种放松捕获了用户只有系统的本地视图。为了展示网络DP的相关性,我们研究了一个分散的计算模型,其中令牌在网络图上执行散步,并由接收它的方顺序更新。对于诸如实际求和,直方图计算和具有梯度下降的优化等任务,我们提出了在环和完整拓扑上的简单算法。我们证明,网络DP下我们算法的隐私式实用权折衷显着提高了LDP下可实现的内容(有时甚至与可信赖的策展人模型的效用)的可实现,首次显示正式隐私收益可以从中获得完全分散。我们的实验说明了通过随机梯度下降的分散训练方法的改进效用。
translated by 谷歌翻译
联邦学习(FL)是大规模分布式学习的范例,它面临两个关键挑战:(i)从高度异构的用户数据和(ii)保护参与用户的隐私的高效培训。在这项工作中,我们提出了一种新颖的流动方法(DP-SCaffold)来通过将差异隐私(DP)约束结合到流行的脚手架算法中来解决这两个挑战。我们专注于有挑战性的环境,用户在没有任何可信中介的情况下与“诚实但奇怪的”服务器沟通,这需要确保隐私不仅可以访问最终模型的第三方,而且还要对服务器观察所有用户通信。使用DP理论的高级结果,我们建立了凸面和非凸面目标算法的融合。我们的分析清楚地突出了数据异质性下的隐私式折衷,并且当局部更新的数量和异质性水平增长时,展示了在最先进的算法DP-Fedivg上的DP-Scaffold的优越性。我们的数值结果证实了我们的分析,并表明DP-Scaffold在实践中提供了重大的收益。
translated by 谷歌翻译
为了在带宽洪泛环境(例如无线网络)中启用大规模的机器学习,最近在设计借助通信压缩的帮助下,最近在设计沟通效率的联合学习算法方面取得了重大进展。另一方面,隐私保护,尤其是在客户层面上,是另一个重要的避税,在存在高级通信压缩技术的情况下尚未同时解决。在本文中,我们提出了一个统一的框架,以通过沟通压缩提高私人联邦学习的沟通效率。利用通用压缩操作员和局部差异隐私,我们首先检查了一种简单的算法,该算法将压缩直接应用于差异私密的随机梯度下降,并确定其局限性。然后,我们为私人联合学习提出了一个统一的框架Soteriafl,该框架适应了一般的局部梯度估计剂家庭,包括流行的随机方差减少梯度方法和最先进的变化压缩方案。我们在隐私,公用事业和沟通复杂性方面提供了其性能权衡的全面表征,在这种情况下,Soterafl被证明可以在不牺牲隐私或实用性的情况下实现更好的沟通复杂性,而不是其他私人联合联盟学习算法而没有沟通压缩。
translated by 谷歌翻译
虽然差异隐私的应用(DP)在联合学习(FL)方面进行了充分研究,但考虑到跨索洛FL的DP缺乏工作,该设置的特征是有限数量的客户,每个客户都包含许多人数据主体。在跨索洛fl中,由于现实世界中的隐私法规,通常涉及核心数据主体,而不是孤岛本身,因此客户级隐私的通常概念不太适合。在这项工作中,我们相反,考虑了更现实的孤岛特定项目级隐私的概念,其中筒仓为当地示例设定了自己的隐私目标。在这种情况下,我们重新考虑了个性化在联合学习中的作用。特别是,我们表明,均值进行的多任务学习(MR-MTL)是一个简单的个性化框架,是跨索洛FL的强大基准:在更强的隐私下,孤岛进一步激励彼此“联合”以互相“联合”减轻DP噪声,相对于标准基线方法,导致一致的改进。我们为竞争方法以及MR-MTL的理论表征提供了一项彻底的经验研究,以实现平均估计问题,从而突出了隐私与跨核数据异质性之间的相互作用。我们的工作旨在为私人跨索洛FL建立基准,并确定该领域未来工作的关键方向。
translated by 谷歌翻译
Concentrated differential privacy" was recently introduced by Dwork and Rothblum as a relaxation of differential privacy, which permits sharper analyses of many privacy-preserving computations. We present an alternative formulation of the concept of concentrated differential privacy in terms of the Rényi divergence between the distributions obtained by running an algorithm on neighboring inputs. With this reformulation in hand, we prove sharper quantitative results, establish lower bounds, and raise a few new questions. We also unify this approach with approximate differential privacy by giving an appropriate definition of "approximate concentrated differential privacy."
translated by 谷歌翻译
我们考虑一个顺序设置,其中使用单个数据集用于执行自适应选择的分析,同时确保每个参与者的差别隐私丢失不超过预先指定的隐私预算。此问题的标准方法依赖于限制所有个人对所有个人的隐私损失的最坏情况估计,以及每个单一分析的所有可能的数据值。然而,在许多情况下,这种方法过于保守,特别是对于“典型”数据点,通过参与大部分分析产生很少的隐私损失。在这项工作中,我们基于每个分析中每个人的个性化隐私损失估计的价值,给出了更严格的隐私损失会计的方法。实现我们设计R \'enyi差异隐私的过滤器。过滤器是一种工具,可确保具有自适应选择的隐私参数的组合算法序列的隐私参数不超过预先预算。我们的过滤器比以往的$(\ epsilon,\ delta)$ - rogers等人的差别隐私更简单且更紧密。我们将结果应用于对嘈杂渐变下降的分析,并显示个性化会计可以实用,易于实施,并且只能使隐私式权衡更紧密。
translated by 谷歌翻译
分布式平均值估计(DME)是联邦学习中的一个中央构建块,客户将本地梯度发送到参数服务器,以平均和更新模型。由于通信限制,客户经常使用有损压缩技术来压缩梯度,从而导致估计不准确。当客户拥有多种网络条件(例如限制的通信预算和数据包损失)时,DME更具挑战性。在这种情况下,DME技术通常会导致估计误差显着增加,从而导致学习绩效退化。在这项工作中,我们提出了一种名为Eden的强大DME技术,该技术自然会处理异质通信预算和数据包损失。我们为伊甸园提供了有吸引力的理论保证,并通过经验进行评估。我们的结果表明,伊甸园对最先进的DME技术持续改进。
translated by 谷歌翻译