联合数据分析是一个用于分布式数据分析的框架,其中服务器从一组分布式的低型带宽用户设备中编译了嘈杂的响应,以估算总统计信息。该框架中的两个主要挑战是隐私,因为用户数据通常很敏感,并且压缩,因为用户设备的网络带宽较低。先前的工作通过将标准压缩算法与已知的隐私机制相结合,从而分别解决了这些挑战。在这项工作中,我们对问题进行了整体研究,并设计了一个适合任何给定沟通预算的隐私感知压缩机制。我们首先提出了一种在某些条件下传输具有最佳方差的单个实数的机制。然后,我们展示如何将其扩展到位置隐私用例以及向量的指标差异隐私,以应用于联合学习。我们的实验表明,在许多设置中,我们的机制可以导致更好的实用性与压缩权衡。
translated by 谷歌翻译
We consider private federated learning (FL), where a server aggregates differentially private gradient updates from a large number of clients in order to train a machine learning model. The main challenge is balancing privacy with both classification accuracy of the learned model as well as the amount of communication between the clients and server. In this work, we build on a recently proposed method for communication-efficient private FL -- the MVU mechanism -- by introducing a new interpolation mechanism that can accommodate a more efficient privacy analysis. The result is the new Interpolated MVU mechanism that provides SOTA results on communication-efficient private FL on a variety of datasets.
translated by 谷歌翻译
我们考虑对跨用户设备分发的私人数据培训模型。为了确保隐私,我们添加了设备的噪声并使用安全的聚合,以便仅向服务器揭示嘈杂的总和。我们提出了一个综合的端到端系统,该系统适当地离散数据并在执行安全聚合之前添加离散的高斯噪声。我们为离散高斯人的总和提供了新的隐私分析,并仔细分析了数据量化和模块化求和算术的影响。我们的理论保证突出了沟通,隐私和准确性之间的复杂张力。我们广泛的实验结果表明,我们的解决方案基本上能够将准确性与中央差分隐私相匹配,而每个值的精度少于16位。
translated by 谷歌翻译
隐私和沟通效率是联邦神经网络培训中的重要挑战,并将它们组合仍然是一个公开的问题。在这项工作中,我们开发了一种统一高度压缩通信和差异隐私(DP)的方法。我们引入基于相对熵编码(REC)到联合设置的压缩技术。通过对REC进行微小的修改,我们获得了一种可怕的私立学习算法,DP-REC,并展示了如何计算其隐私保证。我们的实验表明,DP-REC大大降低了通信成本,同时提供与最先进的隐私保证。
translated by 谷歌翻译
最近对具有正式隐私保证的分布式计算的研究,例如联合学习的差异私有(DP),利用每回合中客户的随机抽样(通过亚采样进行的隐私放大)来达到令人满意的隐私水平。然而,实现这一目标需要强大的假设,这些假设可能无法实践,包括对客户的精确和统一的亚采样,以及高度信任的聚合器来处理客户的数据。在本文中,我们探讨了一个更实用的协议,改组了办理登机手续,以解决上述问题。该协议依靠客户端做出独立和随机的决定来参与计算,释放服务器发射的亚采样要求,并启用客户端辍学的强大建模。此外,采用了称为洗牌模型的较弱的信任模型,而不是使用受信任的聚合器。为此,我们介绍了新工具来表征洗牌的r \'enyi差异隐私(RDP)。我们表明,我们的新技术在隐私保证中至少提高了三次,而在各种参数制度下使用近似DP的强大组成的人进行了三倍。此外,我们提供了一种数值方法来跟踪通用洗牌机构的隐私,包括具有高斯机制的分布式随机梯度下降(SGD)。据我们所知,这也是文献中分布式设置下本地/洗牌模型中高斯机制的首次评估,这可能具有独立的兴趣。
translated by 谷歌翻译
联合学习(FL)是一种从分散数据源训练机器学习模型的技术。我们根据当地的隐私约束概念研究FL,该概念通过在离开客户之前使数据混淆,为敏感数据披露提供了强烈的保护。我们确定了设计实用隐私的FL算法的两个主要问题:沟通效率和高维度的兼容性。然后,我们开发一种基于梯度的学习算法,称为\ emph {sqsgd}(选择性量化的随机梯度下降),以解决这两个问题。所提出的算法基于一种新颖的隐私量化方案,该方案使用每个客户每个维度的恒定位数。然后,我们通过三种方式改进基本算法:首先,我们采用梯度亚采样策略,同时在固定隐私预算下提供更好的培训性能和较小的沟通成本。其次,我们利用随机旋转作为预处理步骤来减少量化误差。第三,采用了自适应梯度标准上限策略来提高准确性和稳定训练。最后,在基准数据集中证明了拟议框架的实用性。实验结果表明,SQSGD成功地学习了Lenet和Resnet等局部隐私约束的大型模型。此外,凭借固定的隐私和通信水平,SQSGD的性能显着主导了各种基线算法。
translated by 谷歌翻译
Deep neural networks have strong capabilities of memorizing the underlying training data, which can be a serious privacy concern. An effective solution to this problem is to train models with differential privacy, which provides rigorous privacy guarantees by injecting random noise to the gradients. This paper focuses on the scenario where sensitive data are distributed among multiple participants, who jointly train a model through federated learning (FL), using both secure multiparty computation (MPC) to ensure the confidentiality of each gradient update, and differential privacy to avoid data leakage in the resulting model. A major challenge in this setting is that common mechanisms for enforcing DP in deep learning, which inject real-valued noise, are fundamentally incompatible with MPC, which exchanges finite-field integers among the participants. Consequently, most existing DP mechanisms require rather high noise levels, leading to poor model utility. Motivated by this, we propose Skellam mixture mechanism (SMM), an approach to enforce DP on models built via FL. Compared to existing methods, SMM eliminates the assumption that the input gradients must be integer-valued, and, thus, reduces the amount of noise injected to preserve DP. Further, SMM allows tight privacy accounting due to the nice composition and sub-sampling properties of the Skellam distribution, which are key to accurate deep learning with DP. The theoretical analysis of SMM is highly non-trivial, especially considering (i) the complicated math of differentially private deep learning in general and (ii) the fact that the mixture of two Skellam distributions is rather complex, and to our knowledge, has not been studied in the DP literature. Extensive experiments on various practical settings demonstrate that SMM consistently and significantly outperforms existing solutions in terms of the utility of the resulting model.
translated by 谷歌翻译
分布式平均值估计(DME)是联邦学习中的一个中央构建块,客户将本地梯度发送到参数服务器,以平均和更新模型。由于通信限制,客户经常使用有损压缩技术来压缩梯度,从而导致估计不准确。当客户拥有多种网络条件(例如限制的通信预算和数据包损失)时,DME更具挑战性。在这种情况下,DME技术通常会导致估计误差显着增加,从而导致学习绩效退化。在这项工作中,我们提出了一种名为Eden的强大DME技术,该技术自然会处理异质通信预算和数据包损失。我们为伊甸园提供了有吸引力的理论保证,并通过经验进行评估。我们的结果表明,伊甸园对最先进的DME技术持续改进。
translated by 谷歌翻译
我们设计可扩展的算法,以私下生成从数百万用户设备的分散数据的位置热量。它旨在确保在服务提供商对服务提供商可见之前的差异隐私,同时保持高数据准确性和最小化用户设备的资源消耗。为实现这一目标,我们根据安全多方计算领域的最新结果重新审视分布式差异隐私概念,并设计用于位置分析的可扩展和自适应分布式差分隐私方法。关于公共位置数据集的评估表明,该方法成功地从数百万用户样本中成功地生成了大量的客户样本,最坏的客户端通信开销明显小于现有的类似准确性的现有最先进的私有协议。
translated by 谷歌翻译
为了在带宽洪泛环境(例如无线网络)中启用大规模的机器学习,最近在设计借助通信压缩的帮助下,最近在设计沟通效率的联合学习算法方面取得了重大进展。另一方面,隐私保护,尤其是在客户层面上,是另一个重要的避税,在存在高级通信压缩技术的情况下尚未同时解决。在本文中,我们提出了一个统一的框架,以通过沟通压缩提高私人联邦学习的沟通效率。利用通用压缩操作员和局部差异隐私,我们首先检查了一种简单的算法,该算法将压缩直接应用于差异私密的随机梯度下降,并确定其局限性。然后,我们为私人联合学习提出了一个统一的框架Soteriafl,该框架适应了一般的局部梯度估计剂家庭,包括流行的随机方差减少梯度方法和最先进的变化压缩方案。我们在隐私,公用事业和沟通复杂性方面提供了其性能权衡的全面表征,在这种情况下,Soterafl被证明可以在不牺牲隐私或实用性的情况下实现更好的沟通复杂性,而不是其他私人联合联盟学习算法而没有沟通压缩。
translated by 谷歌翻译
我们展示了一个联合学习框架,旨在强大地提供具有异构数据的各个客户端的良好预测性能。所提出的方法对基于SuperQualile的学习目标铰接,捕获异构客户端的误差分布的尾统计。我们提出了一种随机训练算法,其与联合平均步骤交织差异私人客户重新重量步骤。该提出的算法支持有限时间收敛保证,保证覆盖凸和非凸面设置。关于联邦学习的基准数据集的实验结果表明,我们的方法在平均误差方面与古典误差竞争,并且在误差的尾统计方面优于它们。
translated by 谷歌翻译
我们研究了在通信约束下的分布式平均值估计和优化问题。我们提出了一个相关的量化协议,该协议的误差保证中的主项取决于数据点的平均偏差,而不仅仅是它们的绝对范围。该设计不需要关于数据集的集中属性的任何先验知识,这是在以前的工作中获得这种依赖所必需的。我们表明,在分布式优化算法中应用提出的协议作为子规则会导致更好的收敛速率。我们还在轻度假设下证明了我们的方案的最佳性。实验结果表明,我们提出的算法在各种任务方面优于现有的平均估计协议。
translated by 谷歌翻译
我们考虑使用迷你批量梯度进行差异隐私(DP)的培训模型。现有的最先进的差异私有随机梯度下降(DP-SGD)需要通过采样或洗机来获得最佳隐私/准确性/计算权衡的隐私放大。不幸的是,在重要的实际情况下,精确采样和洗牌的精确要求可能很难获得,特别是联邦学习(FL)。我们设计和分析跟随 - 正规的领导者(DP-FTRL)的DP变体,其比较(理论上和经验地)与放大的DP-SGD相比,同时允许更灵活的数据访问模式。DP-FTRL不使用任何形式的隐私放大。该代码可在https://github.com/google-Research/federated/tree/master/dp_ftrl和https://github.com/google-reesearch/dp-ftrl处获得。
translated by 谷歌翻译
Distributing machine learning predictors enables the collection of large-scale datasets while leaving sensitive raw data at trustworthy sites. We show that locally training support vector machines (SVMs) and computing their averages leads to a learning technique that is scalable to a large number of users, satisfies differential privacy, and is applicable to non-trivial tasks, such as CIFAR-10. For a large number of participants, communication cost is one of the main challenges. We achieve a low communication cost by requiring only a single invocation of an efficient secure multiparty summation protocol. By relying on state-of-the-art feature extractors (SimCLR), we are able to utilize differentially private convex learners for non-trivial tasks such as CIFAR-10. Our experimental results illustrate that for $1{,}000$ users with $50$ data points each, our scheme outperforms state-of-the-art scalable distributed learning methods (differentially private federated learning, short DP-FL) while requiring around $500$ times fewer communication costs: For CIFAR-10, we achieve a classification accuracy of $79.7\,\%$ for an $\varepsilon = 0.59$ while DP-FL achieves $57.6\,\%$. More generally, we prove learnability properties for the average of such locally trained models: convergence and uniform stability. By only requiring strongly convex, smooth, and Lipschitz-continuous objective functions, locally trained via stochastic gradient descent (SGD), we achieve a strong utility-privacy tradeoff.
translated by 谷歌翻译
在本文中,我们仅使用部分分布式反馈来研究全球奖励最大化的问题。这个问题是由几个现实世界应用程序(例如蜂窝网络配置,动态定价和政策选择)激发的,其中中央实体采取的行动会影响有助于全球奖励的大量人群。但是,从整个人群那里收集此类奖励反馈不仅会产生高昂的成本,而且经常导致隐私问题。为了解决此问题,我们考虑了差异的私有分布式线性土匪,其中只选择了来自人群的一部分用户(称为客户)来参与学习过程,并且中央服务器通过迭代地汇总这些部分从这种部分反馈中学习了全局模型客户的本地反馈以差异化的方式。然后,我们提出了一个统一的算法学习框架,称为差异性分布式分布式消除(DP-DPE),该框架可以与流行的差异隐私(DP)模型(包括中央DP,Local DP,Local DP和Shuffle DP)自然集成。此外,我们证明DP-DPE既可以达到统一的遗憾,又实现了额定性沟通成本。有趣的是,DP-DPE也可以“免费”获得隐私保护,这是因为由于隐私保证是一个较低的加法术语。此外,作为我们技术的副产品,对于标准的差异私有线性匪徒,也可以实现“自由”隐私的相同结果。最后,我们进行模拟以证实我们的理论结果并证明DP-DPE的有效性。
translated by 谷歌翻译
联合学习的一个区别特征是(本地)客户数据可能具有统计异质性。这种异质性激发了个性化学习的设计,该学习是通过协作培训个人(个性化)模型的。文献中提出了各种个性化方法,似乎截然不同的形式和方法,从将单个全球模型用于本地正规化和模型插值,再到将多个全球模型用于个性化聚类等。在这项工作中,我们开始使用生成框架,可以统一几种不同的算法并暗示新算法。我们将生成框架应用于个性化的估计,并将其连接到经典的经验贝叶斯方法。我们在此框架下制定私人个性化估计。然后,我们将生成框架用于学习,该框架统一了几种已知的个性化FL算法,并提出了新算法。我们建议并研究一种基于知识蒸馏的新算法,该算法的数值优于几种已知算法。我们还为个性化学习方法开发隐私,并保证用户级的隐私和组成。我们通过数值评估估计和学习问题的性能以及隐私,证明了我们提出的方法的优势。
translated by 谷歌翻译
联合学习允许许多设备在机器学习模型的培训中进行协作。与传统的机器学习一样,越来越关注的是,接受联合学习的模型可能会对不同的人群组表现出不同的表现。现有的解决方案来衡量和确保跨小组的平等模型绩效需要访问有关小组成员的信息,但是此访问并不总是可用或可取的,尤其是在联邦学习的隐私愿望下。我们研究了衡量此类性能差异的可行性,同时保护用户组成员资格的隐私以及联合模型在用户数据上的性能。保护两者对于隐私至关重要,因为它们可能是相关的,因此学习一个可能会揭示另一个。另一方面,从公用事业的角度来看,保留隐私的数据应保持相关性,以确保能够对性能差异进行准确的测量。我们通过开发当地差异化的私人机制来实现这两个目标,从而保留小组成员和模型绩效之间的相关性。为了分析机制的有效性,我们在对给定隐私预算进行优化时估算差异时的错误,并在合成数据上验证这些界限。我们的结果表明,对于参与的客户数量的实际数量,错误迅速减少,这表明,与先前的工作相反,保护受保护属性的隐私不一定与确定联合模型性能的差异相抵触。
translated by 谷歌翻译
作为标准本地模型和中央模型之间的中间信任模型,差异隐私的洗牌模型已引起了人们的极大兴趣[EFMRTT19;CSUZZ19]。该模型的关键结果是,随机洗牌本地随机数据放大了差异隐私保证。这种放大意味着对数据匿名贡献的系统提供了更大的隐私保证[BEMMRLRKTS17]。在这项工作中,我们通过在理论和数字上逐渐改造结果来改善最新隐私放大的状态。我们的第一个贡献是对LDP Randomizers洗牌输出的R \'enyi差异隐私参数的首次渐近最佳分析。我们的第二个贡献是通过改组对隐私放大的新分析。该分析改进了[FMT20]的技术,并导致所有参数设置中的数值范围更紧密。
translated by 谷歌翻译
我们考虑在差异隐私(DP)的分布式信任模型下考虑标准的$ k $武装匪徒问题,该问题使得无需可信赖的服务器保证隐私。在此信任模型下,先前的工作主要集中在使用Shuffle协议实现隐私,在此过程中,在发送到中央服务器之前,将一批用户数据随机排列。通过牺牲额外的添加剂$ o \!\ left(\!\ frac {k \ log t \ sqrt {\ log(1/\ delta)}} } {\ epsilon} \!\ right)\!$在$ t $ - 步骤累积遗憾中成本。相比之下,在广泛使用的中央信托模型下实现更强($ \ epsilon,0 $)或纯dp保证的最佳隐私成本仅为$ \ theta \!\ left(\!\ frac {k \ log t t t } {\ epsilon} \!\ right)\!$,但是,需要一个受信任的服务器。在这项工作中,我们旨在获得分布式信托模型下的纯DP保证,同时牺牲比中央信托模型的遗憾。我们通过基于连续的ARM消除设计通用的匪徒算法来实现这一目标,在这种情况下,通过使用安全的计算协议确保使用等效的离散拉普拉斯噪声来损坏奖励来保证隐私。我们还表明,当使用Skellam噪声和安全协议实例化时,我们的算法可确保\ emph {r \'{e} nyi差异隐私} - 一个比分布式信任模型的近似dp更强的概念$ o \!\ left(\!\ frac {k \ sqrt {\ log t}}}} {\ epsilon} \!\ right)\!$。
translated by 谷歌翻译
可扩展性和隐私是交叉设备联合学习(FL)系统的两个关键问题。在这项工作中,我们确定了FL中的客户端更新的同步流动聚合不能高效地缩放到几百个并行培训之外。它导致ModelPerforce和训练速度的回报递减,Ampanysto大批量培训。另一方面,FL(即异步FL)中的客户端更新的异步聚合减轻了可扩展性问题。但是,聚合个性链子更新与安全聚合不兼容,这可能导致系统的不良隐私水平。为了解决这些问题,我们提出了一种新颖的缓冲异步聚合方法FedBuff,这是不可知的优化器的选择,并结合了同步和异步FL的最佳特性。我们经验证明FEDBuff比同步FL更有效,比异步FL效率更高3.3倍,同时兼容保留保护技术,如安全聚合和差异隐私。我们在平滑的非凸设置中提供理论融合保证。最后,我们显示在差异私有培训下,FedBuff可以在低隐私设置下占FEDAVGM并实现更高隐私设置的相同实用程序。
translated by 谷歌翻译