We demonstrate that it is possible to train large recurrent language models with user-level differential privacy guarantees with only a negligible cost in predictive accuracy. Our work builds on recent advances in the training of deep networks on user-partitioned data and privacy accounting for stochastic gradient descent. In particular, we add user-level privacy protection to the federated averaging algorithm, which makes "large step" updates from user-level data. Our work demonstrates that given a dataset with a sufficiently large number of users (a requirement easily met by even small internet-scale datasets), achieving differential privacy comes at the cost of increased computation, rather than in decreased utility as in most prior work. We find that our private LSTM language models are quantitatively and qualitatively similar to un-noised models when trained on a large dataset.
translated by 谷歌翻译
在联合学习(FL)设置中具有用户级差异隐私(例如,DP联合平均)培训神经网络的现有方法涉及通过*将其绘制到某些常量值的贡献限制每个用户的模型更新的贡献。但是,没有好处*先验*跨任务和学习设置的剪切规范设置:更新规范分布取决于模型架构和丢失,每个设备上的数据量,客户端学习率以及可能各种其他参数。我们提出了一种方法,其中代替固定剪切范围,一个剪辑到更新规范分布的指定定量位的值,其中定量位的值本身估计在线,具有差异隐私。该方法紧密地追踪量级,使用可忽略的隐私预算,与其他联合学习技术相容,例如压缩和安全聚合,并具有DP-Fedivg的直接联合DP分析。实验表明,适应性剪辑到中位更新规范的适应性剪辑跨越一系列现实的联合学习任务,有时甚至优于在后敏感中选择的最佳固定剪辑,而无需调整任何剪切的超参数。
translated by 谷歌翻译
隐私和沟通效率是联邦神经网络培训中的重要挑战,并将它们组合仍然是一个公开的问题。在这项工作中,我们开发了一种统一高度压缩通信和差异隐私(DP)的方法。我们引入基于相对熵编码(REC)到联合设置的压缩技术。通过对REC进行微小的修改,我们获得了一种可怕的私立学习算法,DP-REC,并展示了如何计算其隐私保证。我们的实验表明,DP-REC大大降低了通信成本,同时提供与最先进的隐私保证。
translated by 谷歌翻译
我们考虑使用迷你批量梯度进行差异隐私(DP)的培训模型。现有的最先进的差异私有随机梯度下降(DP-SGD)需要通过采样或洗机来获得最佳隐私/准确性/计算权衡的隐私放大。不幸的是,在重要的实际情况下,精确采样和洗牌的精确要求可能很难获得,特别是联邦学习(FL)。我们设计和分析跟随 - 正规的领导者(DP-FTRL)的DP变体,其比较(理论上和经验地)与放大的DP-SGD相比,同时允许更灵活的数据访问模式。DP-FTRL不使用任何形式的隐私放大。该代码可在https://github.com/google-Research/federated/tree/master/dp_ftrl和https://github.com/google-reesearch/dp-ftrl处获得。
translated by 谷歌翻译
Modern mobile devices have access to a wealth of data suitable for learning models, which in turn can greatly improve the user experience on the device. For example, language models can improve speech recognition and text entry, and image models can automatically select good photos. However, this rich data is often privacy sensitive, large in quantity, or both, which may preclude logging to the data center and training there using conventional approaches. We advocate an alternative that leaves the training data distributed on the mobile devices, and learns a shared model by aggregating locally-computed updates. We term this decentralized approach Federated Learning.We present a practical method for the federated learning of deep networks based on iterative model averaging, and conduct an extensive empirical evaluation, considering five different model architectures and four datasets. These experiments demonstrate the approach is robust to the unbalanced and non-IID data distributions that are a defining characteristic of this setting. Communication costs are the principal constraint, and we show a reduction in required communication rounds by 10-100× as compared to synchronized stochastic gradient descent.
translated by 谷歌翻译
Machine learning techniques based on neural networks are achieving remarkable results in a wide variety of domains. Often, the training of models requires large, representative datasets, which may be crowdsourced and contain sensitive information. The models should not expose private information in these datasets. Addressing this goal, we develop new algorithmic techniques for learning and a refined analysis of privacy costs within the framework of differential privacy. Our implementation and experiments demonstrate that we can train deep neural networks with non-convex objectives, under a modest privacy budget, and at a manageable cost in software complexity, training efficiency, and model quality. * Google.† OpenAI. Work done while at Google.
translated by 谷歌翻译
自适应优化方法已成为许多机器学习任务的默认求解器。不幸的是,适应性的好处可能会在具有不同隐私的训练时降低,因为噪声增加了,以确保隐私会降低自适应预处理的有效性。为此,我们提出了ADADP,这是一个使用非敏感的侧面信息来预处梯度的一般框架,从而可以在私有设置中有效使用自适应方法。我们正式显示ADADPS减少了获得类似隐私保证所需的噪声量,从而提高了优化性能。从经验上讲,我们利用简单且随时可用的侧面信息来探索实践中ADADP的性能,与集中式和联合设置中的强大基线相比。我们的结果表明,ADADP平均提高了准确性7.7%(绝对) - 在大规模文本和图像基准上产生最先进的隐私性权衡权衡。
translated by 谷歌翻译
本文在联合学习(FL)设置中介绍了主题的颗粒状隐私,其中一个受试者是一个人,其私人信息由限制在单个联邦用户中或在多个联邦用户中分布的几个数据项体现。我们正式定义了FL的主题级别差异隐私的概念。我们提出了三种实施主题级DP的新算法。这些算法中的两种分别基于用户级别的本地差异隐私(LDP)和组差异隐私的概念。第三算法是基于对参加培训迷你批次的受试者的层次梯度平均(HigradavgDP)的新颖概念。我们还为多个联邦用户的受试者介绍了隐私损失的水平组成。我们表明,在最坏情况下,水平成分等效于顺序组成。我们证明了对所有算法的主题级别的DP保证,并使用女性和莎士比亚数据集对其进行经验分析。我们的评估表明,在我们的三种算法中,HigradavgDP提供了最佳的模型性能,接近使用基于DP-SGD的算法训练的模型,该算法提供了较弱的项目级别隐私保证。
translated by 谷歌翻译
联合学习(FL)提供了一个有效的范式,可以共同培训分布式用户的数据的全球模型。由于本地培训数据来自可能不值得信赖的不同用户,因此一些研究表明,FL容易受到中毒攻击的影响。同时,为了保护本地用户的隐私,FL始终以差异性私人方式(DPFL)进行培训。因此,在本文中,我们问:我们是否可以利用DPFL的先天隐私权来提供对中毒攻击的认证鲁棒性?我们可以进一步改善FL的隐私以改善这种认证吗?我们首先研究了FL的用户级和实例级别的隐私,并提出了新的机制以获得改进的实例级隐私。然后,我们提供两个鲁棒性认证标准:两级DPFL的认证预测和认证攻击成本。从理论上讲,我们证明了DPFL在有限数量的对抗用户或实例下的认证鲁棒性。从经验上讲,我们进行了广泛的实验,以在对不同数据集的一系列攻击下验证我们的理论。我们表明,具有更严格的隐私保证的DPFL总是在认证攻击成本方面提供更强的鲁棒性认证,但是在隐私保护和公用事业损失之间的适当平衡下,获得了最佳认证预测。
translated by 谷歌翻译
大规模的机器学习系统通常涉及分布在用户集合中的数据。联合学习算法通过将模型更新传达给中央服务器而不是整个数据集来利用此结构。在本文中,我们研究了一个个性化联合学习设置的随机优化算法,涉及符合用户级别(联合)差异隐私的本地和全球模型。在学习私人全球模型的同时,促进了隐私成本,但本地学习是完全私人的。我们提供概括保证,表明与私人集中学习协调本地学习可以产生一种普遍有用和改进的精度和隐私之间的权衡。我们通过有关合成和现实世界数据集的实验来说明我们的理论结果。
translated by 谷歌翻译
This paper describes a testing methodology for quantitatively assessing the risk that rare or unique training-data sequences are unintentionally memorized by generative sequence models-a common type of machine-learning model. Because such models are sometimes trained on sensitive data (e.g., the text of users' private messages), this methodology can benefit privacy by allowing deep-learning practitioners to select means of training that minimize such memorization.In experiments, we show that unintended memorization is a persistent, hard-to-avoid issue that can have serious consequences. Specifically, for models trained without consideration of memorization, we describe new, efficient procedures that can extract unique, secret sequences, such as credit card numbers. We show that our testing strategy is a practical and easy-to-use first line of defense, e.g., by describing its application to quantitatively limit data exposure in Google's Smart Compose, a commercial text-completion neural network trained on millions of users' email messages.
translated by 谷歌翻译
我们重新审视使​​用公共数据来改善差异私有(DP)模型培训的隐私/实用权折衷的问题。在这里,公共数据是指没有隐私问题的辅助数据集。我们考虑与私人培训数据相同的分发的公共数据。对于凸损失,我们表明镜子血清的变体提供了与模型的维度($ p $)的人口风险保证。具体地,我们将镜像血液应用于由公共数据生成的丢失作为镜像映射,并使用私有(敏感)数据生成的丢失的DP梯度。为了获得维度独立性,我们需要$ g_q ^ 2 \ leq p $公共数据样本,其中$ g_q $是损失功能各向同性的量度。我们进一步表明,我们的算法具有天然的“噪音稳定性”属性:如果围绕当前迭代公共损失,请以$ V $的方向满足$ \ alpha_v $ -strong凸性,然后使用嘈杂的渐变而不是确切的渐变偏移我们的下一次迭代$ v $ v $比例为$ 1 / alpha_v $(与DP-SGD相比,换档是各向同性的)。在前作品中的类似结果必须使用预处理器矩阵形式的公共数据明确地学习几何图形。我们的方法也适用于非凸损失,因为它不依赖于凸起假设以确保DP保证。我们通过显示线性回归,深度学习基准数据集(Wikitext-2,Cifar-10和Emnist)以及联合学习(StackOverflow)来证明我们的算法的经验效果。我们表明,我们的算法不仅显着改善了传统的DP-SGD和DP-FedAVG,它没有访问公共数据,而且还可以改善DP-SGD和DP-FedAVG对已与公众预先培训的模型数据开始。
translated by 谷歌翻译
最近的数据提取攻击暴露了语言模型可以记住一些培训样本逐字。这是一种漏洞,可以损害模型培训数据的隐私。在这项工作中,我们介绍了子句:私人私人下一象征预测的实用协议,旨在防止在公共语料库预训练后在私人语料库中进行微调的语言模型的隐私违规。我们展示子子句通过放松差异私密预测,限制了私人语料库中的任何单独用户所唯一的信息的泄漏。重要的是,子提M允许一个紧张,数据相关的隐私会计机制,它允许它挫败现有的数据提取攻击,同时保持语言模型的效用。子句是即使在公开释放由大型变压器的模型等基于GPT-2的基于大型变换器的模型制作的数千个下一令牌预测,也是第一个维护隐私的协议。
translated by 谷歌翻译
In this paper, we introduce a novel concept of user-entity differential privacy (UeDP) to provide formal privacy protection simultaneously to both sensitive entities in textual data and data owners in learning natural language models (NLMs). To preserve UeDP, we developed a novel algorithm, called UeDP-Alg, optimizing the trade-off between privacy loss and model utility with a tight sensitivity bound derived from seamlessly combining user and sensitive entity sampling processes. An extensive theoretical analysis and evaluation show that our UeDP-Alg outperforms baseline approaches in model utility under the same privacy budget consumption on several NLM tasks, using benchmark datasets.
translated by 谷歌翻译
可扩展性和隐私是交叉设备联合学习(FL)系统的两个关键问题。在这项工作中,我们确定了FL中的客户端更新的同步流动聚合不能高效地缩放到几百个并行培训之外。它导致ModelPerforce和训练速度的回报递减,Ampanysto大批量培训。另一方面,FL(即异步FL)中的客户端更新的异步聚合减轻了可扩展性问题。但是,聚合个性链子更新与安全聚合不兼容,这可能导致系统的不良隐私水平。为了解决这些问题,我们提出了一种新颖的缓冲异步聚合方法FedBuff,这是不可知的优化器的选择,并结合了同步和异步FL的最佳特性。我们经验证明FEDBuff比同步FL更有效,比异步FL效率更高3.3倍,同时兼容保留保护技术,如安全聚合和差异隐私。我们在平滑的非凸设置中提供理论融合保证。最后,我们显示在差异私有培训下,FedBuff可以在低隐私设置下占FEDAVGM并实现更高隐私设置的相同实用程序。
translated by 谷歌翻译
虽然差异隐私的应用(DP)在联合学习(FL)方面进行了充分研究,但考虑到跨索洛FL的DP缺乏工作,该设置的特征是有限数量的客户,每个客户都包含许多人数据主体。在跨索洛fl中,由于现实世界中的隐私法规,通常涉及核心数据主体,而不是孤岛本身,因此客户级隐私的通常概念不太适合。在这项工作中,我们相反,考虑了更现实的孤岛特定项目级隐私的概念,其中筒仓为当地示例设定了自己的隐私目标。在这种情况下,我们重新考虑了个性化在联合学习中的作用。特别是,我们表明,均值进行的多任务学习(MR-MTL)是一个简单的个性化框架,是跨索洛FL的强大基准:在更强的隐私下,孤岛进一步激励彼此“联合”以互相“联合”减轻DP噪声,相对于标准基线方法,导致一致的改进。我们为竞争方法以及MR-MTL的理论表征提供了一项彻底的经验研究,以实现平均估计问题,从而突出了隐私与跨核数据异质性之间的相互作用。我们的工作旨在为私人跨索洛FL建立基准,并确定该领域未来工作的关键方向。
translated by 谷歌翻译
我们展示了一个联合学习框架,旨在强大地提供具有异构数据的各个客户端的良好预测性能。所提出的方法对基于SuperQualile的学习目标铰接,捕获异构客户端的误差分布的尾统计。我们提出了一种随机训练算法,其与联合平均步骤交织差异私人客户重新重量步骤。该提出的算法支持有限时间收敛保证,保证覆盖凸和非凸面设置。关于联邦学习的基准数据集的实验结果表明,我们的方法在平均误差方面与古典误差竞争,并且在误差的尾统计方面优于它们。
translated by 谷歌翻译
Distributing machine learning predictors enables the collection of large-scale datasets while leaving sensitive raw data at trustworthy sites. We show that locally training support vector machines (SVMs) and computing their averages leads to a learning technique that is scalable to a large number of users, satisfies differential privacy, and is applicable to non-trivial tasks, such as CIFAR-10. For a large number of participants, communication cost is one of the main challenges. We achieve a low communication cost by requiring only a single invocation of an efficient secure multiparty summation protocol. By relying on state-of-the-art feature extractors (SimCLR), we are able to utilize differentially private convex learners for non-trivial tasks such as CIFAR-10. Our experimental results illustrate that for $1{,}000$ users with $50$ data points each, our scheme outperforms state-of-the-art scalable distributed learning methods (differentially private federated learning, short DP-FL) while requiring around $500$ times fewer communication costs: For CIFAR-10, we achieve a classification accuracy of $79.7\,\%$ for an $\varepsilon = 0.59$ while DP-FL achieves $57.6\,\%$. More generally, we prove learnability properties for the average of such locally trained models: convergence and uniform stability. By only requiring strongly convex, smooth, and Lipschitz-continuous objective functions, locally trained via stochastic gradient descent (SGD), we achieve a strong utility-privacy tradeoff.
translated by 谷歌翻译
联邦学习(FL)是大规模分布式学习的范例,它面临两个关键挑战:(i)从高度异构的用户数据和(ii)保护参与用户的隐私的高效培训。在这项工作中,我们提出了一种新颖的流动方法(DP-SCaffold)来通过将差异隐私(DP)约束结合到流行的脚手架算法中来解决这两个挑战。我们专注于有挑战性的环境,用户在没有任何可信中介的情况下与“诚实但奇怪的”服务器沟通,这需要确保隐私不仅可以访问最终模型的第三方,而且还要对服务器观察所有用户通信。使用DP理论的高级结果,我们建立了凸面和非凸面目标算法的融合。我们的分析清楚地突出了数据异质性下的隐私式折衷,并且当局部更新的数量和异质性水平增长时,展示了在最先进的算法DP-Fedivg上的DP-Scaffold的优越性。我们的数值结果证实了我们的分析,并表明DP-Scaffold在实践中提供了重大的收益。
translated by 谷歌翻译
我们考虑一个顺序设置,其中使用单个数据集用于执行自适应选择的分析,同时确保每个参与者的差别隐私丢失不超过预先指定的隐私预算。此问题的标准方法依赖于限制所有个人对所有个人的隐私损失的最坏情况估计,以及每个单一分析的所有可能的数据值。然而,在许多情况下,这种方法过于保守,特别是对于“典型”数据点,通过参与大部分分析产生很少的隐私损失。在这项工作中,我们基于每个分析中每个人的个性化隐私损失估计的价值,给出了更严格的隐私损失会计的方法。实现我们设计R \'enyi差异隐私的过滤器。过滤器是一种工具,可确保具有自适应选择的隐私参数的组合算法序列的隐私参数不超过预先预算。我们的过滤器比以往的$(\ epsilon,\ delta)$ - rogers等人的差别隐私更简单且更紧密。我们将结果应用于对嘈杂渐变下降的分析,并显示个性化会计可以实用,易于实施,并且只能使隐私式权衡更紧密。
translated by 谷歌翻译