想象一组愿意集体贡献他们的个人数据的公民,以获得共同的益处,以产生社会有用的信息,由数据分析或机器学习计算产生。使用执行计算的集中式服务器共享原始的个人数据可能会引发对隐私和感知风险的担忧。相反,公民可以相互信任,并且他们自己的设备可以参与分散的计算,以协同生成要共享的聚合数据释放。在安全计算节点在运行时在安全信道交换消息的上下文中,密钥安全问题是保护对观察流量的外部攻击者,其对数据的依赖可以揭示个人信息。现有解决方案专为云设置而设计,目标是隐藏底层数据集的所有属性,并且不解决上述背景下出现的特定隐私和效率挑战。在本文中,我们定义了一般执行模型,以控制用户侧分散计算中通信的数据依赖性,其中通过组合在局部节点的局部集群上的保证来分析全局执行计划中的差异隐私保证。我们提出了一系列算法,可以在隐私,效用和效率之间进行权衡。我们的正式隐私保障利用,并通过洗牌延长隐私放大的结果。我们说明了我们对具有数据依赖通信的分散执行计划的两个代表性示例的提案的有用性。
translated by 谷歌翻译
分析若干缔约方拥有的数据,同时在效用和隐私之间实现良好的权衡是联邦学习和分析的关键挑战。在这项工作中,我们介绍了一种新颖的差异隐私(LDP)的放松,自然地出现在完全分散的算法中,即,当参与者通过沿着网络图的边缘传播没有中央协调员的边缘交换信息时。我们呼叫网络DP的这种放松捕获了用户只有系统的本地视图。为了展示网络DP的相关性,我们研究了一个分散的计算模型,其中令牌在网络图上执行散步,并由接收它的方顺序更新。对于诸如实际求和,直方图计算和具有梯度下降的优化等任务,我们提出了在环和完整拓扑上的简单算法。我们证明,网络DP下我们算法的隐私式实用权折衷显着提高了LDP下可实现的内容(有时甚至与可信赖的策展人模型的效用)的可实现,首次显示正式隐私收益可以从中获得完全分散。我们的实验说明了通过随机梯度下降的分散训练方法的改进效用。
translated by 谷歌翻译
分散的优化在机器学习方面越来越受欢迎,其可伸缩性和效率。直观地,它也应提供更好的隐私保证,因为节点只能观察到网络图中其邻居发送的消息。但是,正式化和量化这一收益是具有挑战性的:现有结果通常仅限于当地差异隐私(LDP)保证忽略权力下放的优势。在这项工作中,我们介绍了成对网络差异隐私,这是一种放松的LDP,该隐藏率捕获了一个事实,即从节点$ u $到节点$ v $的隐私泄漏可能取决于它们在图中的相对位置。然后,我们分析局部噪声注入与固定和随机通信图上的(简单或随机)八卦方案的组合。我们还得出了一种差异化的分散优化算法,该算法在局部梯度下降步骤和八卦平均之间进行交替。我们的结果表明,我们的算法放大隐私保证是图表中节点之间距离的函数,与受信任策展人的隐私性权衡取舍相匹配,直到明确取决于图形拓扑的因素。最后,我们通过有关合成和现实世界数据集的实验来说明我们的隐私收益。
translated by 谷歌翻译
我们设计可扩展的算法,以私下生成从数百万用户设备的分散数据的位置热量。它旨在确保在服务提供商对服务提供商可见之前的差异隐私,同时保持高数据准确性和最小化用户设备的资源消耗。为实现这一目标,我们根据安全多方计算领域的最新结果重新审视分布式差异隐私概念,并设计用于位置分析的可扩展和自适应分布式差分隐私方法。关于公共位置数据集的评估表明,该方法成功地从数百万用户样本中成功地生成了大量的客户样本,最坏的客户端通信开销明显小于现有的类似准确性的现有最先进的私有协议。
translated by 谷歌翻译
我们考虑对跨用户设备分发的私人数据培训模型。为了确保隐私,我们添加了设备的噪声并使用安全的聚合,以便仅向服务器揭示嘈杂的总和。我们提出了一个综合的端到端系统,该系统适当地离散数据并在执行安全聚合之前添加离散的高斯噪声。我们为离散高斯人的总和提供了新的隐私分析,并仔细分析了数据量化和模块化求和算术的影响。我们的理论保证突出了沟通,隐私和准确性之间的复杂张力。我们广泛的实验结果表明,我们的解决方案基本上能够将准确性与中央差分隐私相匹配,而每个值的精度少于16位。
translated by 谷歌翻译
隐私和沟通效率是联邦神经网络培训中的重要挑战,并将它们组合仍然是一个公开的问题。在这项工作中,我们开发了一种统一高度压缩通信和差异隐私(DP)的方法。我们引入基于相对熵编码(REC)到联合设置的压缩技术。通过对REC进行微小的修改,我们获得了一种可怕的私立学习算法,DP-REC,并展示了如何计算其隐私保证。我们的实验表明,DP-REC大大降低了通信成本,同时提供与最先进的隐私保证。
translated by 谷歌翻译
联合学习是一种协作机器学习,参与客户在本地处理他们的数据,仅与协作模型共享更新。这使得能够建立隐私意识的分布式机器学习模型等。目的是通过最大程度地减少一组客户本地存储的数据集的成本函数来优化统计模型的参数。这个过程使客户遇到了两个问题:私人信息的泄漏和模型的个性化缺乏。另一方面,随着分析数据的最新进步,人们对侵犯参与客户的隐私行为的关注激增。为了减轻这种情况,差异隐私及其变体是提供正式隐私保证的标准。客户通常代表非常异构的社区,并拥有非常多样化的数据。因此,与FL社区的最新重点保持一致,以为代表其多样性的用户建立个性化模型框架,这对于防止潜在威胁免受客户的敏感和个人信息而言也是至关重要的。 $ d $ - 私人是对地理位置可区分性的概括,即最近普及的位置隐私范式,它使用了一种基于公制的混淆技术,可保留原始数据的空间分布。为了解决保护客户隐私并允许个性化模型培训以增强系统的公平性和实用性的问题,我们提出了一种提供团体隐私性的方法在FL的框架下。我们为对现实世界数据集的适用性和实验验证提供了理论上的理由,以说明该方法的工作。
translated by 谷歌翻译
差异隐私通常使用比理论更大的隐私参数应用于理想的理想。已经提出了宽大隐私参数的各种非正式理由。在这项工作中,我们考虑了部分差异隐私(DP),该隐私允许以每个属性为基础量化隐私保证。在此框架中,我们研究了几个基本数据分析和学习任务,并设计了其每个属性隐私参数的算法,其较小的人(即所有属性)的最佳隐私参数比最佳的隐私参数。
translated by 谷歌翻译
Deep neural networks have strong capabilities of memorizing the underlying training data, which can be a serious privacy concern. An effective solution to this problem is to train models with differential privacy, which provides rigorous privacy guarantees by injecting random noise to the gradients. This paper focuses on the scenario where sensitive data are distributed among multiple participants, who jointly train a model through federated learning (FL), using both secure multiparty computation (MPC) to ensure the confidentiality of each gradient update, and differential privacy to avoid data leakage in the resulting model. A major challenge in this setting is that common mechanisms for enforcing DP in deep learning, which inject real-valued noise, are fundamentally incompatible with MPC, which exchanges finite-field integers among the participants. Consequently, most existing DP mechanisms require rather high noise levels, leading to poor model utility. Motivated by this, we propose Skellam mixture mechanism (SMM), an approach to enforce DP on models built via FL. Compared to existing methods, SMM eliminates the assumption that the input gradients must be integer-valued, and, thus, reduces the amount of noise injected to preserve DP. Further, SMM allows tight privacy accounting due to the nice composition and sub-sampling properties of the Skellam distribution, which are key to accurate deep learning with DP. The theoretical analysis of SMM is highly non-trivial, especially considering (i) the complicated math of differentially private deep learning in general and (ii) the fact that the mixture of two Skellam distributions is rather complex, and to our knowledge, has not been studied in the DP literature. Extensive experiments on various practical settings demonstrate that SMM consistently and significantly outperforms existing solutions in terms of the utility of the resulting model.
translated by 谷歌翻译
在许多应用程序中,多方拥有有关相同用户的私人数据,但在属性的脱节集上,服务器希望利用数据来训练模型。为了在保护数据主体的隐私时启用模型学习,我们需要垂直联合学习(VFL)技术,其中数据派对仅共享用于培训模型的信息,而不是私人数据。但是,确保共享信息在学习准确的模型的同时保持隐私是一项挑战。据我们所知,本文提出的算法是第一个实用的解决方案,用于差异化垂直联合K-均值聚类,服务器可以在其中获得具有可证明的差异隐私保证的全球中心。我们的算法假设一个不受信任的中央服务器,该服务器汇总了本地数据派对的差异私有本地中心和成员资格编码。它基于收到的信息构建加权网格作为全局数据集的概要。最终中心是通过在加权网格上运行任何K-均值算法而产生的。我们的网格重量估计方法采用了基于Flajolet-Martin草图的新颖,轻巧和差异私有的相交基数估计算法。为了提高两个以上数据方的设置中的估计准确性,我们进一步提出了权重估计算法的精致版本和参数调整策略,以减少最终的K-均值实用程序,以便在中央私人环境中接近它。我们为由我们的算法计算的群集中心提供了理论实用性分析和实验评估结果,并表明我们的方法在理论上和经验上都比基于现有技术的两个基准在理论上和经验上的表现更好。
translated by 谷歌翻译
我们考虑在差异隐私(DP)的分布式信任模型下考虑标准的$ k $武装匪徒问题,该问题使得无需可信赖的服务器保证隐私。在此信任模型下,先前的工作主要集中在使用Shuffle协议实现隐私,在此过程中,在发送到中央服务器之前,将一批用户数据随机排列。通过牺牲额外的添加剂$ o \!\ left(\!\ frac {k \ log t \ sqrt {\ log(1/\ delta)}} } {\ epsilon} \!\ right)\!$在$ t $ - 步骤累积遗憾中成本。相比之下,在广泛使用的中央信托模型下实现更强($ \ epsilon,0 $)或纯dp保证的最佳隐私成本仅为$ \ theta \!\ left(\!\ frac {k \ log t t t } {\ epsilon} \!\ right)\!$,但是,需要一个受信任的服务器。在这项工作中,我们旨在获得分布式信托模型下的纯DP保证,同时牺牲比中央信托模型的遗憾。我们通过基于连续的ARM消除设计通用的匪徒算法来实现这一目标,在这种情况下,通过使用安全的计算协议确保使用等效的离散拉普拉斯噪声来损坏奖励来保证隐私。我们还表明,当使用Skellam噪声和安全协议实例化时,我们的算法可确保\ emph {r \'{e} nyi差异隐私} - 一个比分布式信任模型的近似dp更强的概念$ o \!\ left(\!\ frac {k \ sqrt {\ log t}}}} {\ epsilon} \!\ right)\!$。
translated by 谷歌翻译
Federated learning facilitates the collaborative training of models without the sharing of raw data. However, recent attacks demonstrate that simply maintaining data locality during training processes does not provide sufficient privacy guarantees. Rather, we need a federated learning system capable of preventing inference over both the messages exchanged during training and the final trained model while ensuring the resulting model also has acceptable predictive accuracy. Existing federated learning approaches either use secure multiparty computation (SMC) which is vulnerable to inference or differential privacy which can lead to low accuracy given a large number of parties with relatively small amounts of data each. In this paper, we present an alternative approach that utilizes both differential privacy and SMC to balance these trade-offs. Combining differential privacy with secure multiparty computation enables us to reduce the growth of noise injection as the number of parties increases without sacrificing privacy while maintaining a pre-defined rate of trust. Our system is therefore a scalable approach that protects against inference threats and produces models with high accuracy. Additionally, our system can be used to train a variety of machine learning models, which we validate with experimental results on 3 different machine learning algorithms. Our experiments demonstrate that our approach out-performs state of the art solutions. CCS CONCEPTS• Security and privacy → Privacy-preserving protocols; Trust frameworks; • Computing methodologies → Learning settings.
translated by 谷歌翻译
我们展示了一个联合学习框架,旨在强大地提供具有异构数据的各个客户端的良好预测性能。所提出的方法对基于SuperQualile的学习目标铰接,捕获异构客户端的误差分布的尾统计。我们提出了一种随机训练算法,其与联合平均步骤交织差异私人客户重新重量步骤。该提出的算法支持有限时间收敛保证,保证覆盖凸和非凸面设置。关于联邦学习的基准数据集的实验结果表明,我们的方法在平均误差方面与古典误差竞争,并且在误差的尾统计方面优于它们。
translated by 谷歌翻译
Classical differential private DP-SGD implements individual clipping with random subsampling, which forces a mini-batch SGD approach. We provide a general differential private algorithmic framework that goes beyond DP-SGD and allows any possible first order optimizers (e.g., classical SGD and momentum based SGD approaches) in combination with batch clipping, which clips an aggregate of computed gradients rather than summing clipped gradients (as is done in individual clipping). The framework also admits sampling techniques beyond random subsampling such as shuffling. Our DP analysis follows the $f$-DP approach and introduces a new proof technique which allows us to also analyse group privacy. In particular, for $E$ epochs work and groups of size $g$, we show a $\sqrt{g E}$ DP dependency for batch clipping with shuffling. This is much better than the previously anticipated linear dependency in $g$ and is much better than the previously expected square root dependency on the total number of rounds within $E$ epochs which is generally much more than $\sqrt{E}$.
translated by 谷歌翻译
联合学习允许许多设备在机器学习模型的培训中进行协作。与传统的机器学习一样,越来越关注的是,接受联合学习的模型可能会对不同的人群组表现出不同的表现。现有的解决方案来衡量和确保跨小组的平等模型绩效需要访问有关小组成员的信息,但是此访问并不总是可用或可取的,尤其是在联邦学习的隐私愿望下。我们研究了衡量此类性能差异的可行性,同时保护用户组成员资格的隐私以及联合模型在用户数据上的性能。保护两者对于隐私至关重要,因为它们可能是相关的,因此学习一个可能会揭示另一个。另一方面,从公用事业的角度来看,保留隐私的数据应保持相关性,以确保能够对性能差异进行准确的测量。我们通过开发当地差异化的私人机制来实现这两个目标,从而保留小组成员和模型绩效之间的相关性。为了分析机制的有效性,我们在对给定隐私预算进行优化时估算差异时的错误,并在合成数据上验证这些界限。我们的结果表明,对于参与的客户数量的实际数量,错误迅速减少,这表明,与先前的工作相反,保护受保护属性的隐私不一定与确定联合模型性能的差异相抵触。
translated by 谷歌翻译
联合学习(FL),数据保留在联合客户端,并且仅与中央聚合器共享梯度更新是私人的。最近的工作表明,具有梯度级别访问权限的对手可以成功进行推理和重建攻击。在这种情况下,众所周知,差异化(DP)学习可以提供弹性。但是,现状中使用的方法(\ ie中央和本地DP)引入了不同的公用事业与隐私权衡权衡。在这项工作中,我们迈出了通过{\ em层次fl(HFL)}来缓解此类权衡的第一步。我们证明,通过引入一个新的中介层,可以添加校准的DP噪声,可以获得更好的隐私与公用事业权衡;我们称此{\ em层次结构DP(HDP)}。我们使用3个不同数据集的实验(通常用作FL的基准)表明HDP产生的模型与使用中央DP获得的模型一样准确,在中央聚集器处添加了噪声。这种方法还为推理对手提供了可比的好处,例如在本地DP案例中,在联合客户端添加了噪音。
translated by 谷歌翻译
联邦学习(FL)是大规模分布式学习的范例,它面临两个关键挑战:(i)从高度异构的用户数据和(ii)保护参与用户的隐私的高效培训。在这项工作中,我们提出了一种新颖的流动方法(DP-SCaffold)来通过将差异隐私(DP)约束结合到流行的脚手架算法中来解决这两个挑战。我们专注于有挑战性的环境,用户在没有任何可信中介的情况下与“诚实但奇怪的”服务器沟通,这需要确保隐私不仅可以访问最终模型的第三方,而且还要对服务器观察所有用户通信。使用DP理论的高级结果,我们建立了凸面和非凸面目标算法的融合。我们的分析清楚地突出了数据异质性下的隐私式折衷,并且当局部更新的数量和异质性水平增长时,展示了在最先进的算法DP-Fedivg上的DP-Scaffold的优越性。我们的数值结果证实了我们的分析,并表明DP-Scaffold在实践中提供了重大的收益。
translated by 谷歌翻译
Learning problems form an important category of computational tasks that generalizes many of the computations researchers apply to large real-life data sets. We ask: what concept classes can be learned privately, namely, by an algorithm whose output does not depend too heavily on any one input or specific training example? More precisely, we investigate learning algorithms that satisfy differential privacy, a notion that provides strong confidentiality guarantees in contexts where aggregate information is released about a database containing sensitive information about individuals.Our goal is a broad understanding of the resources required for private learning in terms of samples, computation time, and interaction. We demonstrate that, ignoring computational constraints, it is possible to privately agnostically learn any concept class using a sample size approximately logarithmic in the cardinality of the concept class. Therefore, almost anything learnable is learnable privately: specifically, if a concept class is learnable by a (non-private) algorithm with polynomial sample complexity and output size, then it can be learned privately using a polynomial number of samples. We also present a computationally efficient private PAC learner for the class of parity functions. This result dispels the similarity between learning with noise and private learning (both must be robust to small changes in inputs), since parity is thought to be very hard to learn given random classification noise.Local (or randomized response) algorithms are a practical class of private algorithms that have received extensive investigation. We provide a precise characterization of local private learning algorithms. We show that a concept class is learnable by a local algorithm if and only if it is learnable in the statistical query (SQ) model. Therefore, for local private learning algorithms, the similarity to learning with noise is stronger: local learning is equivalent to SQ learning, and SQ algorithms include most known noise-tolerant learning algorithms. Finally, we present a separation between the power of interactive and noninteractive local learning algorithms. Because of the equivalence to SQ learning, this result also separates adaptive and nonadaptive SQ learning.
translated by 谷歌翻译
在使用提供明确定义的隐私保证的用户数据时,至关重要。在这项工作中,我们旨在与第三方私下操纵和分享整个稀疏数据集。实际上,差异隐私已成为隐私的黄金标准,但是,当涉及到稀疏数据集时,作为我们的主要结果之一,我们证明\ emph {any}与最初的私人机制有差异化的私人机制数据集注定要拥有非常薄弱的隐私保证。因此,我们需要选择其他隐私概念,例如$ k $ - 匿名性更好地在这种情况下保存实用程序。在这项工作中,我们介绍了$ k $ - 匿名的变体,我们称之为平滑$ k $ - 匿名和设计简单算法,可有效地提供平滑的$ k $ - 匿名性。我们进一步执行经验评估以支持我们的理论保证,并表明我们的算法改善了匿名数据下游机器学习任务的性能。
translated by 谷歌翻译
Differentially private algorithms for common metric aggregation tasks, such as clustering or averaging, often have limited practicality due to their complexity or to the large number of data points that is required for accurate results. We propose a simple and practical tool, $\mathsf{FriendlyCore}$, that takes a set of points ${\cal D}$ from an unrestricted (pseudo) metric space as input. When ${\cal D}$ has effective diameter $r$, $\mathsf{FriendlyCore}$ returns a "stable" subset ${\cal C} \subseteq {\cal D}$ that includes all points, except possibly few outliers, and is {\em certified} to have diameter $r$. $\mathsf{FriendlyCore}$ can be used to preprocess the input before privately aggregating it, potentially simplifying the aggregation or boosting its accuracy. Surprisingly, $\mathsf{FriendlyCore}$ is light-weight with no dependence on the dimension. We empirically demonstrate its advantages in boosting the accuracy of mean estimation and clustering tasks such as $k$-means and $k$-GMM, outperforming tailored methods.
translated by 谷歌翻译