将异常检测外包给第三方可以允许数据所有者克服资源限制(例如,在轻量级的IoT设备中),促进协作分析(例如,分布式或多方场景下的分布式或多方场景),并受益于较低的成本和专业知识(例如托管安全服务提供商)。尽管有这样的好处,但数据所有者可能会不愿外包异常检测而没有足够的隐私保护。为此,大多数现有的隐私解决方案将面临新的挑战,即保留隐私通常需要消除或减少数据条目之间的差异,而异常检测严重取决于该差异。最近,在本地分析设置下,通过将差异隐私(DP)保证的重点从“全部”到“良性”条目移动,这一冲突是在本地分析设置下解决的。在本文中,我们观察到这种方法不直接适用于外包设置,因为数据所有者在外包之前不知道哪些条目是“良性”的,因此无法选择地将DP应用于数据条目。因此,我们提出了一种新型的迭代解决方案,使数据所有者逐渐“脱离”良性条目的异常条目,以便第三方分析师可以通过足够的DP保证产生准确的异常结果。我们设计并实施了我们对异常检测(DPOAD)框架的差异私人外包,并通过从不同应用域中的真实数据进行实验,证明了其比基线拉普拉斯和无止痛机制的好处。
translated by 谷歌翻译
在许多应用程序中,多方拥有有关相同用户的私人数据,但在属性的脱节集上,服务器希望利用数据来训练模型。为了在保护数据主体的隐私时启用模型学习,我们需要垂直联合学习(VFL)技术,其中数据派对仅共享用于培训模型的信息,而不是私人数据。但是,确保共享信息在学习准确的模型的同时保持隐私是一项挑战。据我们所知,本文提出的算法是第一个实用的解决方案,用于差异化垂直联合K-均值聚类,服务器可以在其中获得具有可证明的差异隐私保证的全球中心。我们的算法假设一个不受信任的中央服务器,该服务器汇总了本地数据派对的差异私有本地中心和成员资格编码。它基于收到的信息构建加权网格作为全局数据集的概要。最终中心是通过在加权网格上运行任何K-均值算法而产生的。我们的网格重量估计方法采用了基于Flajolet-Martin草图的新颖,轻巧和差异私有的相交基数估计算法。为了提高两个以上数据方的设置中的估计准确性,我们进一步提出了权重估计算法的精致版本和参数调整策略,以减少最终的K-均值实用程序,以便在中央私人环境中接近它。我们为由我们的算法计算的群集中心提供了理论实用性分析和实验评估结果,并表明我们的方法在理论上和经验上都比基于现有技术的两个基准在理论上和经验上的表现更好。
translated by 谷歌翻译
我们设计可扩展的算法,以私下生成从数百万用户设备的分散数据的位置热量。它旨在确保在服务提供商对服务提供商可见之前的差异隐私,同时保持高数据准确性和最小化用户设备的资源消耗。为实现这一目标,我们根据安全多方计算领域的最新结果重新审视分布式差异隐私概念,并设计用于位置分析的可扩展和自适应分布式差分隐私方法。关于公共位置数据集的评估表明,该方法成功地从数百万用户样本中成功地生成了大量的客户样本,最坏的客户端通信开销明显小于现有的类似准确性的现有最先进的私有协议。
translated by 谷歌翻译
在共享数据的统计学习和分析中,在联合学习和元学习等平台上越来越广泛地采用,有两个主要问题:隐私和鲁棒性。每个参与的个人都应该能够贡献,而不会担心泄露一个人的敏感信息。与此同时,系统应该在恶意参与者的存在中插入损坏的数据。最近的算法在学习中,学习共享数据专注于这些威胁中的一个,使系统容易受到另一个威胁。我们弥合了这个差距,以获得估计意思的规范问题。样品。我们介绍了素数,这是第一算法,实现了各种分布的隐私和鲁棒性。我们通过新颖的指数时间算法进一步补充了这一结果,提高了素数的样本复杂性,实现了近最优保证并匹配(非鲁棒)私有平均估计的已知下限。这证明没有额外的统计成本同时保证隐私和稳健性。
translated by 谷歌翻译
想象一组愿意集体贡献他们的个人数据的公民,以获得共同的益处,以产生社会有用的信息,由数据分析或机器学习计算产生。使用执行计算的集中式服务器共享原始的个人数据可能会引发对隐私和感知风险的担忧。相反,公民可以相互信任,并且他们自己的设备可以参与分散的计算,以协同生成要共享的聚合数据释放。在安全计算节点在运行时在安全信道交换消息的上下文中,密钥安全问题是保护对观察流量的外部攻击者,其对数据的依赖可以揭示个人信息。现有解决方案专为云设置而设计,目标是隐藏底层数据集的所有属性,并且不解决上述背景下出现的特定隐私和效率挑战。在本文中,我们定义了一般执行模型,以控制用户侧分散计算中通信的数据依赖性,其中通过组合在局部节点的局部集群上的保证来分析全局执行计划中的差异隐私保证。我们提出了一系列算法,可以在隐私,效用和效率之间进行权衡。我们的正式隐私保障利用,并通过洗牌延长隐私放大的结果。我们说明了我们对具有数据依赖通信的分散执行计划的两个代表性示例的提案的有用性。
translated by 谷歌翻译
差异隐私通常使用比理论更大的隐私参数应用于理想的理想。已经提出了宽大隐私参数的各种非正式理由。在这项工作中,我们考虑了部分差异隐私(DP),该隐私允许以每个属性为基础量化隐私保证。在此框架中,我们研究了几个基本数据分析和学习任务,并设计了其每个属性隐私参数的算法,其较小的人(即所有属性)的最佳隐私参数比最佳的隐私参数。
translated by 谷歌翻译
联合学习允许许多设备在机器学习模型的培训中进行协作。与传统的机器学习一样,越来越关注的是,接受联合学习的模型可能会对不同的人群组表现出不同的表现。现有的解决方案来衡量和确保跨小组的平等模型绩效需要访问有关小组成员的信息,但是此访问并不总是可用或可取的,尤其是在联邦学习的隐私愿望下。我们研究了衡量此类性能差异的可行性,同时保护用户组成员资格的隐私以及联合模型在用户数据上的性能。保护两者对于隐私至关重要,因为它们可能是相关的,因此学习一个可能会揭示另一个。另一方面,从公用事业的角度来看,保留隐私的数据应保持相关性,以确保能够对性能差异进行准确的测量。我们通过开发当地差异化的私人机制来实现这两个目标,从而保留小组成员和模型绩效之间的相关性。为了分析机制的有效性,我们在对给定隐私预算进行优化时估算差异时的错误,并在合成数据上验证这些界限。我们的结果表明,对于参与的客户数量的实际数量,错误迅速减少,这表明,与先前的工作相反,保护受保护属性的隐私不一定与确定联合模型性能的差异相抵触。
translated by 谷歌翻译
作为推荐系统的主要协作过滤方法,一位矩阵完成需要用户收集的数据来提供个性化服务。由于阴险的攻击和意外推断,用户数据的发布通常会引起严重的隐私问题。为了解决此问题,差异隐私(DP)已在标准矩阵完成模型中广泛使用。但是,迄今为止,关于如何在一位矩阵完成中应用DP来实现隐私保护的知之甚少。在本文中,我们提出了一个统一的框架,以确保使用DP对单位矩阵完成的强大隐私保证。在我们的框架中,我们开发了与一位矩阵完成的不同阶段相对应的四种不同的私人扰动机制。对于每种机制,我们设计一个隐私性算法,并提供在适当条件下绑定的理论恢复误差。关于合成和现实世界数据集的数值实验证明了我们的建议的有效性。与没有隐私保护的一位矩阵完成相比,我们提出的机制可以维持高级隐私保护,而边际丧失完成精度。
translated by 谷歌翻译
构建差异私有(DP)估计器需要得出观察结果的最大影响,如果在输入数据或估计器上没有外源性界限,这可能很困难,尤其是在高维度设置中。本文表明,在这方面,统计深度(即半空间深度和回归深度)的标准概念在这方面尤其有利,这在于单个观察值的最大影响很容易分析,并且该值通常很低。这用于使用这两个统计深度概念的最大值来激励新的近似DP位置和回归估计器。还提供了近似DP回归估计器的更高效的变体。此外,为了避免要求用户对估计和/或观察结果指定先验界限,描述了这些DP机制的变体,即满足随机差异隐私(RDP),这是Hall,Wasserman和Wasserman和Wasserman和Wasserman提供的差异隐私的放松Rinaldo(2013)。我们还提供了此处提出的两种DP回归方法的模拟。当样本量至少为100-200或隐私性损失预算足够高时,提出的估计器似乎相对于现有的DP回归方法表现出色。
translated by 谷歌翻译
我们展示了一个联合学习框架,旨在强大地提供具有异构数据的各个客户端的良好预测性能。所提出的方法对基于SuperQualile的学习目标铰接,捕获异构客户端的误差分布的尾统计。我们提出了一种随机训练算法,其与联合平均步骤交织差异私人客户重新重量步骤。该提出的算法支持有限时间收敛保证,保证覆盖凸和非凸面设置。关于联邦学习的基准数据集的实验结果表明,我们的方法在平均误差方面与古典误差竞争,并且在误差的尾统计方面优于它们。
translated by 谷歌翻译
最大信息系数(MIC)是一个强大的统计量,可以识别变量之间的依赖性。但是,它可以应用于敏感数据,并且发布可能会泄漏私人信息。作为解决方案,我们提出算法以提供差异隐私的方式近似麦克风。我们表明,经典拉普拉斯机制的自然应用产生的精度不足。因此,我们介绍了MICT统计量,这是一种新的MIC近似值,与差异隐私更加兼容。我们证明MICS是麦克风的一致估计器,我们提供了两个差异性私有版本。我们对各种真实和合成数据集进行实验。结果表明,私人微统计数据极大地超过了拉普拉斯机制的直接应用。此外,对现实世界数据集的实验显示出准确性,当样本量至少适中时可用。
translated by 谷歌翻译
联合学习是一种协作机器学习,参与客户在本地处理他们的数据,仅与协作模型共享更新。这使得能够建立隐私意识的分布式机器学习模型等。目的是通过最大程度地减少一组客户本地存储的数据集的成本函数来优化统计模型的参数。这个过程使客户遇到了两个问题:私人信息的泄漏和模型的个性化缺乏。另一方面,随着分析数据的最新进步,人们对侵犯参与客户的隐私行为的关注激增。为了减轻这种情况,差异隐私及其变体是提供正式隐私保证的标准。客户通常代表非常异构的社区,并拥有非常多样化的数据。因此,与FL社区的最新重点保持一致,以为代表其多样性的用户建立个性化模型框架,这对于防止潜在威胁免受客户的敏感和个人信息而言也是至关重要的。 $ d $ - 私人是对地理位置可区分性的概括,即最近普及的位置隐私范式,它使用了一种基于公制的混淆技术,可保留原始数据的空间分布。为了解决保护客户隐私并允许个性化模型培训以增强系统的公平性和实用性的问题,我们提出了一种提供团体隐私性的方法在FL的框架下。我们为对现实世界数据集的适用性和实验验证提供了理论上的理由,以说明该方法的工作。
translated by 谷歌翻译
Deep neural networks have strong capabilities of memorizing the underlying training data, which can be a serious privacy concern. An effective solution to this problem is to train models with differential privacy, which provides rigorous privacy guarantees by injecting random noise to the gradients. This paper focuses on the scenario where sensitive data are distributed among multiple participants, who jointly train a model through federated learning (FL), using both secure multiparty computation (MPC) to ensure the confidentiality of each gradient update, and differential privacy to avoid data leakage in the resulting model. A major challenge in this setting is that common mechanisms for enforcing DP in deep learning, which inject real-valued noise, are fundamentally incompatible with MPC, which exchanges finite-field integers among the participants. Consequently, most existing DP mechanisms require rather high noise levels, leading to poor model utility. Motivated by this, we propose Skellam mixture mechanism (SMM), an approach to enforce DP on models built via FL. Compared to existing methods, SMM eliminates the assumption that the input gradients must be integer-valued, and, thus, reduces the amount of noise injected to preserve DP. Further, SMM allows tight privacy accounting due to the nice composition and sub-sampling properties of the Skellam distribution, which are key to accurate deep learning with DP. The theoretical analysis of SMM is highly non-trivial, especially considering (i) the complicated math of differentially private deep learning in general and (ii) the fact that the mixture of two Skellam distributions is rather complex, and to our knowledge, has not been studied in the DP literature. Extensive experiments on various practical settings demonstrate that SMM consistently and significantly outperforms existing solutions in terms of the utility of the resulting model.
translated by 谷歌翻译
差异隐私正在成为保护公共共享数据隐私的金标准。它已广泛应用于社会科学,数据科学,公共卫生,信息技术和美国二年人口普查。然而,为了保证差异隐私,现有方法可能不可避免地改变原始数据分析的结论,因为私有化通常会改变样品分布。这种现象被称为隐私保护和统计准确性之间的权衡。在这项工作中,我们通过开发分发 - 不变的私有化(DIP)方法来打破这个权衡,以协调高统计准确性和严格的差异隐私。因此,任何下游统计或机器学习任务都具有基本相同的结论,好像使用原始数据一样。在数字上,在相同的隐私保护的严格性下,DIP在两次模拟和三个真实基准中实现了卓越的统计准确性。
translated by 谷歌翻译
我们考虑对跨用户设备分发的私人数据培训模型。为了确保隐私,我们添加了设备的噪声并使用安全的聚合,以便仅向服务器揭示嘈杂的总和。我们提出了一个综合的端到端系统,该系统适当地离散数据并在执行安全聚合之前添加离散的高斯噪声。我们为离散高斯人的总和提供了新的隐私分析,并仔细分析了数据量化和模块化求和算术的影响。我们的理论保证突出了沟通,隐私和准确性之间的复杂张力。我们广泛的实验结果表明,我们的解决方案基本上能够将准确性与中央差分隐私相匹配,而每个值的精度少于16位。
translated by 谷歌翻译
异常的可视化和检测异常(异常值)对许多领域,特别是网络安全的重要性至关重要。在这些领域提出了几种方法,但我们的知识迄今为止,它们都不是在一个相干框架中同时或合作地满足了两个目标。引入了这些方法的可视化方法,用于解释检测算法的输出,而不是用于促进独立视觉检测的数据探测。这是我们的出发点:未经避免,不审视和非分析方法,对Vission(人类流程)和检测(算法)的异常值,分配不变的异常分数(标准化为$ [0,1] $) ,而不是硬二元决定。 Novely的新颖性的主要方面是它将数据转换为新的空间,该空间是在本文中引入的作为邻域累积密度函数(NCDF),其中进行了可视化和检测。在该空间中,异常值非常明显可区分,因此检测算法分配的异常分数在ROC曲线(AUC)下实现了高区域。我们在模拟和最近公布的网络安全数据集中评估了不避免,并将其与其中的三种最成功的异常检测方法进行比较:LOF,IF和FABOD。就AUC而言,不避免几乎是整体胜利者。这篇文章通过提供了对未避免的新理论和实际途径的预测来了解。其中包括设计一种可视化辅助异常检测(Vaad),一种软件通过提供不避免的检测算法(在后发动机中运行),NCDF可视化空间(呈现为绘图)以及其他传统方法在原始特征空间中的可视化,所有这些都在一个交互环境中链接。
translated by 谷歌翻译
除了近年来数据收集和分析技术的快速开发外,还越来越强调需要解决与此类数据使用相关的信息泄漏。为此,隐私文献中的许多工作都致力于保护个人用户和数据贡献者。但是,某些情况需要不同的数据机密性概念,涉及数据集记录的全局属性。这样的信息保护概念尤其适用于业务和组织数据,在这些数据中,全球财产可能反映商业秘密或人口统计数据,如果不当行为可能是有害的。最新关于财产推断攻击的工作还显示了数据分析算法如何容易泄漏数据的这些全局性能,从而强调了开发可以保护此类信息的机制的重要性。在这项工作中,我们演示了如何应用分发隐私框架来形式化保护数据集的全球属性的问题。鉴于此框架,我们研究了一些提供数据机密性概念的机制及其权衡。我们分析了这些机制在各种数据假设下提供的理论保护保证,然后对几个数据分析任务进行实施并经验评估这些机制。我们的实验结果表明,我们的机制确实可以降低实用性推理攻击的有效性,同时提供的实用性大大超过了原油差异的隐私基线。因此,我们的工作为保护数据集的全球性质的理论支持机制提供了基础。
translated by 谷歌翻译
We study the task of training regression models with the guarantee of label differential privacy (DP). Based on a global prior distribution on label values, which could be obtained privately, we derive a label DP randomization mechanism that is optimal under a given regression loss function. We prove that the optimal mechanism takes the form of a ``randomized response on bins'', and propose an efficient algorithm for finding the optimal bin values. We carry out a thorough experimental evaluation on several datasets demonstrating the efficacy of our algorithm.
translated by 谷歌翻译
The ''Propose-Test-Release'' (PTR) framework is a classic recipe for designing differentially private (DP) algorithms that are data-adaptive, i.e. those that add less noise when the input dataset is nice. We extend PTR to a more general setting by privately testing data-dependent privacy losses rather than local sensitivity, hence making it applicable beyond the standard noise-adding mechanisms, e.g. to queries with unbounded or undefined sensitivity. We demonstrate the versatility of generalized PTR using private linear regression as a case study. Additionally, we apply our algorithm to solve an open problem from ''Private Aggregation of Teacher Ensembles (PATE)'' -- privately releasing the entire model with a delicate data-dependent analysis.
translated by 谷歌翻译
Learning problems form an important category of computational tasks that generalizes many of the computations researchers apply to large real-life data sets. We ask: what concept classes can be learned privately, namely, by an algorithm whose output does not depend too heavily on any one input or specific training example? More precisely, we investigate learning algorithms that satisfy differential privacy, a notion that provides strong confidentiality guarantees in contexts where aggregate information is released about a database containing sensitive information about individuals.Our goal is a broad understanding of the resources required for private learning in terms of samples, computation time, and interaction. We demonstrate that, ignoring computational constraints, it is possible to privately agnostically learn any concept class using a sample size approximately logarithmic in the cardinality of the concept class. Therefore, almost anything learnable is learnable privately: specifically, if a concept class is learnable by a (non-private) algorithm with polynomial sample complexity and output size, then it can be learned privately using a polynomial number of samples. We also present a computationally efficient private PAC learner for the class of parity functions. This result dispels the similarity between learning with noise and private learning (both must be robust to small changes in inputs), since parity is thought to be very hard to learn given random classification noise.Local (or randomized response) algorithms are a practical class of private algorithms that have received extensive investigation. We provide a precise characterization of local private learning algorithms. We show that a concept class is learnable by a local algorithm if and only if it is learnable in the statistical query (SQ) model. Therefore, for local private learning algorithms, the similarity to learning with noise is stronger: local learning is equivalent to SQ learning, and SQ algorithms include most known noise-tolerant learning algorithms. Finally, we present a separation between the power of interactive and noninteractive local learning algorithms. Because of the equivalence to SQ learning, this result also separates adaptive and nonadaptive SQ learning.
translated by 谷歌翻译