差异隐私正在成为保护公共共享数据隐私的金标准。它已广泛应用于社会科学,数据科学,公共卫生,信息技术和美国二年人口普查。然而,为了保证差异隐私,现有方法可能不可避免地改变原始数据分析的结论,因为私有化通常会改变样品分布。这种现象被称为隐私保护和统计准确性之间的权衡。在这项工作中,我们通过开发分发 - 不变的私有化(DIP)方法来打破这个权衡,以协调高统计准确性和严格的差异隐私。因此,任何下游统计或机器学习任务都具有基本相同的结论,好像使用原始数据一样。在数字上,在相同的隐私保护的严格性下,DIP在两次模拟和三个真实基准中实现了卓越的统计准确性。
translated by 谷歌翻译
作为推荐系统的主要协作过滤方法,一位矩阵完成需要用户收集的数据来提供个性化服务。由于阴险的攻击和意外推断,用户数据的发布通常会引起严重的隐私问题。为了解决此问题,差异隐私(DP)已在标准矩阵完成模型中广泛使用。但是,迄今为止,关于如何在一位矩阵完成中应用DP来实现隐私保护的知之甚少。在本文中,我们提出了一个统一的框架,以确保使用DP对单位矩阵完成的强大隐私保证。在我们的框架中,我们开发了与一位矩阵完成的不同阶段相对应的四种不同的私人扰动机制。对于每种机制,我们设计一个隐私性算法,并提供在适当条件下绑定的理论恢复误差。关于合成和现实世界数据集的数值实验证明了我们的建议的有效性。与没有隐私保护的一位矩阵完成相比,我们提出的机制可以维持高级隐私保护,而边际丧失完成精度。
translated by 谷歌翻译
我们展示了一个联合学习框架,旨在强大地提供具有异构数据的各个客户端的良好预测性能。所提出的方法对基于SuperQualile的学习目标铰接,捕获异构客户端的误差分布的尾统计。我们提出了一种随机训练算法,其与联合平均步骤交织差异私人客户重新重量步骤。该提出的算法支持有限时间收敛保证,保证覆盖凸和非凸面设置。关于联邦学习的基准数据集的实验结果表明,我们的方法在平均误差方面与古典误差竞争,并且在误差的尾统计方面优于它们。
translated by 谷歌翻译
我们提出了一种基于优化的基于优化的框架,用于计算差异私有M估算器以及构建差分私立置信区的新方法。首先,我们表明稳健的统计数据可以与嘈杂的梯度下降或嘈杂的牛顿方法结合使用,以便分别获得具有全局线性或二次收敛的最佳私人估算。我们在局部强大的凸起和自我协调下建立当地和全球融合保障,表明我们的私人估算变为对非私人M估计的几乎最佳附近的高概率。其次,我们通过构建我们私有M估计的渐近方差的差异私有估算来解决参数化推断的问题。这自然导致近​​似枢轴统计,用于构建置信区并进行假设检测。我们展示了偏置校正的有效性,以提高模拟中的小样本实证性能。我们说明了我们在若干数值例子中的方法的好处。
translated by 谷歌翻译
近年来,保护隐私数据分析已成为普遍存在。在本文中,我们提出了分布式私人多数票投票机制,以解决分布式设置中的标志选择问题。为此,我们将迭代剥离应用于稳定性函数,并使用指数机制恢复符号。作为应用程序,我们研究了分布式系统中的平均估计和线性回归问题的私人标志选择。我们的方法与非私有场景一样,用最佳的信噪比恢复了支持和标志,这比私人变量选择的现代作品要好。此外,符号选择一致性具有理论保证是合理的。进行了模拟研究以证明我们提出的方法的有效性。
translated by 谷歌翻译
联合学习是一种协作机器学习,参与客户在本地处理他们的数据,仅与协作模型共享更新。这使得能够建立隐私意识的分布式机器学习模型等。目的是通过最大程度地减少一组客户本地存储的数据集的成本函数来优化统计模型的参数。这个过程使客户遇到了两个问题:私人信息的泄漏和模型的个性化缺乏。另一方面,随着分析数据的最新进步,人们对侵犯参与客户的隐私行为的关注激增。为了减轻这种情况,差异隐私及其变体是提供正式隐私保证的标准。客户通常代表非常异构的社区,并拥有非常多样化的数据。因此,与FL社区的最新重点保持一致,以为代表其多样性的用户建立个性化模型框架,这对于防止潜在威胁免受客户的敏感和个人信息而言也是至关重要的。 $ d $ - 私人是对地理位置可区分性的概括,即最近普及的位置隐私范式,它使用了一种基于公制的混淆技术,可保留原始数据的空间分布。为了解决保护客户隐私并允许个性化模型培训以增强系统的公平性和实用性的问题,我们提出了一种提供团体隐私性的方法在FL的框架下。我们为对现实世界数据集的适用性和实验验证提供了理论上的理由,以说明该方法的工作。
translated by 谷歌翻译
构建差异私有(DP)估计器需要得出观察结果的最大影响,如果在输入数据或估计器上没有外源性界限,这可能很困难,尤其是在高维度设置中。本文表明,在这方面,统计深度(即半空间深度和回归深度)的标准概念在这方面尤其有利,这在于单个观察值的最大影响很容易分析,并且该值通常很低。这用于使用这两个统计深度概念的最大值来激励新的近似DP位置和回归估计器。还提供了近似DP回归估计器的更高效的变体。此外,为了避免要求用户对估计和/或观察结果指定先验界限,描述了这些DP机制的变体,即满足随机差异隐私(RDP),这是Hall,Wasserman和Wasserman和Wasserman和Wasserman提供的差异隐私的放松Rinaldo(2013)。我们还提供了此处提出的两种DP回归方法的模拟。当样本量至少为100-200或隐私性损失预算足够高时,提出的估计器似乎相对于现有的DP回归方法表现出色。
translated by 谷歌翻译
在本文中,我们研究了非交互性局部差异隐私(NLDP)模型中估计平滑普遍线性模型(GLM)的问题。与其经典设置不同,我们的模型允许服务器访问一些其他公共但未标记的数据。在本文的第一部分中,我们专注于GLM。具体而言,我们首先考虑每个数据记录均为I.I.D.的情况。从零均值的多元高斯分布中取样。由Stein的引理动机,我们提出了GLMS的$(Epsilon,\ delta)$ -NLDP算法。此外,算法的公共数据和私人数据的示例复杂性以实现$ \ alpha $的$ \ ell_2 $ -norm估计错误(具有高概率)为$ {o}(p \ alpha^{ - 2})$和$ \ tilde {o}(p^3 \ alpha^{ - 2} \ epsilon^{ - 2})$,其中$ p $是特征向量的维度。这是对$ \ alpha^{ - 1} $中先前已知的指数或准过程的重大改进,或者在$ p $中的指数smack sample sample smack glms的复杂性,没有公共数据。然后,我们考虑一个更通用的设置,每个数据记录为I.I.D.从某些次高斯分布中取样,有限制的$ \ ell_1 $ -norm。基于Stein的引理的变体,我们提出了一个$(\ epsilon,\ delta)$ - NLDP算法,用于GLMS的公共和私人数据的样本复杂性,以实现$ \ ell_ \ elfty $ - infty $ -NOMM估计的$ \ alpha误差$是$ is $ {o}(p^2 \ alpha^{ - 2})$和$ \ tilde {o}(p^2 \ alpha^{ - 2} \ epsilon^{ - 2})$,温和的假设,如果$ \ alpha $不太小({\ em i.e.,} $ \ alpha \ geq \ omega(\ frac {1} {\ sqrt {p}}})$)。在本文的第二部分中,我们将我们的想法扩展到估计非线性回归的问题,并显示出与多元高斯和次高斯案例的GLMS相似的结果。最后,我们通过对合成和现实世界数据集的实验来证明算法的有效性。
translated by 谷歌翻译
Rankings are widely collected in various real-life scenarios, leading to the leakage of personal information such as users' preferences on videos or news. To protect rankings, existing works mainly develop privacy protection on a single ranking within a set of ranking or pairwise comparisons of a ranking under the $\epsilon$-differential privacy. This paper proposes a novel notion called $\epsilon$-ranking differential privacy for protecting ranks. We establish the connection between the Mallows model (Mallows, 1957) and the proposed $\epsilon$-ranking differential privacy. This allows us to develop a multistage ranking algorithm to generate synthetic rankings while satisfying the developed $\epsilon$-ranking differential privacy. Theoretical results regarding the utility of synthetic rankings in the downstream tasks, including the inference attack and the personalized ranking tasks, are established. For the inference attack, we quantify how $\epsilon$ affects the estimation of the true ranking based on synthetic rankings. For the personalized ranking task, we consider varying privacy preferences among users and quantify how their privacy preferences affect the consistency in estimating the optimal ranking function. Extensive numerical experiments are carried out to verify the theoretical results and demonstrate the effectiveness of the proposed synthetic ranking algorithm.
translated by 谷歌翻译
科学合作受益于分布式来源的协作学习,但在数据敏感时仍然难以实现。近年来,已经广泛研究了隐私保护技术,以分析不同机构的分布数据,同时保护敏感信息。大多数现有的隐私保存技术旨在抵抗半冬季对手,并需要进行密集的计算来执行数据分析。对于可能偏离安全协议的恶意对手的存在,安全的协作学习非常困难。另一个挑战是通过隐私保护保持较高的计算效率。在本文中,矩阵加密应用于加密数据,以使安全方案反对恶意对手,包括选择的明文攻击,已知的明文攻击和勾结攻击。加密方案还实现了当地的差异隐私。此外,研究了交叉验证以防止过度拟合,而无需额外的沟通成本。现实世界数据集的经验实验表明,与现有针对恶意对手和半honest模型的现有技术相比,所提出的方案在计算上是有效的。
translated by 谷歌翻译
Privacy-preserving machine learning algorithms are crucial for the increasingly common setting in which personal data, such as medical or financial records, are analyzed. We provide general techniques to produce privacy-preserving approximations of classifiers learned via (regularized) empirical risk minimization (ERM). These algorithms are private under the ǫ-differential privacy definition due to Dwork et al. (2006). First we apply the output perturbation ideas of Dwork et al. (2006), to ERM classification. Then we propose a new method, objective perturbation, for privacy-preserving machine learning algorithm design. This method entails perturbing the objective function before optimizing over classifiers. If the loss and regularizer satisfy certain convexity and differentiability criteria, we prove theoretical results showing that our algorithms preserve privacy, and provide generalization bounds for linear and nonlinear kernels. We further present a privacy-preserving technique for tuning the parameters in general machine learning algorithms, thereby providing end-to-end privacy guarantees for the training process. We apply these results to produce privacy-preserving analogues of regularized logistic regression and support vector machines. We obtain encouraging results from evaluating their performance on real demographic and benchmark data sets. Our results show that both theoretically and empirically, objective perturbation is superior to the previous state-of-the-art, output perturbation, in managing the inherent tradeoff between privacy and learning performance.
translated by 谷歌翻译
Testing the significance of a variable or group of variables $X$ for predicting a response $Y$, given additional covariates $Z$, is a ubiquitous task in statistics. A simple but common approach is to specify a linear model, and then test whether the regression coefficient for $X$ is non-zero. However, when the model is misspecified, the test may have poor power, for example when $X$ is involved in complex interactions, or lead to many false rejections. In this work we study the problem of testing the model-free null of conditional mean independence, i.e. that the conditional mean of $Y$ given $X$ and $Z$ does not depend on $X$. We propose a simple and general framework that can leverage flexible nonparametric or machine learning methods, such as additive models or random forests, to yield both robust error control and high power. The procedure involves using these methods to perform regressions, first to estimate a form of projection of $Y$ on $X$ and $Z$ using one half of the data, and then to estimate the expected conditional covariance between this projection and $Y$ on the remaining half of the data. While the approach is general, we show that a version of our procedure using spline regression achieves what we show is the minimax optimal rate in this nonparametric testing problem. Numerical experiments demonstrate the effectiveness of our approach both in terms of maintaining Type I error control, and power, compared to several existing approaches.
translated by 谷歌翻译
Classical asymptotic theory for statistical inference usually involves calibrating a statistic by fixing the dimension $d$ while letting the sample size $n$ increase to infinity. Recently, much effort has been dedicated towards understanding how these methods behave in high-dimensional settings, where $d$ and $n$ both increase to infinity together. This often leads to different inference procedures, depending on the assumptions about the dimensionality, leaving the practitioner in a bind: given a dataset with 100 samples in 20 dimensions, should they calibrate by assuming $n \gg d$, or $d/n \approx 0.2$? This paper considers the goal of dimension-agnostic inference; developing methods whose validity does not depend on any assumption on $d$ versus $n$. We introduce an approach that uses variational representations of existing test statistics along with sample splitting and self-normalization to produce a new test statistic with a Gaussian limiting distribution, regardless of how $d$ scales with $n$. The resulting statistic can be viewed as a careful modification of degenerate U-statistics, dropping diagonal blocks and retaining off-diagonal blocks. We exemplify our technique for some classical problems including one-sample mean and covariance testing, and show that our tests have minimax rate-optimal power against appropriate local alternatives. In most settings, our cross U-statistic matches the high-dimensional power of the corresponding (degenerate) U-statistic up to a $\sqrt{2}$ factor.
translated by 谷歌翻译
除了近年来数据收集和分析技术的快速开发外,还越来越强调需要解决与此类数据使用相关的信息泄漏。为此,隐私文献中的许多工作都致力于保护个人用户和数据贡献者。但是,某些情况需要不同的数据机密性概念,涉及数据集记录的全局属性。这样的信息保护概念尤其适用于业务和组织数据,在这些数据中,全球财产可能反映商业秘密或人口统计数据,如果不当行为可能是有害的。最新关于财产推断攻击的工作还显示了数据分析算法如何容易泄漏数据的这些全局性能,从而强调了开发可以保护此类信息的机制的重要性。在这项工作中,我们演示了如何应用分发隐私框架来形式化保护数据集的全球属性的问题。鉴于此框架,我们研究了一些提供数据机密性概念的机制及其权衡。我们分析了这些机制在各种数据假设下提供的理论保护保证,然后对几个数据分析任务进行实施并经验评估这些机制。我们的实验结果表明,我们的机制确实可以降低实用性推理攻击的有效性,同时提供的实用性大大超过了原油差异的隐私基线。因此,我们的工作为保护数据集的全球性质的理论支持机制提供了基础。
translated by 谷歌翻译
即使是最精确的经济数据集也具有嘈杂,丢失,离散化或私有化的变量。实证研究的标准工作流程涉及数据清理,然后是数据分析,通常忽略数据清洁的偏差和方差后果。我们制定了具有损坏数据的因果推理的半造型模型,以包括数据清洁和数据分析。我们提出了一种新的数据清洁,估计和推理的新的端到端程序,以及数据清洁调整的置信区间。通过有限的示例参数,我们证明了因果关系参数的估算器的一致性,高斯近似和半游戏效率。 Gaussian近似的速率为N ^ { - 1/2} $,如平均治疗效果,如平均治疗效果,并且优雅地为当地参数劣化,例如特定人口统计的异构治疗效果。我们的关键假设是真正的协变量是较低的等级。在我们的分析中,我们为矩阵完成,统计学习和半统计统计提供了非对症的理论贡献。我们验证了数据清洁调整的置信区间隔的覆盖范围校准,以类似于2020年美国人口普查中实施的差异隐私。
translated by 谷歌翻译
我们考虑一个平台从隐私敏感用户收集数据的问题,以估计潜在的感兴趣的参数。我们将这个问题作为贝叶斯的最佳机制设计问题,其中个人可以共享她的(可验证的)数据以换取货币奖励或服务,但同时有一个(私人)的异构隐私成本,我们量化使用差异隐私。我们考虑两个流行的差异隐私设置,为用户提供隐私保障:中央和本地。在两个设置中,我们为估计错误建立Minimax下限,并导出(接近)用户的异构隐私损失水平的最佳估计器。在这个特征上构建,我们将机制设计问题构成为最佳选择,以估计和支付将引起用户隐私敏感性的真实报告。在隐私敏感性分布的规律性条件下,我们开发有效的算法机制来解决两个隐私设置中的这个问题。我们在中央设置中的机制可以在时间$ \ mathcal {o}(n \ log n)$,其中$ n $是当地设置中的用户数以及我们的机制承认多项式时间近似方案(PTA)。
translated by 谷歌翻译
我们考虑如何私下分享客观扰动,使用每个实例差异隐私(PDP)所产生的个性化隐私损失。标准差异隐私(DP)为我们提供了一个最坏的绑定,可能是相对于固定数据集的特定个人的隐私丢失的数量级。PDP框架对目标个人的隐私保障提供了更细粒度的分析,但每个实例隐私损失本身可能是敏感数据的函数。在本文中,我们分析了通过客观扰动释放私人经验风险最小化器的每案隐私丧失,并提出一组私下和准确地公布PDP损失的方法,没有额外的隐私费用。
translated by 谷歌翻译
隐私保护数据分析研究了在隐私约束下的统计方法。这是现代统计数据中的一个不断提高的挑战,因为机密性保证的实现通常是通过数据扰动而发生的,这可能会决定数据的统计实用性损失。在本文中,我们考虑对频率表中的拟合优点进行隐私测试,这可以说是释放数据的最常见形式,并对私人可能性比率(LR)的大样本行为进行了严格的分析(LR)测试。在$(\ varepsilon,\ delta)$ - 差异隐私的框架下,我们的主要贡献是私人LR测试的功率分析,该测试的特征是通过差异隐私参数测量的机密性之间的权衡取舍($)( \ varepsilon,\ delta)$和统计实用程序,通过测试功率测量。这是通过bahadur-rao大偏差扩展获得的,用于私人LR测试的功率,从样本量,表和$(\ varepsilon,\ delta)$,这决定了测试功能的损失。然后,将这样的结果应用于与参数$(\ varepsilon,\ delta)$相关的样本量和表尺寸的影响,对私人LR测试的功率损失。特别是,我们确定$(样本)成本(\ varepsilon,\ delta)$ - 私人LR测试中的差异隐私,即在没有缺少多项式LR测试的功率所需的附加样本量扰动。我们的功率分析依赖于LR的非标准大偏差分析,以及用于I.I.D的新颖(尖锐)大偏差原理的发展。随机矢量,具有独立感兴趣。
translated by 谷歌翻译
在联邦学习方案中,多方共同从其各自的数据中学习模型,有两个相互矛盾的目标是选择适当的算法。一方面,必须在存在\ textit {semi-honest}合作伙伴的情况下尽可能保持私人和敏感的培训数据,而另一方面,必须在不同方之间交换一定数量的信息学习实用程序。这样的挑战要求采用隐私的联合学习解决方案,该解决方案最大程度地提高了学习模型的效用,并维护参与各方的私人数据的可证明的隐私保证。本文说明了一个一般框架,即a)从统一信息理论的角度来制定隐私损失和效用损失之间的权衡,而b)在包括随机化,包括随机性,包括随机的机制,包括随机性,,包括随机性,,包括随机性,,包括随机性,,包括随机性,,包括随机性,,包括随机性,,包括随机性,包括随机性,,使用稀疏性和同态加密。结果表明,一般而言\ textit {没有免费的午餐来进行隐私 - 私人权衡取舍},并且必须用一定程度的降级效用进行保存隐私。本文中说明的定量分析可以作为实用联合学习算法设计的指导。
translated by 谷歌翻译
假设我们观察一个随机向量$ x $从一个具有未知参数的已知家庭中的一些分发$ p $。我们问以下问题:什么时候可以将$ x $分为两部分$ f(x)$和$ g(x)$,使得两部分都足以重建$ x $自行,但两者都可以恢复$ x $完全,$(f(x),g(x))$的联合分布是贸易的吗?作为一个例子,如果$ x =(x_1,\ dots,x_n)$和$ p $是一个产品分布,那么对于任何$ m <n $,我们可以将样本拆分以定义$ f(x)=(x_1 ,\ dots,x_m)$和$ g(x)=(x_ {m + 1},\ dots,x_n)$。 Rasines和Young(2021)提供了通过使用$ x $的随机化实现此任务的替代路线,并通过加性高斯噪声来实现高斯分布数据的有限样本中的选择后推断和非高斯添加剂模型的渐近。在本文中,我们提供更一般的方法,可以通过借助贝叶斯推断的思路在有限样本中实现这种分裂,以产生(频繁的)解决方案,该解决方案可以被视为数据分裂的连续模拟。我们称我们的方法数据模糊,作为数据分割,数据雕刻和P值屏蔽的替代方案。我们举例说明了一些原型应用程序的方法,例如选择趋势过滤和其他回归问题的选择后推断。
translated by 谷歌翻译