用于训练机器学习(ML)模型的数据可能是敏感的。成员推理攻击(MIS),试图确定特定数据记录是否用于培训ML模型,违反会员隐私。 ML模型建设者需要一个原则的定义,使他们能够有效地定量(a)单独培训数据记录,(b)的隐私风险,有效地。未在会员资格危险风险指标上均未达到所有这些标准。我们提出了这种公制,SHAPR,它通过抑制其对模型的实用程序的影响来量化朔芙值以量化模型的记忆。这个记忆是衡量成功MIA的可能性的衡量标准。使用十个基准数据集,我们显示ShapR是有效的(精确度:0.94 $ \ PM 0.06 $,回忆:0.88 $ \ PM 0.06 $)在估算MIAS的培训数据记录的易感性时,高效(可在几分钟内计算,较小数据集和最大数据集的约〜90分钟)。 ShapR也是多功能的,因为它可以用于评估数据集的子集的公平或分配估值的其他目的。例如,我们显示Shapr正确地捕获不同子组的不成比例漏洞到MIS。使用SHAPR,我们表明,通过去除高风险训练数据记录,不一定改善数据集的成员隐私风险,从而确认在显着扩展的设置中从事工作(在十个数据集中,最多可删除50%的数据)的观察。
translated by 谷歌翻译
模型说明为训练有素的机器学习模型的黑框行为提供了透明度,向模型构建器提供了透明度。它们表明了不同输入属性对其相应模型预测的影响。对输入的解释的依赖性引发了敏感用户数据的隐私问题。但是,当前文献对模型解释的隐私风险的讨论有限。我们专注于属性推理攻击的特定隐私风险,其中对手会在其模型解释的情况下侵犯输入的敏感属性(例如种族和性别)。我们在两个威胁模型中设计了针对模型解释的第一个属性推理攻击,其中模型构建器(a)都包含训练数据和输入中的敏感属性,或者((b)通过不在培训数据和输入中审查敏感属性。我们评估了对四个基准数据集和四种最先进算法的拟议攻击。我们表明,对手可以准确地从两个威胁模型中的解释中成功推断出敏感属性的价值。此外,即使仅利用与敏感属性相对应的解释,攻击也是成功的。这些表明,我们的攻击有效地反对解释,并对数据隐私构成了实际威胁。在将模型预测(通过先前攻击利用的攻击表面)与解释相结合时,我们注意到攻击成功并不能改善。此外,与仅利用模型预测相比,利用模型解释的攻击成功更好。这些表明模型解释是为对手开发的强大攻击表面。
translated by 谷歌翻译
We quantitatively investigate how machine learning models leak information about the individual data records on which they were trained. We focus on the basic membership inference attack: given a data record and black-box access to a model, determine if the record was in the model's training dataset. To perform membership inference against a target model, we make adversarial use of machine learning and train our own inference model to recognize differences in the target model's predictions on the inputs that it trained on versus the inputs that it did not train on.We empirically evaluate our inference techniques on classification models trained by commercial "machine learning as a service" providers such as Google and Amazon. Using realistic datasets and classification tasks, including a hospital discharge dataset whose membership is sensitive from the privacy perspective, we show that these models can be vulnerable to membership inference attacks. We then investigate the factors that influence this leakage and evaluate mitigation strategies.
translated by 谷歌翻译
员额推理攻击允许对训练的机器学习模型进行对手以预测模型的训练数据集中包含特定示例。目前使用平均案例的“精度”度量来评估这些攻击,该攻击未能表征攻击是否可以自信地识别培训集的任何成员。我们认为,应该通过计算其低(例如<0.1%)假阳性率来计算攻击来评估攻击,并在以这种方式评估时发现大多数事先攻击差。为了解决这一问题,我们开发了一个仔细结合文献中多种想法的似然比攻击(Lira)。我们的攻击是低于虚假阳性率的10倍,并且在攻击现有度量的情况下也严格占主导地位。
translated by 谷歌翻译
A distribution inference attack aims to infer statistical properties of data used to train machine learning models. These attacks are sometimes surprisingly potent, but the factors that impact distribution inference risk are not well understood and demonstrated attacks often rely on strong and unrealistic assumptions such as full knowledge of training environments even in supposedly black-box threat scenarios. To improve understanding of distribution inference risks, we develop a new black-box attack that even outperforms the best known white-box attack in most settings. Using this new attack, we evaluate distribution inference risk while relaxing a variety of assumptions about the adversary's knowledge under black-box access, like known model architectures and label-only access. Finally, we evaluate the effectiveness of previously proposed defenses and introduce new defenses. We find that although noise-based defenses appear to be ineffective, a simple re-sampling defense can be highly effective. Code is available at https://github.com/iamgroot42/dissecting_distribution_inference
translated by 谷歌翻译
属性推理攻击使对手可以从机器学习模型中提取培训数据集的全局属性。此类攻击对共享数据集来培训机器学习模型的数据所有者具有隐私影响。已经提出了几种针对深神经网络的财产推理攻击的现有方法,但它们都依靠攻击者训练大量的影子模型,这会导致大型计算开销。在本文中,我们考虑了攻击者可以毒化训练数据集的子集并查询训练有素的目标模型的属性推理攻击的设置。通过我们对中毒下模型信心的理论分析的激励,我们设计了有效的财产推理攻击,SNAP,该攻击获得了更高的攻击成功,并且需要比Mahloujifar Et的基于最先进的中毒的财产推理攻击更高的中毒量。 al。例如,在人口普查数据集上,SNAP的成功率比Mahloujifar等人高34%。同时更快56.5倍。我们还扩展了攻击,以确定在培训中是否根本存在某个财产,并有效地估算了利息财产的确切比例。我们评估了对四个数据集各种比例的多种属性的攻击,并证明了Snap的一般性和有效性。
translated by 谷歌翻译
联合学习中的隐私(FL)以两种不同的粒度进行了研究:项目级,该项目级别保护单个数据点和用户级别,该数据点保护联邦中的每个用户(参与者)。几乎所有的私人文献都致力于研究这两种粒度的隐私攻击和防御。最近,主题级隐私已成为一种替代性隐私粒度,以保护个人(数据主体)的隐私(数据主题),其数据分布在跨索洛FL设置中的多个(组织)用户。对手可能有兴趣通过攻击受过训练的模型来恢复有关这些人(又称emph {data主体})的私人信息。对这些模式的系统研究需要对联邦的完全控制,而实际数据集是不可能的。我们设计了一个模拟器,用于生成各种合成联邦配置,使我们能够研究数据的属性,模型设计和培训以及联合会本身如何影响主题隐私风险。我们提出了\ emph {主题成员推理}的三个攻击,并检查影响攻击功效的联邦中所有因素之间的相互作用。我们还研究了差异隐私在减轻这种威胁方面的有效性。我们的收获概括到像女权主义者这样的现实世界数据集中,对我们的发现赋予了信任。
translated by 谷歌翻译
Differential privacy is a strong notion for privacy that can be used to prove formal guarantees, in terms of a privacy budget, , about how much information is leaked by a mechanism. However, implementations of privacy-preserving machine learning often select large values of in order to get acceptable utility of the model, with little understanding of the impact of such choices on meaningful privacy. Moreover, in scenarios where iterative learning procedures are used, differential privacy variants that offer tighter analyses are used which appear to reduce the needed privacy budget but present poorly understood trade-offs between privacy and utility. In this paper, we quantify the impact of these choices on privacy in experiments with logistic regression and neural network models. Our main finding is that there is a huge gap between the upper bounds on privacy loss that can be guaranteed, even with advanced mechanisms, and the effective privacy loss that can be measured using current inference attacks. Current mechanisms for differentially private machine learning rarely offer acceptable utility-privacy trade-offs with guarantees for complex learning tasks: settings that provide limited accuracy loss provide meaningless privacy guarantees, and settings that provide strong privacy guarantees result in useless models.
translated by 谷歌翻译
在其培训集中,给定训练有素的模型泄漏了多少培训模型泄露?会员资格推理攻击用作审计工具,以量化模型在其训练集中泄漏的私人信息。会员推理攻击受到不同不确定性的影响,即攻击者必须解决培训数据,培训算法和底层数据分布。因此,攻击成功率,在文献中的许多攻击,不要精确地捕获模型的信息泄漏关于他们的数据,因为它们还反映了攻击算法具有的其他不确定性。在本文中,我们解释了隐含的假设以及使用假设检测框架在现有工作中进行的简化。我们还从框架中获得了新的攻击算法,可以实现高AUC分数,同时还突出显示影响其性能的不同因素。我们的算法捕获模型中隐私损失的非常精确的近似,并且可以用作在机器学习模型中执行准确和了解的隐私风险的工具。我们对各种机器学习任务和基准数据集的攻击策略提供了彻底的实证评估。
translated by 谷歌翻译
模型可以公开有关其培训数据的敏感信息。在属性推理攻击中,对手对某些培训记录有部分知识,并访问了对这些记录进行培训的模型,并渗透了这些记录敏感功能的未知值。我们研究了一种属性推理的细粒变体,我们称为\ emph {敏感值推理},其中对手的目标是高度置信度识别一些来自候选人集的记录,其中未知属性具有特定的敏感值。我们将属性推断与捕获培训分布统计数据的数据插补进行明确比较,该数据在对对手可用的培训数据的各种假设下进行了比较。我们的主要结论是:(1)以前的属性推理方法并没有比对手可以推断出有关训练数据的训练数据的更多信息,而无需访问训练的模型,而是对培训所需的基础分布相同的知识属性推理攻击; (2)Black-Box属性推理攻击很少学习没有模型的任何东西;但是(3)我们在论文中介绍和评估的白框攻击可以可靠地识别一些具有敏感值属性的记录,而这些记录在不访问模型的情况下无法预测。此外,我们表明提出的防御措施,例如私人培训和从培训中删除脆弱记录不会减轻这种隐私风险。我们的实验代码可在\ url {https://github.com/bargavj/evaluatingdpml}上获得。
translated by 谷歌翻译
机器学习(ML)模型已广泛应用于各种应用,包括图像分类,文本生成,音频识别和图形数据分析。然而,最近的研究表明,ML模型容易受到隶属推导攻击(MIS),其目的是推断数据记录是否用于训练目标模型。 ML模型上的MIA可以直接导致隐私违规行为。例如,通过确定已经用于训练与某种疾病相关的模型的临床记录,攻击者可以推断临床记录的所有者具有很大的机会。近年来,MIS已被证明对各种ML模型有效,例如,分类模型和生成模型。同时,已经提出了许多防御方法来减轻米西亚。虽然ML模型上的MIAS形成了一个新的新兴和快速增长的研究区,但还没有对这一主题进行系统的调查。在本文中,我们对会员推论和防御进行了第一个全面调查。我们根据其特征提供攻击和防御的分类管理,并讨论其优点和缺点。根据本次调查中确定的限制和差距,我们指出了几个未来的未来研究方向,以激发希望遵循该地区的研究人员。这项调查不仅是研究社区的参考,而且还为该研究领域之外的研究人员带来了清晰的照片。为了进一步促进研究人员,我们创建了一个在线资源存储库,并与未来的相关作品继续更新。感兴趣的读者可以在https://github.com/hongshenghu/membership-inference-machine-learning-literature找到存储库。
translated by 谷歌翻译
机器学习模型容易记住敏感数据,使它们容易受到会员推理攻击的攻击,其中对手的目的是推断是否使用输入样本来训练模型。在过去的几年中,研究人员产生了许多会员推理攻击和防御。但是,这些攻击和防御采用各种策略,并在不同的模型和数据集中进行。但是,缺乏全面的基准意味着我们不了解现有攻击和防御的优势和劣势。我们通过对不同的会员推理攻击和防御措施进行大规模测量来填补这一空白。我们通过研究九项攻击和六项防御措施来系统化成员的推断,并在整体评估中衡量不同攻击和防御的性能。然后,我们量化威胁模型对这些攻击结果的影响。我们发现,威胁模型的某些假设,例如相同架构和阴影和目标模型之间的相同分布是不必要的。我们也是第一个对从Internet收集的现实世界数据而不是实验室数据集进行攻击的人。我们进一步研究是什么决定了会员推理攻击的表现,并揭示了通常认为过度拟合水平不足以成功攻击。取而代之的是,成员和非成员样本之间的熵/横向熵的詹森 - 香农距离与攻击性能的相关性更好。这为我们提供了一种新的方法,可以在不进行攻击的情况下准确预测会员推理风险。最后,我们发现数据增强在更大程度上降低了现有攻击的性能,我们提出了使用增强作用的自适应攻击来训练阴影和攻击模型,以改善攻击性能。
translated by 谷歌翻译
会员推理攻击是机器学习模型中最简单的隐私泄漏形式之一:给定数据点和模型,确定该点是否用于培训模型。当查询其培训数据时,现有会员推理攻击利用模型的异常置信度。如果对手访问模型的预测标签,则不会申请这些攻击,而不会置信度。在本文中,我们介绍了仅限标签的会员资格推理攻击。我们的攻击而不是依赖置信分数,而是评估模型预测标签在扰动下的稳健性,以获得细粒度的隶属信号。这些扰动包括常见的数据增强或对抗例。我们经验表明,我们的标签占会员推理攻击与先前攻击相符,以便需要访问模型信心。我们进一步证明,仅限标签攻击违反了(隐含或明确)依赖于我们呼叫信心屏蔽的现象的员工推论攻击的多种防御。这些防御修改了模型的置信度分数以挫败攻击,但留下模型的预测标签不变。我们的标签攻击展示了置信性掩蔽不是抵御会员推理的可行的防御策略。最后,我们调查唯一的案例标签攻击,该攻击推断为少量异常值数据点。我们显示仅标签攻击也匹配此设置中基于置信的攻击。我们发现具有差异隐私和(强)L2正则化的培训模型是唯一已知的防御策略,成功地防止所有攻击。即使差异隐私预算太高而无法提供有意义的可证明担保,这仍然存在。
translated by 谷歌翻译
鉴于对机器学习模型的访问,可以进行对手重建模型的培训数据?这项工作从一个强大的知情对手的镜头研究了这个问题,他们知道除了一个之外的所有培训数据点。通过实例化混凝土攻击,我们表明重建此严格威胁模型中的剩余数据点是可行的。对于凸模型(例如Logistic回归),重建攻击很简单,可以以封闭形式导出。对于更常规的模型(例如神经网络),我们提出了一种基于训练的攻击策略,该攻击策略接收作为输入攻击的模型的权重,并产生目标数据点。我们展示了我们对MNIST和CIFAR-10训练的图像分类器的攻击的有效性,并系统地研究了标准机器学习管道的哪些因素影响重建成功。最后,我们从理论上调查了有多差异的隐私足以通过知情对手减轻重建攻击。我们的工作提供了有效的重建攻击,模型开发人员可以用于评估超出以前作品中考虑的一般设置中的个别点的记忆(例如,生成语言模型或访问培训梯度);它表明,标准模型具有存储足够信息的能力,以实现培训数据点的高保真重建;它表明,差异隐私可以成功减轻该参数制度中的攻击,其中公用事业劣化最小。
translated by 谷歌翻译
嵌入式系统使用神经网络(NNS)的设备对数据处理数据(NNS)的处理,同时符合存储器,功率和计算约束,导致效率和准确性折衷。要将NNS带到边缘设备,通过修剪,量化和现成的架构进行了多种优化,例如具有高效设计的模型压缩,已被广泛采用。这些算法部署到现实世界敏感应用程序时,需要抵制推理攻击以保护用户培训数据的隐私。然而,对推理攻击的阻力不算用于为IOT设计NN模型。在这项工作中,我们分析了IOT设备NNS中的三维隐私 - 准确效率折衷,并提出了壁虎培训方法,在那里我们明确地将抵抗私人推广作为设计目标。我们优化嵌入式设备的推理时间内存,计算和功率约束作为设计NN体系结构的标准,同时还保留隐私。我们选择量化为高效和私人模型的设计选择。这种选择是由观察到的观察,压缩模型与基线模型相比泄漏更多信息,而现成的高效架构表明效率和隐私权衡差。我们展示使用壁虎方法训练的模型与在提供效率的准确性和隐私方面的对黑匣子成员攻击的事先防御。
translated by 谷歌翻译
依赖于并非所有输入都需要相同数量的计算来产生自信的预测的事实,多EXIT网络正在引起人们的注意,这是推动有效部署限制的重要方法。多EXIT网络赋予了具有早期退出的骨干模型,从而可以在模型的中间层获得预测,从而节省计算时间和/或能量。但是,当前的多种exit网络的各种设计仅被认为是为了实现资源使用效率和预测准确性之间的最佳权衡,从未探索过来自它们的隐私风险。这促使需要全面调查多EXIT网络中的隐私风险。在本文中,我们通过会员泄漏的镜头对多EXIT网络进行了首次隐私分析。特别是,我们首先利用现有的攻击方法来量化多exit网络对成员泄漏的脆弱性。我们的实验结果表明,多EXIT网络不太容易受到会员泄漏的影响,而在骨干模型上附加的退出(数字和深度)与攻击性能高度相关。此外,我们提出了一种混合攻击,该攻击利用退出信息以提高现有攻击的性能。我们评估了由三种不同的对手设置下的混合攻击造成的成员泄漏威胁,最终到达了无模型和无数据的对手。这些结果清楚地表明,我们的混合攻击非常广泛地适用,因此,相应的风险比现有的会员推理攻击所显示的要严重得多。我们进一步提出了一种专门针对多EXIT网络的TimeGuard的防御机制,并表明TimeGuard完美地减轻了新提出的攻击。
translated by 谷歌翻译
图形神经网络(GNNS)概括了图形数据上的传统深度神经网络,在几个图形分析任务上取得了最先进的性能。我们专注于训练有素的GNN模型如何泄露有关他们培训的\ emph {成员}节点的信息。我们介绍了两个现实的设置,以便在GNN上执行员工推理(MI)攻击。在选择利用培训模型的后索(黑匣子访问)的最简单可能的攻击模型时,我们彻底分析了GNN和数据集的属性,这些数据集决定了对MI攻击的鲁棒性的差异。虽然在传统的机器学习模型中,过度装备被认为是这种泄漏的主要原因,我们表明,在GNN中,额外的结构信息是主要的贡献因素。我们在四个代表性GNN模型上进行了广泛的实验,我们支持我们的结果。为防止MI攻击GNN,我们提出了两种有效的防御,明显将攻击者推断显着降低了60%,而不会降低目标模型的性能。我们的代码可在https://github.com/iyempissy/rebmigraph获得。
translated by 谷歌翻译
Deep neural networks are susceptible to various inference attacks as they remember information about their training data. We design white-box inference attacks to perform a comprehensive privacy analysis of deep learning models. We measure the privacy leakage through parameters of fully trained models as well as the parameter updates of models during training. We design inference algorithms for both centralized and federated learning, with respect to passive and active inference attackers, and assuming different adversary prior knowledge.We evaluate our novel white-box membership inference attacks against deep learning algorithms to trace their training data records. We show that a straightforward extension of the known black-box attacks to the white-box setting (through analyzing the outputs of activation functions) is ineffective. We therefore design new algorithms tailored to the white-box setting by exploiting the privacy vulnerabilities of the stochastic gradient descent algorithm, which is the algorithm used to train deep neural networks. We investigate the reasons why deep learning models may leak information about their training data. We then show that even well-generalized models are significantly susceptible to white-box membership inference attacks, by analyzing stateof-the-art pre-trained and publicly available models for the CIFAR dataset. We also show how adversarial participants, in the federated learning setting, can successfully run active membership inference attacks against other participants, even when the global model achieves high prediction accuracies.
translated by 谷歌翻译
对网络攻击的现代防御越来越依赖于主动的方法,例如,基于过去的事件来预测对手的下一个行动。建立准确的预测模型需要许多组织的知识; las,这需要披露敏感信息,例如网络结构,安全姿势和政策,这些信息通常是不受欢迎的或完全不可能的。在本文中,我们探讨了使用联合学习(FL)预测未来安全事件的可行性。为此,我们介绍了Cerberus,这是一个系统,可以为参与组织的复发神经网络(RNN)模型进行协作培训。直觉是,FL可能会在非私有方法之间提供中间地面,在非私有方法中,训练数据在中央服务器上合并,而仅训练本地模型的较低性替代方案。我们将Cerberus实例化在从一家大型安全公司的入侵预防产品中获得的数据集上,并评估其有关实用程序,鲁棒性和隐私性,以及参与者如何从系统中贡献和受益。总体而言,我们的工作阐明了将FL执行此任务的积极方面和挑战,并为部署联合方法以进行预测安全铺平了道路。
translated by 谷歌翻译
Machine learning (ML) has become a core component of many real-world applications and training data is a key factor that drives current progress. This huge success has led Internet companies to deploy machine learning as a service (MLaaS). Recently, the first membership inference attack has shown that extraction of information on the training set is possible in such MLaaS settings, which has severe security and privacy implications.However, the early demonstrations of the feasibility of such attacks have many assumptions on the adversary, such as using multiple so-called shadow models, knowledge of the target model structure, and having a dataset from the same distribution as the target model's training data. We relax all these key assumptions, thereby showing that such attacks are very broadly applicable at low cost and thereby pose a more severe risk than previously thought. We present the most comprehensive study so far on this emerging and developing threat using eight diverse datasets which show the viability of the proposed attacks across domains.In addition, we propose the first effective defense mechanisms against such broader class of membership inference attacks that maintain a high level of utility of the ML model.
translated by 谷歌翻译