机器学习模型容易受到会员推理攻击的影响,在这种攻击中,对手的目的是预测目标模型培训数据集中是否包含特定样本。现有的攻击方法通常仅从给定的目标模型中利用输出信息(主要是损失)。结果,在成员和非成员样本都产生类似小损失的实际情况下,这些方法自然无法区分它们。为了解决这一限制,在本文中,我们提出了一种称为\系统的新攻击方法,该方法可以利用目标模型的整个培训过程中的成员资格信息来改善攻击性能。要将攻击安装在共同的黑盒环境中,我们利用知识蒸馏,并通过在不同蒸馏时期的中间模型中评估的损失表示成员资格信息,即\ emph {蒸馏损失轨迹},以及损失来自给定的目标模型。对不同数据集和模型体系结构的实验结果证明了我们在不同指标方面的攻击优势。例如,在Cinic-10上,我们的攻击至少达到6 $ \ times $ $阳性的速率,低阳性率为0.1 \%的速率比现有方法高。进一步的分析表明,在更严格的情况下,我们攻击的总体有效性。
translated by 谷歌翻译
员额推理攻击允许对训练的机器学习模型进行对手以预测模型的训练数据集中包含特定示例。目前使用平均案例的“精度”度量来评估这些攻击,该攻击未能表征攻击是否可以自信地识别培训集的任何成员。我们认为,应该通过计算其低(例如<0.1%)假阳性率来计算攻击来评估攻击,并在以这种方式评估时发现大多数事先攻击差。为了解决这一问题,我们开发了一个仔细结合文献中多种想法的似然比攻击(Lira)。我们的攻击是低于虚假阳性率的10倍,并且在攻击现有度量的情况下也严格占主导地位。
translated by 谷歌翻译
机器学习模型容易记住敏感数据,使它们容易受到会员推理攻击的攻击,其中对手的目的是推断是否使用输入样本来训练模型。在过去的几年中,研究人员产生了许多会员推理攻击和防御。但是,这些攻击和防御采用各种策略,并在不同的模型和数据集中进行。但是,缺乏全面的基准意味着我们不了解现有攻击和防御的优势和劣势。我们通过对不同的会员推理攻击和防御措施进行大规模测量来填补这一空白。我们通过研究九项攻击和六项防御措施来系统化成员的推断,并在整体评估中衡量不同攻击和防御的性能。然后,我们量化威胁模型对这些攻击结果的影响。我们发现,威胁模型的某些假设,例如相同架构和阴影和目标模型之间的相同分布是不必要的。我们也是第一个对从Internet收集的现实世界数据而不是实验室数据集进行攻击的人。我们进一步研究是什么决定了会员推理攻击的表现,并揭示了通常认为过度拟合水平不足以成功攻击。取而代之的是,成员和非成员样本之间的熵/横向熵的詹森 - 香农距离与攻击性能的相关性更好。这为我们提供了一种新的方法,可以在不进行攻击的情况下准确预测会员推理风险。最后,我们发现数据增强在更大程度上降低了现有攻击的性能,我们提出了使用增强作用的自适应攻击来训练阴影和攻击模型,以改善攻击性能。
translated by 谷歌翻译
近年来,机器学习模型对成员推论攻击的脆弱性受到了很大的关注。然而,由于具有高假阳性率,现有攻击大多是不切实际的,其中非成员样本通常被错误地预测为成员。这种类型的错误使得预测的隶属信号不可靠,特别是因为大多数样本都是现实世界应用中的非成员。在这项工作中,我们认为会员推理攻击可以从\ emph {难度校准}剧烈地利用,其中调整攻击的预测会员评分以正确分类目标样本的难度。我们表明,在没有准确性的情况下,难度校准可以显着降低各种现有攻击的假阳性率。
translated by 谷歌翻译
机器学习(ML)模型已广泛应用于各种应用,包括图像分类,文本生成,音频识别和图形数据分析。然而,最近的研究表明,ML模型容易受到隶属推导攻击(MIS),其目的是推断数据记录是否用于训练目标模型。 ML模型上的MIA可以直接导致隐私违规行为。例如,通过确定已经用于训练与某种疾病相关的模型的临床记录,攻击者可以推断临床记录的所有者具有很大的机会。近年来,MIS已被证明对各种ML模型有效,例如,分类模型和生成模型。同时,已经提出了许多防御方法来减轻米西亚。虽然ML模型上的MIAS形成了一个新的新兴和快速增长的研究区,但还没有对这一主题进行系统的调查。在本文中,我们对会员推论和防御进行了第一个全面调查。我们根据其特征提供攻击和防御的分类管理,并讨论其优点和缺点。根据本次调查中确定的限制和差距,我们指出了几个未来的未来研究方向,以激发希望遵循该地区的研究人员。这项调查不仅是研究社区的参考,而且还为该研究领域之外的研究人员带来了清晰的照片。为了进一步促进研究人员,我们创建了一个在线资源存储库,并与未来的相关作品继续更新。感兴趣的读者可以在https://github.com/hongshenghu/membership-inference-machine-learning-literature找到存储库。
translated by 谷歌翻译
依赖于并非所有输入都需要相同数量的计算来产生自信的预测的事实,多EXIT网络正在引起人们的注意,这是推动有效部署限制的重要方法。多EXIT网络赋予了具有早期退出的骨干模型,从而可以在模型的中间层获得预测,从而节省计算时间和/或能量。但是,当前的多种exit网络的各种设计仅被认为是为了实现资源使用效率和预测准确性之间的最佳权衡,从未探索过来自它们的隐私风险。这促使需要全面调查多EXIT网络中的隐私风险。在本文中,我们通过会员泄漏的镜头对多EXIT网络进行了首次隐私分析。特别是,我们首先利用现有的攻击方法来量化多exit网络对成员泄漏的脆弱性。我们的实验结果表明,多EXIT网络不太容易受到会员泄漏的影响,而在骨干模型上附加的退出(数字和深度)与攻击性能高度相关。此外,我们提出了一种混合攻击,该攻击利用退出信息以提高现有攻击的性能。我们评估了由三种不同的对手设置下的混合攻击造成的成员泄漏威胁,最终到达了无模型和无数据的对手。这些结果清楚地表明,我们的混合攻击非常广泛地适用,因此,相应的风险比现有的会员推理攻击所显示的要严重得多。我们进一步提出了一种专门针对多EXIT网络的TimeGuard的防御机制,并表明TimeGuard完美地减轻了新提出的攻击。
translated by 谷歌翻译
Machine learning (ML) has become a core component of many real-world applications and training data is a key factor that drives current progress. This huge success has led Internet companies to deploy machine learning as a service (MLaaS). Recently, the first membership inference attack has shown that extraction of information on the training set is possible in such MLaaS settings, which has severe security and privacy implications.However, the early demonstrations of the feasibility of such attacks have many assumptions on the adversary, such as using multiple so-called shadow models, knowledge of the target model structure, and having a dataset from the same distribution as the target model's training data. We relax all these key assumptions, thereby showing that such attacks are very broadly applicable at low cost and thereby pose a more severe risk than previously thought. We present the most comprehensive study so far on this emerging and developing threat using eight diverse datasets which show the viability of the proposed attacks across domains.In addition, we propose the first effective defense mechanisms against such broader class of membership inference attacks that maintain a high level of utility of the ML model.
translated by 谷歌翻译
作为对培训数据隐私的长期威胁,会员推理攻击(MIA)在机器学习模型中无处不在。现有作品证明了培训的区分性与测试损失分布与模型对MIA的脆弱性之间的密切联系。在现有结果的激励下,我们提出了一个基于轻松损失的新型培训框架,并具有更可实现的学习目标,从而导致概括差距狭窄和隐私泄漏减少。 RelaseLoss适用于任何分类模型,具有易于实施和可忽略不计的开销的额外好处。通过对具有不同方式(图像,医疗数据,交易记录)的五个数据集进行广泛的评估,我们的方法始终优于针对MIA和模型效用的韧性,以最先进的防御机制优于最先进的防御机制。我们的防御是第一个可以承受广泛攻击的同时,同时保存(甚至改善)目标模型的效用。源代码可从https://github.com/dingfanchen/relaxloss获得
translated by 谷歌翻译
半监督学习(SSL)利用标记和未标记的数据来训练机器学习(ML)模型。最先进的SSL方法可以通过利用更少的标记数据来实现与监督学习相当的性能。但是,大多数现有作品都集中在提高SSL的性能。在这项工作中,我们通过研究SSL的培训数据隐私来采取不同的角度。具体而言,我们建议针对由SSL训练的ML模型进行的第一个基于数据增强的成员推理攻击。给定数据样本和黑框访问模型,成员推理攻击的目标是确定数据样本是否属于模型的训练数据集。我们的评估表明,拟议的攻击可以始终超过现有的成员推理攻击,并针对由SSL训练的模型实现最佳性能。此外,我们发现,SSL中会员泄漏的原因与受到监督学习中普遍认为的原因不同,即过度拟合(培训和测试准确性之间的差距)。我们观察到,SSL模型已被概括为测试数据(几乎为0个过度拟合),但“记住”训练数据通过提供更自信的预测,无论其正确性如何。我们还探索了早期停止,作为防止成员推理攻击SSL的对策。结果表明,早期停止可以减轻会员推理攻击,但由于模型的实用性降解成本。
translated by 谷歌翻译
在其培训集中,给定训练有素的模型泄漏了多少培训模型泄露?会员资格推理攻击用作审计工具,以量化模型在其训练集中泄漏的私人信息。会员推理攻击受到不同不确定性的影响,即攻击者必须解决培训数据,培训算法和底层数据分布。因此,攻击成功率,在文献中的许多攻击,不要精确地捕获模型的信息泄漏关于他们的数据,因为它们还反映了攻击算法具有的其他不确定性。在本文中,我们解释了隐含的假设以及使用假设检测框架在现有工作中进行的简化。我们还从框架中获得了新的攻击算法,可以实现高AUC分数,同时还突出显示影响其性能的不同因素。我们的算法捕获模型中隐私损失的非常精确的近似,并且可以用作在机器学习模型中执行准确和了解的隐私风险的工具。我们对各种机器学习任务和基准数据集的攻击策略提供了彻底的实证评估。
translated by 谷歌翻译
Differential privacy is a strong notion for privacy that can be used to prove formal guarantees, in terms of a privacy budget, , about how much information is leaked by a mechanism. However, implementations of privacy-preserving machine learning often select large values of in order to get acceptable utility of the model, with little understanding of the impact of such choices on meaningful privacy. Moreover, in scenarios where iterative learning procedures are used, differential privacy variants that offer tighter analyses are used which appear to reduce the needed privacy budget but present poorly understood trade-offs between privacy and utility. In this paper, we quantify the impact of these choices on privacy in experiments with logistic regression and neural network models. Our main finding is that there is a huge gap between the upper bounds on privacy loss that can be guaranteed, even with advanced mechanisms, and the effective privacy loss that can be measured using current inference attacks. Current mechanisms for differentially private machine learning rarely offer acceptable utility-privacy trade-offs with guarantees for complex learning tasks: settings that provide limited accuracy loss provide meaningless privacy guarantees, and settings that provide strong privacy guarantees result in useless models.
translated by 谷歌翻译
会员推理攻击是机器学习模型中最简单的隐私泄漏形式之一:给定数据点和模型,确定该点是否用于培训模型。当查询其培训数据时,现有会员推理攻击利用模型的异常置信度。如果对手访问模型的预测标签,则不会申请这些攻击,而不会置信度。在本文中,我们介绍了仅限标签的会员资格推理攻击。我们的攻击而不是依赖置信分数,而是评估模型预测标签在扰动下的稳健性,以获得细粒度的隶属信号。这些扰动包括常见的数据增强或对抗例。我们经验表明,我们的标签占会员推理攻击与先前攻击相符,以便需要访问模型信心。我们进一步证明,仅限标签攻击违反了(隐含或明确)依赖于我们呼叫信心屏蔽的现象的员工推论攻击的多种防御。这些防御修改了模型的置信度分数以挫败攻击,但留下模型的预测标签不变。我们的标签攻击展示了置信性掩蔽不是抵御会员推理的可行的防御策略。最后,我们调查唯一的案例标签攻击,该攻击推断为少量异常值数据点。我们显示仅标签攻击也匹配此设置中基于置信的攻击。我们发现具有差异隐私和(强)L2正则化的培训模型是唯一已知的防御策略,成功地防止所有攻击。即使差异隐私预算太高而无法提供有意义的可证明担保,这仍然存在。
translated by 谷歌翻译
机器学习构成了严重的隐私问题,因为这表明学识渊博的模型可以揭示有关其培训数据的敏感信息。许多作品已经调查了广泛补习的数据增强(DA)和对抗性培训(AT)技术的影响,这些技术在论文中称为数据增强对机器学习模型的隐私泄漏的影响。这种隐私效应通常是通过成员推理攻击(MIA)来衡量的,旨在确定特定例子是否属于培训集。我们建议从称为记忆的新角度调查隐私。通过记忆的镜头,我们发现先前部署的MIA会产生误导性结果,因为与具有低隐私风险的样本相比,它们不太可能将具有较高隐私风险的样本识别为较高的隐私风险样本。为了解决这个问题,我们部署了最近的攻击,该攻击可以捕获单个样本的记忆度以进行评估。通过广泛的实验,我们提出了关于机器学习模型的三个重要属性(包括隐私,泛化差距和对抗性鲁棒性)之间连接的非平凡发现。我们证明,与现有结果不同,概括差距与隐私泄漏没有高度关联。此外,更强的对抗性鲁棒性并不一定意味着该模型更容易受到隐私攻击的影响。
translated by 谷歌翻译
隐私敏感数据的培训机器学习模型已成为一种流行的练习,在不断扩大的田野中推动创新。这已经向新攻击打开了门,这可能会产生严重的隐私含义。一个这样的攻击,会员推导攻击(MIA),暴露了特定数据点是否用于训练模型。一种越来越多的文献使用差异的私人(DP)训练算法作为反对这种攻击的辩护。但是,这些作品根据限制假设评估防御,即所有培训集以及非成员的所有成员都是独立的并相同分布的。这种假设没有在文献中的许多真实用例中占据。由此激励,我们评估隶属于样本之间的统计依赖性,并解释为什么DP不提供有意义的保护(在这种更常规的情况下,培训集尺寸$ N $的隐私参数$ \ epsilon $ scales)。我们使用从现实世界数据构建的培训集进行了一系列实证评估,其中包括示出样品之间的不同类型依赖性的培训集。我们的结果表明,培训集依赖关系可能会严重增加MIS的性能,因此假设数据样本在统计上独立,可以显着低估均撒的性能。
translated by 谷歌翻译
虽然机器学习(ML)在过去十年中取得了巨大进展,但最近的研究表明,ML模型易受各种安全和隐私攻击的影响。到目前为止,这场领域的大部分攻击都专注于由分类器代表的歧视模型。同时,一点关注的是生成模型的安全性和隐私风险,例如生成的对抗性网络(GANS)。在本文中,我们提出了对GANS的第一组培训数据集财产推论攻击。具体地,对手旨在推断宏观级训练数据集属性,即用于训练目标GaN的样本的比例,用于某个属性。成功的财产推理攻击可以允许对手来获得目标GaN的训练数据集的额外知识,从而直接违反目标模型所有者的知识产权。此外,它可以用作公平审计员,以检查目标GAN是否接受偏置数据集进行培训。此外,财产推理可以用作其他高级攻击的构建块,例如隶属推断。我们提出了一般的攻击管道,可以根据两个攻击场景量身定制,包括全黑盒设置和部分黑盒设置。对于后者,我们介绍了一种新颖的优化框架来增加攻击效果。在五个房产推理任务上超过四个代表性GaN模型的广泛实验表明我们的攻击实现了强大的表现。此外,我们表明我们的攻击可用于增强隶属推断对GANS的绩效。
translated by 谷歌翻译
对机器学习模型的会员推理攻击(MIA)可能会导致模型培训中使用的培训数据集的严重隐私风险。在本文中,我们提出了一种针对成员推理攻击(MIAS)的新颖有效的神经元引导的防御方法。我们确定了针对MIA的现有防御机制的关键弱点,在该机制中,他们不能同时防御两个常用的基于神经网络的MIA,表明应分别评估这两次攻击以确保防御效果。我们提出了Neuguard,这是一种新的防御方法,可以通过对象共同控制输出和内部神经元的激活,以指导训练集的模型输出和测试集的模型输出以具有近距离分布。 Neuguard由类别的差异最小化靶向限制最终输出神经元和层平衡输出控制的目标,旨在限制每一层中的内部神经元。我们评估Neuguard,并将其与最新的防御能力与两个基于神经网络的MIA,五个最强的基于度量的MIA,包括三个基准数据集中的新提出的仅标签MIA。结果表明,Neuguard通过提供大大改善的公用事业权衡权衡,一般性和间接费用来优于最先进的防御能力。
translated by 谷歌翻译
随着机器学习技术的发展,研究的注意力已从单模式学习转变为多模式学习,因为现实世界中的数据以不同的方式存在。但是,多模式模型通常比单模式模型具有更多的信息,并且通常将其应用于敏感情况,例如医疗报告生成或疾病鉴定。与针对机器学习分类器的现有会员推断相比,我们关注的是多模式模型的输入和输出的问题,例如不同的模式,例如图像字幕。这项工作通过成员推理攻击的角度研究了多模式模型的隐私泄漏,这是确定数据记录是否涉及模型培训过程的过程。为了实现这一目标,我们提出了多种模型的成员资格推理(M^4i),分别使用两种攻击方法来推断成员身份状态,分别为基于公表示的(MB)M^4i和基于特征(FB)M^4i。更具体地说,MB M^4i在攻击时采用相似性指标来推断目标数据成员资格。 FB M^4i使用预先训练的阴影多模式提取器来通过比较提取的输入和输出功能的相似性来实现数据推理攻击的目的。广泛的实验结果表明,两种攻击方法都可以实现强大的性能。在不受限制的情况下,平均可以获得攻击成功率的72.5%和94.83%。此外,我们评估了针对我们的攻击的多种防御机制。 M^4i攻击的源代码可在https://github.com/multimodalmi/multimodal-membership-inference.git上公开获得。
translated by 谷歌翻译
会员推理攻击(MIA)在机器学习模型的培训数据上提出隐私风险。使用MIA,如果目标数据是训练数据集的成员,则攻击者猜测。对MIAS的最先进的防御,蒸馏为会员隐私(DMP),不仅需要私人数据来保护但是大量未标记的公共数据。但是,在某些隐私敏感域名,如医疗和财务,公共数据的可用性并不明显。此外,通过使用生成的对策网络生成公共数据的琐碎方法显着降低了DMP的作者报道的模型精度。为了克服这个问题,我们在不需要公共数据的情况下,使用知识蒸馏提出对米西亚的小说防御。我们的实验表明,我们防御的隐私保护和准确性与MIA研究中使用的基准表格数据集的DMP相媲美,我们的国防有更好的隐私式权限远非现有防御不使用图像数据集CIFAR10的公共数据。
translated by 谷歌翻译
神经网络修剪一直是减少对资源受限设备的深度神经网络的计算和记忆要求的重要技术。大多数现有的研究主要侧重于平衡修剪神经网络的稀疏性和准确性,通过策略性地删除无关紧要的参数并重新修剪修剪模型。由于记忆的增加而造成了严重的隐私风险,因此尚未调查这种训练样品的这种努力。在本文中,我们对神经网络修剪中的隐私风险进行了首次分析。具体而言,我们研究了神经网络修剪对培训数据隐私的影响,即成员推理攻击。我们首先探讨了神经网络修剪对预测差异的影响,在该预测差异中,修剪过程不成比例地影响了修剪的模型对成员和非会员的行为。同时,差异的影响甚至以细粒度的方式在不同类别之间有所不同。通过这种分歧,我们提出了对修剪的神经网络的自我发起会员推断攻击。进行了广泛的实验,以严格评估不同修剪方法,稀疏水平和对手知识的隐私影响。拟议的攻击表明,与现有的八次成员推理攻击相比,对修剪模型的攻击性能更高。此外,我们提出了一种新的防御机制,通过基于KL-Divergence距离来缓解预测差异,以保护修剪过程,该距离的预测差异已通过实验证明,可以有效地降低隐私风险,同时维持较修剪模型的稀疏性和准确性。
translated by 谷歌翻译
会员推理攻击(MIS)旨在确定特定样本是否用于培训预测模型。知道这可能确实导致隐私违约。可以说,大多数MIS利用模型的预测分数 - 每个输出的概率给出一些输入 - 在其训练的模型趋于不同地在其训练数据上表现不同。我们认为这是许多现代深度网络架构的谬论,例如,Relu型神经网络几乎总是远离训练数据的高预测分数。因此,MIS将误会失败,因为这种行为不仅导致高伪率,不仅在已知的域名上,而且对分发数据外,并且隐含地作为针对偏心的防御。具体地,使用生成的对抗网络,我们能够产生虚假分类为培训数据的一部分的潜在无限数量的样本。换句话说,MIS的威胁被高估,并且泄漏的信息较少地假设。此外,在分类器的过度自信和对偏话的易感性之间实际上有一个权衡:更频率越多,他们不知道,对远离训练数据的低信任预测,他们越远,他们越多,揭示了训练数据。
translated by 谷歌翻译