通过使用预训练模型的转移学习已成为机器学习社区的增长趋势。因此,在线发布了许多预培训模型,以促进进一步的研究。但是,它引起了人们对这些预训练模型是否会泄露其培训数据的隐私敏感信息的广泛担忧。因此,在这项工作中,我们的目标是回答以下问题:“我们可以有效地从这些预训练的模型中恢复私人信息吗?检索这种敏感信息的足够条件是什么?”我们首先探索不同的统计信息,这些信息可以将私人培训分布与其他分布区分开。根据我们的观察,我们提出了一个新颖的私人数据重建框架Secretgen,以有效地恢复私人信息。与以前可以恢复私人数据的方法与目标恢复实例的真实预测相比,SecretGen不需要此类先验知识,从而使其更加实用。我们在各种情况下对不同数据集进行了广泛的实验,以将Secretgen与其他基线进行比较,并提供系统的基准,以更好地了解不同的辅助信息和优化操作的影响。我们表明,如果没有关于真实班级预测的先验知识,SecretGen能够与利用此类先验知识的私人数据相比恢复具有相似性能的私人数据。如果给出了先验知识,SecretGen将显着优于基线方法。我们还提出了几个定量指标,以进一步量化预培训模型的隐私脆弱性,这将有助于对对隐私敏感应用程序的模型选择。我们的代码可在以下网址提供:https://github.com/ai-secure/secretgen。
translated by 谷歌翻译
模型反转攻击(MIAS)旨在创建合成图像,通过利用模型的学习知识来反映目标分类器的私人培训数据中的班级特征。先前的研究开发了生成的MIA,该MIA使用生成的对抗网络(GAN)作为针对特定目标模型的图像先验。这使得攻击时间和资源消耗,不灵活,并且容易受到数据集之间的分配变化的影响。为了克服这些缺点,我们提出了插头攻击,从而放宽了目标模型和图像之前的依赖性,并启用单个GAN来攻击广泛的目标,仅需要对攻击进行少量调整。此外,我们表明,即使在公开获得的预训练的gan和强烈的分配转变下,也可以实现强大的MIA,而先前的方法无法产生有意义的结果。我们的广泛评估证实了插头攻击的鲁棒性和灵活性,以及​​它们创建高质量图像的能力,揭示了敏感的类特征。
translated by 谷歌翻译
通过仅使用训练有素的分类器,模型内(MI)攻击可以恢复用于训练分类器的数据,从而导致培训数据的隐私泄漏。为了防止MI攻击,先前的工作利用单方面依赖优化策略,即,在培训分类器期间,最大程度地减少了输入(即功能)和输出(即标签)之间的依赖关系。但是,这样的最小化过程与最小化监督损失相冲突,该损失旨在最大程度地提高输入和输出之间的依赖关系,从而在模型鲁棒性针对MI攻击和模型实用程序上对分类任务进行明确的权衡。在本文中,我们旨在最大程度地减少潜在表示和输入之间的依赖性,同时最大化潜在表示和输出之间的依赖关系,称为双边依赖性优化(BIDO)策略。特别是,除了对深神经网络的常用损失(例如,跨渗透性)外,我们还将依赖性约束用作普遍适用的正常化程序,可以根据不同的任务将其实例化使用适当的依赖标准。为了验证我们策略的功效,我们通过使用两种不同的依赖性度量提出了两种BIDO的实施:具有约束协方差的Bido(Bido-Coco)(Bido-Coco)和Bido具有Hilbert-Schmidt独立标准(Bido-HSIC)。实验表明,比多(Bido防御MI攻击的道路。
translated by 谷歌翻译
Neural networks are susceptible to data inference attacks such as the membership inference attack, the adversarial model inversion attack and the attribute inference attack, where the attacker could infer useful information such as the membership, the reconstruction or the sensitive attributes of a data sample from the confidence scores predicted by the target classifier. In this paper, we propose a method, namely PURIFIER, to defend against membership inference attacks. It transforms the confidence score vectors predicted by the target classifier and makes purified confidence scores indistinguishable in individual shape, statistical distribution and prediction label between members and non-members. The experimental results show that PURIFIER helps defend membership inference attacks with high effectiveness and efficiency, outperforming previous defense methods, and also incurs negligible utility loss. Besides, our further experiments show that PURIFIER is also effective in defending adversarial model inversion attacks and attribute inference attacks. For example, the inversion error is raised about 4+ times on the Facescrub530 classifier, and the attribute inference accuracy drops significantly when PURIFIER is deployed in our experiment.
translated by 谷歌翻译
身份验证系统容易受到模型反演攻击的影响,在这种攻击中,对手能够近似目标机器学习模型的倒数。生物识别模型是这种攻击的主要候选者。这是因为反相生物特征模型允许攻击者产生逼真的生物识别输入,以使生物识别认证系统欺骗。进行成功模型反转攻击的主要限制之一是所需的训练数据量。在这项工作中,我们专注于虹膜和面部生物识别系统,并提出了一种新技术,可大大减少必要的训练数据量。通过利用多个模型的输出,我们能够使用1/10进行模型反演攻击,以艾哈迈德和富勒(IJCB 2020)的训练集大小(IJCB 2020)进行虹膜数据,而Mai等人的训练集大小为1/1000。 (模式分析和机器智能2019)的面部数据。我们将新的攻击技术表示为结构性随机,并损失对齐。我们的攻击是黑框,不需要了解目标神经网络的权重,只需要输出向量的维度和值。为了显示对齐损失的多功能性,我们将攻击框架应用于会员推理的任务(Shokri等,IEEE S&P 2017),对生物识别数据。对于IRIS,针对分类网络的会员推断攻击从52%提高到62%的准确性。
translated by 谷歌翻译
Model-based attacks can infer training data information from deep neural network models. These attacks heavily depend on the attacker's knowledge of the application domain, e.g., using it to determine the auxiliary data for model-inversion attacks. However, attackers may not know what the model is used for in practice. We propose a generative adversarial network (GAN) based method to explore likely or similar domains of a target model -- the model domain inference (MDI) attack. For a given target (classification) model, we assume that the attacker knows nothing but the input and output formats and can use the model to derive the prediction for any input in the desired form. Our basic idea is to use the target model to affect a GAN training process for a candidate domain's dataset that is easy to obtain. We find that the target model may distract the training procedure less if the domain is more similar to the target domain. We then measure the distraction level with the distance between GAN-generated datasets, which can be used to rank candidate domains for the target model. Our experiments show that the auxiliary dataset from an MDI top-ranked domain can effectively boost the result of model-inversion attacks.
translated by 谷歌翻译
模型反演(MI),其中对手滥用访问训练有素的机器学习(ML)模型试图推断有关其原始培训数据的敏感信息,引起了越来越多的研究关注。在MI期间,攻击(MUA)的训练模型通常被冻结并用于指导发电机的训练,例如生成的对抗网络(GAN),以重建该模型的原始训练数据的分布。这可能导致原始培训样本泄漏,如果成功,如果培训数据包含个人身份信息(PII),则数据集科目的隐私将面临风险。因此,对MI技术潜力的深入研究对于开发相应的防御技术至关重要。基于单一模型的培训数据的高质量重建是具有挑战性的。然而,现有的MI文献不会共同探索定位多个模型,这可以为对手提供额外的信息和多样化的观点。我们提出了集合反转技术,其通过培训由具有共享主题或实体的培训模型的集合(或设置)的生成器来培训产生的发电机的分布。与单个ML模型的MI相比,该技术导致产生具有数据集实体的具有可区分特征的所产生的样本的质量的显着改善。我们在没有任何数据集的情况下实现了高质量的结果,并显示了如何利用类似于假定训练数据的辅助数据集来提高结果。模型多样性在集合中的影响是彻底调查的,并且利用了额外的约束来鼓励重建样本的尖锐预测和高激活,从而导致训练图像的更准确地重建。
translated by 谷歌翻译
虽然机器学习(ML)在过去十年中取得了巨大进展,但最近的研究表明,ML模型易受各种安全和隐私攻击的影响。到目前为止,这场领域的大部分攻击都专注于由分类器代表的歧视模型。同时,一点关注的是生成模型的安全性和隐私风险,例如生成的对抗性网络(GANS)。在本文中,我们提出了对GANS的第一组培训数据集财产推论攻击。具体地,对手旨在推断宏观级训练数据集属性,即用于训练目标GaN的样本的比例,用于某个属性。成功的财产推理攻击可以允许对手来获得目标GaN的训练数据集的额外知识,从而直接违反目标模型所有者的知识产权。此外,它可以用作公平审计员,以检查目标GAN是否接受偏置数据集进行培训。此外,财产推理可以用作其他高级攻击的构建块,例如隶属推断。我们提出了一般的攻击管道,可以根据两个攻击场景量身定制,包括全黑盒设置和部分黑盒设置。对于后者,我们介绍了一种新颖的优化框架来增加攻击效果。在五个房产推理任务上超过四个代表性GaN模型的广泛实验表明我们的攻击实现了强大的表现。此外,我们表明我们的攻击可用于增强隶属推断对GANS的绩效。
translated by 谷歌翻译
生成模型的面部匿名化已经变得越来越普遍,因为它们通过生成虚拟面部图像来消毒私人信息,从而确保隐私和图像实用程序。在删除或保护原始身份后,通常无法识别此类虚拟面部图像。在本文中,我们将生成可识别的虚拟面部图像的问题形式化和解决。我们的虚拟脸部图像在视觉上与原始图像不同,以保护隐私保护。此外,它们具有新的虚拟身份,可直接用于面部识别。我们建议可识别的虚拟面部发电机(IVFG)生成虚拟面部图像。 IVFG根据用户特定的键将原始面部图像的潜在矢量投射到虚拟图像中,该键基于该图像生成虚拟面部图像。为了使虚拟面部图像可识别,我们提出了一个多任务学习目标以及一个三联生的培训策略,以学习IVFG。我们使用不同面部图像数据集上的不同面部识别器评估虚拟面部图像的性能,所有这些都证明了IVFG在生成可识别的虚拟面部图像中的有效性。
translated by 谷歌翻译
A distribution inference attack aims to infer statistical properties of data used to train machine learning models. These attacks are sometimes surprisingly potent, but the factors that impact distribution inference risk are not well understood and demonstrated attacks often rely on strong and unrealistic assumptions such as full knowledge of training environments even in supposedly black-box threat scenarios. To improve understanding of distribution inference risks, we develop a new black-box attack that even outperforms the best known white-box attack in most settings. Using this new attack, we evaluate distribution inference risk while relaxing a variety of assumptions about the adversary's knowledge under black-box access, like known model architectures and label-only access. Finally, we evaluate the effectiveness of previously proposed defenses and introduce new defenses. We find that although noise-based defenses appear to be ineffective, a simple re-sampling defense can be highly effective. Code is available at https://github.com/iamgroot42/dissecting_distribution_inference
translated by 谷歌翻译
机器学习(ML)模型已广泛应用于各种应用,包括图像分类,文本生成,音频识别和图形数据分析。然而,最近的研究表明,ML模型容易受到隶属推导攻击(MIS),其目的是推断数据记录是否用于训练目标模型。 ML模型上的MIA可以直接导致隐私违规行为。例如,通过确定已经用于训练与某种疾病相关的模型的临床记录,攻击者可以推断临床记录的所有者具有很大的机会。近年来,MIS已被证明对各种ML模型有效,例如,分类模型和生成模型。同时,已经提出了许多防御方法来减轻米西亚。虽然ML模型上的MIAS形成了一个新的新兴和快速增长的研究区,但还没有对这一主题进行系统的调查。在本文中,我们对会员推论和防御进行了第一个全面调查。我们根据其特征提供攻击和防御的分类管理,并讨论其优点和缺点。根据本次调查中确定的限制和差距,我们指出了几个未来的未来研究方向,以激发希望遵循该地区的研究人员。这项调查不仅是研究社区的参考,而且还为该研究领域之外的研究人员带来了清晰的照片。为了进一步促进研究人员,我们创建了一个在线资源存储库,并与未来的相关作品继续更新。感兴趣的读者可以在https://github.com/hongshenghu/membership-inference-machine-learning-literature找到存储库。
translated by 谷歌翻译
We quantitatively investigate how machine learning models leak information about the individual data records on which they were trained. We focus on the basic membership inference attack: given a data record and black-box access to a model, determine if the record was in the model's training dataset. To perform membership inference against a target model, we make adversarial use of machine learning and train our own inference model to recognize differences in the target model's predictions on the inputs that it trained on versus the inputs that it did not train on.We empirically evaluate our inference techniques on classification models trained by commercial "machine learning as a service" providers such as Google and Amazon. Using realistic datasets and classification tasks, including a hospital discharge dataset whose membership is sensitive from the privacy perspective, we show that these models can be vulnerable to membership inference attacks. We then investigate the factors that influence this leakage and evaluate mitigation strategies.
translated by 谷歌翻译
机器学习(ML)已将自身驾驶到认证系统的自主驱动范围的各种关键应用的基石。然而,随着机器学习模型的增加,已经出现了多次攻击。一类这样的攻击正在培训时间攻击,由此对手在机器学习模型培训之前或期间执行他们的攻击。在这项工作中,我们提出了一种对基于计算机视觉的机器学习模型的新培训时间攻击,即模型劫持攻击。对手旨在劫持目标模型,而不是模特所有者注意到的原始任务。模型劫持可能会导致问责制和安全风险,因为可以将劫持型号所有者构成,以便拥有其型号提供非法或不道德的服务。模型劫持攻击以与现有数据中毒攻击相同的方式启动。然而,模型劫持攻击的一个要求是隐身,即劫持目标模型的数据样本应该类似于模型的原始训练数据集。为此,我们提出了两种不同的模型劫持攻击,即Chameleon和不良变色龙,基于新颖的编码器解码器样式ML模型,即Camouflager。我们的评价表明,我们的模型劫持攻击都达到了高攻击成功率,模型实用程序下降了不计。
translated by 谷歌翻译
深度神经网络(DNNS)铰接对大型数据集的可用性的最新成功;但是,对此类数据集的培训经常为敏感培训信息构成隐私风险。在本文中,我们的目标是探讨生成模型和梯度稀疏性的力量,并提出了一种可扩展的隐私保留生成模型数据标准。与标准展示隐私保留框架相比,允许教师对一维预测进行投票,在高维梯度向量上投票在隐私保存方面具有挑战性。随着需要尺寸减少技术,我们需要在(1)之间的改进之间导航精致的权衡空间,并进行SGD收敛的放缓。为了解决这一点,我们利用通信高效学习,并通过将顶-K压缩与相应的噪声注入机构相结合,提出一种新的噪声压缩和聚集方法TopAGG。理论上,我们证明了DataLens框架保证了其生成数据的差异隐私,并提供了其收敛性的分析。为了展示DataLens的实际使用情况,我们对不同数据集进行广泛的实验,包括Mnist,Fashion-Mnist和高维Celeba,并且我们表明,DataLens显着优于其他基线DP生成模型。此外,我们改进了所提出的Topagg方法,该方法是DP SGD培训的主要构建块之一,并表明它能够在大多数情况下实现比最先进的DP SGD方法更高的效用案件。我们的代码在HTTPS://github.com/ai-secure/datalens公开提供。
translated by 谷歌翻译
数据隐私已成为机器学习(ML)日益重要的问题,其中许多方法已经发展以解决这一挑战,例如,这一挑战加密(同性恋加密(HE),差异隐私(DP)等)和协作培训(安全多方计算(MPC),分布式学习和联合学习(FL))。这些技术特别侧重于数据加密或安全本地计算。他们将中间信息转移到第三方以计算最终结果。梯度交换通常被认为是在深度学习(DL)中协同训练鲁棒模型的安全方式。然而,最近的研究表明,可以从共享梯度恢复敏感信息。特别地,生成的对抗网络(GaN)已显示有效地恢复这些信息。然而,基于GaN的技术需要附加信息,例如类标签,这些标签通常不可用才能获得隐私保留的学习。在本文中,我们表明,在FL系统中,仅通过我们所提出的生成回归神经网络(GRNN)只能通过共享梯度全额从共享梯度容易地恢复基于图像的隐私数据。我们制定攻击是回归问题,并通过最小化梯度之间的距离来优化生成模型的两个分支。我们在几种图像分类任务上评估我们的方法。结果说明我们所提出的GNN优于最先进的方法,具有更好的稳定性,更强的鲁棒性和更高的准确性。它对全球流动模型也没有收敛要求。此外,我们使用面部重新识别来展示信息泄漏。在这项工作中还讨论了一些防御策略。
translated by 谷歌翻译
许多数据挖掘任务依靠图来模拟个人(节点)之间的关系结构。由于关系数据通常很敏感,因此迫切需要评估图形数据中的隐私风险。对数据分析模型的著名隐私攻击是模型反转攻击,该攻击旨在推断培训数据集中的敏感数据并引起极大的隐私问题。尽管它在类似网格的域中取得了成功,但直接应用模型反转攻击(例如图形)导致攻击性能差。这主要是由于未能考虑图的唯一属性。为了弥合这一差距,我们对模型反转攻击对图神经网络(GNNS)进行了系统研究,这是本文中最新的图形分析工具之一。首先,在攻击者可以完全访问目标GNN模型的白色框设置中,我们提出GraphMi来推断私人训练图数据。具体而言,在GraphMi中,提出了一个投影梯度模块来应对图边的离散性并保持图形特征的稀疏性和平滑度。图形自动编码器模块用于有效利用边缘推理的图形拓扑,节点属性和目标模型参数。随机采样模块最终可以采样离散边缘。此外,在攻击者只能查询GNN API并接收分类结果的硬标签黑框设置中,我们根据梯度估计和增强学习(RL-GraphMI)提出了两种方法。我们的实验结果表明,此类防御措施没有足够的有效性,并要求对隐私攻击进行更先进的防御能力。
translated by 谷歌翻译
深度神经网络容易受到来自对抗性投入的攻击,并且最近,特洛伊木马误解或劫持模型的决定。我们通过探索有界抗逆性示例空间和生成的对抗网络内的自然输入空间来揭示有界面的对抗性实例 - 通用自然主义侵害贴片的兴趣类 - 我们呼叫TNT。现在,一个对手可以用一个自然主义的补丁来手臂自己,不太恶意,身体上可实现,高效 - 实现高攻击成功率和普遍性。 TNT是普遍的,因为在场景中的TNT中捕获的任何输入图像都将:i)误导网络(未确定的攻击);或ii)迫使网络进行恶意决定(有针对性的攻击)。现在,有趣的是,一个对抗性补丁攻击者有可能发挥更大的控制水平 - 选择一个独立,自然的贴片的能力,与被限制为嘈杂的扰动的触发器 - 到目前为止只有可能与特洛伊木马攻击方法有可能干扰模型建设过程,以嵌入风险发现的后门;但是,仍然意识到在物理世界中部署的补丁。通过对大型视觉分类任务的广泛实验,想象成在其整个验证集50,000张图像中进行评估,我们展示了TNT的现实威胁和攻击的稳健性。我们展示了攻击的概括,以创建比现有最先进的方法实现更高攻击成功率的补丁。我们的结果表明,攻击对不同的视觉分类任务(CIFAR-10,GTSRB,PUBFIG)和多个最先进的深神经网络,如WieredEnet50,Inception-V3和VGG-16。
translated by 谷歌翻译
由于其便利性,使用第三方提供的预培训模型变得越来越普遍。然而,与此同时,这些模型可能容易受到中毒和逃避攻击的影响。我们引入了一个算法框架,当防御者无法获得清洁数据时,可以在预训练的模型中减轻潜在的安全漏洞。框架从给定的预训练模型进行了反向工程。然后,可以将所得的合成样品用作替代干净的数据以执行各种防御措施。我们考虑两种重要的攻击场景 - 后门攻击和逃避攻击 - 以展示合成样本的实用性。对于这两次攻击,我们表明,当提供我们的合成数据时,最新的防御能力的性能相当甚至比提供相同数量的清洁数据时的情况相当甚至更好。
translated by 谷歌翻译
Machine learning (ML) has become a core component of many real-world applications and training data is a key factor that drives current progress. This huge success has led Internet companies to deploy machine learning as a service (MLaaS). Recently, the first membership inference attack has shown that extraction of information on the training set is possible in such MLaaS settings, which has severe security and privacy implications.However, the early demonstrations of the feasibility of such attacks have many assumptions on the adversary, such as using multiple so-called shadow models, knowledge of the target model structure, and having a dataset from the same distribution as the target model's training data. We relax all these key assumptions, thereby showing that such attacks are very broadly applicable at low cost and thereby pose a more severe risk than previously thought. We present the most comprehensive study so far on this emerging and developing threat using eight diverse datasets which show the viability of the proposed attacks across domains.In addition, we propose the first effective defense mechanisms against such broader class of membership inference attacks that maintain a high level of utility of the ML model.
translated by 谷歌翻译
对机器学习模型的会员推理攻击(MIA)可能会导致模型培训中使用的培训数据集的严重隐私风险。在本文中,我们提出了一种针对成员推理攻击(MIAS)的新颖有效的神经元引导的防御方法。我们确定了针对MIA的现有防御机制的关键弱点,在该机制中,他们不能同时防御两个常用的基于神经网络的MIA,表明应分别评估这两次攻击以确保防御效果。我们提出了Neuguard,这是一种新的防御方法,可以通过对象共同控制输出和内部神经元的激活,以指导训练集的模型输出和测试集的模型输出以具有近距离分布。 Neuguard由类别的差异最小化靶向限制最终输出神经元和层平衡输出控制的目标,旨在限制每一层中的内部神经元。我们评估Neuguard,并将其与最新的防御能力与两个基于神经网络的MIA,五个最强的基于度量的MIA,包括三个基准数据集中的新提出的仅标签MIA。结果表明,Neuguard通过提供大大改善的公用事业权衡权衡,一般性和间接费用来优于最先进的防御能力。
translated by 谷歌翻译