梯度反转攻击(或从梯度的输入恢复)是对联合学习的安全和隐私保存的新出现威胁,由此,协议中的恶意窃听者或参与者可以恢复(部分)客户的私有数据。本文评估了现有的攻击和防御。我们发现一些攻击对设置产生了强烈的假设。放松这种假设可以大大削弱这些攻击。然后,我们评估三种拟议的防御机制对梯度反转攻击的好处。我们展示了这些防御方法的隐私泄漏和数据效用的权衡,并发现以适当的方式将它们与它们相结合使得攻击较低,即使在原始的强烈假设下。我们还估计每个评估的防御下单个图像的端到端恢复的计算成本。我们的研究结果表明,目前可以针对较小的数据公用事业损失来捍卫最先进的攻击,如潜在策略的列表中总结。我们的代码可用于:https://github.com/princeton-sysml/gradattack。
translated by 谷歌翻译
最近的攻击表明,可以从FEDSGD更新中恢复用户数据,从而破坏隐私。但是,这些攻击具有有限的实际相关性,因为联邦学习通常使用FedAvg算法。与FEDSGD相比,从FedAvg更新中恢复数据要困难得多,因为:(i)更新是在未观察到的中间网络权重计算的,(ii)使用大量批次,并且(iii)标签和网络权重在客户端上同时不同脚步。在这项工作中,我们提出了一项新的基于优化的攻击,该攻击通过解决上述挑战来成功攻击FedAvg。首先,我们使用自动差异化解决了优化问题,该分化迫使客户端更新的仿真,该更新生成了恢复的标签和输入的未观察到的参数,以匹配接收到的客户端更新。其次,我们通过将来自不同时期的图像与置换不变的先验联系起来来解决大量批处理。第三,我们通过在每个FedAvg步骤中估算现有FEDSGD攻击的参数来恢复标签。在流行的女性数据集中,我们证明,平均而言,我们从现实的FedAvg更新中成功地恢复了> 45%的图像,该更新是在10个本地时期计算出的10批批次,每个批次,每个图像,每张5张图像,而使用基线仅<10%。我们的发现表明,基于FedAvg的许多现实世界联合学习实现非常脆弱。
translated by 谷歌翻译
联合学习已被提议作为隐私的机器学习框架,该框架使多个客户能够在不共享原始数据的情况下进行协作。但是,在此框架中,设计并不能保证客户隐私保护。先前的工作表明,联邦学习中的梯度共享策略可能容易受到数据重建攻击的影响。但是,实际上,考虑到高沟通成本或由于增强隐私要求,客户可能不会传输原始梯度。实证研究表明,梯度混淆,包括通过梯度噪声注入和通过梯度压缩的无意化混淆的意图混淆,可以提供更多的隐私保护,以防止重建攻击。在这项工作中,我们提出了一个针对联合学习中图像分类任务的新数据重建攻击框架。我们表明,通常采用的梯度后处理程序,例如梯度量化,梯度稀疏和梯度扰动,可能会在联合学习中具有错误的安全感。与先前的研究相反,我们认为不应将隐私增强视为梯度压缩的副产品。此外,我们在提出的框架下设计了一种新方法,以在语义层面重建图像。我们量化语义隐私泄漏,并根据图像相似性分数进行比较。我们的比较挑战了文献中图像数据泄漏评估方案。结果强调了在现有联合学习算法中重新审视和重新设计对客户数据的隐私保护机制的重要性。
translated by 谷歌翻译
最近的研究表明,训练样本可以从梯度中回收,这些梯度称为梯度反转(Gradinv)攻击。但是,仍然缺乏广泛的调查,涵盖了最近的进步和对该问题的彻底分析。在本文中,我们介绍了有关Gradinv的全面调查,旨在总结尖端研究并扩大不同领域的视野。首先,我们通过将现有攻击描述为两个范式:基于迭代和递归的攻击,提出了Gradinv攻击的分类法。特别是,我们从基于迭代的攻击中挖掘出一些关键成分,包括数据初始化,模型培训和梯度匹配。其次,我们总结了针对Gradinv攻击的新兴防御策略。我们发现这些方法侧重于三种观点,涵盖了数据的晦涩,模型改进和梯度保护。最后,我们讨论了一些有希望的方向和开放问题,以进行进一步研究。
translated by 谷歌翻译
联合学习(FL)旨在对多个数据所有者持有的分布式数据执行隐私的机器学习。为此,FL要求数据所有者在本地执行培训,并与中央服务器共享梯度更新(而不是私人输入),然后将其安全地汇总在多个数据所有者上。尽管汇总本身并不能证明提供隐私保护,但先前的工作表明,如果批处理大小足够大,则足够了。在本文中,我们提出了鸡尾酒会攻击(CPA),与先前的信念相反,能够从汇总的渐变中恢复私人输入,这是批量较大的大小。 CPA利用了至关重要的见解,即来自完全连接的层的总梯度是其输入的线性组合,这使我们将梯度反演作为盲源分离(BSS)问题(非正式地称为鸡尾酒会问题)。我们适应独立的组件分析(ICA) - BSS问题的经典解决方案 - 恢复针对完全连接和卷积网络的私人输入,并表明CPA明显优于先前的梯度反转攻击,对成像网的输入量表,并表现出Imagenet大小的输入的范围最高可达1024的大批量。
translated by 谷歌翻译
对联合学习系统的梯度反转攻击从交换的梯度信息中重建客户培训数据。为了防止这种攻击,提出了各种防御机制。但是,它们通常会导致隐私和模型效用之间的不可接受的权衡。最近的观察结果表明,如果添加到神经网络中,辍学可以减轻梯度泄漏并改善模型实用性。不幸的是,这种现象尚未系统地研究。在这项工作中,我们彻底分析了辍学对迭代梯度反转攻击的影响。我们发现,由于模型训练过程中辍学引起的随机性,最先进的攻击状态无法重建客户数据。尽管如此,我们认为,如果在攻击优化期间对辍学引起的随机性进行了充分的建模,则辍学者不会提供可靠的保护。因此,我们提出了一种新型的辍学反转攻击(DIA),该攻击(DIA)共同优化了客户数据和辍学蒙版,以近似随机客户端模型。我们对我们对四个开创模型架构的攻击和三个图像分类数据集进行了广泛的系统评估。我们发现,我们提出的攻击绕过了似乎是由辍学引起的保护,并以高保真度重建客户数据。我们的工作表明,不能假定仅仅诱导模型架构变化的隐私变化以可靠地保护梯度泄漏,因此应与互补的防御机制结合使用。
translated by 谷歌翻译
联邦学习是一种培训机器学习模型而不共享培训数据的既定方法。但是,最近的工作表明,它不能保证数据隐私,因为共享梯度仍然可以泄漏敏感信息。为了将渐变泄漏问题正式化,我们提出了一种理论框架,首次对贝叶斯最佳对手被扣除作为优化问题的理论框架。我们证明现有的泄漏攻击可以看作是对输入数据和梯度的概率分布的不同假设的这种最佳对手的近似。我们的实验证实了贝叶斯最佳对手的有效性,当它具有潜在的潜在分布时。此外,我们的实验评估表明,几种现有的启发式防御对于更强的攻击无效,特别是在培训过程中。因此,我们的研究结果表明,建设更有效的防御和他们的评价仍然是一个公开问题。
translated by 谷歌翻译
Federated Learning是一个私人设计的分布式学习范式,客户在中央服务器汇总本地更新以计算全局模型之前,客户在自己的数据上训练本地模型。根据所使用的聚合方法,本地更新是本地学习模型的梯度或权重。最近的重建攻击对单个MiniBatch的梯度更新应用了梯度反演优化,以重建客户在培训期间使用的私人数据。由于最新的重建攻击仅关注单个更新,因此忽略了现实的对抗场景,例如跨多个小型批次训练的多个更新和更新。一些研究考虑了一个更具挑战性的对抗场景,在该场景中,只能根据多个迷你批次进行模型更新,并且可以观察到计算昂贵的模拟,以解开每个本地步骤的基本样本。在本文中,我们提出了一种新型的近似梯度反转攻击,可有效,有效地重建来自模型或梯度更新的图像,以及跨多个时期。简而言之,agic(i)近似于模型更新中使用的训练样本的梯度更新,以避免昂贵的仿真程序,(ii)利用从多个时期收集的梯度/模型更新,(iii)将权重增加到相对于层的重量增加重建质量的神经网络结构。我们在三个数据集CIFAR-10,CIFAR-100和Imagenet上广泛评估AGIC。我们的结果表明,与两种代表性的最先进的梯度反演攻击相比,AGIC将峰值信噪比(PSNR)提高了50%。此外,AGIC的速度比基于最新的模拟攻击快,例如,在模型更新之间使用8个本地步骤攻击FedAvg时,它的速度快5倍。
translated by 谷歌翻译
利用梯度泄漏以重建据称为私人培训数据,梯度反演攻击是神经网络协作学习的无处不在威胁。为了防止梯度泄漏而不会遭受模型绩效严重损失的情况,最近的工作提出了一个基于变化模型作为任意模型体系结构的扩展的隐私增强模块(预编码)。在这项工作中,我们研究了预言对梯度反转攻击的影响,以揭示其基本的工作原理。我们表明,各变化建模会引起预科及其随后的层梯度的随机性,从而阻止梯度攻击的收敛性。通过在攻击优化期间有目的地省略那些随机梯度,我们制定了一种可以禁用Precode隐私保护效果的攻击。为了确保对这种有针对性攻击的隐私保护,我们将部分扰动(PPP)提出,作为变异建模和部分梯度扰动的战略组合。我们对四个开创性模型架构和两个图像分类数据集进行了广泛的实证研究。我们发现所有架构都容易梯度泄漏,可以通过PPP预防。因此,我们表明我们的方法需要较小的梯度扰动才能有效地保留隐私而不会损害模型性能。
translated by 谷歌翻译
联合学习框架通常需要协作者共享共同模型的本地渐变更新,而不是共享培训数据以保留隐私。但是,在梯度泄漏攻击的事先工作表明,可以从梯度揭示私人培训数据。到目前为止,几乎所有相关工程都基于完全连接或卷积神经网络的攻击。鉴于近期适应变压器以解决多种愿景任务的绝大多大浪潮,调查视觉变压器的隐私风险是非常有价值的。在本文中,我们分析了基于自我关注机制的渐变泄漏风险,以理论和实用的方式。特别是,我们提出了4月 - 注意隐私泄漏,这对自我关注的博览会造成了强烈的威胁,如vit。展示视觉变压器如何通过梯度泄露隐私泄漏的风险,我们敦促设计隐私更安全的变压器模型和防守方案的重要性。
translated by 谷歌翻译
近年来,分布式机器学习已被广​​泛用于解决大型且复杂的数据集问题。因此,分布式学习的安全也引起了学术界和行业的越来越多的注意。在这种情况下,联合学习(FL)是通过在本地维护私人培训数据来开发为“安全”分布式学习的,并且仅在之间进行公共模型梯度。但是,迄今为止,为此过程提出了各种梯度泄漏攻击,并证明它是不安全的。例如,共享这些攻击的常见缺点:它们需要过多的辅助信息,例如模型权重,优化者和某些超参数(例如,学习率),在实际情况下很难获得。此外,许多现有算法避免在FL中传输模型梯度,然后转向发送模型权重,例如FedAvg,但很少有人认为其安全性违反。在本文中,我们提出了两个新颖的框架,以证明传输模型权重还可能在FL方案下泄露客户端局部数据,即(DLM和DLM+)。此外,进行了许多实验,以说明我们的攻击框架的效果和普遍性。在本文的最后,我们还向拟议的攻击介绍了两个防御,并评估了它们的保护效果。全面地,只有一些适当的自定义,拟议的攻击和防御方案也可以应用于一般分布式学习方案。
translated by 谷歌翻译
联邦学习(FL)提供了有希望的分布式学习范式,因为它试图通过不共享其私人培训数据来保护用户隐私。但是,最近的研究表明,FL容易受到模型反转攻击的影响,该攻击可以通过窃听共享梯度来重建用户的私人数据。现有的防御解决方案无法在更强烈的攻击中生存,并且在隐私和绩效之间表现不佳。在本文中,我们提出了一种直接而有效的防御策略,基于与隐藏数据相混淆敏感数据的梯度。具体而言,我们在迷你批次中更改一些样品,以模仿梯度水平的敏感数据。使用梯度投影技术,我们的方法试图在不牺牲FL性能的情况下模糊敏感数据。我们广泛的评估表明,与其他防御能力相比,我们的技术在保留FL性能的同时提供了最高水平的保护。我们的源代码位于存储库中。
translated by 谷歌翻译
我们调查分裂学习的安全 - 一种新颖的协作机器学习框架,通过需要最小的资源消耗来实现峰值性能。在本文中,我们通过介绍客户私人培训集重建的一般攻击策略来揭示议定书的脆弱性并展示其固有的不安全。更突出地,我们表明恶意服务器可以积极地劫持分布式模型的学习过程,并将其纳入不安全状态,从而为客户端提供推动攻击。我们实施不同的攻击调整,并在各种数据集中测试它们以及现实的威胁方案。我们证明我们的攻击能够克服最近提出的防御技术,旨在提高分裂学习议定书的安全性。最后,我们还通过扩展以前设计的联合学习的攻击来说明协议对恶意客户的不安全性。要使我们的结果可重复,我们会在https://github.com/pasquini-dario/splitn_fsha提供的代码。
translated by 谷歌翻译
培训深度神经网络通常会迫使用户在分布式或外包环境中工作,并伴随着隐私问题。 Split学习旨在通过在客户端和服务器之间分配模型来解决这一问题。该方案据说提供了隐私,因为服务器无法看到客户端的模型和输入。我们表明,通过两次新颖的攻击,这是不正确的。 (1)我们表明,只有掌握客户端神经网络体系结构知识的诚实但充满感染的分裂学习服务器可以恢复输入样本并获得与客户端模型的功能相似的模型,而无需检测到。 (2)我们证明,如果客户端仅隐藏模型的输出层以“保护”专用标签,则诚实但有趣的服务器可以完全准确地推断出标签。我们使用各种基准数据集测试我们的攻击,并反对提议的隐私增强扩展以分裂学习。我们的结果表明,明文分裂学习可能会带来严重的风险,从数据(输入)隐私到知识产权(模型参数),并且不仅仅提供虚假的安全感。
translated by 谷歌翻译
Deep learning (DL) methods have been widely applied to anomaly-based network intrusion detection system (NIDS) to detect malicious traffic. To expand the usage scenarios of DL-based methods, the federated learning (FL) framework allows multiple users to train a global model on the basis of respecting individual data privacy. However, it has not yet been systematically evaluated how robust FL-based NIDSs are against existing privacy attacks under existing defenses. To address this issue, we propose two privacy evaluation metrics designed for FL-based NIDSs, including (1) privacy score that evaluates the similarity between the original and recovered traffic features using reconstruction attacks, and (2) evasion rate against NIDSs using Generative Adversarial Network-based adversarial attack with the reconstructed benign traffic. We conduct experiments to show that existing defenses provide little protection that the corresponding adversarial traffic can even evade the SOTA NIDS Kitsune. To defend against such attacks and build a more robust FL-based NIDS, we further propose FedDef, a novel optimization-based input perturbation defense strategy with theoretical guarantee. It achieves both high utility by minimizing the gradient distance and strong privacy protection by maximizing the input distance. We experimentally evaluate four existing defenses on four datasets and show that our defense outperforms all the baselines in terms of privacy protection with up to 7 times higher privacy score, while maintaining model accuracy loss within 3% under optimal parameter combination.
translated by 谷歌翻译
Federated learning is a collaborative method that aims to preserve data privacy while creating AI models. Current approaches to federated learning tend to rely heavily on secure aggregation protocols to preserve data privacy. However, to some degree, such protocols assume that the entity orchestrating the federated learning process (i.e., the server) is not fully malicious or dishonest. We investigate vulnerabilities to secure aggregation that could arise if the server is fully malicious and attempts to obtain access to private, potentially sensitive data. Furthermore, we provide a method to further defend against such a malicious server, and demonstrate effectiveness against known attacks that reconstruct data in a federated learning setting.
translated by 谷歌翻译
在联合学习(FL)中,数据不会在联合培训机器学习模型时留下个人设备。相反,这些设备与中央党(例如,公司)共享梯度。因为数据永远不会“离开”个人设备,因此FL作为隐私保留呈现。然而,最近显示这种保护是一个薄的外观,甚至是一种被动攻击者观察梯度可以重建各个用户的数据。在本文中,我们争辩说,事先工作仍然很大程度上低估了FL的脆弱性。这是因为事先努力专门考虑被动攻击者,这些攻击者是诚实但好奇的。相反,我们介绍了一个活跃和不诚实的攻击者,作为中央会,他们能够在用户计算模型渐变之前修改共享模型的权重。我们称之为修改的重量“陷阱重量”。我们的活跃攻击者能够完全恢复用户数据,并在接近零成本时:攻击不需要复杂的优化目标。相反,它利用了模型梯度的固有数据泄漏,并通过恶意改变共享模型的权重来放大这种效果。这些特异性使我们的攻击能够扩展到具有大型迷你批次数据的模型。如果来自现有工作的攻击者需要小时才能恢复单个数据点,我们的方法需要毫秒来捕获完全连接和卷积的深度神经网络的完整百分之批次数据。最后,我们考虑缓解。我们观察到,FL中的差异隐私(DP)的当前实现是有缺陷的,因为它们明确地信任中央会,并在增加DP噪音的关键任务,因此不提供对恶意中央党的保护。我们还考虑其他防御,并解释为什么它们类似地不足。它需要重新设计FL,为用户提供任何有意义的数据隐私。
translated by 谷歌翻译
最近的研究表明,私人培训数据可以通过分布式机器学习系统(例如联合学习)(如联合学习)(如FL)泄露。增加批量大小以使数据恢复复杂化,通常被视为防止数据泄漏的有希望的防御策略。在本文中,我们重新审视该防御前提,并提出了一种高级数据泄漏攻击,具有理论上的理由,以有效地从共享聚合渐变恢复批量数据。我们将所提出的方法称为垂直联合学习(Cafe)中的灾难性数据泄漏。与现有数据泄漏攻击相比,我们对垂直流程的广泛实验结果展示了CAFE的有效性,以提高数据恢复质量。我们还提出了减轻咖啡馆的实际对策。我们的结果表明,私人数据参与标准FL,特别是垂直情况,具有从训练梯度泄露的高风险。我们的分析意味着这些学习设置中的前所未有和实际的数据泄漏风险。我们的工作代码可在https://github.com/derafael/cafe上获得。
translated by 谷歌翻译
鉴于对机器学习模型的访问,可以进行对手重建模型的培训数据?这项工作从一个强大的知情对手的镜头研究了这个问题,他们知道除了一个之外的所有培训数据点。通过实例化混凝土攻击,我们表明重建此严格威胁模型中的剩余数据点是可行的。对于凸模型(例如Logistic回归),重建攻击很简单,可以以封闭形式导出。对于更常规的模型(例如神经网络),我们提出了一种基于训练的攻击策略,该攻击策略接收作为输入攻击的模型的权重,并产生目标数据点。我们展示了我们对MNIST和CIFAR-10训练的图像分类器的攻击的有效性,并系统地研究了标准机器学习管道的哪些因素影响重建成功。最后,我们从理论上调查了有多差异的隐私足以通过知情对手减轻重建攻击。我们的工作提供了有效的重建攻击,模型开发人员可以用于评估超出以前作品中考虑的一般设置中的个别点的记忆(例如,生成语言模型或访问培训梯度);它表明,标准模型具有存储足够信息的能力,以实现培训数据点的高保真重建;它表明,差异隐私可以成功减轻该参数制度中的攻击,其中公用事业劣化最小。
translated by 谷歌翻译
Federated Learning (FL) is pervasive in privacy-focused IoT environments since it enables avoiding privacy leakage by training models with gradients instead of data. Recent works show the uploaded gradients can be employed to reconstruct data, i.e., gradient leakage attacks, and several defenses are designed to alleviate the risk by tweaking the gradients. However, these defenses exhibit weak resilience against threatening attacks, as the effectiveness builds upon the unrealistic assumptions that deep neural networks are simplified as linear models. In this paper, without such unrealistic assumptions, we present a novel defense, called Refiner, instead of perturbing gradients, which refines ground-truth data to craft robust data that yields sufficient utility but with the least amount of privacy information, and then the gradients of robust data are uploaded. To craft robust data, Refiner promotes the gradients of critical parameters associated with robust data to close ground-truth ones while leaving the gradients of trivial parameters to safeguard privacy. Moreover, to exploit the gradients of trivial parameters, Refiner utilizes a well-designed evaluation network to steer robust data far away from ground-truth data, thereby alleviating privacy leakage risk. Extensive experiments across multiple benchmark datasets demonstrate the superior defense effectiveness of Refiner at defending against state-of-the-art threats.
translated by 谷歌翻译