最近的研究表明,私人培训数据可以通过分布式机器学习系统(例如联合学习)(如联合学习)(如FL)泄露。增加批量大小以使数据恢复复杂化,通常被视为防止数据泄漏的有希望的防御策略。在本文中,我们重新审视该防御前提,并提出了一种高级数据泄漏攻击,具有理论上的理由,以有效地从共享聚合渐变恢复批量数据。我们将所提出的方法称为垂直联合学习(Cafe)中的灾难性数据泄漏。与现有数据泄漏攻击相比,我们对垂直流程的广泛实验结果展示了CAFE的有效性,以提高数据恢复质量。我们还提出了减轻咖啡馆的实际对策。我们的结果表明,私人数据参与标准FL,特别是垂直情况,具有从训练梯度泄露的高风险。我们的分析意味着这些学习设置中的前所未有和实际的数据泄漏风险。我们的工作代码可在https://github.com/derafael/cafe上获得。
translated by 谷歌翻译
近年来,分布式机器学习已被广​​泛用于解决大型且复杂的数据集问题。因此,分布式学习的安全也引起了学术界和行业的越来越多的注意。在这种情况下,联合学习(FL)是通过在本地维护私人培训数据来开发为“安全”分布式学习的,并且仅在之间进行公共模型梯度。但是,迄今为止,为此过程提出了各种梯度泄漏攻击,并证明它是不安全的。例如,共享这些攻击的常见缺点:它们需要过多的辅助信息,例如模型权重,优化者和某些超参数(例如,学习率),在实际情况下很难获得。此外,许多现有算法避免在FL中传输模型梯度,然后转向发送模型权重,例如FedAvg,但很少有人认为其安全性违反。在本文中,我们提出了两个新颖的框架,以证明传输模型权重还可能在FL方案下泄露客户端局部数据,即(DLM和DLM+)。此外,进行了许多实验,以说明我们的攻击框架的效果和普遍性。在本文的最后,我们还向拟议的攻击介绍了两个防御,并评估了它们的保护效果。全面地,只有一些适当的自定义,拟议的攻击和防御方案也可以应用于一般分布式学习方案。
translated by 谷歌翻译
数据隐私已成为机器学习(ML)日益重要的问题,其中许多方法已经发展以解决这一挑战,例如,这一挑战加密(同性恋加密(HE),差异隐私(DP)等)和协作培训(安全多方计算(MPC),分布式学习和联合学习(FL))。这些技术特别侧重于数据加密或安全本地计算。他们将中间信息转移到第三方以计算最终结果。梯度交换通常被认为是在深度学习(DL)中协同训练鲁棒模型的安全方式。然而,最近的研究表明,可以从共享梯度恢复敏感信息。特别地,生成的对抗网络(GaN)已显示有效地恢复这些信息。然而,基于GaN的技术需要附加信息,例如类标签,这些标签通常不可用才能获得隐私保留的学习。在本文中,我们表明,在FL系统中,仅通过我们所提出的生成回归神经网络(GRNN)只能通过共享梯度全额从共享梯度容易地恢复基于图像的隐私数据。我们制定攻击是回归问题,并通过最小化梯度之间的距离来优化生成模型的两个分支。我们在几种图像分类任务上评估我们的方法。结果说明我们所提出的GNN优于最先进的方法,具有更好的稳定性,更强的鲁棒性和更高的准确性。它对全球流动模型也没有收敛要求。此外,我们使用面部重新识别来展示信息泄漏。在这项工作中还讨论了一些防御策略。
translated by 谷歌翻译
在联合学习等协作学习环境中,好奇的疗程可能是诚实的,但正在通过推理攻击试图通过推断攻击推断其他方的私人数据,而恶意缔约方可能会通过后门攻击操纵学习过程。但是,大多数现有的作品只考虑通过样本(HFL)划分数据的联合学习场景。特征分区联合学习(VFL)可以是许多真实应用程序中的另一个重要方案。当攻击者和防守者无法访问其他参与者的功能或模型参数时,这种情况下的攻击和防御尤其挑战。以前的作品仅显示了可以从每个样本渐变重建私有标签。在本文中,我们首先表明,只有批量平均梯度被揭示时,可以重建私人标签,这是针对常见的推定。此外,我们表明VFL中的被动派对甚至可以通过梯度替换攻击将其相应的标签用目标标签替换为目标标签。为了防御第一次攻击,我们介绍了一种基于AutoEncoder和熵正则化的混乱自动化器(CoAE)的新技术。我们证明,与现有方法相比,这种技术可以成功阻止标签推理攻击,同时损害较少的主要任务准确性。我们的COAE技术在捍卫梯度替代后门攻击方面也有效,使其成为一个普遍和实用的防御策略,没有改变原来的VFL协议。我们展示了我们双方和多方VFL设置下的方法的有效性。据我们所知,这是第一次处理特征分区联合学习框架中的标签推理和后门攻击的第一个系统研究。
translated by 谷歌翻译
联邦学习(FL)引起了人们对在存储在多个用户中的数据中启用隐私的机器学习的兴趣,同时避免将数据移动到偏离设备上。但是,尽管数据永远不会留下用户的设备,但仍然无法保证隐私,因为用户培训数据的重大计算以训练有素的本地模型的形式共享。最近,这些本地模型通过不同的隐私攻击(例如模型反演攻击)构成了实质性的隐私威胁。作为一种补救措施,通过保证服务器只能学习全局聚合模型更新,而不是单个模型更新,从而开发了安全汇总(SA)作为保护佛罗里达隐私的框架。尽管SA确保没有泄漏有关单个模型更新超出汇总模型更新的其他信息,但对于SA实际上可以提供多少私密性fl,没有正式的保证;由于有关单个数据集的信息仍然可以通过在服务器上计算的汇总模型泄漏。在这项工作中,我们对使用SA的FL的正式隐私保证进行了首次分析。具体而言,我们使用共同信息(MI)作为定量度量,并在每个用户数据集的信息上可以通过汇总的模型更新泄漏有关多少信息。当使用FEDSGD聚合算法时,我们的理论界限表明,隐私泄漏量随着SA参与FL的用户数量而线性减少。为了验证我们的理论界限,我们使用MI神经估计量来凭经验评估MNIST和CIFAR10数据集的不同FL设置下的隐私泄漏。我们的实验验证了FEDSGD的理论界限,随着用户数量和本地批量的增长,隐私泄漏的减少,并且随着培训回合的数量,隐私泄漏的增加。
translated by 谷歌翻译
最近的攻击表明,可以从FEDSGD更新中恢复用户数据,从而破坏隐私。但是,这些攻击具有有限的实际相关性,因为联邦学习通常使用FedAvg算法。与FEDSGD相比,从FedAvg更新中恢复数据要困难得多,因为:(i)更新是在未观察到的中间网络权重计算的,(ii)使用大量批次,并且(iii)标签和网络权重在客户端上同时不同脚步。在这项工作中,我们提出了一项新的基于优化的攻击,该攻击通过解决上述挑战来成功攻击FedAvg。首先,我们使用自动差异化解决了优化问题,该分化迫使客户端更新的仿真,该更新生成了恢复的标签和输入的未观察到的参数,以匹配接收到的客户端更新。其次,我们通过将来自不同时期的图像与置换不变的先验联系起来来解决大量批处理。第三,我们通过在每个FedAvg步骤中估算现有FEDSGD攻击的参数来恢复标签。在流行的女性数据集中,我们证明,平均而言,我们从现实的FedAvg更新中成功地恢复了> 45%的图像,该更新是在10个本地时期计算出的10批批次,每个批次,每个图像,每张5张图像,而使用基线仅<10%。我们的发现表明,基于FedAvg的许多现实世界联合学习实现非常脆弱。
translated by 谷歌翻译
在联合学习(FL)中,数据不会在联合培训机器学习模型时留下个人设备。相反,这些设备与中央党(例如,公司)共享梯度。因为数据永远不会“离开”个人设备,因此FL作为隐私保留呈现。然而,最近显示这种保护是一个薄的外观,甚至是一种被动攻击者观察梯度可以重建各个用户的数据。在本文中,我们争辩说,事先工作仍然很大程度上低估了FL的脆弱性。这是因为事先努力专门考虑被动攻击者,这些攻击者是诚实但好奇的。相反,我们介绍了一个活跃和不诚实的攻击者,作为中央会,他们能够在用户计算模型渐变之前修改共享模型的权重。我们称之为修改的重量“陷阱重量”。我们的活跃攻击者能够完全恢复用户数据,并在接近零成本时:攻击不需要复杂的优化目标。相反,它利用了模型梯度的固有数据泄漏,并通过恶意改变共享模型的权重来放大这种效果。这些特异性使我们的攻击能够扩展到具有大型迷你批次数据的模型。如果来自现有工作的攻击者需要小时才能恢复单个数据点,我们的方法需要毫秒来捕获完全连接和卷积的深度神经网络的完整百分之批次数据。最后,我们考虑缓解。我们观察到,FL中的差异隐私(DP)的当前实现是有缺陷的,因为它们明确地信任中央会,并在增加DP噪音的关键任务,因此不提供对恶意中央党的保护。我们还考虑其他防御,并解释为什么它们类似地不足。它需要重新设计FL,为用户提供任何有意义的数据隐私。
translated by 谷歌翻译
恶意攻击者和诚实但有趣的服务器可以从联合学习中上传的梯度中窃取私人客户数据。尽管当前的保护方法(例如,添加剂同构密码系统)可以保证联合学习系统的安全性,但它们带来了额外的计算和通信成本。为了减轻成本,我们提出了\ texttt {fedage}框架,该框架使服务器能够在编码域中汇总梯度,而无需访问任何单个客户端的原始梯度。因此,\ texttt {fedage}可以防止好奇的服务器逐渐窃取,同时保持相同的预测性能而没有额外的通信成本。此外,从理论上讲,我们证明所提出的编码编码框架是具有差异隐私的高斯机制。最后,我们在几个联合设置下评估\ texttt {fedage},结果证明了提出的框架的功效。
translated by 谷歌翻译
Deep learning (DL) methods have been widely applied to anomaly-based network intrusion detection system (NIDS) to detect malicious traffic. To expand the usage scenarios of DL-based methods, the federated learning (FL) framework allows multiple users to train a global model on the basis of respecting individual data privacy. However, it has not yet been systematically evaluated how robust FL-based NIDSs are against existing privacy attacks under existing defenses. To address this issue, we propose two privacy evaluation metrics designed for FL-based NIDSs, including (1) privacy score that evaluates the similarity between the original and recovered traffic features using reconstruction attacks, and (2) evasion rate against NIDSs using Generative Adversarial Network-based adversarial attack with the reconstructed benign traffic. We conduct experiments to show that existing defenses provide little protection that the corresponding adversarial traffic can even evade the SOTA NIDS Kitsune. To defend against such attacks and build a more robust FL-based NIDS, we further propose FedDef, a novel optimization-based input perturbation defense strategy with theoretical guarantee. It achieves both high utility by minimizing the gradient distance and strong privacy protection by maximizing the input distance. We experimentally evaluate four existing defenses on four datasets and show that our defense outperforms all the baselines in terms of privacy protection with up to 7 times higher privacy score, while maintaining model accuracy loss within 3% under optimal parameter combination.
translated by 谷歌翻译
梯度反转攻击(或从梯度的输入恢复)是对联合学习的安全和隐私保存的新出现威胁,由此,协议中的恶意窃听者或参与者可以恢复(部分)客户的私有数据。本文评估了现有的攻击和防御。我们发现一些攻击对设置产生了强烈的假设。放松这种假设可以大大削弱这些攻击。然后,我们评估三种拟议的防御机制对梯度反转攻击的好处。我们展示了这些防御方法的隐私泄漏和数据效用的权衡,并发现以适当的方式将它们与它们相结合使得攻击较低,即使在原始的强烈假设下。我们还估计每个评估的防御下单个图像的端到端恢复的计算成本。我们的研究结果表明,目前可以针对较小的数据公用事业损失来捍卫最先进的攻击,如潜在策略的列表中总结。我们的代码可用于:https://github.com/princeton-sysml/gradattack。
translated by 谷歌翻译
分布式深度学习框架(例如分裂学习)在培训深神经网络的计算成本以及一组数据持有人的集体数据的隐私性利用方面为巨大的好处。特别是,通过将神经网络分配在客户端和服务器之间,以便客户端计算初始图层集,并且服务器计算其余的。但是,此方法引入了试图窃取客户端数据的恶意服务器的唯一攻击向量:该服务器可以将客户端模型引导到学习其选择的任何任务,例如倾向于输出易于可逆值。有了一个已经提出的具体示例(Pasquini等,CCS '21),这种训练式攻击攻击构成了分裂学习客户的数据隐私的重大风险。在本文中,我们提出了SplitGuard,该方法可以通过这种方法来检测该方法是否是通过训练式攻击攻击的目标。我们通过实验评估方法的有效性,将其与潜在的替代方案进行比较,并详细讨论与其使用相关的各个点。我们得出的结论是,Splitguard可以有效地检测训练式攻击,同时最大程度地减少对手回收的信息量。
translated by 谷歌翻译
Differentially private federated learning (DP-FL) has received increasing attention to mitigate the privacy risk in federated learning. Although different schemes for DP-FL have been proposed, there is still a utility gap. Employing central Differential Privacy in FL (CDP-FL) can provide a good balance between the privacy and model utility, but requires a trusted server. Using Local Differential Privacy for FL (LDP-FL) does not require a trusted server, but suffers from lousy privacy-utility trade-off. Recently proposed shuffle DP based FL has the potential to bridge the gap between CDP-FL and LDP-FL without a trusted server; however, there is still a utility gap when the number of model parameters is large. In this work, we propose OLIVE, a system that combines the merits from CDP-FL and LDP-FL by leveraging Trusted Execution Environment (TEE). Our main technical contributions are the analysis and countermeasures against the vulnerability of TEE in OLIVE. Firstly, we theoretically analyze the memory access pattern leakage of OLIVE and find that there is a risk for sparsified gradients, which is common in FL. Secondly, we design an inference attack to understand how the memory access pattern could be linked to the training data. Thirdly, we propose oblivious yet efficient algorithms to prevent the memory access pattern leakage in OLIVE. Our experiments on real-world data demonstrate that OLIVE is efficient even when training a model with hundreds of thousands of parameters and effective against side-channel attacks on TEE.
translated by 谷歌翻译
最近的研究表明,训练样本可以从梯度中回收,这些梯度称为梯度反转(Gradinv)攻击。但是,仍然缺乏广泛的调查,涵盖了最近的进步和对该问题的彻底分析。在本文中,我们介绍了有关Gradinv的全面调查,旨在总结尖端研究并扩大不同领域的视野。首先,我们通过将现有攻击描述为两个范式:基于迭代和递归的攻击,提出了Gradinv攻击的分类法。特别是,我们从基于迭代的攻击中挖掘出一些关键成分,包括数据初始化,模型培训和梯度匹配。其次,我们总结了针对Gradinv攻击的新兴防御策略。我们发现这些方法侧重于三种观点,涵盖了数据的晦涩,模型改进和梯度保护。最后,我们讨论了一些有希望的方向和开放问题,以进行进一步研究。
translated by 谷歌翻译
联合学习(FL)是一种保护隐私的范式,其中多个参与者共同解决机器学习问题而无需共享原始数据。与传统的分布式学习不同,FL的独特特征是统计异质性,即,跨参与者的数据分布彼此不同。同时,神经网络解释的最新进展已广泛使用神经切线核(NTK)进行收敛分析。在本文中,我们提出了一个新颖的FL范式,该范式由NTK框架赋予了能力。该范式通过传输比常规FL范式更具表现力的更新数据来解决统计异质性的挑战。具体而言,通过样本的雅各布矩阵,而不是模型的权重/梯度,由参与者上传。然后,服务器构建了经验内核矩阵,以更新全局模型,而无需明确执行梯度下降。我们进一步开发了一种具有提高沟通效率和增强隐私性的变体。数值结果表明,与联邦平均相比,所提出的范式可以达到相同的精度,同时将通信弹的数量减少数量级。
translated by 谷歌翻译
我们考虑垂直逻辑回归(VLR)接受了迷你批次梯度下降训练,这种环境吸引了行业日益增长的兴趣,并被证明在包括金融和医学研究在内的广泛应用中很有用。我们在一系列开源联合学习框架中提供了对VLR的全面和严格的隐私分析,其中协议之间可能会有所不同,但是获得了获得本地梯度的过程。我们首先考虑了诚实而有趣的威胁模型,其中忽略了协议的详细实施,并且仅假定共享过程,我们将其作为甲骨文提取。我们发现,即使在这种一般环境下,在适当的批处理大小约束下,仍然可以从另一方恢复单维功能和标签,从而证明了遵循相同理念的所有框架的潜在脆弱性。然后,我们研究基于同态加密(HE)的协议的流行实例。我们提出了一种主动攻击,该攻击通过生成和压缩辅助密文来显着削弱对先前分析中批处理大小的约束。为了解决基于HE的协议中的隐私泄漏,我们基于差异隐私(DP)开发了一种简单的对策,并为更新的算法提供实用程序和隐私保证。最后,我们从经验上验证了我们对基准数据集的攻击和防御的有效性。总之,我们的发现表明,仅依靠他的所有垂直联合学习框架可能包含严重的隐私风险,而DP已经证明了其在水平联合学习中的力量,也可以在垂直环境中起着至关重要的作用,尤其是当耦合时使用HE或安全的多方计算(MPC)技术。
translated by 谷歌翻译
对协作学习的实证攻击表明,深度神经网络的梯度不仅可以披露训练数据的私有潜在属性,还可以用于重建原始数据。虽然先前的作品试图量化了梯度的隐私风险,但这些措施没有建立理论上对梯度泄漏的理解了解,而不是跨越攻击者的概括,并且不能完全解释通过实际攻击在实践中通过实证攻击观察到的内容。在本文中,我们介绍了理论上激励的措施,以量化攻击依赖和攻击无关方式的信息泄漏。具体而言,我们展示了$ \ mathcal {v} $ - 信息的适应,它概括了经验攻击成功率,并允许量化可以从任何所选择的攻击模型系列泄漏的信息量。然后,我们提出了独立的措施,只需要共享梯度,用于量化原始和潜在信息泄漏。我们的经验结果,六个数据集和四种流行型号,揭示了第一层的梯度包含最高量的原始信息,而(卷积)特征提取器层之后的(完全连接的)分类层包含最高的潜在信息。此外,我们展示了如何在训练期间诸如梯度聚集的技术如何减轻信息泄漏。我们的工作为更好的防御方式铺平了道路,例如基于层的保护或强聚合。
translated by 谷歌翻译
联合学习(FL)和分裂学习(SL)是两种新兴的协作学习方法,可能会极大地促进物联网(IoT)中无处不在的智能。联合学习使机器学习(ML)模型在本地培训的模型使用私人数据汇总为全球模型。分裂学习使ML模型的不同部分可以在学习框架中对不同工人进行协作培训。联合学习和分裂学习,每个学习都有独特的优势和各自的局限性,可能会相互补充,在物联网中无处不在的智能。因此,联合学习和分裂学习的结合最近成为一个活跃的研究领域,引起了广泛的兴趣。在本文中,我们回顾了联合学习和拆分学习方面的最新发展,并介绍了有关最先进技术的调查,该技术用于将这两种学习方法组合在基于边缘计算的物联网环境中。我们还确定了一些开放问题,并讨论了该领域未来研究的可能方向,希望进一步引起研究界对这个新兴领域的兴趣。
translated by 谷歌翻译
联合学习使多个用户能够通过共享其模型更新(渐变)来构建联合模型,而其原始数据在其设备上保持本地。与常见的信念相比,这提供了隐私福利,我们在共享渐变时,我们在这里增加了隐私风险的最新结果。具体而言,我们调查梯度(LLG)的标签泄漏,这是一种新建攻击,从他们的共享梯度提取用户培训数据的标签。该攻击利用梯度的方向和幅度来确定任何标签的存在或不存在。 LLG简单且有效,能够泄漏由标签表示的电位敏感信息,并缩放到任意批量尺寸和多个类别。在数学上以及经验上证明了不同设置下攻击的有效性。此外,经验结果表明,LLG在模型训练的早期阶段以高精度成功提取标签。我们还讨论了针对这种泄漏的不同防御机制。我们的研究结果表明,梯度压缩是减轻攻击的实用技术。
translated by 谷歌翻译
Federated Learning是一个私人设计的分布式学习范式,客户在中央服务器汇总本地更新以计算全局模型之前,客户在自己的数据上训练本地模型。根据所使用的聚合方法,本地更新是本地学习模型的梯度或权重。最近的重建攻击对单个MiniBatch的梯度更新应用了梯度反演优化,以重建客户在培训期间使用的私人数据。由于最新的重建攻击仅关注单个更新,因此忽略了现实的对抗场景,例如跨多个小型批次训练的多个更新和更新。一些研究考虑了一个更具挑战性的对抗场景,在该场景中,只能根据多个迷你批次进行模型更新,并且可以观察到计算昂贵的模拟,以解开每个本地步骤的基本样本。在本文中,我们提出了一种新型的近似梯度反转攻击,可有效,有效地重建来自模型或梯度更新的图像,以及跨多个时期。简而言之,agic(i)近似于模型更新中使用的训练样本的梯度更新,以避免昂贵的仿真程序,(ii)利用从多个时期收集的梯度/模型更新,(iii)将权重增加到相对于层的重量增加重建质量的神经网络结构。我们在三个数据集CIFAR-10,CIFAR-100和Imagenet上广泛评估AGIC。我们的结果表明,与两种代表性的最先进的梯度反演攻击相比,AGIC将峰值信噪比(PSNR)提高了50%。此外,AGIC的速度比基于最新的模拟攻击快,例如,在模型更新之间使用8个本地步骤攻击FedAvg时,它的速度快5倍。
translated by 谷歌翻译
由于联邦学习(FL)的分布性质,研究人员发现FL容易受到后门攻击的影响,该攻击旨在将子任务注入FL而不破坏主要任务的性能。当在FL模型收敛上注入时,单发后门攻击在主要任务和后门子任务上都可以达到高度精度。但是,早期注射的单发后门攻击是无效的,因为:(1)由于正常局部更新的稀释效果,在注射时未达到最大的后门效果; (2)后门效应迅速下降,因为后门将被新的普通本地更新所覆盖。在本文中,我们利用FL模型信息泄漏加强了早期注射的单发后门攻击。我们表明,如果客户在模拟整个人群的分布和梯度的数据集上进行训练,则可以加快FL收敛速度。基于这一观察结果,我们提出了两阶段的后门攻击,其中包括随后的后门攻击的初步阶段。在初步阶段,受攻击者控制的客户首先启动了整个人口分布推理攻击,然后在本地制作的数据集上进行训练,该数据集与梯度和推断分布保持一致。从初步阶段中受益,后来注射的后门实现了更好的有效性,因为后门效应不太可能被普通模型更新稀释。在各种数据异质性设置下,在MNIST数据集上进行了广泛的实验,以评估拟议的后门攻击的有效性。结果表明,即使有防御机制,该提议的后门以成功率和寿命都优于现有的后门攻击。
translated by 谷歌翻译