数据隐私已成为机器学习(ML)日益重要的问题,其中许多方法已经发展以解决这一挑战,例如,这一挑战加密(同性恋加密(HE),差异隐私(DP)等)和协作培训(安全多方计算(MPC),分布式学习和联合学习(FL))。这些技术特别侧重于数据加密或安全本地计算。他们将中间信息转移到第三方以计算最终结果。梯度交换通常被认为是在深度学习(DL)中协同训练鲁棒模型的安全方式。然而,最近的研究表明,可以从共享梯度恢复敏感信息。特别地,生成的对抗网络(GaN)已显示有效地恢复这些信息。然而,基于GaN的技术需要附加信息,例如类标签,这些标签通常不可用才能获得隐私保留的学习。在本文中,我们表明,在FL系统中,仅通过我们所提出的生成回归神经网络(GRNN)只能通过共享梯度全额从共享梯度容易地恢复基于图像的隐私数据。我们制定攻击是回归问题,并通过最小化梯度之间的距离来优化生成模型的两个分支。我们在几种图像分类任务上评估我们的方法。结果说明我们所提出的GNN优于最先进的方法,具有更好的稳定性,更强的鲁棒性和更高的准确性。它对全球流动模型也没有收敛要求。此外,我们使用面部重新识别来展示信息泄漏。在这项工作中还讨论了一些防御策略。
translated by 谷歌翻译
典型的机器学习方法需要集中数据进行模型培训,这可能是由于例如隐私和梯度保护的数据共享的限制。最近提出的联合学习(FL)框架允许在没有集中的数据或数据所有者之间共享数据,允许在没有数据共享的数据中学习共享模型。然而,我们在本文中展示了联合模型的泛化能力在非独立和非相同分布(非IID)数据上差,特别是当由于重量分歧现象而使用联邦平均(FEDAVG)策略时。我们提出了一种新颖的促进算法,用于解决这种概括问题,以及在基于梯度的优化中实现了更快的收敛速率。此外,还引入了使用同型加密(HE)和差异隐私(DP)的安全渐变共享协议来防御梯度泄漏攻击。我们展示了所提出的联邦升压(FedBoost)方法在使用公共基准测试中对文本识别任务的预测准确性和运行时间效率实现了显着提高。
translated by 谷歌翻译
联合学习已被提议作为隐私的机器学习框架,该框架使多个客户能够在不共享原始数据的情况下进行协作。但是,在此框架中,设计并不能保证客户隐私保护。先前的工作表明,联邦学习中的梯度共享策略可能容易受到数据重建攻击的影响。但是,实际上,考虑到高沟通成本或由于增强隐私要求,客户可能不会传输原始梯度。实证研究表明,梯度混淆,包括通过梯度噪声注入和通过梯度压缩的无意化混淆的意图混淆,可以提供更多的隐私保护,以防止重建攻击。在这项工作中,我们提出了一个针对联合学习中图像分类任务的新数据重建攻击框架。我们表明,通常采用的梯度后处理程序,例如梯度量化,梯度稀疏和梯度扰动,可能会在联合学习中具有错误的安全感。与先前的研究相反,我们认为不应将隐私增强视为梯度压缩的副产品。此外,我们在提出的框架下设计了一种新方法,以在语义层面重建图像。我们量化语义隐私泄漏,并根据图像相似性分数进行比较。我们的比较挑战了文献中图像数据泄漏评估方案。结果强调了在现有联合学习算法中重新审视和重新设计对客户数据的隐私保护机制的重要性。
translated by 谷歌翻译
近年来,分布式机器学习已被广​​泛用于解决大型且复杂的数据集问题。因此,分布式学习的安全也引起了学术界和行业的越来越多的注意。在这种情况下,联合学习(FL)是通过在本地维护私人培训数据来开发为“安全”分布式学习的,并且仅在之间进行公共模型梯度。但是,迄今为止,为此过程提出了各种梯度泄漏攻击,并证明它是不安全的。例如,共享这些攻击的常见缺点:它们需要过多的辅助信息,例如模型权重,优化者和某些超参数(例如,学习率),在实际情况下很难获得。此外,许多现有算法避免在FL中传输模型梯度,然后转向发送模型权重,例如FedAvg,但很少有人认为其安全性违反。在本文中,我们提出了两个新颖的框架,以证明传输模型权重还可能在FL方案下泄露客户端局部数据,即(DLM和DLM+)。此外,进行了许多实验,以说明我们的攻击框架的效果和普遍性。在本文的最后,我们还向拟议的攻击介绍了两个防御,并评估了它们的保护效果。全面地,只有一些适当的自定义,拟议的攻击和防御方案也可以应用于一般分布式学习方案。
translated by 谷歌翻译
最近的研究表明,私人培训数据可以通过分布式机器学习系统(例如联合学习)(如联合学习)(如FL)泄露。增加批量大小以使数据恢复复杂化,通常被视为防止数据泄漏的有希望的防御策略。在本文中,我们重新审视该防御前提,并提出了一种高级数据泄漏攻击,具有理论上的理由,以有效地从共享聚合渐变恢复批量数据。我们将所提出的方法称为垂直联合学习(Cafe)中的灾难性数据泄漏。与现有数据泄漏攻击相比,我们对垂直流程的广泛实验结果展示了CAFE的有效性,以提高数据恢复质量。我们还提出了减轻咖啡馆的实际对策。我们的结果表明,私人数据参与标准FL,特别是垂直情况,具有从训练梯度泄露的高风险。我们的分析意味着这些学习设置中的前所未有和实际的数据泄漏风险。我们的工作代码可在https://github.com/derafael/cafe上获得。
translated by 谷歌翻译
联合学习(FL)旨在通过使客户能够在不共享其私有数据的情况下协作构建机器学习模型来保护数据隐私。然而,最近的作品表明FL容易受到基于梯度的数据恢复攻击。保存技术的品种已经利用,以进一步提升FL的隐私。尽管如此,它们的计算或通信昂贵(例如,同态加密)或遭受精密损失(例如,差异隐私)。在这项工作中,我们提出了\ textsc {fedcg},一个新颖的\下划线{fed} erated学习方法,它利用\下划线{c} onditional \下划线{g}良好的对手网络来实现高级隐私保护,同时仍然保持竞争模型表现。更具体地说,\ textsc {fedcg}将每个客户端的本地网络分解为私有提取器和公共分类器,并保留本地提取器保护隐私。而不是暴露作为隐私泄漏的罪魁祸首的提取器,而是将客户的生成器与服务器共享,以聚合旨在增强客户端网络性能的公共知识。广泛的实验表明,与基线FL方法相比,\ TextSc {FEDCG}可以实现竞争模型性能,数值隐私分析表明\ TextSC {FEDCG}具有高级别的隐私保存能力。
translated by 谷歌翻译
最近的攻击表明,可以从FEDSGD更新中恢复用户数据,从而破坏隐私。但是,这些攻击具有有限的实际相关性,因为联邦学习通常使用FedAvg算法。与FEDSGD相比,从FedAvg更新中恢复数据要困难得多,因为:(i)更新是在未观察到的中间网络权重计算的,(ii)使用大量批次,并且(iii)标签和网络权重在客户端上同时不同脚步。在这项工作中,我们提出了一项新的基于优化的攻击,该攻击通过解决上述挑战来成功攻击FedAvg。首先,我们使用自动差异化解决了优化问题,该分化迫使客户端更新的仿真,该更新生成了恢复的标签和输入的未观察到的参数,以匹配接收到的客户端更新。其次,我们通过将来自不同时期的图像与置换不变的先验联系起来来解决大量批处理。第三,我们通过在每个FedAvg步骤中估算现有FEDSGD攻击的参数来恢复标签。在流行的女性数据集中,我们证明,平均而言,我们从现实的FedAvg更新中成功地恢复了> 45%的图像,该更新是在10个本地时期计算出的10批批次,每个批次,每个图像,每张5张图像,而使用基线仅<10%。我们的发现表明,基于FedAvg的许多现实世界联合学习实现非常脆弱。
translated by 谷歌翻译
联合学习使多个用户能够通过共享其模型更新(渐变)来构建联合模型,而其原始数据在其设备上保持本地。与常见的信念相比,这提供了隐私福利,我们在共享渐变时,我们在这里增加了隐私风险的最新结果。具体而言,我们调查梯度(LLG)的标签泄漏,这是一种新建攻击,从他们的共享梯度提取用户培训数据的标签。该攻击利用梯度的方向和幅度来确定任何标签的存在或不存在。 LLG简单且有效,能够泄漏由标签表示的电位敏感信息,并缩放到任意批量尺寸和多个类别。在数学上以及经验上证明了不同设置下攻击的有效性。此外,经验结果表明,LLG在模型训练的早期阶段以高精度成功提取标签。我们还讨论了针对这种泄漏的不同防御机制。我们的研究结果表明,梯度压缩是减轻攻击的实用技术。
translated by 谷歌翻译
Exchanging gradients is a widely used method in modern multi-node machine learning system (e.g., distributed training, collaborative learning). For a long time, people believed that gradients are safe to share: i.e., the training data will not be leaked by gradients exchange. However, we show that it is possible to obtain the private training data from the publicly shared gradients. We name this leakage as Deep Leakage from Gradient and empirically validate the effectiveness on both computer vision and natural language processing tasks. Experimental results show that our attack is much stronger than previous approaches: the recovery is pixelwise accurate for images and token-wise matching for texts. Thereby we want to raise people's awareness to rethink the gradient's safety. We also discuss several possible strategies to prevent such deep leakage. Without changes on training setting, the most effective defense method is gradient pruning.
translated by 谷歌翻译
利用梯度泄漏以重建据称为私人培训数据,梯度反演攻击是神经网络协作学习的无处不在威胁。为了防止梯度泄漏而不会遭受模型绩效严重损失的情况,最近的工作提出了一个基于变化模型作为任意模型体系结构的扩展的隐私增强模块(预编码)。在这项工作中,我们研究了预言对梯度反转攻击的影响,以揭示其基本的工作原理。我们表明,各变化建模会引起预科及其随后的层梯度的随机性,从而阻止梯度攻击的收敛性。通过在攻击优化期间有目的地省略那些随机梯度,我们制定了一种可以禁用Precode隐私保护效果的攻击。为了确保对这种有针对性攻击的隐私保护,我们将部分扰动(PPP)提出,作为变异建模和部分梯度扰动的战略组合。我们对四个开创性模型架构和两个图像分类数据集进行了广泛的实证研究。我们发现所有架构都容易梯度泄漏,可以通过PPP预防。因此,我们表明我们的方法需要较小的梯度扰动才能有效地保留隐私而不会损害模型性能。
translated by 谷歌翻译
Federated Learning是一个私人设计的分布式学习范式,客户在中央服务器汇总本地更新以计算全局模型之前,客户在自己的数据上训练本地模型。根据所使用的聚合方法,本地更新是本地学习模型的梯度或权重。最近的重建攻击对单个MiniBatch的梯度更新应用了梯度反演优化,以重建客户在培训期间使用的私人数据。由于最新的重建攻击仅关注单个更新,因此忽略了现实的对抗场景,例如跨多个小型批次训练的多个更新和更新。一些研究考虑了一个更具挑战性的对抗场景,在该场景中,只能根据多个迷你批次进行模型更新,并且可以观察到计算昂贵的模拟,以解开每个本地步骤的基本样本。在本文中,我们提出了一种新型的近似梯度反转攻击,可有效,有效地重建来自模型或梯度更新的图像,以及跨多个时期。简而言之,agic(i)近似于模型更新中使用的训练样本的梯度更新,以避免昂贵的仿真程序,(ii)利用从多个时期收集的梯度/模型更新,(iii)将权重增加到相对于层的重量增加重建质量的神经网络结构。我们在三个数据集CIFAR-10,CIFAR-100和Imagenet上广泛评估AGIC。我们的结果表明,与两种代表性的最先进的梯度反演攻击相比,AGIC将峰值信噪比(PSNR)提高了50%。此外,AGIC的速度比基于最新的模拟攻击快,例如,在模型更新之间使用8个本地步骤攻击FedAvg时,它的速度快5倍。
translated by 谷歌翻译
Differentially private federated learning (DP-FL) has received increasing attention to mitigate the privacy risk in federated learning. Although different schemes for DP-FL have been proposed, there is still a utility gap. Employing central Differential Privacy in FL (CDP-FL) can provide a good balance between the privacy and model utility, but requires a trusted server. Using Local Differential Privacy for FL (LDP-FL) does not require a trusted server, but suffers from lousy privacy-utility trade-off. Recently proposed shuffle DP based FL has the potential to bridge the gap between CDP-FL and LDP-FL without a trusted server; however, there is still a utility gap when the number of model parameters is large. In this work, we propose OLIVE, a system that combines the merits from CDP-FL and LDP-FL by leveraging Trusted Execution Environment (TEE). Our main technical contributions are the analysis and countermeasures against the vulnerability of TEE in OLIVE. Firstly, we theoretically analyze the memory access pattern leakage of OLIVE and find that there is a risk for sparsified gradients, which is common in FL. Secondly, we design an inference attack to understand how the memory access pattern could be linked to the training data. Thirdly, we propose oblivious yet efficient algorithms to prevent the memory access pattern leakage in OLIVE. Our experiments on real-world data demonstrate that OLIVE is efficient even when training a model with hundreds of thousands of parameters and effective against side-channel attacks on TEE.
translated by 谷歌翻译
基于深度学习的图像合成技术已在医疗研究中应用,用于生成医学图像以支持开放研究。培训生成的对抗神经网络(GAN)通常需要大量的培训数据。联合学习(FL)提供了一种使用来自不同医疗机构的分布式数据培训中心模型的方法,同时在本地保留原始数据。但是,FL容易受到后门攻击的攻击,这是通过中毒训练数据的对抗性攻击,因为中央服务器无法直接访问原始数据。大多数后门攻击策略都集中在分类模型和集中域。在这项研究中,我们提出了一种通过在后门攻击分类模型中使用常用的数据中毒策略来治疗歧视者来攻击联邦GAN(FEDGAN)的方法。我们证明,添加一个小扳机,其大小少于原始图像尺寸的0.5%会破坏FL-GAN模型。根据拟议的攻击,我们提供了两种有效的防御策略:全球恶意检测和当地培训正规化。我们表明,将两种防御策略结合起来会产生强大的医疗形象。
translated by 谷歌翻译
Federated learning is a collaborative method that aims to preserve data privacy while creating AI models. Current approaches to federated learning tend to rely heavily on secure aggregation protocols to preserve data privacy. However, to some degree, such protocols assume that the entity orchestrating the federated learning process (i.e., the server) is not fully malicious or dishonest. We investigate vulnerabilities to secure aggregation that could arise if the server is fully malicious and attempts to obtain access to private, potentially sensitive data. Furthermore, we provide a method to further defend against such a malicious server, and demonstrate effectiveness against known attacks that reconstruct data in a federated learning setting.
translated by 谷歌翻译
对协作学习的实证攻击表明,深度神经网络的梯度不仅可以披露训练数据的私有潜在属性,还可以用于重建原始数据。虽然先前的作品试图量化了梯度的隐私风险,但这些措施没有建立理论上对梯度泄漏的理解了解,而不是跨越攻击者的概括,并且不能完全解释通过实际攻击在实践中通过实证攻击观察到的内容。在本文中,我们介绍了理论上激励的措施,以量化攻击依赖和攻击无关方式的信息泄漏。具体而言,我们展示了$ \ mathcal {v} $ - 信息的适应,它概括了经验攻击成功率,并允许量化可以从任何所选择的攻击模型系列泄漏的信息量。然后,我们提出了独立的措施,只需要共享梯度,用于量化原始和潜在信息泄漏。我们的经验结果,六个数据集和四种流行型号,揭示了第一层的梯度包含最高量的原始信息,而(卷积)特征提取器层之后的(完全连接的)分类层包含最高的潜在信息。此外,我们展示了如何在训练期间诸如梯度聚集的技术如何减轻信息泄漏。我们的工作为更好的防御方式铺平了道路,例如基于层的保护或强聚合。
translated by 谷歌翻译
联合学习(FL)是一种分布式机器学习方法,其中多个客户在不交换数据的情况下协作培训联合模型。尽管FL在数据隐私保护方面取得了前所未有的成功,但其对自由骑手攻击的脆弱性吸引了人们越来越多的关注。现有的防御能力可能对高度伪装或高百分比的自由骑手无效。为了应对这些挑战,我们从新颖的角度重新考虑防御,即模型重量不断发展的频率。从经验上讲,我们获得了一种新颖的见解,即在FL的训练中,模型权重的频率不断发展,自由骑机的频率和良性客户的频率显着不同的。受到这种见解的启发,我们提出了一种基于模型权重演化频率的新型防御方法,称为WEF-DEFENSE。特别是,我们在本地训练期间首先收集重量演变的频率(定义为WEF-MATRIX)。对于每个客户端,它将本地型号的WEF-Matrix与每个迭代的模型重量一起上传到服务器。然后,服务器根据WEF-Matrix的差异将自由骑士与良性客户端分开。最后,服务器使用个性化方法为相应的客户提供不同的全局模型。在五个数据集和五个模型上进行的全面实验表明,与最先进的基线相比,WEF防御能力更好。
translated by 谷歌翻译
联邦学习(FL)提供了有希望的分布式学习范式,因为它试图通过不共享其私人培训数据来保护用户隐私。但是,最近的研究表明,FL容易受到模型反转攻击的影响,该攻击可以通过窃听共享梯度来重建用户的私人数据。现有的防御解决方案无法在更强烈的攻击中生存,并且在隐私和绩效之间表现不佳。在本文中,我们提出了一种直接而有效的防御策略,基于与隐藏数据相混淆敏感数据的梯度。具体而言,我们在迷你批次中更改一些样品,以模仿梯度水平的敏感数据。使用梯度投影技术,我们的方法试图在不牺牲FL性能的情况下模糊敏感数据。我们广泛的评估表明,与其他防御能力相比,我们的技术在保留FL性能的同时提供了最高水平的保护。我们的源代码位于存储库中。
translated by 谷歌翻译
Federated learning achieves joint training of deep models by connecting decentralized data sources, which can significantly mitigate the risk of privacy leakage. However, in a more general case, the distributions of labels among clients are different, called ``label distribution skew''. Directly applying conventional federated learning without consideration of label distribution skew issue significantly hurts the performance of the global model. To this end, we propose a novel federated learning method, named FedMGD, to alleviate the performance degradation caused by the label distribution skew issue. It introduces a global Generative Adversarial Network to model the global data distribution without access to local datasets, so the global model can be trained using the global information of data distribution without privacy leakage. The experimental results demonstrate that our proposed method significantly outperforms the state-of-the-art on several public benchmarks. Code is available at \url{https://github.com/Sheng-T/FedMGD}.
translated by 谷歌翻译
由于联邦学习(FL)的分布性质,研究人员发现FL容易受到后门攻击的影响,该攻击旨在将子任务注入FL而不破坏主要任务的性能。当在FL模型收敛上注入时,单发后门攻击在主要任务和后门子任务上都可以达到高度精度。但是,早期注射的单发后门攻击是无效的,因为:(1)由于正常局部更新的稀释效果,在注射时未达到最大的后门效果; (2)后门效应迅速下降,因为后门将被新的普通本地更新所覆盖。在本文中,我们利用FL模型信息泄漏加强了早期注射的单发后门攻击。我们表明,如果客户在模拟整个人群的分布和梯度的数据集上进行训练,则可以加快FL收敛速度。基于这一观察结果,我们提出了两阶段的后门攻击,其中包括随后的后门攻击的初步阶段。在初步阶段,受攻击者控制的客户首先启动了整个人口分布推理攻击,然后在本地制作的数据集上进行训练,该数据集与梯度和推断分布保持一致。从初步阶段中受益,后来注射的后门实现了更好的有效性,因为后门效应不太可能被普通模型更新稀释。在各种数据异质性设置下,在MNIST数据集上进行了广泛的实验,以评估拟议的后门攻击的有效性。结果表明,即使有防御机制,该提议的后门以成功率和寿命都优于现有的后门攻击。
translated by 谷歌翻译
在联合学习(FL)中,数据不会在联合培训机器学习模型时留下个人设备。相反,这些设备与中央党(例如,公司)共享梯度。因为数据永远不会“离开”个人设备,因此FL作为隐私保留呈现。然而,最近显示这种保护是一个薄的外观,甚至是一种被动攻击者观察梯度可以重建各个用户的数据。在本文中,我们争辩说,事先工作仍然很大程度上低估了FL的脆弱性。这是因为事先努力专门考虑被动攻击者,这些攻击者是诚实但好奇的。相反,我们介绍了一个活跃和不诚实的攻击者,作为中央会,他们能够在用户计算模型渐变之前修改共享模型的权重。我们称之为修改的重量“陷阱重量”。我们的活跃攻击者能够完全恢复用户数据,并在接近零成本时:攻击不需要复杂的优化目标。相反,它利用了模型梯度的固有数据泄漏,并通过恶意改变共享模型的权重来放大这种效果。这些特异性使我们的攻击能够扩展到具有大型迷你批次数据的模型。如果来自现有工作的攻击者需要小时才能恢复单个数据点,我们的方法需要毫秒来捕获完全连接和卷积的深度神经网络的完整百分之批次数据。最后,我们考虑缓解。我们观察到,FL中的差异隐私(DP)的当前实现是有缺陷的,因为它们明确地信任中央会,并在增加DP噪音的关键任务,因此不提供对恶意中央党的保护。我们还考虑其他防御,并解释为什么它们类似地不足。它需要重新设计FL,为用户提供任何有意义的数据隐私。
translated by 谷歌翻译