对预测中使用的机器学习模型的安全问题包括模型的隐私,查询和结果。已经开发了基于同态加密(HE)和/或多方计算(MPC)的安全推理解决方案,以保护所有敏感信息。最有效的解决方案之一是将HE用于线性层,而MPC用于非线性层。但是,对于具有半honest安全性的此类混合协议,对手可以在推理过程中的中间功能进行介绍,并比针对明文中的推理服务更有效地提取模型信息。在本文中,我们建议Seek,一种用于仅输出类标签的混合安全推理服务的一般提取方法。该方法可以独立提取目标模型的每个层,并且不受模型深度的影响。对于RESNET-18,Seek可以平均提取一个少于50个查询的参数,平均误差小于$ 0.03 \%$。
translated by 谷歌翻译
联合学习允许一组用户在私人训练数据集中培训深度神经网络。在协议期间,数据集永远不会留下各个用户的设备。这是通过要求每个用户向中央服务器发送“仅”模型更新来实现,从而汇总它们以更新深神经网络的参数。然而,已经表明,每个模型更新都具有关于用户数据集的敏感信息(例如,梯度反转攻击)。联合学习的最先进的实现通过利用安全聚合来保护这些模型更新:安全监控协议,用于安全地计算用户的模型更新的聚合。安全聚合是关键,以保护用户的隐私,因为它会阻碍服务器学习用户提供的个人模型更新的源,防止推断和数据归因攻击。在这项工作中,我们表明恶意服务器可以轻松地阐明安全聚合,就像后者未到位一样。我们设计了两种不同的攻击,能够在参与安全聚合的用户数量上,独立于参与安全聚合的用户数。这使得它们在大规模现实世界联邦学习应用中的具体威胁。攻击是通用的,不瞄准任何特定的安全聚合协议。即使安全聚合协议被其理想功能替换为提供完美的安全性的理想功能,它们也同样有效。我们的工作表明,安全聚合与联合学习相结合,当前实施只提供了“虚假的安全感”。
translated by 谷歌翻译
联邦机器学习利用边缘计算来开发网络用户数据的模型,但联合学习的隐私仍然是一个重大挑战。已经提出了使用差异隐私的技术来解决这一点,但是带来了自己的挑战 - 许多人需要一个值得信赖的第三方,或者增加了太多的噪音来生产有用的模型。使用多方计算的\ EMPH {SERVE聚合}的最新进步消除了对第三方的需求,但是在计算上尤其在规模上昂贵。我们提出了一种新的联合学习协议,利用了一种基于与错误学习的技术的新颖差异私有的恶意安全聚合协议。我们的协议优于当前最先进的技术,并且经验结果表明它缩放到大量方面,具有任何差别私有联合学习方案的最佳精度。
translated by 谷歌翻译
Machine learning is widely used in practice to produce predictive models for applications such as image processing, speech and text recognition. These models are more accurate when trained on large amount of data collected from different sources. However, the massive data collection raises privacy concerns.In this paper, we present new and efficient protocols for privacy preserving machine learning for linear regression, logistic regression and neural network training using the stochastic gradient descent method. Our protocols fall in the two-server model where data owners distribute their private data among two non-colluding servers who train various models on the joint data using secure two-party computation (2PC). We develop new techniques to support secure arithmetic operations on shared decimal numbers, and propose MPC-friendly alternatives to non-linear functions such as sigmoid and softmax that are superior to prior work. We implement our system in C++. Our experiments validate that our protocols are several orders of magnitude faster than the state of the art implementations for privacy preserving linear and logistic regressions, and scale to millions of data samples with thousands of features. We also implement the first privacy preserving system for training neural networks.
translated by 谷歌翻译
已经提出了安全的多方计算(MPC),以允许多个相互不信任的数据所有者在其合并数据上共同训练机器学习(ML)模型。但是,通过设计,MPC协议忠实地计算了训练功能,对抗性ML社区已证明该功能泄漏了私人信息,并且可以在中毒攻击中篡改。在这项工作中,我们认为在我们的框架中实现的模型合奏是一种称为Safenet的框架,是MPC的高度无限方法,可以避免许多对抗性ML攻击。 MPC培训中所有者之间数据的自然分区允许这种方法在训练时间高度可扩展,可证明可保护免受中毒攻击的保护,并证明可以防御许多隐私攻击。我们展示了Safenet对在端到端和转移学习方案训练的几个机器学习数据集和模型上中毒的效率,准确性和韧性。例如,Safenet可显着降低后门攻击的成功,同时获得$ 39 \ times $ $的培训,$ 36 \ times $ $ $少于达尔斯科夫(Dalskov)等人的四方MPC框架。我们的实验表明,即使在许多非IID设置中,结合也能保留这些好处。结合的简单性,廉价的设置和鲁棒性属性使其成为MPC私下培训ML模型的强大首选。
translated by 谷歌翻译
机器学习与服务(MLAAS)已成为广泛的范式,即使是通过例如,也是客户可用的最复杂的机器学习模型。一个按要求的原则。这使用户避免了数据收集,超参数调整和模型培训的耗时过程。但是,通过让客户访问(预测)模型,MLAAS提供商危害其知识产权,例如敏感培训数据,优化的超参数或学到的模型参数。对手可以仅使用预测标签创建模型的副本,并以(几乎)相同的行为。尽管已经描述了这种攻击的许多变体,但仅提出了零星的防御策略,以解决孤立的威胁。这增加了对模型窃取领域进行彻底系统化的必要性,以全面了解这些攻击是成功的原因,以及如何全面地捍卫它们。我们通过对模型窃取攻击,评估其性能以及探索不同设置中相应的防御技术来解决这一问题。我们为攻击和防御方法提出了分类法,并提供有关如何根据目标和可用资源选择正确的攻击或防御策略的准则。最后,我们分析了当前攻击策略使哪些防御能力降低。
translated by 谷歌翻译
Federated learning is a collaborative method that aims to preserve data privacy while creating AI models. Current approaches to federated learning tend to rely heavily on secure aggregation protocols to preserve data privacy. However, to some degree, such protocols assume that the entity orchestrating the federated learning process (i.e., the server) is not fully malicious or dishonest. We investigate vulnerabilities to secure aggregation that could arise if the server is fully malicious and attempts to obtain access to private, potentially sensitive data. Furthermore, we provide a method to further defend against such a malicious server, and demonstrate effectiveness against known attacks that reconstruct data in a federated learning setting.
translated by 谷歌翻译
Machine Learning as a service (MLaaS) permits resource-limited clients to access powerful data analytics services ubiquitously. Despite its merits, MLaaS poses significant concerns regarding the integrity of delegated computation and the privacy of the server's model parameters. To address this issue, Zhang et al. (CCS'20) initiated the study of zero-knowledge Machine Learning (zkML). Few zkML schemes have been proposed afterward; however, they focus on sole ML classification algorithms that may not offer satisfactory accuracy or require large-scale training data and model parameters, which may not be desirable for some applications. We propose ezDPS, a new efficient and zero-knowledge ML inference scheme. Unlike prior works, ezDPS is a zkML pipeline in which the data is processed in multiple stages for high accuracy. Each stage of ezDPS is harnessed with an established ML algorithm that is shown to be effective in various applications, including Discrete Wavelet Transformation, Principal Components Analysis, and Support Vector Machine. We design new gadgets to prove ML operations effectively. We fully implemented ezDPS and assessed its performance on real datasets. Experimental results showed that ezDPS achieves one-to-three orders of magnitude more efficient than the generic circuit-based approach in all metrics while maintaining more desirable accuracy than single ML classification approaches.
translated by 谷歌翻译
Machine learning (ML) models may be deemed confidential due to their sensitive training data, commercial value, or use in security applications. Increasingly often, confidential ML models are being deployed with publicly accessible query interfaces. ML-as-a-service ("predictive analytics") systems are an example: Some allow users to train models on potentially sensitive data and charge others for access on a pay-per-query basis.The tension between model confidentiality and public access motivates our investigation of model extraction attacks. In such attacks, an adversary with black-box access, but no prior knowledge of an ML model's parameters or training data, aims to duplicate the functionality of (i.e., "steal") the model. Unlike in classical learning theory settings, ML-as-a-service offerings may accept partial feature vectors as inputs and include confidence values with predictions. Given these practices, we show simple, efficient attacks that extract target ML models with near-perfect fidelity for popular model classes including logistic regression, neural networks, and decision trees. We demonstrate these attacks against the online services of BigML and Amazon Machine Learning. We further show that the natural countermeasure of omitting confidence values from model outputs still admits potentially harmful model extraction attacks. Our results highlight the need for careful ML model deployment and new model extraction countermeasures.
translated by 谷歌翻译
在联合学习(FL)中,数据不会在联合培训机器学习模型时留下个人设备。相反,这些设备与中央党(例如,公司)共享梯度。因为数据永远不会“离开”个人设备,因此FL作为隐私保留呈现。然而,最近显示这种保护是一个薄的外观,甚至是一种被动攻击者观察梯度可以重建各个用户的数据。在本文中,我们争辩说,事先工作仍然很大程度上低估了FL的脆弱性。这是因为事先努力专门考虑被动攻击者,这些攻击者是诚实但好奇的。相反,我们介绍了一个活跃和不诚实的攻击者,作为中央会,他们能够在用户计算模型渐变之前修改共享模型的权重。我们称之为修改的重量“陷阱重量”。我们的活跃攻击者能够完全恢复用户数据,并在接近零成本时:攻击不需要复杂的优化目标。相反,它利用了模型梯度的固有数据泄漏,并通过恶意改变共享模型的权重来放大这种效果。这些特异性使我们的攻击能够扩展到具有大型迷你批次数据的模型。如果来自现有工作的攻击者需要小时才能恢复单个数据点,我们的方法需要毫秒来捕获完全连接和卷积的深度神经网络的完整百分之批次数据。最后,我们考虑缓解。我们观察到,FL中的差异隐私(DP)的当前实现是有缺陷的,因为它们明确地信任中央会,并在增加DP噪音的关键任务,因此不提供对恶意中央党的保护。我们还考虑其他防御,并解释为什么它们类似地不足。它需要重新设计FL,为用户提供任何有意义的数据隐私。
translated by 谷歌翻译
Differentially private federated learning (DP-FL) has received increasing attention to mitigate the privacy risk in federated learning. Although different schemes for DP-FL have been proposed, there is still a utility gap. Employing central Differential Privacy in FL (CDP-FL) can provide a good balance between the privacy and model utility, but requires a trusted server. Using Local Differential Privacy for FL (LDP-FL) does not require a trusted server, but suffers from lousy privacy-utility trade-off. Recently proposed shuffle DP based FL has the potential to bridge the gap between CDP-FL and LDP-FL without a trusted server; however, there is still a utility gap when the number of model parameters is large. In this work, we propose OLIVE, a system that combines the merits from CDP-FL and LDP-FL by leveraging Trusted Execution Environment (TEE). Our main technical contributions are the analysis and countermeasures against the vulnerability of TEE in OLIVE. Firstly, we theoretically analyze the memory access pattern leakage of OLIVE and find that there is a risk for sparsified gradients, which is common in FL. Secondly, we design an inference attack to understand how the memory access pattern could be linked to the training data. Thirdly, we propose oblivious yet efficient algorithms to prevent the memory access pattern leakage in OLIVE. Our experiments on real-world data demonstrate that OLIVE is efficient even when training a model with hundreds of thousands of parameters and effective against side-channel attacks on TEE.
translated by 谷歌翻译
安全的多方计算(MPC)允许当事方在数据私有的同时对数据进行计算。该功能具有机器学习应用程序的巨大潜力:它促进了对不同政党拥有的私人数据集的机器学习模型的培训,使用另一方的私人数据评估一方的私人模型等。尽管一系列研究实现了机器 - 通过安全MPC学习模型,此类实现尚未成为主流。没有灵活的软件框架“说话”机器学习研究人员和工程师的灵活软件框架的缺乏阻碍了安全MPC的采用。为了促进机器学习中安全MPC的采用,我们提出了Crypten:一个软件框架,该框架通过在现代机器学习框架中常见的抽象来揭示流行的安全MPC原语,例如张量计算,自动分化和模块化神经网络。本文描述了隐秘的设计,并在最新的文本分类,语音识别和图像分类的模型上衡量其性能。我们的基准表明,Crypten的GPU支持和(任意数量)各方之间的高性能通信使其能够在半honest威胁模型下对现代机器学习模型进行有效的私人评估。例如,使用密码的两方可以使用WAV2letter在语音记录中安全预测音素的速度比实时更快。我们希望Crypten能促使在机器学习社区中采用安全MPC。
translated by 谷歌翻译
拜占庭式联合学习(FL)旨在对抗恶意客户并培训准确的全球模型,同时保持极低的攻击成功率。然而,大多数现有系统仅在诚实/半hon最达克的多数设置中都具有强大的功能。 FLTRUST(NDSS '21)将上下文扩展到对客户的恶意多数,但在训练之前,应在训练之前为服务器提供辅助数据集,以便过滤恶意输入。私人火焰/flguard(Usenix '22)提供了一种解决方案,以确保在半多数上下文中既有稳健性和更新机密性。到目前为止,不可能平衡恶意背景,鲁棒性和更新机密性之间的权衡。为了解决这个问题,我们提出了一种新颖的拜占庭式bybust和隐私的FL系统,称为简介,以捕获恶意的少数群体和多数服务器和客户端。具体而言,基于DBSCAN算法,我们设计了一种通过成对调整的余弦相似性聚类的新方法,以提高聚类结果的准确性。为了阻止多数攻击恶意的攻击,我们开发了一种称为模型分割的算法,在该算法中,同一集群中的本地更新聚集在一起,并且将聚合正确地发送回相应的客户端。我们还利用多种密码工具来执行聚类任务,而无需牺牲培训正确性并更新机密性。我们介绍了详细的安全证明和经验评估以及简要的收敛分析。实验结果表明,简介的测试精度实际上接近FL基线(平均为0.8%的差距)。同时,攻击成功率约为0%-5%。我们进一步优化了设计,以便可以分别降低{67%-89.17%和66.05%-68.75%}的通信开销和运行时。
translated by 谷歌翻译
With the increased usage of AI accelerators on mobile and edge devices, on-device machine learning (ML) is gaining popularity. Thousands of proprietary ML models are being deployed today on billions of untrusted devices. This raises serious security concerns about model privacy. However, protecting model privacy without losing access to the untrusted AI accelerators is a challenging problem. In this paper, we present a novel on-device model inference system, ShadowNet. ShadowNet protects the model privacy with Trusted Execution Environment (TEE) while securely outsourcing the heavy linear layers of the model to the untrusted hardware accelerators. ShadowNet achieves this by transforming the weights of the linear layers before outsourcing them and restoring the results inside the TEE. The non-linear layers are also kept secure inside the TEE. ShadowNet's design ensures efficient transformation of the weights and the subsequent restoration of the results. We build a ShadowNet prototype based on TensorFlow Lite and evaluate it on five popular CNNs, namely, MobileNet, ResNet-44, MiniVGG, ResNet-404, and YOLOv4-tiny. Our evaluation shows that ShadowNet achieves strong security guarantees with reasonable performance, offering a practical solution for secure on-device model inference.
translated by 谷歌翻译
在过去的几年中,多方计算(MPC)作为安全计算模型一直在越来越受欢迎,尤其是对于机器学习(ML)推断。与竞争对手相比,MPC的开销少于同构加密(HE),并且比基于硬件的可信执行环境(TEE)(例如Intel SGX)具有更强的威胁模型。尽管具有明显的优势,但在应用于ML算法时,MPC协议仍然与针对性相比,仍要支付大量的绩效罚款。开销是由于增加的计算和通信成本。对于在ML算法中无处不在的乘法,MPC协议在MPC服务器之间增加了32x更多的计算成本和1轮广播。此外,由于SoftMax,Relu和其他非线性操作,其具有微不足道的成本的ML计算由于增加了沟通而变得非常昂贵。这些添加的开销使MPC不太适合在实时ML推理框架(例如语音翻译)中部署。在这项工作中,我们提出了MPC-Pipe,这是一种使用两种ML特异性方法的MPC管道推理技术。 1)内线间管道和2)内层管道。这两种技术缩短了机器学习模型的总推理运行时。与当前的MPC协议实现相比,当模型权重公开时,我们的实验已显示可将ML推断潜伏期降低多达12.6%,而在模型权重公开时,将ML推断潜伏期最高12.6%。
translated by 谷歌翻译
随着机器学习到达不同的应用领域,与隐私和安全有关的问题正在越来越大。数据持有人希望在利用云中托管的加速器(例如GPU)的同时训练或推断私人数据。云系统容易受到损害数据隐私和计算完整性的攻击者的影响。应对这样的挑战需要将理论隐私算法统一使用硬件安全功能。本文介绍了Darknight,这是一个大型DNN培训的框架,同时保护输入隐私和计算完整性。 Darknight依赖于受信任的执行环境(TEE)和加速器之间的合作执行,其中TEE提供了隐私和完整性验证,而加速器则执行大部分线性代数计算以优化性能。特别是,Darknight使用基于矩阵掩码的自定义数据编码策略来在TEE中创建输入混淆。然后将混淆的数据卸载到GPU,以进行快速线性代数计算。 Darknight的数据混淆策略在云服务器中提供了可证明的数据隐私和计算完整性。虽然先前的作品应对推理隐私,并且不能用于培训,但Darknight的编码方案旨在支持培训和推理。
translated by 谷歌翻译
我们调查分裂学习的安全 - 一种新颖的协作机器学习框架,通过需要最小的资源消耗来实现峰值性能。在本文中,我们通过介绍客户私人培训集重建的一般攻击策略来揭示议定书的脆弱性并展示其固有的不安全。更突出地,我们表明恶意服务器可以积极地劫持分布式模型的学习过程,并将其纳入不安全状态,从而为客户端提供推动攻击。我们实施不同的攻击调整,并在各种数据集中测试它们以及现实的威胁方案。我们证明我们的攻击能够克服最近提出的防御技术,旨在提高分裂学习议定书的安全性。最后,我们还通过扩展以前设计的联合学习的攻击来说明协议对恶意客户的不安全性。要使我们的结果可重复,我们会在https://github.com/pasquini-dario/splitn_fsha提供的代码。
translated by 谷歌翻译
神经网络的外包计算允许用户访问艺术模型的状态,而无需投资专门的硬件和专业知识。问题是用户对潜在的隐私敏感数据失去控制。通过同性恋加密(HE)可以在加密数据上执行计算,而不会显示其内容。在这种知识的系统化中,我们深入了解与隐私保留的神经网络相结合的方法。我们将更改分类为神经网络模型和架构,使其在他和这些变化的影响方面提供影响。我们发现众多挑战是基于隐私保留的深度学习,例如通过加密方案构成的计算开销,可用性和限制。
translated by 谷歌翻译
保存隐私的神经网络(NN)推理解决方案最近在几种提供不同的延迟带宽权衡的解决方案方面获得了重大吸引力。其中,许多人依靠同态加密(HE),这是一种对加密数据进行计算的方法。但是,与他们的明文对应物相比,他的操作即使是最先进的计划仍然很慢。修剪NN模型的参数是改善推理潜伏期的众所周知的方法。但是,在明文上下文中有用的修剪方法可能对HE案的改善几乎可以忽略不计,这在最近的工作中也证明了这一点。在这项工作中,我们提出了一套新颖的修剪方法,以减少潜伏期和记忆要求,从而将明文修剪方法的有效性带到HE中。至关重要的是,我们的建议采用两种关键技术,即。堆积模型权重的置换和扩展,使修剪能够明显更多的密封性下文并分别恢复大部分精度损失。我们证明了我们的方法在完全连接的层上的优势,其中使用最近提出的称为瓷砖张量的包装技术填充了权重,该技术允许在非相互作用模式下执行Deep NN推断。我们在各种自动编码器架构上评估了我们的方法,并证明,对于MNIST上的小均值重建损失为1.5*10^{ - 5},我们将HE-SEAMABLE推断的内存要求和延迟减少了60%。
translated by 谷歌翻译
我们使用所述环境中常用的量化实施了安全多方计算(MPC)中神经网络的培训。我们是第一个呈现MNIST分类器纯粹在MPC中训练的MNIST分类器,该分类器占据通过宣传计算训练的相同卷积神经网络准确性的0.2%。更具体地说,我们已经训练了一个在3.5小时内具有两个卷积和两个密集层至99.2%精度的网络(精度为99%的小时)。我们还为CIFAR-10实施了Alexnet,该Alexnet在几个小时内收敛。我们开发了用于指示和平方根逆的新方案。最后,我们在多达十个政党的一系列MPC安全模型中介绍了实验,包括诚实和不诚实的多数以及半honest和恶意安全。
translated by 谷歌翻译