Machine learning is widely used in practice to produce predictive models for applications such as image processing, speech and text recognition. These models are more accurate when trained on large amount of data collected from different sources. However, the massive data collection raises privacy concerns.In this paper, we present new and efficient protocols for privacy preserving machine learning for linear regression, logistic regression and neural network training using the stochastic gradient descent method. Our protocols fall in the two-server model where data owners distribute their private data among two non-colluding servers who train various models on the joint data using secure two-party computation (2PC). We develop new techniques to support secure arithmetic operations on shared decimal numbers, and propose MPC-friendly alternatives to non-linear functions such as sigmoid and softmax that are superior to prior work. We implement our system in C++. Our experiments validate that our protocols are several orders of magnitude faster than the state of the art implementations for privacy preserving linear and logistic regressions, and scale to millions of data samples with thousands of features. We also implement the first privacy preserving system for training neural networks.
translated by 谷歌翻译
联邦机器学习利用边缘计算来开发网络用户数据的模型,但联合学习的隐私仍然是一个重大挑战。已经提出了使用差异隐私的技术来解决这一点,但是带来了自己的挑战 - 许多人需要一个值得信赖的第三方,或者增加了太多的噪音来生产有用的模型。使用多方计算的\ EMPH {SERVE聚合}的最新进步消除了对第三方的需求,但是在计算上尤其在规模上昂贵。我们提出了一种新的联合学习协议,利用了一种基于与错误学习的技术的新颖差异私有的恶意安全聚合协议。我们的协议优于当前最先进的技术,并且经验结果表明它缩放到大量方面,具有任何差别私有联合学习方案的最佳精度。
translated by 谷歌翻译
我们使用所述环境中常用的量化实施了安全多方计算(MPC)中神经网络的培训。我们是第一个呈现MNIST分类器纯粹在MPC中训练的MNIST分类器,该分类器占据通过宣传计算训练的相同卷积神经网络准确性的0.2%。更具体地说,我们已经训练了一个在3.5小时内具有两个卷积和两个密集层至99.2%精度的网络(精度为99%的小时)。我们还为CIFAR-10实施了Alexnet,该Alexnet在几个小时内收敛。我们开发了用于指示和平方根逆的新方案。最后,我们在多达十个政党的一系列MPC安全模型中介绍了实验,包括诚实和不诚实的多数以及半honest和恶意安全。
translated by 谷歌翻译
K均值是实践中使用最广泛的聚类模型之一。由于数据隔离的问题和对高模型性能的要求,如何共同建立实用和安全的K均值为多方成为行业中许多应用程序的重要主题。现有的工作主要是两种类型。第一种类型具有效率优势,但是信息泄漏会增加潜在的隐私风险。第二种类型是可证明的,但对于大规模数据稀疏方案而言,效率低下,甚至无助。在本文中,我们提出了一个新的框架,用于具有三个特征的有效稀疏感k均值。首先,我们的框架分为独立于数据的离线阶段和更快的在线阶段,并且离线阶段允许预先计算几乎所有的加密操作。其次,我们利用在线和离线阶段中的矢量化技术。第三,我们采用稀疏的矩阵乘法,以进一步提高效率。我们对三个合成数据集进行了全面的实验,并将模型部署在现实世界中的欺诈检测任务中。我们的实验结果表明,与最先进的解决方案相比,我们的模型在运行时间和沟通规模方面都能达到竞争性能,尤其是在稀疏数据集上。
translated by 谷歌翻译
安全的多方计算(MPC)允许当事方在数据私有的同时对数据进行计算。该功能具有机器学习应用程序的巨大潜力:它促进了对不同政党拥有的私人数据集的机器学习模型的培训,使用另一方的私人数据评估一方的私人模型等。尽管一系列研究实现了机器 - 通过安全MPC学习模型,此类实现尚未成为主流。没有灵活的软件框架“说话”机器学习研究人员和工程师的灵活软件框架的缺乏阻碍了安全MPC的采用。为了促进机器学习中安全MPC的采用,我们提出了Crypten:一个软件框架,该框架通过在现代机器学习框架中常见的抽象来揭示流行的安全MPC原语,例如张量计算,自动分化和模块化神经网络。本文描述了隐秘的设计,并在最新的文本分类,语音识别和图像分类的模型上衡量其性能。我们的基准表明,Crypten的GPU支持和(任意数量)各方之间的高性能通信使其能够在半honest威胁模型下对现代机器学习模型进行有效的私人评估。例如,使用密码的两方可以使用WAV2letter在语音记录中安全预测音素的速度比实时更快。我们希望Crypten能促使在机器学习社区中采用安全MPC。
translated by 谷歌翻译
我们提出了信令评估有限状态机器的协议,即,评估在有限状态机器的提供者和输入字符串的提供者之间共享,以这样的方式既不是一方学习另一方的输入,并且被访问的州隐藏起来。对于字母表尺寸$ | \ sigma | $,状态$ | q | $和输入长度$ n $,以前的解决方案要么是$ n $或通信$ \ omega(n | \ sigma|| q | \ log | q |)$。我们的解决方案需要2轮通信$ O(n(| \ sigma | + | q | \ log | q |))$。我们为此问题提出了两个不同的解决方案,一个双方和一个不受信任但非勾结助手的设置。
translated by 谷歌翻译
收集的数据量不断增长,其分析以提供更好的服务正在引起人们对数字隐私的担忧。为了解决隐私问题并提供实用的解决方案,文献依赖于安全的多方计算。但是,最近的研究主要集中在多达四个政党的小党诚实造成的设置上,并指出了效率的问题。在这项工作中,我们扩展了策略,以在中心舞台上以效率为诚实的多数参与者。在预处理范式中,我们的半冬季协议改善了Damg \ aa Rd和Nielson(Crypto'07)十年最先进的协议的在线复杂性。除了提高在线沟通成本外,我们还可以在在线阶段关闭几乎一半的各方,从而节省了系统的运营成本高达50%。我们恶意安全的协议也享有类似的好处,除了一次性验证外,只需要一半的当事方。为了展示设计协议的实用性,我们基准了使用原型实现的深度神经网络,图形神经网络,基因组序列匹配以及生物识别匹配等流行应用程序。我们改进的协议有助于在先前的工作中节省高达60-80%的货币成本。
translated by 谷歌翻译
已经提出了安全的多方计算(MPC),以允许多个相互不信任的数据所有者在其合并数据上共同训练机器学习(ML)模型。但是,通过设计,MPC协议忠实地计算了训练功能,对抗性ML社区已证明该功能泄漏了私人信息,并且可以在中毒攻击中篡改。在这项工作中,我们认为在我们的框架中实现的模型合奏是一种称为Safenet的框架,是MPC的高度无限方法,可以避免许多对抗性ML攻击。 MPC培训中所有者之间数据的自然分区允许这种方法在训练时间高度可扩展,可证明可保护免受中毒攻击的保护,并证明可以防御许多隐私攻击。我们展示了Safenet对在端到端和转移学习方案训练的几个机器学习数据集和模型上中毒的效率,准确性和韧性。例如,Safenet可显着降低后门攻击的成功,同时获得$ 39 \ times $ $的培训,$ 36 \ times $ $ $少于达尔斯科夫(Dalskov)等人的四方MPC框架。我们的实验表明,即使在许多非IID设置中,结合也能保留这些好处。结合的简单性,廉价的设置和鲁棒性属性使其成为MPC私下培训ML模型的强大首选。
translated by 谷歌翻译
由于对隐私保护的关注不断增加,因此如何在不同数据源上建立机器学习(ML)模型具有安全保证,这越来越受欢迎。垂直联合学习(VFL)描述了这种情况,其中ML模型建立在不同参与方的私人数据上,该数据与同一集合相同的实例中拥有不相交的功能,这适合许多现实世界中的协作任务。但是,我们发现VFL现有的解决方案要么支持有限的输入功能,要么在联合执行过程中遭受潜在数据泄漏的损失。为此,本文旨在研究VFL方案中ML模式的功能和安全性。具体来说,我们介绍了BlindFL,这是VFL训练和推理的新型框架。首先,为了解决VFL模型的功能,我们建议联合源层团结不同各方的数据。联合源层可以有效地支持各种特征,包括密集,稀疏,数值和分类特征。其次,我们在联合执行期间仔细分析了安全性,并正式化了隐私要求。基于分析,我们设计了安全,准确的算法协议,并进一步证明了在理想真实的仿真范式下的安全保证。广泛的实验表明,BlindFL支持各种数据集和模型,同时获得强大的隐私保证。
translated by 谷歌翻译
神经网络的外包计算允许用户访问艺术模型的状态,而无需投资专门的硬件和专业知识。问题是用户对潜在的隐私敏感数据失去控制。通过同性恋加密(HE)可以在加密数据上执行计算,而不会显示其内容。在这种知识的系统化中,我们深入了解与隐私保留的神经网络相结合的方法。我们将更改分类为神经网络模型和架构,使其在他和这些变化的影响方面提供影响。我们发现众多挑战是基于隐私保留的深度学习,例如通过加密方案构成的计算开销,可用性和限制。
translated by 谷歌翻译
拜占庭式联合学习(FL)旨在对抗恶意客户并培训准确的全球模型,同时保持极低的攻击成功率。然而,大多数现有系统仅在诚实/半hon最达克的多数设置中都具有强大的功能。 FLTRUST(NDSS '21)将上下文扩展到对客户的恶意多数,但在训练之前,应在训练之前为服务器提供辅助数据集,以便过滤恶意输入。私人火焰/flguard(Usenix '22)提供了一种解决方案,以确保在半多数上下文中既有稳健性和更新机密性。到目前为止,不可能平衡恶意背景,鲁棒性和更新机密性之间的权衡。为了解决这个问题,我们提出了一种新颖的拜占庭式bybust和隐私的FL系统,称为简介,以捕获恶意的少数群体和多数服务器和客户端。具体而言,基于DBSCAN算法,我们设计了一种通过成对调整的余弦相似性聚类的新方法,以提高聚类结果的准确性。为了阻止多数攻击恶意的攻击,我们开发了一种称为模型分割的算法,在该算法中,同一集群中的本地更新聚集在一起,并且将聚合正确地发送回相应的客户端。我们还利用多种密码工具来执行聚类任务,而无需牺牲培训正确性并更新机密性。我们介绍了详细的安全证明和经验评估以及简要的收敛分析。实验结果表明,简介的测试精度实际上接近FL基线(平均为0.8%的差距)。同时,攻击成功率约为0%-5%。我们进一步优化了设计,以便可以分别降低{67%-89.17%和66.05%-68.75%}的通信开销和运行时。
translated by 谷歌翻译
交叉设备联合学习(FL)是一种分布式学习范例,具有几种挑战,这些挑战将其区分离为传统的分布式学习,每个设备上的系统特征的可变性,以及数百万客户端与主要服务器协调。文献中描述的大多数FL系统是同步的 - 它们从各个客户端执行模型更新的同步聚合。缩放同步FL是挑战,因为增加了并行培训的客户数量导致训练速度的回报递减,类似于大批培训。而且,陷阱妨碍了同步流动训练。在这项工作中,我们概述了一种生产异步流行系统设计。我们的工作解决了上述问题,一些系统设计挑战及其解决方案的草图,并触及了为数百万客户建立生产流系统的原则。凭经验,我们证明异步流量在跨越近一亿台设备时比同步液更快地收敛。特别地,在高并发设置中,异步FL速度快5倍,并且具有比同步FL更小的通信开销差距。
translated by 谷歌翻译
安全的基于多方计算的机器学习(称为MPL)已成为利用来自具有隐私保护的多个政党的数据的重要技术。尽管MPL为计算过程提供了严格的安全保证,但MPL训练的模型仍然容易受到仅依赖于访问模型的攻击。差异隐私可以帮助防御此类攻击。但是,差异隐私和安全多方计算协议的巨大沟通开销带来的准确性损失使得平衡隐私,效率和准确性之间的三通权衡是高度挑战的。在本文中,我们有动力通过提出一种解决方案(称为PEA(私有,高效,准确))来解决上述问题,该解决方案由安全的DPSGD协议和两种优化方法组成。首先,我们提出了一个安全的DPSGD协议,以在基于秘密共享的MPL框架中强制执行DPSGD。其次,为了减少因差异隐私噪声和MPL的巨大通信开销而导致的准确性损失,我们提出了MPL训练过程的两种优化方法:(1)与数据无关的功能提取方法,旨在简化受过训练的模型结构体; (2)基于本地数据的全局模型初始化方法,旨在加快模型训练的收敛性。我们在两个开源MPL框架中实施PEA:TF-Conteded和Queqiao。各种数据集的实验结果证明了PEA的效率和有效性。例如。当$ {\ epsilon} $ = 2时,我们可以在LAN设置下的7分钟内训练CIFAR-10的差异私有分类模型,其精度为88%。这一结果大大优于来自CryptGPU的一个SOTA MPL框架:在CIFAR-10上训练非私有性深神经网络模型的成本超过16小时,其精度相同。
translated by 谷歌翻译
Federated learning is a collaborative method that aims to preserve data privacy while creating AI models. Current approaches to federated learning tend to rely heavily on secure aggregation protocols to preserve data privacy. However, to some degree, such protocols assume that the entity orchestrating the federated learning process (i.e., the server) is not fully malicious or dishonest. We investigate vulnerabilities to secure aggregation that could arise if the server is fully malicious and attempts to obtain access to private, potentially sensitive data. Furthermore, we provide a method to further defend against such a malicious server, and demonstrate effectiveness against known attacks that reconstruct data in a federated learning setting.
translated by 谷歌翻译
Deep learning based on artificial neural networks is a very popular approach to modeling, classifying, and recognizing complex data such as images, speech, and text. The unprecedented accuracy of deep learning methods has turned them into the foundation of new AI-based services on the Internet. Commercial companies that collect user data on a large scale have been the main beneficiaries of this trend since the success of deep learning techniques is directly proportional to the amount of data available for training.Massive data collection required for deep learning presents obvious privacy issues. Users' personal, highly sensitive data such as photos and voice recordings is kept indefinitely by the companies that collect it. Users can neither delete it, nor restrict the purposes for which it is used. Furthermore, centrally kept data is subject to legal subpoenas and extra-judicial surveillance. Many data owners-for example, medical institutions that may want to apply deep learning methods to clinical records-are prevented by privacy and confidentiality concerns from sharing the data and thus benefitting from large-scale deep learning.In this paper, we design, implement, and evaluate a practical system that enables multiple parties to jointly learn an accurate neuralnetwork model for a given objective without sharing their input datasets. We exploit the fact that the optimization algorithms used in modern deep learning, namely, those based on stochastic gradient descent, can be parallelized and executed asynchronously. Our system lets participants train independently on their own datasets and selectively share small subsets of their models' key parameters during training. This offers an attractive point in the utility/privacy tradeoff space: participants preserve the privacy of their respective data while still benefitting from other participants' models and thus boosting their learning accuracy beyond what is achievable solely on their own inputs. We demonstrate the accuracy of our privacypreserving deep learning on benchmark datasets.
translated by 谷歌翻译
随着机器学习到达不同的应用领域,与隐私和安全有关的问题正在越来越大。数据持有人希望在利用云中托管的加速器(例如GPU)的同时训练或推断私人数据。云系统容易受到损害数据隐私和计算完整性的攻击者的影响。应对这样的挑战需要将理论隐私算法统一使用硬件安全功能。本文介绍了Darknight,这是一个大型DNN培训的框架,同时保护输入隐私和计算完整性。 Darknight依赖于受信任的执行环境(TEE)和加速器之间的合作执行,其中TEE提供了隐私和完整性验证,而加速器则执行大部分线性代数计算以优化性能。特别是,Darknight使用基于矩阵掩码的自定义数据编码策略来在TEE中创建输入混淆。然后将混淆的数据卸载到GPU,以进行快速线性代数计算。 Darknight的数据混淆策略在云服务器中提供了可证明的数据隐私和计算完整性。虽然先前的作品应对推理隐私,并且不能用于培训,但Darknight的编码方案旨在支持培训和推理。
translated by 谷歌翻译
联合学习允许一组用户在私人训练数据集中培训深度神经网络。在协议期间,数据集永远不会留下各个用户的设备。这是通过要求每个用户向中央服务器发送“仅”模型更新来实现,从而汇总它们以更新深神经网络的参数。然而,已经表明,每个模型更新都具有关于用户数据集的敏感信息(例如,梯度反转攻击)。联合学习的最先进的实现通过利用安全聚合来保护这些模型更新:安全监控协议,用于安全地计算用户的模型更新的聚合。安全聚合是关键,以保护用户的隐私,因为它会阻碍服务器学习用户提供的个人模型更新的源,防止推断和数据归因攻击。在这项工作中,我们表明恶意服务器可以轻松地阐明安全聚合,就像后者未到位一样。我们设计了两种不同的攻击,能够在参与安全聚合的用户数量上,独立于参与安全聚合的用户数。这使得它们在大规模现实世界联邦学习应用中的具体威胁。攻击是通用的,不瞄准任何特定的安全聚合协议。即使安全聚合协议被其理想功能替换为提供完美的安全性的理想功能,它们也同样有效。我们的工作表明,安全聚合与联合学习相结合,当前实施只提供了“虚假的安全感”。
translated by 谷歌翻译
We build a privacy-preserving deep learning system in which many learning participants perform neural network-based deep learning over a combined dataset of all, without actually revealing the participants' local data to a central server. To that end, we revisit the previous work by Shokri and Shmatikov (ACM CCS 2015) and point out that local data information may be actually leaked to an honest-but-curious server. We then move on to fix that problem via building an enhanced system with following properties: (1) no information is leaked to the server; and (2) accuracy is kept intact, compared to that of the ordinary deep learning system also over the combined dataset. Our system is a bridge between deep learning and cryptography: we utilise asynchronous stochastic gradient descent applied to neural networks, in combination with additively homomorphic encryption. We show that our usage of encryption adds tolerable overhead to the ordinary deep learning system.
translated by 谷歌翻译
随着功能加密的出现,已经出现了加密数据计算的新可能性。功能加密使数据所有者能够授予第三方访问执行指定的计算,而无需透露其输入。与完全同态加密不同,它还提供了普通的计算结果。机器学习的普遍性导致在云计算环境中收集了大量私人数据。这引发了潜在的隐私问题,并需要更多私人和安全的计算解决方案。在保护隐私的机器学习(PPML)方面已做出了许多努力,以解决安全和隐私问题。有基于完全同态加密(FHE),安全多方计算(SMC)的方法,以及最近的功能加密(FE)。但是,与基于FHE的PPML方法相比,基于FE的PPML仍处于起步阶段,并且尚未受到很多关注。在本文中,我们基于FE总结文献中的最新作品提供了PPML作品的系统化。我们专注于PPML应用程序的内部产品FE和基于二次FE的机器学习模型。我们分析了可用的FE库的性能和可用性及其对PPML的应用。我们还讨论了基于FE的PPML方法的潜在方向。据我们所知,这是系统化基于FE的PPML方法的第一项工作。
translated by 谷歌翻译
Machine Learning as a service (MLaaS) permits resource-limited clients to access powerful data analytics services ubiquitously. Despite its merits, MLaaS poses significant concerns regarding the integrity of delegated computation and the privacy of the server's model parameters. To address this issue, Zhang et al. (CCS'20) initiated the study of zero-knowledge Machine Learning (zkML). Few zkML schemes have been proposed afterward; however, they focus on sole ML classification algorithms that may not offer satisfactory accuracy or require large-scale training data and model parameters, which may not be desirable for some applications. We propose ezDPS, a new efficient and zero-knowledge ML inference scheme. Unlike prior works, ezDPS is a zkML pipeline in which the data is processed in multiple stages for high accuracy. Each stage of ezDPS is harnessed with an established ML algorithm that is shown to be effective in various applications, including Discrete Wavelet Transformation, Principal Components Analysis, and Support Vector Machine. We design new gadgets to prove ML operations effectively. We fully implemented ezDPS and assessed its performance on real datasets. Experimental results showed that ezDPS achieves one-to-three orders of magnitude more efficient than the generic circuit-based approach in all metrics while maintaining more desirable accuracy than single ML classification approaches.
translated by 谷歌翻译