收集的数据量不断增长,其分析以提供更好的服务正在引起人们对数字隐私的担忧。为了解决隐私问题并提供实用的解决方案,文献依赖于安全的多方计算。但是,最近的研究主要集中在多达四个政党的小党诚实造成的设置上,并指出了效率的问题。在这项工作中,我们扩展了策略,以在中心舞台上以效率为诚实的多数参与者。在预处理范式中,我们的半冬季协议改善了Damg \ aa Rd和Nielson(Crypto'07)十年最先进的协议的在线复杂性。除了提高在线沟通成本外,我们还可以在在线阶段关闭几乎一半的各方,从而节省了系统的运营成本高达50%。我们恶意安全的协议也享有类似的好处,除了一次性验证外,只需要一半的当事方。为了展示设计协议的实用性,我们基准了使用原型实现的深度神经网络,图形神经网络,基因组序列匹配以及生物识别匹配等流行应用程序。我们改进的协议有助于在先前的工作中节省高达60-80%的货币成本。
translated by 谷歌翻译
Machine learning is widely used in practice to produce predictive models for applications such as image processing, speech and text recognition. These models are more accurate when trained on large amount of data collected from different sources. However, the massive data collection raises privacy concerns.In this paper, we present new and efficient protocols for privacy preserving machine learning for linear regression, logistic regression and neural network training using the stochastic gradient descent method. Our protocols fall in the two-server model where data owners distribute their private data among two non-colluding servers who train various models on the joint data using secure two-party computation (2PC). We develop new techniques to support secure arithmetic operations on shared decimal numbers, and propose MPC-friendly alternatives to non-linear functions such as sigmoid and softmax that are superior to prior work. We implement our system in C++. Our experiments validate that our protocols are several orders of magnitude faster than the state of the art implementations for privacy preserving linear and logistic regressions, and scale to millions of data samples with thousands of features. We also implement the first privacy preserving system for training neural networks.
translated by 谷歌翻译
安全的多方计算(MPC)允许当事方在数据私有的同时对数据进行计算。该功能具有机器学习应用程序的巨大潜力:它促进了对不同政党拥有的私人数据集的机器学习模型的培训,使用另一方的私人数据评估一方的私人模型等。尽管一系列研究实现了机器 - 通过安全MPC学习模型,此类实现尚未成为主流。没有灵活的软件框架“说话”机器学习研究人员和工程师的灵活软件框架的缺乏阻碍了安全MPC的采用。为了促进机器学习中安全MPC的采用,我们提出了Crypten:一个软件框架,该框架通过在现代机器学习框架中常见的抽象来揭示流行的安全MPC原语,例如张量计算,自动分化和模块化神经网络。本文描述了隐秘的设计,并在最新的文本分类,语音识别和图像分类的模型上衡量其性能。我们的基准表明,Crypten的GPU支持和(任意数量)各方之间的高性能通信使其能够在半honest威胁模型下对现代机器学习模型进行有效的私人评估。例如,使用密码的两方可以使用WAV2letter在语音记录中安全预测音素的速度比实时更快。我们希望Crypten能促使在机器学习社区中采用安全MPC。
translated by 谷歌翻译
我们使用所述环境中常用的量化实施了安全多方计算(MPC)中神经网络的培训。我们是第一个呈现MNIST分类器纯粹在MPC中训练的MNIST分类器,该分类器占据通过宣传计算训练的相同卷积神经网络准确性的0.2%。更具体地说,我们已经训练了一个在3.5小时内具有两个卷积和两个密集层至99.2%精度的网络(精度为99%的小时)。我们还为CIFAR-10实施了Alexnet,该Alexnet在几个小时内收敛。我们开发了用于指示和平方根逆的新方案。最后,我们在多达十个政党的一系列MPC安全模型中介绍了实验,包括诚实和不诚实的多数以及半honest和恶意安全。
translated by 谷歌翻译
由于ML算法已经证明了它们在许多不同的应用程序中的成功,因此对保留隐私(PP)ML方法的兴趣也很大,用于构建敏感数据的模型。此外,这些算法所需的数据源数量和高计算能力的增加迫使个人将ML模型的培训和/或推断为提供此类服务的云。为了解决这个问题,我们提出了一个安全的三方计算框架塞西莉亚(Cecilia),提供PP构建块以私下启用复杂操作。除了加法和乘法等适应性和常见的操作外,它还提供了多路复用器,最重要的位和模量转换。在方法论方面,前两个是新颖的,就功能和方法论而言,最后一个是新颖的。塞西莉亚(Cecilia)也有两种复杂的新颖方法,这是公共基础的确切指数,该公共基础升高到秘密价值的力量和秘密革兰氏矩阵的反平方根。我们使用塞西莉亚(Cecilia)实现对预先训练的RKN的私人推断,比大多数其他DNN相比,对蛋白质的结构分类需要更复杂的操作,这是有史以来第一个在RKN上完成PP推断的研究。除了成功的基本构建块的私人计算外,结果还表明,我们执行了确切的私有指数计算,该计算是通过迄今为止文献中的近似来完成的。此外,他们还表明,我们将秘密革兰氏矩阵的确切逆平方根计算到一定的隐私级别,而文献中根本没有解决。我们还分析了Cecilia对合成数据集上各种设置的可伸缩性。该框架表现出一个巨大的希望,可以制作其他ML算法,并通过框架的构建块进行私人计算的进一步计算。
translated by 谷歌翻译
拜占庭式联合学习(FL)旨在对抗恶意客户并培训准确的全球模型,同时保持极低的攻击成功率。然而,大多数现有系统仅在诚实/半hon最达克的多数设置中都具有强大的功能。 FLTRUST(NDSS '21)将上下文扩展到对客户的恶意多数,但在训练之前,应在训练之前为服务器提供辅助数据集,以便过滤恶意输入。私人火焰/flguard(Usenix '22)提供了一种解决方案,以确保在半多数上下文中既有稳健性和更新机密性。到目前为止,不可能平衡恶意背景,鲁棒性和更新机密性之间的权衡。为了解决这个问题,我们提出了一种新颖的拜占庭式bybust和隐私的FL系统,称为简介,以捕获恶意的少数群体和多数服务器和客户端。具体而言,基于DBSCAN算法,我们设计了一种通过成对调整的余弦相似性聚类的新方法,以提高聚类结果的准确性。为了阻止多数攻击恶意的攻击,我们开发了一种称为模型分割的算法,在该算法中,同一集群中的本地更新聚集在一起,并且将聚合正确地发送回相应的客户端。我们还利用多种密码工具来执行聚类任务,而无需牺牲培训正确性并更新机密性。我们介绍了详细的安全证明和经验评估以及简要的收敛分析。实验结果表明,简介的测试精度实际上接近FL基线(平均为0.8%的差距)。同时,攻击成功率约为0%-5%。我们进一步优化了设计,以便可以分别降低{67%-89.17%和66.05%-68.75%}的通信开销和运行时。
translated by 谷歌翻译
联邦机器学习利用边缘计算来开发网络用户数据的模型,但联合学习的隐私仍然是一个重大挑战。已经提出了使用差异隐私的技术来解决这一点,但是带来了自己的挑战 - 许多人需要一个值得信赖的第三方,或者增加了太多的噪音来生产有用的模型。使用多方计算的\ EMPH {SERVE聚合}的最新进步消除了对第三方的需求,但是在计算上尤其在规模上昂贵。我们提出了一种新的联合学习协议,利用了一种基于与错误学习的技术的新颖差异私有的恶意安全聚合协议。我们的协议优于当前最先进的技术,并且经验结果表明它缩放到大量方面,具有任何差别私有联合学习方案的最佳精度。
translated by 谷歌翻译
K均值是实践中使用最广泛的聚类模型之一。由于数据隔离的问题和对高模型性能的要求,如何共同建立实用和安全的K均值为多方成为行业中许多应用程序的重要主题。现有的工作主要是两种类型。第一种类型具有效率优势,但是信息泄漏会增加潜在的隐私风险。第二种类型是可证明的,但对于大规模数据稀疏方案而言,效率低下,甚至无助。在本文中,我们提出了一个新的框架,用于具有三个特征的有效稀疏感k均值。首先,我们的框架分为独立于数据的离线阶段和更快的在线阶段,并且离线阶段允许预先计算几乎所有的加密操作。其次,我们利用在线和离线阶段中的矢量化技术。第三,我们采用稀疏的矩阵乘法,以进一步提高效率。我们对三个合成数据集进行了全面的实验,并将模型部署在现实世界中的欺诈检测任务中。我们的实验结果表明,与最先进的解决方案相比,我们的模型在运行时间和沟通规模方面都能达到竞争性能,尤其是在稀疏数据集上。
translated by 谷歌翻译
我们提出了信令评估有限状态机器的协议,即,评估在有限状态机器的提供者和输入字符串的提供者之间共享,以这样的方式既不是一方学习另一方的输入,并且被访问的州隐藏起来。对于字母表尺寸$ | \ sigma | $,状态$ | q | $和输入长度$ n $,以前的解决方案要么是$ n $或通信$ \ omega(n | \ sigma|| q | \ log | q |)$。我们的解决方案需要2轮通信$ O(n(| \ sigma | + | q | \ log | q |))$。我们为此问题提出了两个不同的解决方案,一个双方和一个不受信任但非勾结助手的设置。
translated by 谷歌翻译
联合学习允许一组用户在私人训练数据集中培训深度神经网络。在协议期间,数据集永远不会留下各个用户的设备。这是通过要求每个用户向中央服务器发送“仅”模型更新来实现,从而汇总它们以更新深神经网络的参数。然而,已经表明,每个模型更新都具有关于用户数据集的敏感信息(例如,梯度反转攻击)。联合学习的最先进的实现通过利用安全聚合来保护这些模型更新:安全监控协议,用于安全地计算用户的模型更新的聚合。安全聚合是关键,以保护用户的隐私,因为它会阻碍服务器学习用户提供的个人模型更新的源,防止推断和数据归因攻击。在这项工作中,我们表明恶意服务器可以轻松地阐明安全聚合,就像后者未到位一样。我们设计了两种不同的攻击,能够在参与安全聚合的用户数量上,独立于参与安全聚合的用户数。这使得它们在大规模现实世界联邦学习应用中的具体威胁。攻击是通用的,不瞄准任何特定的安全聚合协议。即使安全聚合协议被其理想功能替换为提供完美的安全性的理想功能,它们也同样有效。我们的工作表明,安全聚合与联合学习相结合,当前实施只提供了“虚假的安全感”。
translated by 谷歌翻译
已经提出了安全的多方计算(MPC),以允许多个相互不信任的数据所有者在其合并数据上共同训练机器学习(ML)模型。但是,通过设计,MPC协议忠实地计算了训练功能,对抗性ML社区已证明该功能泄漏了私人信息,并且可以在中毒攻击中篡改。在这项工作中,我们认为在我们的框架中实现的模型合奏是一种称为Safenet的框架,是MPC的高度无限方法,可以避免许多对抗性ML攻击。 MPC培训中所有者之间数据的自然分区允许这种方法在训练时间高度可扩展,可证明可保护免受中毒攻击的保护,并证明可以防御许多隐私攻击。我们展示了Safenet对在端到端和转移学习方案训练的几个机器学习数据集和模型上中毒的效率,准确性和韧性。例如,Safenet可显着降低后门攻击的成功,同时获得$ 39 \ times $ $的培训,$ 36 \ times $ $ $少于达尔斯科夫(Dalskov)等人的四方MPC框架。我们的实验表明,即使在许多非IID设置中,结合也能保留这些好处。结合的简单性,廉价的设置和鲁棒性属性使其成为MPC私下培训ML模型的强大首选。
translated by 谷歌翻译
Machine Learning as a service (MLaaS) permits resource-limited clients to access powerful data analytics services ubiquitously. Despite its merits, MLaaS poses significant concerns regarding the integrity of delegated computation and the privacy of the server's model parameters. To address this issue, Zhang et al. (CCS'20) initiated the study of zero-knowledge Machine Learning (zkML). Few zkML schemes have been proposed afterward; however, they focus on sole ML classification algorithms that may not offer satisfactory accuracy or require large-scale training data and model parameters, which may not be desirable for some applications. We propose ezDPS, a new efficient and zero-knowledge ML inference scheme. Unlike prior works, ezDPS is a zkML pipeline in which the data is processed in multiple stages for high accuracy. Each stage of ezDPS is harnessed with an established ML algorithm that is shown to be effective in various applications, including Discrete Wavelet Transformation, Principal Components Analysis, and Support Vector Machine. We design new gadgets to prove ML operations effectively. We fully implemented ezDPS and assessed its performance on real datasets. Experimental results showed that ezDPS achieves one-to-three orders of magnitude more efficient than the generic circuit-based approach in all metrics while maintaining more desirable accuracy than single ML classification approaches.
translated by 谷歌翻译
最近,Niu,et。 al。介绍了一个新的联合学习(FL)的新变种​​,称为联邦子模型学习(FSL)。与传统的FL不同,每个客户端都会根据其私有数据在本地列出子模型(例如,从服务器检索),并在其选择到服务器时将子模型上载。然后所有客户端都会聚合所有子模型并完成迭代。不可避免地,FSL引入了两个隐私保留的计算任务,即私有子模型检索(PSR)和Secure Semodel聚合(SSA)。现有工作未能提供较少的亏损计划,或具有不切实际的效率。在这项工作中,我们利用分布式点函数(DPF)和Cuckoo Hashing来构建双服务器设置中的实用和轻量度安全FSL方案。更具体地说,我们提出了两个具有少量优化技术的基本协议,可确保我们对特定现实FSL任务的协议实用性。我们的实验表明,当重量尺寸$ \ LEQ 2 ^ {15} $时,我们所提出的协议可以在不到1分钟内完成,我们还通过与现有工作进行比较来展示协议效率,并通过处理真实世界的FSL任务。
translated by 谷歌翻译
In this work we provide efficient distributed protocols for generating shares of random noise, secure against malicious participants. The purpose of the noise generation is to create a distributed implementation of the privacy-preserving statistical databases described in recent papers [14,4,13]. In these databases, privacy is obtained by perturbing the true answer to a database query by the addition of a small amount of Gaussian or exponentially distributed random noise. The computational power of even a simple form of these databases, when the query is just of the form i f (di), that is, the sum over all rows i in the database of a function f applied to the data in row i, has been demonstrated in [4]. A distributed implementation eliminates the need for a trusted database administrator.The results for noise generation are of independent interest. The generation of Gaussian noise introduces a technique for distributing shares of many unbiased coins with fewer executions of verifiable secret sharing than would be needed using previous approaches (reduced by a factor of n). The generation of exponentially distributed noise uses two shallow circuits: one for generating many arbitrarily but identically biased coins at an amortized cost of two unbiased random bits apiece, independent of the bias, and the other to combine bits of appropriate biases to obtain an exponential distribution.
translated by 谷歌翻译
Federated learning is a collaborative method that aims to preserve data privacy while creating AI models. Current approaches to federated learning tend to rely heavily on secure aggregation protocols to preserve data privacy. However, to some degree, such protocols assume that the entity orchestrating the federated learning process (i.e., the server) is not fully malicious or dishonest. We investigate vulnerabilities to secure aggregation that could arise if the server is fully malicious and attempts to obtain access to private, potentially sensitive data. Furthermore, we provide a method to further defend against such a malicious server, and demonstrate effectiveness against known attacks that reconstruct data in a federated learning setting.
translated by 谷歌翻译
保留保护解决方案使公司能够在履行政府法规的同时将机密数据卸载到第三方服务。为了实现这一点,它们利用了各种密码技术,例如同性恋加密(HE),其允许对加密数据执行计算。大多数他计划以SIMD方式工作,数据包装方法可以显着影响运行时间和内存成本。找到导致最佳性能实现的包装方法是一个艰难的任务。我们提出了一种简单而直观的框架,摘要为用户提供包装决定。我们解释其底层数据结构和优化器,并提出了一种用于执行2D卷积操作的新算法。我们使用此框架来实现他友好的AlexNet版本,在三分钟内运行,比其他最先进的解决方案更快的数量级,只能使用他。
translated by 谷歌翻译
团体公平确保基于机器学习的结果(ML)决策系统的结果不会偏向于某些由性别或种族等敏感属性定义的人。在联合学习(FL)中实现群体公平性是具有挑战性的,因为缓解偏差固有地需要使用所有客户的敏感属性值,而FL则旨在通过不给客户数据访问来保护隐私。正如我们在本文中所显示的那样,可以通过将FL与安全的多方计算(MPC)和差异隐私(DP)相结合来解决FL中的公平与隐私之间的冲突。在此过程中,我们提出了一种在完整和正式的隐私保证下培训跨设备FL中的小组最大ML模型的方法,而无需客户披露其敏感属性值。
translated by 谷歌翻译
安全的基于多方计算的机器学习(称为MPL)已成为利用来自具有隐私保护的多个政党的数据的重要技术。尽管MPL为计算过程提供了严格的安全保证,但MPL训练的模型仍然容易受到仅依赖于访问模型的攻击。差异隐私可以帮助防御此类攻击。但是,差异隐私和安全多方计算协议的巨大沟通开销带来的准确性损失使得平衡隐私,效率和准确性之间的三通权衡是高度挑战的。在本文中,我们有动力通过提出一种解决方案(称为PEA(私有,高效,准确))来解决上述问题,该解决方案由安全的DPSGD协议和两种优化方法组成。首先,我们提出了一个安全的DPSGD协议,以在基于秘密共享的MPL框架中强制执行DPSGD。其次,为了减少因差异隐私噪声和MPL的巨大通信开销而导致的准确性损失,我们提出了MPL训练过程的两种优化方法:(1)与数据无关的功能提取方法,旨在简化受过训练的模型结构体; (2)基于本地数据的全局模型初始化方法,旨在加快模型训练的收敛性。我们在两个开源MPL框架中实施PEA:TF-Conteded和Queqiao。各种数据集的实验结果证明了PEA的效率和有效性。例如。当$ {\ epsilon} $ = 2时,我们可以在LAN设置下的7分钟内训练CIFAR-10的差异私有分类模型,其精度为88%。这一结果大大优于来自CryptGPU的一个SOTA MPL框架:在CIFAR-10上训练非私有性深神经网络模型的成本超过16小时,其精度相同。
translated by 谷歌翻译
在过去的几年中,多方计算(MPC)作为安全计算模型一直在越来越受欢迎,尤其是对于机器学习(ML)推断。与竞争对手相比,MPC的开销少于同构加密(HE),并且比基于硬件的可信执行环境(TEE)(例如Intel SGX)具有更强的威胁模型。尽管具有明显的优势,但在应用于ML算法时,MPC协议仍然与针对性相比,仍要支付大量的绩效罚款。开销是由于增加的计算和通信成本。对于在ML算法中无处不在的乘法,MPC协议在MPC服务器之间增加了32x更多的计算成本和1轮广播。此外,由于SoftMax,Relu和其他非线性操作,其具有微不足道的成本的ML计算由于增加了沟通而变得非常昂贵。这些添加的开销使MPC不太适合在实时ML推理框架(例如语音翻译)中部署。在这项工作中,我们提出了MPC-Pipe,这是一种使用两种ML特异性方法的MPC管道推理技术。 1)内线间管道和2)内层管道。这两种技术缩短了机器学习模型的总推理运行时。与当前的MPC协议实现相比,当模型权重公开时,我们的实验已显示可将ML推断潜伏期降低多达12.6%,而在模型权重公开时,将ML推断潜伏期最高12.6%。
translated by 谷歌翻译
我们解决了从培训数据中学习机器学习模型的问题,该模型源于多个数据所有者,同时提供有关保护每个所有者数据的正式隐私保证。基于差异隐私(DP)的现有解决方案以准确性下降为代价。基于安全多方计算(MPC)的解决方案不会引起这种准确性损失,而是在公开可用的训练模型时泄漏信息。我们提出了用于训练DP模型的MPC解决方案。我们的解决方案依赖于用于模型培训的MPC协议,以及以隐私保护方式以拉普拉斯噪声扰动训练有素的模型系数的MPC协议。所得的MPC+DP方法比纯DP方法获得了更高的准确性,同时提供相同的正式隐私保证。我们的工作在IDASH2021轨道III竞赛中获得了针对安全基因组分析的机密计算竞赛的第一名。
translated by 谷歌翻译