安全的多方计算(MPC)允许当事方在数据私有的同时对数据进行计算。该功能具有机器学习应用程序的巨大潜力:它促进了对不同政党拥有的私人数据集的机器学习模型的培训,使用另一方的私人数据评估一方的私人模型等。尽管一系列研究实现了机器 - 通过安全MPC学习模型,此类实现尚未成为主流。没有灵活的软件框架“说话”机器学习研究人员和工程师的灵活软件框架的缺乏阻碍了安全MPC的采用。为了促进机器学习中安全MPC的采用,我们提出了Crypten:一个软件框架,该框架通过在现代机器学习框架中常见的抽象来揭示流行的安全MPC原语,例如张量计算,自动分化和模块化神经网络。本文描述了隐秘的设计,并在最新的文本分类,语音识别和图像分类的模型上衡量其性能。我们的基准表明,Crypten的GPU支持和(任意数量)各方之间的高性能通信使其能够在半honest威胁模型下对现代机器学习模型进行有效的私人评估。例如,使用密码的两方可以使用WAV2letter在语音记录中安全预测音素的速度比实时更快。我们希望Crypten能促使在机器学习社区中采用安全MPC。
translated by 谷歌翻译
我们使用所述环境中常用的量化实施了安全多方计算(MPC)中神经网络的培训。我们是第一个呈现MNIST分类器纯粹在MPC中训练的MNIST分类器,该分类器占据通过宣传计算训练的相同卷积神经网络准确性的0.2%。更具体地说,我们已经训练了一个在3.5小时内具有两个卷积和两个密集层至99.2%精度的网络(精度为99%的小时)。我们还为CIFAR-10实施了Alexnet,该Alexnet在几个小时内收敛。我们开发了用于指示和平方根逆的新方案。最后,我们在多达十个政党的一系列MPC安全模型中介绍了实验,包括诚实和不诚实的多数以及半honest和恶意安全。
translated by 谷歌翻译
Machine learning is widely used in practice to produce predictive models for applications such as image processing, speech and text recognition. These models are more accurate when trained on large amount of data collected from different sources. However, the massive data collection raises privacy concerns.In this paper, we present new and efficient protocols for privacy preserving machine learning for linear regression, logistic regression and neural network training using the stochastic gradient descent method. Our protocols fall in the two-server model where data owners distribute their private data among two non-colluding servers who train various models on the joint data using secure two-party computation (2PC). We develop new techniques to support secure arithmetic operations on shared decimal numbers, and propose MPC-friendly alternatives to non-linear functions such as sigmoid and softmax that are superior to prior work. We implement our system in C++. Our experiments validate that our protocols are several orders of magnitude faster than the state of the art implementations for privacy preserving linear and logistic regressions, and scale to millions of data samples with thousands of features. We also implement the first privacy preserving system for training neural networks.
translated by 谷歌翻译
在过去的几年中,多方计算(MPC)作为安全计算模型一直在越来越受欢迎,尤其是对于机器学习(ML)推断。与竞争对手相比,MPC的开销少于同构加密(HE),并且比基于硬件的可信执行环境(TEE)(例如Intel SGX)具有更强的威胁模型。尽管具有明显的优势,但在应用于ML算法时,MPC协议仍然与针对性相比,仍要支付大量的绩效罚款。开销是由于增加的计算和通信成本。对于在ML算法中无处不在的乘法,MPC协议在MPC服务器之间增加了32x更多的计算成本和1轮广播。此外,由于SoftMax,Relu和其他非线性操作,其具有微不足道的成本的ML计算由于增加了沟通而变得非常昂贵。这些添加的开销使MPC不太适合在实时ML推理框架(例如语音翻译)中部署。在这项工作中,我们提出了MPC-Pipe,这是一种使用两种ML特异性方法的MPC管道推理技术。 1)内线间管道和2)内层管道。这两种技术缩短了机器学习模型的总推理运行时。与当前的MPC协议实现相比,当模型权重公开时,我们的实验已显示可将ML推断潜伏期降低多达12.6%,而在模型权重公开时,将ML推断潜伏期最高12.6%。
translated by 谷歌翻译
收集的数据量不断增长,其分析以提供更好的服务正在引起人们对数字隐私的担忧。为了解决隐私问题并提供实用的解决方案,文献依赖于安全的多方计算。但是,最近的研究主要集中在多达四个政党的小党诚实造成的设置上,并指出了效率的问题。在这项工作中,我们扩展了策略,以在中心舞台上以效率为诚实的多数参与者。在预处理范式中,我们的半冬季协议改善了Damg \ aa Rd和Nielson(Crypto'07)十年最先进的协议的在线复杂性。除了提高在线沟通成本外,我们还可以在在线阶段关闭几乎一半的各方,从而节省了系统的运营成本高达50%。我们恶意安全的协议也享有类似的好处,除了一次性验证外,只需要一半的当事方。为了展示设计协议的实用性,我们基准了使用原型实现的深度神经网络,图形神经网络,基因组序列匹配以及生物识别匹配等流行应用程序。我们改进的协议有助于在先前的工作中节省高达60-80%的货币成本。
translated by 谷歌翻译
安全的基于多方计算的机器学习(称为MPL)已成为利用来自具有隐私保护的多个政党的数据的重要技术。尽管MPL为计算过程提供了严格的安全保证,但MPL训练的模型仍然容易受到仅依赖于访问模型的攻击。差异隐私可以帮助防御此类攻击。但是,差异隐私和安全多方计算协议的巨大沟通开销带来的准确性损失使得平衡隐私,效率和准确性之间的三通权衡是高度挑战的。在本文中,我们有动力通过提出一种解决方案(称为PEA(私有,高效,准确))来解决上述问题,该解决方案由安全的DPSGD协议和两种优化方法组成。首先,我们提出了一个安全的DPSGD协议,以在基于秘密共享的MPL框架中强制执行DPSGD。其次,为了减少因差异隐私噪声和MPL的巨大通信开销而导致的准确性损失,我们提出了MPL训练过程的两种优化方法:(1)与数据无关的功能提取方法,旨在简化受过训练的模型结构体; (2)基于本地数据的全局模型初始化方法,旨在加快模型训练的收敛性。我们在两个开源MPL框架中实施PEA:TF-Conteded和Queqiao。各种数据集的实验结果证明了PEA的效率和有效性。例如。当$ {\ epsilon} $ = 2时,我们可以在LAN设置下的7分钟内训练CIFAR-10的差异私有分类模型,其精度为88%。这一结果大大优于来自CryptGPU的一个SOTA MPL框架:在CIFAR-10上训练非私有性深神经网络模型的成本超过16小时,其精度相同。
translated by 谷歌翻译
由于ML算法已经证明了它们在许多不同的应用程序中的成功,因此对保留隐私(PP)ML方法的兴趣也很大,用于构建敏感数据的模型。此外,这些算法所需的数据源数量和高计算能力的增加迫使个人将ML模型的培训和/或推断为提供此类服务的云。为了解决这个问题,我们提出了一个安全的三方计算框架塞西莉亚(Cecilia),提供PP构建块以私下启用复杂操作。除了加法和乘法等适应性和常见的操作外,它还提供了多路复用器,最重要的位和模量转换。在方法论方面,前两个是新颖的,就功能和方法论而言,最后一个是新颖的。塞西莉亚(Cecilia)也有两种复杂的新颖方法,这是公共基础的确切指数,该公共基础升高到秘密价值的力量和秘密革兰氏矩阵的反平方根。我们使用塞西莉亚(Cecilia)实现对预先训练的RKN的私人推断,比大多数其他DNN相比,对蛋白质的结构分类需要更复杂的操作,这是有史以来第一个在RKN上完成PP推断的研究。除了成功的基本构建块的私人计算外,结果还表明,我们执行了确切的私有指数计算,该计算是通过迄今为止文献中的近似来完成的。此外,他们还表明,我们将秘密革兰氏矩阵的确切逆平方根计算到一定的隐私级别,而文献中根本没有解决。我们还分析了Cecilia对合成数据集上各种设置的可伸缩性。该框架表现出一个巨大的希望,可以制作其他ML算法,并通过框架的构建块进行私人计算的进一步计算。
translated by 谷歌翻译
随着机器学习到达不同的应用领域,与隐私和安全有关的问题正在越来越大。数据持有人希望在利用云中托管的加速器(例如GPU)的同时训练或推断私人数据。云系统容易受到损害数据隐私和计算完整性的攻击者的影响。应对这样的挑战需要将理论隐私算法统一使用硬件安全功能。本文介绍了Darknight,这是一个大型DNN培训的框架,同时保护输入隐私和计算完整性。 Darknight依赖于受信任的执行环境(TEE)和加速器之间的合作执行,其中TEE提供了隐私和完整性验证,而加速器则执行大部分线性代数计算以优化性能。特别是,Darknight使用基于矩阵掩码的自定义数据编码策略来在TEE中创建输入混淆。然后将混淆的数据卸载到GPU,以进行快速线性代数计算。 Darknight的数据混淆策略在云服务器中提供了可证明的数据隐私和计算完整性。虽然先前的作品应对推理隐私,并且不能用于培训,但Darknight的编码方案旨在支持培训和推理。
translated by 谷歌翻译
联邦机器学习利用边缘计算来开发网络用户数据的模型,但联合学习的隐私仍然是一个重大挑战。已经提出了使用差异隐私的技术来解决这一点,但是带来了自己的挑战 - 许多人需要一个值得信赖的第三方,或者增加了太多的噪音来生产有用的模型。使用多方计算的\ EMPH {SERVE聚合}的最新进步消除了对第三方的需求,但是在计算上尤其在规模上昂贵。我们提出了一种新的联合学习协议,利用了一种基于与错误学习的技术的新颖差异私有的恶意安全聚合协议。我们的协议优于当前最先进的技术,并且经验结果表明它缩放到大量方面,具有任何差别私有联合学习方案的最佳精度。
translated by 谷歌翻译
K均值是实践中使用最广泛的聚类模型之一。由于数据隔离的问题和对高模型性能的要求,如何共同建立实用和安全的K均值为多方成为行业中许多应用程序的重要主题。现有的工作主要是两种类型。第一种类型具有效率优势,但是信息泄漏会增加潜在的隐私风险。第二种类型是可证明的,但对于大规模数据稀疏方案而言,效率低下,甚至无助。在本文中,我们提出了一个新的框架,用于具有三个特征的有效稀疏感k均值。首先,我们的框架分为独立于数据的离线阶段和更快的在线阶段,并且离线阶段允许预先计算几乎所有的加密操作。其次,我们利用在线和离线阶段中的矢量化技术。第三,我们采用稀疏的矩阵乘法,以进一步提高效率。我们对三个合成数据集进行了全面的实验,并将模型部署在现实世界中的欺诈检测任务中。我们的实验结果表明,与最先进的解决方案相比,我们的模型在运行时间和沟通规模方面都能达到竞争性能,尤其是在稀疏数据集上。
translated by 谷歌翻译
神经网络的外包计算允许用户访问艺术模型的状态,而无需投资专门的硬件和专业知识。问题是用户对潜在的隐私敏感数据失去控制。通过同性恋加密(HE)可以在加密数据上执行计算,而不会显示其内容。在这种知识的系统化中,我们深入了解与隐私保留的神经网络相结合的方法。我们将更改分类为神经网络模型和架构,使其在他和这些变化的影响方面提供影响。我们发现众多挑战是基于隐私保留的深度学习,例如通过加密方案构成的计算开销,可用性和限制。
translated by 谷歌翻译
我们解决了从培训数据中学习机器学习模型的问题,该模型源于多个数据所有者,同时提供有关保护每个所有者数据的正式隐私保证。基于差异隐私(DP)的现有解决方案以准确性下降为代价。基于安全多方计算(MPC)的解决方案不会引起这种准确性损失,而是在公开可用的训练模型时泄漏信息。我们提出了用于训练DP模型的MPC解决方案。我们的解决方案依赖于用于模型培训的MPC协议,以及以隐私保护方式以拉普拉斯噪声扰动训练有素的模型系数的MPC协议。所得的MPC+DP方法比纯DP方法获得了更高的准确性,同时提供相同的正式隐私保证。我们的工作在IDASH2021轨道III竞赛中获得了针对安全基因组分析的机密计算竞赛的第一名。
translated by 谷歌翻译
在过去十年中,已经开发出新的深度学习(DL)算法,工作负载和硬件来解决各种问题。尽管工作量和硬件生态系统的进步,DL系统的编程方法是停滞不前的。 DL工作负载从DL库中的高度优化,特定于平台和不灵活的内核,或者在新颖的操作员的情况下,通过具有强大性能的DL框架基元建立参考实现。这项工作介绍了Tensor加工基元(TPP),一个编程抽象,用于高效的DL工作负载的高效,便携式实现。 TPPS定义了一组紧凑而多才多艺的2D张镜操作员(或虚拟张量ISA),随后可以用作构建块,以在高维张量上构建复杂的运算符。 TPP规范是平台 - 不可行的,因此通过TPPS表示的代码是便携式的,而TPP实现是高度优化的,并且特定于平台。我们展示了我们使用独立内核和端到端DL&HPC工作负载完全通过TPPS表达的方法的效力和生存性,这在多个平台上优于最先进的实现。
translated by 谷歌翻译
保留保护解决方案使公司能够在履行政府法规的同时将机密数据卸载到第三方服务。为了实现这一点,它们利用了各种密码技术,例如同性恋加密(HE),其允许对加密数据执行计算。大多数他计划以SIMD方式工作,数据包装方法可以显着影响运行时间和内存成本。找到导致最佳性能实现的包装方法是一个艰难的任务。我们提出了一种简单而直观的框架,摘要为用户提供包装决定。我们解释其底层数据结构和优化器,并提出了一种用于执行2D卷积操作的新算法。我们使用此框架来实现他友好的AlexNet版本,在三分钟内运行,比其他最先进的解决方案更快的数量级,只能使用他。
translated by 谷歌翻译
已经提出了安全的多方计算(MPC),以允许多个相互不信任的数据所有者在其合并数据上共同训练机器学习(ML)模型。但是,通过设计,MPC协议忠实地计算了训练功能,对抗性ML社区已证明该功能泄漏了私人信息,并且可以在中毒攻击中篡改。在这项工作中,我们认为在我们的框架中实现的模型合奏是一种称为Safenet的框架,是MPC的高度无限方法,可以避免许多对抗性ML攻击。 MPC培训中所有者之间数据的自然分区允许这种方法在训练时间高度可扩展,可证明可保护免受中毒攻击的保护,并证明可以防御许多隐私攻击。我们展示了Safenet对在端到端和转移学习方案训练的几个机器学习数据集和模型上中毒的效率,准确性和韧性。例如,Safenet可显着降低后门攻击的成功,同时获得$ 39 \ times $ $的培训,$ 36 \ times $ $ $少于达尔斯科夫(Dalskov)等人的四方MPC框架。我们的实验表明,即使在许多非IID设置中,结合也能保留这些好处。结合的简单性,廉价的设置和鲁棒性属性使其成为MPC私下培训ML模型的强大首选。
translated by 谷歌翻译
We introduce a framework for navigating through cluttered environments by connecting multiple cameras together while simultaneously preserving privacy. Occlusions and obstacles in large environments are often challenging situations for navigation agents because the environment is not fully observable from a single camera view. Given multiple camera views of an environment, our approach learns to produce a multiview scene representation that can only be used for navigation, provably preventing one party from inferring anything beyond the output task. On a new navigation dataset that we will publicly release, experiments show that private multiparty representations allow navigation through complex scenes and around obstacles while jointly preserving privacy. Our approach scales to an arbitrary number of camera viewpoints. We believe developing visual representations that preserve privacy is increasingly important for many applications such as navigation.
translated by 谷歌翻译
联合学习允许一组用户在私人训练数据集中培训深度神经网络。在协议期间,数据集永远不会留下各个用户的设备。这是通过要求每个用户向中央服务器发送“仅”模型更新来实现,从而汇总它们以更新深神经网络的参数。然而,已经表明,每个模型更新都具有关于用户数据集的敏感信息(例如,梯度反转攻击)。联合学习的最先进的实现通过利用安全聚合来保护这些模型更新:安全监控协议,用于安全地计算用户的模型更新的聚合。安全聚合是关键,以保护用户的隐私,因为它会阻碍服务器学习用户提供的个人模型更新的源,防止推断和数据归因攻击。在这项工作中,我们表明恶意服务器可以轻松地阐明安全聚合,就像后者未到位一样。我们设计了两种不同的攻击,能够在参与安全聚合的用户数量上,独立于参与安全聚合的用户数。这使得它们在大规模现实世界联邦学习应用中的具体威胁。攻击是通用的,不瞄准任何特定的安全聚合协议。即使安全聚合协议被其理想功能替换为提供完美的安全性的理想功能,它们也同样有效。我们的工作表明,安全聚合与联合学习相结合,当前实施只提供了“虚假的安全感”。
translated by 谷歌翻译
拜占庭式联合学习(FL)旨在对抗恶意客户并培训准确的全球模型,同时保持极低的攻击成功率。然而,大多数现有系统仅在诚实/半hon最达克的多数设置中都具有强大的功能。 FLTRUST(NDSS '21)将上下文扩展到对客户的恶意多数,但在训练之前,应在训练之前为服务器提供辅助数据集,以便过滤恶意输入。私人火焰/flguard(Usenix '22)提供了一种解决方案,以确保在半多数上下文中既有稳健性和更新机密性。到目前为止,不可能平衡恶意背景,鲁棒性和更新机密性之间的权衡。为了解决这个问题,我们提出了一种新颖的拜占庭式bybust和隐私的FL系统,称为简介,以捕获恶意的少数群体和多数服务器和客户端。具体而言,基于DBSCAN算法,我们设计了一种通过成对调整的余弦相似性聚类的新方法,以提高聚类结果的准确性。为了阻止多数攻击恶意的攻击,我们开发了一种称为模型分割的算法,在该算法中,同一集群中的本地更新聚集在一起,并且将聚合正确地发送回相应的客户端。我们还利用多种密码工具来执行聚类任务,而无需牺牲培训正确性并更新机密性。我们介绍了详细的安全证明和经验评估以及简要的收敛分析。实验结果表明,简介的测试精度实际上接近FL基线(平均为0.8%的差距)。同时,攻击成功率约为0%-5%。我们进一步优化了设计,以便可以分别降低{67%-89.17%和66.05%-68.75%}的通信开销和运行时。
translated by 谷歌翻译
深度学习(DL)的快速增长和部署目睹了新兴的隐私和安全问题。为了减轻这些问题,已经讨论了安全的多方计算(MPC),以实现隐私保护DL计算。在实践中,它们通常是在很高的计算和沟通开销中,并有可能禁止其在大规模系统中的受欢迎程度。两种正交研究趋势吸引了人们对安全深度学习的能源效率的巨大兴趣,即MPC比较方案的高架降低和硬件加速度。但是,他们要么达到较低的减少比率,因此由于计算和通信节省有限而遭受了高潜伏期,或者是渴望的,因为现有的作品主要集中在CPU和GPU等一般计算平台上。在这项工作中,作为第一次尝试,我们通过将加密构件构建块的硬件延迟整合到DNN损耗功能中,以实现高能量效率,开发了一个系统的polympcnet,以减少MPC比较协议和硬件加速的联合额外降低的系统框架Polympcnet。和安全保证。我们的关键设计原理不是在DNN进行良好训练之后(通过删除或删除某些非物质操作员)训练(通过删除或删除某些非物质操作员)之后检查模型敏感性,而是要准确地执行DNN设计中的假设 - 培训DNN既是DNN都硬件有效且安全,同时逃脱了当地的最小值和鞍点并保持高精度。更具体地说,我们提出了通过多项式激活初始化方法直接提出的加密硬件友好的可训练多项式激活功能,以替代昂贵的2P-RELU操作员。我们开发了一个密码硬件调度程序和现场可编程门阵列(FPGA)平台的相应性能模型。
translated by 谷歌翻译
Machine Learning as a service (MLaaS) permits resource-limited clients to access powerful data analytics services ubiquitously. Despite its merits, MLaaS poses significant concerns regarding the integrity of delegated computation and the privacy of the server's model parameters. To address this issue, Zhang et al. (CCS'20) initiated the study of zero-knowledge Machine Learning (zkML). Few zkML schemes have been proposed afterward; however, they focus on sole ML classification algorithms that may not offer satisfactory accuracy or require large-scale training data and model parameters, which may not be desirable for some applications. We propose ezDPS, a new efficient and zero-knowledge ML inference scheme. Unlike prior works, ezDPS is a zkML pipeline in which the data is processed in multiple stages for high accuracy. Each stage of ezDPS is harnessed with an established ML algorithm that is shown to be effective in various applications, including Discrete Wavelet Transformation, Principal Components Analysis, and Support Vector Machine. We design new gadgets to prove ML operations effectively. We fully implemented ezDPS and assessed its performance on real datasets. Experimental results showed that ezDPS achieves one-to-three orders of magnitude more efficient than the generic circuit-based approach in all metrics while maintaining more desirable accuracy than single ML classification approaches.
translated by 谷歌翻译