我们介绍了一个免费的开源的Pytorch库,用于培训具有差异隐私的深度学习模型(在Https://opacus.ai托管)。遮光罩是为了简单,灵活性和速度而设计的。它提供了一个简单和用户友好的API,并使机器学习从业者能够通过向其代码添加两条线来制作培训管道私有。它支持各种各样的层,包括多主题注意,卷积,LSTM和嵌入框,它还提供了支持其他用户定义的图层的手段。遮光罩计算的每个样本梯度批量,与传统的“微批量”方法相比,提供更好的效率。在本文中,我们介绍了opacus,详细介绍了推动其实现和独特功能的原则,并将其对ML中差别隐私的其他框架进行比较。
translated by 谷歌翻译
大型卷积神经网络(CNN)可能很难在差异私有(DP)方面进行训练,因为优化算法需要计算昂贵的操作,称为每样本梯度剪辑。我们提出了对卷积层的这种剪辑的有效且可扩展的实施,称为混合的幽灵剪裁,从而在不影响准确性的情况下大大简化了私人培训。通过对混合幽灵剪辑和现有的DP培训算法进行的首次复杂性分析,严格研究了效率的提高。关于视力分类任务的广泛实验,具有大型重新连接,VGG和视觉变压器,证明了与混合幽灵剪裁的DP培训增加了$ 1 \ sim 10 \%$内存开销,$ <2 \ 2 \ times $ slowdown for标准的非私人培训减速。具体来说,当在CIFAR10上培训VGG19时,混合的幽灵剪裁的价格是$ 3 \ times $ $ $ $比最先进的Opa​​cus库,价格为$ 18 \ times $ $最大批处理大小。为了强调有效的DP培训对卷积层的重要性,我们使用BEIT在$ \ epsilon = 1 $上实现了CIFAR10上的96.7 \%精度和83.0 \%的CIFAR100 \%,而先前的最佳结果为94.8 \%\%\%和67.4 \%\%\%\%\%,,,,,\%分别。我们打开隐私引擎(\ url {https://github.com/jialinmao/private_cnn}),该引擎将CNN的DP培训使用几行代码实现DP培训。
translated by 谷歌翻译
Machine learning techniques based on neural networks are achieving remarkable results in a wide variety of domains. Often, the training of models requires large, representative datasets, which may be crowdsourced and contain sensitive information. The models should not expose private information in these datasets. Addressing this goal, we develop new algorithmic techniques for learning and a refined analysis of privacy costs within the framework of differential privacy. Our implementation and experiments demonstrate that we can train deep neural networks with non-convex objectives, under a modest privacy budget, and at a manageable cost in software complexity, training efficiency, and model quality. * Google.† OpenAI. Work done while at Google.
translated by 谷歌翻译
机器学习(ML)的广泛部署正在引起严重的关注,以保护为收集培训数据做出贡献的用户的隐私。差异隐私(DP)作为保护保护的实用标准,在行业中迅速获得势头。尽管DP的重要性,但是在计算机系统社区中,几乎没有探索这种新兴ML算法对系统设计的影响。在这项工作中,我们对名为DP-SGD的最先进的私人ML培训算法进行了详细的工作量表征。我们发现了DP-SGD的几种独特属性(例如,其高内存能力和计算需求与非私人ML),从而引起其关键瓶颈。基于我们的分析,我们提出了一个名为Diva的差异私有ML的加速器,该加速器在计算利用率方面具有显着改善,从而导致2.6倍的能量效率与常规收缩期阵列。
translated by 谷歌翻译
Differentially private deep learning has recently witnessed advances in computational efficiency and privacy-utility trade-off. We explore whether further improvements along the two axes are possible and provide affirmative answers leveraging two instantiations of \emph{group-wise clipping}. To reduce the compute time overhead of private learning, we show that \emph{per-layer clipping}, where the gradient of each neural network layer is clipped separately, allows clipping to be performed in conjunction with backpropagation in differentially private optimization. This results in private learning that is as memory-efficient and almost as fast per training update as non-private learning for many workflows of interest. While per-layer clipping with constant thresholds tends to underperform standard flat clipping, per-layer clipping with adaptive thresholds matches or outperforms flat clipping under given training epoch constraints, hence attaining similar or better task performance within less wall time. To explore the limits of scaling (pretrained) models in differentially private deep learning, we privately fine-tune the 175 billion-parameter GPT-3. We bypass scaling challenges associated with clipping gradients that are distributed across multiple devices with \emph{per-device clipping} that clips the gradient of each model piece separately on its host device. Privately fine-tuning GPT-3 with per-device clipping achieves a task performance at $\epsilon=1$ better than what is attainable by non-privately fine-tuning the largest GPT-2 on a summarization task.
translated by 谷歌翻译
TensorFlow is a machine learning system that operates at large scale and in heterogeneous environments. Tensor-Flow uses dataflow graphs to represent computation, shared state, and the operations that mutate that state. It maps the nodes of a dataflow graph across many machines in a cluster, and within a machine across multiple computational devices, including multicore CPUs, generalpurpose GPUs, and custom-designed ASICs known as Tensor Processing Units (TPUs). This architecture gives flexibility to the application developer: whereas in previous "parameter server" designs the management of shared state is built into the system, TensorFlow enables developers to experiment with novel optimizations and training algorithms. TensorFlow supports a variety of applications, with a focus on training and inference on deep neural networks. Several Google services use TensorFlow in production, we have released it as an open-source project, and it has become widely used for machine learning research. In this paper, we describe the TensorFlow dataflow model and demonstrate the compelling performance that Tensor-Flow achieves for several real-world applications.
translated by 谷歌翻译
随着机器学习到达不同的应用领域,与隐私和安全有关的问题正在越来越大。数据持有人希望在利用云中托管的加速器(例如GPU)的同时训练或推断私人数据。云系统容易受到损害数据隐私和计算完整性的攻击者的影响。应对这样的挑战需要将理论隐私算法统一使用硬件安全功能。本文介绍了Darknight,这是一个大型DNN培训的框架,同时保护输入隐私和计算完整性。 Darknight依赖于受信任的执行环境(TEE)和加速器之间的合作执行,其中TEE提供了隐私和完整性验证,而加速器则执行大部分线性代数计算以优化性能。特别是,Darknight使用基于矩阵掩码的自定义数据编码策略来在TEE中创建输入混淆。然后将混淆的数据卸载到GPU,以进行快速线性代数计算。 Darknight的数据混淆策略在云服务器中提供了可证明的数据隐私和计算完整性。虽然先前的作品应对推理隐私,并且不能用于培训,但Darknight的编码方案旨在支持培训和推理。
translated by 谷歌翻译
Pre-training large transformer models with in-domain data improves domain adaptation and helps gain performance on the domain-specific downstream tasks. However, sharing models pre-trained on potentially sensitive data is prone to adversarial privacy attacks. In this paper, we asked to which extent we can guarantee privacy of pre-training data and, at the same time, achieve better downstream performance on legal tasks without the need of additional labeled data. We extensively experiment with scalable self-supervised learning of transformer models under the formal paradigm of differential privacy and show that under specific training configurations we can improve downstream performance without sacrifying privacy protection for the in-domain data. Our main contribution is utilizing differential privacy for large-scale pre-training of transformer language models in the legal NLP domain, which, to the best of our knowledge, has not been addressed before.
translated by 谷歌翻译
差异隐私(DP)提供了正式的隐私保证,以防止对手可以访问机器学习模型,从而从提取有关单个培训点的信息。最受欢迎的DP训练方法是差异私有随机梯度下降(DP-SGD),它通过在训练过程中注入噪声来实现这种保护。然而,以前的工作发现,DP-SGD通常会导致标准图像分类基准的性能显着降解。此外,一些作者假设DP-SGD在大型模型上固有地表现不佳,因为保留隐私所需的噪声规范与模型维度成正比。相反,我们证明了过度参数化模型上的DP-SGD可以比以前想象的要好得多。将仔细的超参数调整与简单技术结合起来,以确保信号传播并提高收敛速率,我们获得了新的SOTA,而没有额外数据的CIFAR-10,在81.4%的81.4%下(8,10^{ - 5}) - 使用40 -layer wide-Resnet,比以前的SOTA提高了71.7%。当对预训练的NFNET-F3进行微调时,我们在ImageNet(0.5,8*10^{ - 7})下达到了83.8%的TOP-1精度。此外,我们还在(8,8 \ cdot 10^{ - 7})下达到了86.7%的TOP-1精度,DP仅比当前的非私人SOTA仅4.3%。我们认为,我们的结果是缩小私人图像分类和非私有图像分类之间准确性差距的重要一步。
translated by 谷歌翻译
当适用于大规模学习问题时,由于与差异性的性能下降和高记忆开销相比,所谓的隐私私人随机梯度下降(DP-SGD)的常规智慧已经满足了有限的成功。非隐私对应。我们展示了如何通过用新型DP正向传播(DP-FP)替换DP-SGD来减轻性能下降,然后是一个离上的非DP优化器。我们的DP-FP采用新的(1)表示剪辑,然后在前向传播阶段进行噪声,以及(2)微批量构建通过分置,以实现DP放大,并将噪声功率降低至1 / m $,其中$ m $是一步中的微批次数量。在培训分类模型时,我们的DP-FP与表示的所有隐私保留操作的DP-FP无天然偏离偏差,总噪声与模型大小,以及DP-SGD中的内存问题。结果,我们的DP-FP优于尖端DP-SGD,同时保持相同的隐私水平,并且它接近非私有基线,显着优于最先进的DP-SGD变体。例如,当在四个下游任务上应用于Roberta-Light时,DP-FP的平均准确性为91.34 \%,隐私预算小于3,代表了最先进的DP的3.81 \%的性能改进 - 与非私有基线相比,SGD和只有0.9 \%的损失,但具有明显降低的隐私泄漏风险。
translated by 谷歌翻译
差异化(DP)学习在建立大型文本模型方面的成功有限,并尝试直接将差异化私有随机梯度下降(DP-SGD)应用于NLP任务,从而导致了大量的性能下降和高度计算的开销。我们表明,通过(1)使用大型验证模型可以缓解这种性能下降; (2)适合DP优化的超参数; (3)与训练过程对齐的微调目标。通过正确设定这些因素,我们将获得私人NLP模型,以优于最先进的私人培训方法和强大的非私人基准 - 通过直接对中等大小的Corpora进行DP优化的预审计模型。为了解决使用大型变压器运行DP-SGD的计算挑战,我们提出了一种存储器保存技术,该技术允许DP-SGD中的剪辑在不实例化模型中任何层的每个示例梯度的情况下运行。该技术使私人训练变压器的内存成本几乎与非私人培训相同,并以适度的运行时间开销。与传统的观点相反,即DP优化在学习高维模型(由于尺寸缩放的噪声)方面失败的经验结果表明,使用预审预周化模型的私人学习往往不会遭受维度依赖性性能降低的障碍。
translated by 谷歌翻译
在联合学习(FL)中,数据不会在联合培训机器学习模型时留下个人设备。相反,这些设备与中央党(例如,公司)共享梯度。因为数据永远不会“离开”个人设备,因此FL作为隐私保留呈现。然而,最近显示这种保护是一个薄的外观,甚至是一种被动攻击者观察梯度可以重建各个用户的数据。在本文中,我们争辩说,事先工作仍然很大程度上低估了FL的脆弱性。这是因为事先努力专门考虑被动攻击者,这些攻击者是诚实但好奇的。相反,我们介绍了一个活跃和不诚实的攻击者,作为中央会,他们能够在用户计算模型渐变之前修改共享模型的权重。我们称之为修改的重量“陷阱重量”。我们的活跃攻击者能够完全恢复用户数据,并在接近零成本时:攻击不需要复杂的优化目标。相反,它利用了模型梯度的固有数据泄漏,并通过恶意改变共享模型的权重来放大这种效果。这些特异性使我们的攻击能够扩展到具有大型迷你批次数据的模型。如果来自现有工作的攻击者需要小时才能恢复单个数据点,我们的方法需要毫秒来捕获完全连接和卷积的深度神经网络的完整百分之批次数据。最后,我们考虑缓解。我们观察到,FL中的差异隐私(DP)的当前实现是有缺陷的,因为它们明确地信任中央会,并在增加DP噪音的关键任务,因此不提供对恶意中央党的保护。我们还考虑其他防御,并解释为什么它们类似地不足。它需要重新设计FL,为用户提供任何有意义的数据隐私。
translated by 谷歌翻译
随着深度学习模型的速度较大,需要进行大型型号培训的系统级解决方案。我们展示了Amazon Sagemaker模型并行性,这是一个与Pytorch集成的软件库,并且可以使用模型并行性和其他内存节省功能轻松培训大型模型。与现有解决方案相比,Sagemaker库的实现更通用,灵活,因为它可以自动分区和运行具有最小代码的任意模型架构上的管道并行性,并且还为张量并行度提供一般和可扩展的框架,它支持更广泛的用例,并且可以轻松应用于新培训脚本的模块化。该库还将本机Pytorch用户体验保留到更大的程度,支持模块重复使用和动态图形,同时让用户完全控制训练步骤的细节。我们评估GPT-3,Roberta,BERT和神经协作过滤的性能,并表现出对现有解决方案的竞争性能。
translated by 谷歌翻译
随着机器学习系统的计算要求以及机器学习框架的规模和复杂性的增加,基本框架创新变得具有挑战性。尽管计算需求驱动了最近的编译器,网络和硬件的进步,但通过机器学习工具对这些进步的利用却以较慢的速度发生。这部分是由于与现有框架原型制作新的计算范式有关的困难。大型框架将机器学习研究人员和从业人员作为最终用户的优先级优先,并且很少关注能够向前推动框架的系统研究人员 - 我们认为两者都是同等重要的利益相关者。我们介绍了手电筒,这是一个开源库,旨在通过优先考虑开放式,模块化,可定制的内部设备以及最新的,可用于研究的模型和培训设置,以刺激机器学习工具和系统的创新。手电筒使系统研究人员能够快速原型并尝试机器学习计算中的新思想,并且开销低,与其他流行的机器学习框架竞争并经常超过其他流行的机器学习框架。我们将手电筒视为一种工具,可以使可以使广泛使用的图书馆受益,并使机器学习和系统研究人员更加紧密地结合在一起。手电筒可从https://github.com/flashlight/flashlight获得。
translated by 谷歌翻译
基于变压器的神经模型在许多AI应用中使用。培训这些模型很昂贵,因为它需要大量的GPU资源和较长的持续时间。这是具有挑战性的,因为诸如句子之类的典型数据具有可变的长度,而变压器的计算模式比卷积神经网络更为复杂。现有系统要么仅专注于模型推理,要么仅针对BERT样编码器模型进行优化。在本文中,我们提出了LightSeq2,该系统是为GPU上的一般变压器模型加速培训的系统。我们提出了一系列针对变压器模型的特定计算流量和内存访问模式量身定制的GPU优化技术。 LightSeq2支持许多模型体系结构,包括BERT(仅编码),GPT(仅解码器),变压器(编码器编码器)和视觉变压器。我们对各种模型和基准测试的实验表明,LightSeq2始终比不同GPU上的先前系统更快(1.4-3.5倍)。特别是,与大型公共机器翻译基准(WMT14英语 - 德国人)上的现有系统相比,它获得了308%的培训速度。
translated by 谷歌翻译
深度学习领域目睹了对极端计算和内存密集型神经网络的显着转变。这些较新的较大模型使研究人员能够推进各种领域的最先进的工具。这种现象刺激了在更多的硬件加速器上产生了针对神经网络的分布式训练的算法。在本文中,我们讨论并比较了当前的最先进的框架,以实现大规模的分布式深度学习。首先,我们调查分布式学习中的当前实践,并确定所使用的不同类型的并行性。然后,我们提出了对大型图像和语言培训任务的性能进行了经验结果。此外,我们解决了他们的统计效率和内存消耗行为。根据我们的结果,我们讨论了阻碍性能的每个框架的算法和实现部分。
translated by 谷歌翻译
传统的深度学习方法(DL)需要在中央服务器上收集和处理的培训数据,这些中央服务器通常在保健等隐私敏感域中挑战。为此,提出了一种新的学习范式,称为联合学习(FL),在解决隐私和数据所有权问题的同时将DL的潜力带到了这些域。 FL使远程客户端能够在保持数据本地时学习共享ML模型。然而,传统的FL系统面临多种挑战,例如可扩展性,复杂的基础设施管理,并且由于空闲客户端而被浪费的计算和产生的成本。 FL系统的这些挑战与无服务器计算和功能 - AS-Service(FAAS)平台旨在解决的核心问题密切对齐。这些包括快速可扩展性,无基础设施管理,自动缩放为空闲客户端,以及每次使用付费计费模型。为此,我们为无服务器FL展示了一个新颖的系统和框架,称为不发烟。我们的系统支持多个商业和自主主机的FAAS提供商,可以在机构数据中心和边缘设备上部署在云端,内部部署。据我们所知,我们是第一个能够在一大面料的异构FAAS提供商中启用FL,同时提供安全性和差异隐私等重要功能。我们展示了全面的实验,即使用我们的系统可以成功地培训多达200个客户功能的不同任务,更容易实现。此外,我们通过将其与传统的FL系统进行比较来证明我们的方法的实际可行性,并表明它可以更便宜,更资源效率更便宜。
translated by 谷歌翻译
深度神经网络(DNNS)铰接对大型数据集的可用性的最新成功;但是,对此类数据集的培训经常为敏感培训信息构成隐私风险。在本文中,我们的目标是探讨生成模型和梯度稀疏性的力量,并提出了一种可扩展的隐私保留生成模型数据标准。与标准展示隐私保留框架相比,允许教师对一维预测进行投票,在高维梯度向量上投票在隐私保存方面具有挑战性。随着需要尺寸减少技术,我们需要在(1)之间的改进之间导航精致的权衡空间,并进行SGD收敛的放缓。为了解决这一点,我们利用通信高效学习,并通过将顶-K压缩与相应的噪声注入机构相结合,提出一种新的噪声压缩和聚集方法TopAGG。理论上,我们证明了DataLens框架保证了其生成数据的差异隐私,并提供了其收敛性的分析。为了展示DataLens的实际使用情况,我们对不同数据集进行广泛的实验,包括Mnist,Fashion-Mnist和高维Celeba,并且我们表明,DataLens显着优于其他基线DP生成模型。此外,我们改进了所提出的Topagg方法,该方法是DP SGD培训的主要构建块之一,并表明它能够在大多数情况下实现比最先进的DP SGD方法更高的效用案件。我们的代码在HTTPS://github.com/ai-secure/datalens公开提供。
translated by 谷歌翻译
联邦机器学习利用边缘计算来开发网络用户数据的模型,但联合学习的隐私仍然是一个重大挑战。已经提出了使用差异隐私的技术来解决这一点,但是带来了自己的挑战 - 许多人需要一个值得信赖的第三方,或者增加了太多的噪音来生产有用的模型。使用多方计算的\ EMPH {SERVE聚合}的最新进步消除了对第三方的需求,但是在计算上尤其在规模上昂贵。我们提出了一种新的联合学习协议,利用了一种基于与错误学习的技术的新颖差异私有的恶意安全聚合协议。我们的协议优于当前最先进的技术,并且经验结果表明它缩放到大量方面,具有任何差别私有联合学习方案的最佳精度。
translated by 谷歌翻译
安全的多方计算(MPC)允许当事方在数据私有的同时对数据进行计算。该功能具有机器学习应用程序的巨大潜力:它促进了对不同政党拥有的私人数据集的机器学习模型的培训,使用另一方的私人数据评估一方的私人模型等。尽管一系列研究实现了机器 - 通过安全MPC学习模型,此类实现尚未成为主流。没有灵活的软件框架“说话”机器学习研究人员和工程师的灵活软件框架的缺乏阻碍了安全MPC的采用。为了促进机器学习中安全MPC的采用,我们提出了Crypten:一个软件框架,该框架通过在现代机器学习框架中常见的抽象来揭示流行的安全MPC原语,例如张量计算,自动分化和模块化神经网络。本文描述了隐秘的设计,并在最新的文本分类,语音识别和图像分类的模型上衡量其性能。我们的基准表明,Crypten的GPU支持和(任意数量)各方之间的高性能通信使其能够在半honest威胁模型下对现代机器学习模型进行有效的私人评估。例如,使用密码的两方可以使用WAV2letter在语音记录中安全预测音素的速度比实时更快。我们希望Crypten能促使在机器学习社区中采用安全MPC。
translated by 谷歌翻译