对于准确的模型,需要更少的数据,很少有射击学习表现出许多应用程序域中的鲁棒性和通用性。但是,在不信任的环境中部署少量模型可能会引起隐私问题,例如攻击或对手可能会违反用户提供的数据的隐私。本文通过建立一种新颖的隐私保存嵌入空间来维护数据的隐私空间,从而在不信任的环境中研究了少量学习的隐私增强,从而保留了数据的隐私并保持模型的准确性。我们研究了各种图像隐私方法的影响,例如模糊,像素化,高斯噪声和差异化私有像素化(DP-PIX)对几个图像分类的影响,并提出了一种通过关节损失学习隐私表示表示的方法。经验结果表明,如何为隐私增强的少数学习而谈判如何进行隐私性折衷。
translated by 谷歌翻译
Differentially Private Stochastic Gradient Descent (DP-SGD) is a key method for applying privacy in the training of deep learning models. This applies isotropic Gaussian noise to gradients during training, which can perturb these gradients in any direction, damaging utility. Metric DP, however, can provide alternative mechanisms based on arbitrary metrics that might be more suitable. In this paper we apply \textit{directional privacy}, via a mechanism based on the von Mises-Fisher (VMF) distribution, to perturb gradients in terms of \textit{angular distance} so that gradient direction is broadly preserved. We show that this provides $\epsilon d$-privacy for deep learning training, rather than the $(\epsilon, \delta)$-privacy of the Gaussian mechanism; and that experimentally, on key datasets, the VMF mechanism can outperform the Gaussian in the utility-privacy trade-off.
translated by 谷歌翻译
Large training data and expensive model tweaking are standard features of deep learning for images. As a result, data owners often utilize cloud resources to develop large-scale complex models, which raises privacy concerns. Existing solutions are either too expensive to be practical or do not sufficiently protect the confidentiality of data and models. In this paper, we study and compare novel \emph{image disguising} mechanisms, DisguisedNets and InstaHide, aiming to achieve a better trade-off among the level of protection for outsourced DNN model training, the expenses, and the utility of data. DisguisedNets are novel combinations of image blocktization, block-level random permutation, and two block-level secure transformations: random multidimensional projection (RMT) and AES pixel-level encryption (AES). InstaHide is an image mixup and random pixel flipping technique \cite{huang20}. We have analyzed and evaluated them under a multi-level threat model. RMT provides a better security guarantee than InstaHide, under the Level-1 adversarial knowledge with well-preserved model quality. In contrast, AES provides a security guarantee under the Level-2 adversarial knowledge, but it may affect model quality more. The unique features of image disguising also help us to protect models from model-targeted attacks. We have done an extensive experimental evaluation to understand how these methods work in different settings for different datasets.
translated by 谷歌翻译
由于其高识别精度,包括移动设备的面部解锁,社区访问控制系统和城市监视,因此在许多领域都使用了面部识别技术。由于非常深的网络结构可以保证当前的高精度,因此通常需要将面部图像传输到具有高计算能力以进行推理的第三方服务器。但是,面部图像在视觉上揭示了用户的身份信息。在此过程中,不受信任的服务提供商和恶意用户都可以显着增加个人隐私漏洞的风险。当前的隐私识别方法通常伴随着许多副作用,例如推理时间的显着增加或明显的识别准确性下降。本文提出了使用频域中使用差异隐私的保护隐私面部识别方法。由于利用了差异隐私,它在理论上提供了隐私的保证。同时,准确性的丧失非常小。该方法首先将原始图像转换为频域,并删除称为DC的直接组件。然后,可以根据差异隐私框架内的后端面部识别网络的丢失来学习隐私预算分配方法。最后,它为频域特征添加了相应的噪声。根据广泛的实验,我们的方法在几个经典的面部识别测试集中表现出色。
translated by 谷歌翻译
Metric-based meta-learning is one of the de facto standards in few-shot learning. It composes of representation learning and metrics calculation designs. Previous works construct class representations in different ways, varying from mean output embedding to covariance and distributions. However, using embeddings in space lacks expressivity and cannot capture class information robustly, while statistical complex modeling poses difficulty to metric designs. In this work, we use tensor fields (``areas'') to model classes from the geometrical perspective for few-shot learning. We present a simple and effective method, dubbed hypersphere prototypes (HyperProto), where class information is represented by hyperspheres with dynamic sizes with two sets of learnable parameters: the hypersphere's center and the radius. Extending from points to areas, hyperspheres are much more expressive than embeddings. Moreover, it is more convenient to perform metric-based classification with hypersphere prototypes than statistical modeling, as we only need to calculate the distance from a data point to the surface of the hypersphere. Following this idea, we also develop two variants of prototypes under other measurements. Extensive experiments and analysis on few-shot learning tasks across NLP and CV and comparison with 20+ competitive baselines demonstrate the effectiveness of our approach.
translated by 谷歌翻译
We propose prototypical networks for the problem of few-shot classification, where a classifier must generalize to new classes not seen in the training set, given only a small number of examples of each new class. Prototypical networks learn a metric space in which classification can be performed by computing distances to prototype representations of each class. Compared to recent approaches for few-shot learning, they reflect a simpler inductive bias that is beneficial in this limited-data regime, and achieve excellent results. We provide an analysis showing that some simple design decisions can yield substantial improvements over recent approaches involving complicated architectural choices and meta-learning. We further extend prototypical networks to zero-shot learning and achieve state-of-theart results on the CU-Birds dataset.
translated by 谷歌翻译
深度神经网络(DNNS)铰接对大型数据集的可用性的最新成功;但是,对此类数据集的培训经常为敏感培训信息构成隐私风险。在本文中,我们的目标是探讨生成模型和梯度稀疏性的力量,并提出了一种可扩展的隐私保留生成模型数据标准。与标准展示隐私保留框架相比,允许教师对一维预测进行投票,在高维梯度向量上投票在隐私保存方面具有挑战性。随着需要尺寸减少技术,我们需要在(1)之间的改进之间导航精致的权衡空间,并进行SGD收敛的放缓。为了解决这一点,我们利用通信高效学习,并通过将顶-K压缩与相应的噪声注入机构相结合,提出一种新的噪声压缩和聚集方法TopAGG。理论上,我们证明了DataLens框架保证了其生成数据的差异隐私,并提供了其收敛性的分析。为了展示DataLens的实际使用情况,我们对不同数据集进行广泛的实验,包括Mnist,Fashion-Mnist和高维Celeba,并且我们表明,DataLens显着优于其他基线DP生成模型。此外,我们改进了所提出的Topagg方法,该方法是DP SGD培训的主要构建块之一,并表明它能够在大多数情况下实现比最先进的DP SGD方法更高的效用案件。我们的代码在HTTPS://github.com/ai-secure/datalens公开提供。
translated by 谷歌翻译
联合学习是一种协作机器学习,参与客户在本地处理他们的数据,仅与协作模型共享更新。这使得能够建立隐私意识的分布式机器学习模型等。目的是通过最大程度地减少一组客户本地存储的数据集的成本函数来优化统计模型的参数。这个过程使客户遇到了两个问题:私人信息的泄漏和模型的个性化缺乏。另一方面,随着分析数据的最新进步,人们对侵犯参与客户的隐私行为的关注激增。为了减轻这种情况,差异隐私及其变体是提供正式隐私保证的标准。客户通常代表非常异构的社区,并拥有非常多样化的数据。因此,与FL社区的最新重点保持一致,以为代表其多样性的用户建立个性化模型框架,这对于防止潜在威胁免受客户的敏感和个人信息而言也是至关重要的。 $ d $ - 私人是对地理位置可区分性的概括,即最近普及的位置隐私范式,它使用了一种基于公制的混淆技术,可保留原始数据的空间分布。为了解决保护客户隐私并允许个性化模型培训以增强系统的公平性和实用性的问题,我们提出了一种提供团体隐私性的方法在FL的框架下。我们为对现实世界数据集的适用性和实验验证提供了理论上的理由,以说明该方法的工作。
translated by 谷歌翻译
最近,人重新识别(REID)的隐私问题引起了越来越多的关注,并保留了REID方法使用的行人图像的隐私是必不可少的。去识别(DEID)方法通过删除与REID数据相关的身份来减轻隐私问题。但是,大多数现有的DEID方法倾向于删除所有与个人身份相关的信息,并损害REID任务上的识别数据的可用性。在本文中,我们旨在开发一种可以在REID人士的隐私保护和数据可用性之间实现良好权衡的技术。为了实现这一目标,我们提出了一种新颖的去识别方法,该方法是针对人雷德(Reid)明确设计的,命名人识别转移(PIS)。 PI在保留图像对之间的身份关系的同时,消除了行人图像中的绝对身份。通过利用变异自动编码器的插值属性,PI将每个行人图像从当前身份转移到具有新身份的另一个身份,从而导致图像仍然保留相对身份。实验结果表明,与现有的去识别方法相比,我们的方法在隐私保护和模型性能之间取决于更好的权衡,并且可以防御人类和模型攻击以确保数据隐私。
translated by 谷歌翻译
随着移动设备和基于位置的服务越来越多地在不同的智能城市场景和应用程序中开发,由于数据收集和共享,许多意外的隐私泄漏已经出现。当与云辅助应用程序共享地理位置数据时,用户重新识别和其他敏感的推论是主要的隐私威胁。值得注意的是,四个时空点足以唯一地识别95%的个人,这加剧了个人信息泄漏。为了解决诸如用户重新识别之类的恶意目的,我们提出了一种基于LSTM的对抗机制,具有代表性学习,以实现原始地理位置数据(即移动性数据)的隐私权特征表示,以共享目的。这些表示旨在以最小的公用事业预算(即损失)最大程度地减少用户重新识别和完整数据重建的机会。我们通过量化轨迹重建风险,用户重新识别风险和移动性可预测性来量化移动性数据集的隐私性权衡权衡来训练该机制。我们报告了探索性分析,使用户能够通过特定的损失功能及其权重参数评估此权衡。四个代表性移动数据集的广泛比较结果证明了我们提出的在移动性隐私保护方面的架构的优越性以及提议的隐私权提取器提取器的效率。我们表明,流动痕迹的隐私能够以边际移动公用事业为代价获得体面的保护。我们的结果还表明,通过探索帕累托最佳设置,我们可以同时增加隐私(45%)和实用程序(32%)。
translated by 谷歌翻译
从公共机器学习(ML)模型中泄漏数据是一个越来越重要的领域,因为ML的商业和政府应用可以利用多个数据源,可能包括用户和客户的敏感数据。我们对几个方面的当代进步进行了全面的调查,涵盖了非自愿数据泄漏,这对ML模型很自然,潜在的恶毒泄漏是由隐私攻击引起的,以及目前可用的防御机制。我们专注于推理时间泄漏,这是公开可用模型的最可能场景。我们首先在不同的数据,任务和模型体系结构的背景下讨论什么是泄漏。然后,我们提出了跨非自愿和恶意泄漏的分类法,可用的防御措施,然后进行当前可用的评估指标和应用。我们以杰出的挑战和开放性的问题结束,概述了一些有希望的未来研究方向。
translated by 谷歌翻译
本文提出了一个传感器数据匿名模型,该模型接受了分散数据的培训,并在数据实用程序和隐私之间进行了理想的权衡,即使在收集到的传感器数据具有不同的基础分布的异质环境中也是如此。我们称为Blinder的匿名模型基于以对抗性方式训练的变异自动编码器和歧视网络。我们使用模型 - 不合稳定元学习框架来调整通过联合学习训练的匿名模型,以适应每个用户的数据分布。我们在不同的设置下评估了盲人,并表明它提供了端到端的隐私保护,以增加隐私损失高达4.00%,并将数据实用程序降低高达4.24%,而最新的数据实用程序则将其降低了4.24%。对集中数据培训的匿名模型。我们的实验证实,Blinder可以一次掩盖多个私人属性,并且具有足够低的功耗和计算开销,以便将其部署在边缘设备和智能手机上,以执行传感器数据的实时匿名化。
translated by 谷歌翻译
虽然在巨大数据上培训的机器学习模型导致了几个领域的断路器,但由于限制数据的访问,他们在隐私敏感域中的部署仍然有限。在私有数据上具有隐私约束的生成模型可以避免此挑战,而是提供对私有数据的间接访问。我们提出DP-Sinkhorn,一种新的最优传输的生成方法,用于从具有差异隐私的私有数据学习数据分布。 DP-Sinkhorn以差别私人方式在模型和数据之间的模型和数据之间最小化陷阱的分歧,将计算上有效的近似值,并在模型和数据之间使用新技术来控制梯度估计的偏差差异的偏差折衷。与现有的培训方法不同,差异私人生成模型主要基于生成的对抗网络,我们不依赖于对抗性目标,这令人惊叹的难以优化,特别是在隐私约束所施加的噪声存在下。因此,DP-Sinkhorn易于训练和部署。通过实验,我们改进了多种图像建模基准的最先进,并显示了差异私有的信息RGB图像综合。项目页面:https://nv-tlabs.github.io/dp-sinkhorn。
translated by 谷歌翻译
在本文中,我们研究了具有差异隐私(DP)的学习图神经网络(GNN)的问题。我们提出了一种基于聚合扰动(GAP)的新型差异私有GNN,该GNN为GNN的聚合函数添加了随机噪声,以使单个边缘(边缘级隐私)或单个节点的存在统计上的存在及其所有邻接边缘( - 级别的隐私)。 GAP的新体系结构是根据私人学习的细节量身定制的,由三个单独的模块组成:(i)编码器模块,我们在不依赖边缘信息的情况下学习私人节点嵌入; (ii)聚合模块,其中我们根据图结构计算嘈杂的聚合节点嵌入; (iii)分类模块,我们在私有聚合上训练神经网络进行节点分类,而无需进一步查询图表。 GAP比以前的方法的主要优势在于,它可以从多跳社区的聚合中受益,并保证边缘级别和节点级别的DP不仅用于培训,而且可以推断出培训的隐私预算以外的额外费用。我们使用R \'Enyi DP来分析GAP的正式隐私保证,并在三个真实世界图数据集上进行经验实验。我们证明,与最先进的DP-GNN方法和天真的MLP基线相比,GAP提供了明显更好的准确性私人权衡权衡。
translated by 谷歌翻译
Deep Learning has recently become hugely popular in machine learning for its ability to solve end-to-end learning systems, in which the features and the classifiers are learned simultaneously, providing significant improvements in classification accuracy in the presence of highly-structured and large databases.Its success is due to a combination of recent algorithmic breakthroughs, increasingly powerful computers, and access to significant amounts of data.Researchers have also considered privacy implications of deep learning. Models are typically trained in a centralized manner with all the data being processed by the same training algorithm. If the data is a collection of users' private data, including habits, personal pictures, geographical positions, interests, and more, the centralized server will have access to sensitive information that could potentially be mishandled. To tackle this problem, collaborative deep learning models have recently been proposed where parties locally train their deep learning structures and only share a subset of the parameters in the attempt to keep their respective training sets private. Parameters can also be obfuscated via differential privacy (DP) to make information extraction even more challenging, as proposed by Shokri and Shmatikov at CCS'15.Unfortunately, we show that any privacy-preserving collaborative deep learning is susceptible to a powerful attack that we devise in this paper. In particular, we show that a distributed, federated, or decentralized deep learning approach is fundamentally broken and does not protect the training sets of honest participants. The attack we developed exploits the real-time nature of the learning process that allows the adversary to train a Generative Adversarial Network (GAN) that generates prototypical samples of the targeted training set that was meant to be private (the samples generated by the GAN are intended to come from the same distribution as the training data). Interestingly, we show that record-level differential privacy applied to the shared parameters of the model, as suggested in previous work, is ineffective (i.e., record-level DP is not designed to address our attack).
translated by 谷歌翻译
Machine learning techniques based on neural networks are achieving remarkable results in a wide variety of domains. Often, the training of models requires large, representative datasets, which may be crowdsourced and contain sensitive information. The models should not expose private information in these datasets. Addressing this goal, we develop new algorithmic techniques for learning and a refined analysis of privacy costs within the framework of differential privacy. Our implementation and experiments demonstrate that we can train deep neural networks with non-convex objectives, under a modest privacy budget, and at a manageable cost in software complexity, training efficiency, and model quality. * Google.† OpenAI. Work done while at Google.
translated by 谷歌翻译
通过向每个数据示例添加校准的噪声来保护个人的隐私,差异隐私(DP)已成为保护个人隐私的黄金标准。尽管对分类数据的应用很简单,但在图像上下文中的可用性受到限制。与分类数据相反,图像的含义是相邻像素的空间相关性固有的,使噪声的简单应用不可行。可逆的神经网络(INN)表现出了出色的生成性能,同时仍提供量化确切可能性的能力。他们的原理是基于将复杂的分布转换为一个简单的分布,例如图像进入球形高斯。我们假设在旅馆的潜在空间中添加噪音可以实现差异化的私有图像修改。操纵潜在空间会导致修改的图像,同时保留重要的细节。此外,通过对数据集提供的元数据进行调节,我们旨在使对下游任务的尺寸保持重要意义,例如分类未触及的,同时更改其他可能包含识别信息的其他部分。我们称我们的方法意识到差异隐私(CADP)。我们对公共基准测试数据集以及专用医疗进行实验。此外,我们还展示了方法对分类数据的普遍性。源代码可在https://github.com/cardio-ai/cadp上公开获得。
translated by 谷歌翻译
蜂窝提供商和数据聚合公司从用户设备中占群体的Celluar信号强度测量以生成信号映射,可用于提高网络性能。认识到这种数据收集可能与越来越多的隐私问题的认识可能存在赔率,我们考虑在数据离开移动设备之前混淆这些数据。目标是提高隐私,使得难以从混淆的数据(例如用户ID和用户行踪)中恢复敏感功能,同时仍然允许网络提供商使用用于改进网络服务的数据(即创建准确的信号映射)。要检查本隐私实用程序权衡,我们识别适用于信号强度测量的隐私和公用事业度量和威胁模型。然后,我们使用几种卓越的技术,跨越差异隐私,生成的对抗性隐私和信息隐私技术进行了衡量测量,以便基准,以基准获得各种有前景的混淆方法,并为真实世界的工程师提供指导,这些工程师是负责构建信号映射的现实工程师在不伤害效用的情况下保护隐私。我们的评估结果基于多个不同的现实世界信号映射数据集,展示了同时实现了充足的隐私和实用程序的可行性,并使用了使用该结构和预期使用数据集的策略以及目标平均案例的策略,而不是最坏的情况,保证。
translated by 谷歌翻译
元学习方法旨在构建能够快速适应低数据制度的新任务的学习算法。这种算法的主要基准之一是几次学习问题。在本文中,我们调查了在培训期间采用多任务方法的标准元学习管道的修改。该提出的方法同时利用来自常见损​​失函数中的几个元训练任务的信息。每个任务在损耗功能中的影响由相应的重量控制。正确优化这些权重可能对整个模型的训练产生很大影响,并且可能会提高测试时间任务的质量。在这项工作中,我们提出并调查了使用同时扰动随机近似(SPSA)方法的方法的使用方法,用于元列车任务权重优化。我们还将提出的算法与基于梯度的方法进行了比较,发现随机近似表明了测试时间最大的质量增强。提出的多任务修改可以应用于使用元学习管道的几乎所有方法。在本文中,我们研究了这种修改对CiFar-FS,FC100,TieredimAgenet和MiniimAgenet几秒钟学习基准的原型网络和模型 - 不可知的元学习算法。在这些实验期间,多任务修改已经证明了对原始方法的改进。所提出的SPSA跟踪算法显示了对最先进的元学习方法具有竞争力的最大精度提升。我们的代码可在线获取。
translated by 谷歌翻译
对协作学习的实证攻击表明,深度神经网络的梯度不仅可以披露训练数据的私有潜在属性,还可以用于重建原始数据。虽然先前的作品试图量化了梯度的隐私风险,但这些措施没有建立理论上对梯度泄漏的理解了解,而不是跨越攻击者的概括,并且不能完全解释通过实际攻击在实践中通过实证攻击观察到的内容。在本文中,我们介绍了理论上激励的措施,以量化攻击依赖和攻击无关方式的信息泄漏。具体而言,我们展示了$ \ mathcal {v} $ - 信息的适应,它概括了经验攻击成功率,并允许量化可以从任何所选择的攻击模型系列泄漏的信息量。然后,我们提出了独立的措施,只需要共享梯度,用于量化原始和潜在信息泄漏。我们的经验结果,六个数据集和四种流行型号,揭示了第一层的梯度包含最高量的原始信息,而(卷积)特征提取器层之后的(完全连接的)分类层包含最高的潜在信息。此外,我们展示了如何在训练期间诸如梯度聚集的技术如何减轻信息泄漏。我们的工作为更好的防御方式铺平了道路,例如基于层的保护或强聚合。
translated by 谷歌翻译