Diagnostic radiologists need artificial intelligence (AI) for medical imaging, but access to medical images required for training in AI has become increasingly restrictive. To release and use medical images, we need an algorithm that can simultaneously protect privacy and preserve pathologies in medical images. To develop such an algorithm, here, we propose DP-GLOW, a hybrid of a local differential privacy (LDP) algorithm and one of the flow-based deep generative models (GLOW). By applying a GLOW model, we disentangle the pixelwise correlation of images, which makes it difficult to protect privacy with straightforward LDP algorithms for images. Specifically, we map images onto the latent vector of the GLOW model, each element of which follows an independent normal distribution, and we apply the Laplace mechanism to the latent vector. Moreover, we applied DP-GLOW to chest X-ray images to generate LDP images while preserving pathologies.
translated by 谷歌翻译
通过向每个数据示例添加校准的噪声来保护个人的隐私,差异隐私(DP)已成为保护个人隐私的黄金标准。尽管对分类数据的应用很简单,但在图像上下文中的可用性受到限制。与分类数据相反,图像的含义是相邻像素的空间相关性固有的,使噪声的简单应用不可行。可逆的神经网络(INN)表现出了出色的生成性能,同时仍提供量化确切可能性的能力。他们的原理是基于将复杂的分布转换为一个简单的分布,例如图像进入球形高斯。我们假设在旅馆的潜在空间中添加噪音可以实现差异化的私有图像修改。操纵潜在空间会导致修改的图像,同时保留重要的细节。此外,通过对数据集提供的元数据进行调节,我们旨在使对下游任务的尺寸保持重要意义,例如分类未触及的,同时更改其他可能包含识别信息的其他部分。我们称我们的方法意识到差异隐私(CADP)。我们对公共基准测试数据集以及专用医疗进行实验。此外,我们还展示了方法对分类数据的普遍性。源代码可在https://github.com/cardio-ai/cadp上公开获得。
translated by 谷歌翻译
Differentially Private Stochastic Gradient Descent (DP-SGD) is a key method for applying privacy in the training of deep learning models. This applies isotropic Gaussian noise to gradients during training, which can perturb these gradients in any direction, damaging utility. Metric DP, however, can provide alternative mechanisms based on arbitrary metrics that might be more suitable. In this paper we apply \textit{directional privacy}, via a mechanism based on the von Mises-Fisher (VMF) distribution, to perturb gradients in terms of \textit{angular distance} so that gradient direction is broadly preserved. We show that this provides $\epsilon d$-privacy for deep learning training, rather than the $(\epsilon, \delta)$-privacy of the Gaussian mechanism; and that experimentally, on key datasets, the VMF mechanism can outperform the Gaussian in the utility-privacy trade-off.
translated by 谷歌翻译
出于研究目的,在发布大量此类数据集之前,胸部X光片的强大而可靠的匿名化构成了必不可少的步骤。传统的匿名过程是通过在图像中使用黑匣子中遮盖个人信息并删除或替换元信息来执行的。但是,这种简单的措施将生物识别信息保留在胸部X光片中,从而使患者可以通过连锁攻击重新识别。因此,我们看到迫切需要混淆图像中出现的生物特征识别信息。据我们所知,我们提出了第一种基于深度学习的方法,以目标匿名化胸部X光片,同时维护数据实用程序以诊断和机器学习目的。我们的模型架构是三个独立神经网络的组成,当共同使用时,它可以学习能够阻碍患者重新识别的变形场。通过消融研究研究每个组件的个体影响。 CHESTX-RAY14数据集的定量结果显示,在接收器操作特征曲线(AUC)下,患者重新识别从81.8%降低至58.6%,对异常分类性能的影响很小。这表明能够保留潜在的异常模式,同时增加患者隐私。此外,我们将提出的基于学习的深度匿名方法与差异化图像像素化进行比较,并证明了我们方法在解决胸部X光片的隐私性权衡权衡方面的优越性。
translated by 谷歌翻译
近年来,深入学习数据隐私的重要性取得了重大关注。在缺乏金融监管机构的监督时,申请深度学习时可能会遭受数据泄露。然而,金融领域几乎没有相对的研究,我们最好的知识。我们将谷歌提出的两位代表深度学习隐私框架应用于金融交易数据。我们设计了从原始研究中提出的几个不同参数的实验。此外,我们将谷歌和苹果公司的隐私程度推荐给更合理地估计结果。结果表明,DP-SGD比金融交易数据的展开框架更好。隐私和准确性之间的权衡在DP-SGD中低。隐私程度也符合实际情况。因此,我们可以通过精确度获得强大的隐私保障,以避免潜在的经济损失。
translated by 谷歌翻译
从出生到死亡,由于老化,我们都经历了令人惊讶的无处不在的变化。如果我们可以预测数字领域的衰老,即人体的数字双胞胎,我们将能够在很早的阶段检测病变,从而提高生活质量并延长寿命。我们观察到,没有一个先前开发的成年人体数字双胞胎在具有深层生成模型的体积医学图像之间明确训练的纵向转换规则,可能导致例如心室体积的预测性能不佳。在这里,我们建立了一个新的成人人体的数字双胞胎,该数字双胞胎采用纵向获得的头部计算机断层扫描(CT)图像进行训练,从而从一个当前的体积头CT图像中预测了未来的体积头CT图像。我们首次采用了三维基于流动的深层生成模型之一,以实现这种顺序的三维数字双胞胎。我们表明,我们的数字双胞胎在相对较短的程度上优于预测心室体积的最新方法。
translated by 谷歌翻译
Differential privacy (DP) provides a formal privacy guarantee that prevents adversaries with access to machine learning models from extracting information about individual training points. Differentially private stochastic gradient descent (DPSGD) is the most popular training method with differential privacy in image recognition. However, existing DPSGD schemes lead to significant performance degradation, which prevents the application of differential privacy. In this paper, we propose a simulated annealing-based differentially private stochastic gradient descent scheme (SA-DPSGD) which accepts a candidate update with a probability that depends both on the update quality and on the number of iterations. Through this random update screening, we make the differentially private gradient descent proceed in the right direction in each iteration, and result in a more accurate model finally. In our experiments, under the same hyperparameters, our scheme achieves test accuracies 98.35%, 87.41% and 60.92% on datasets MNIST, FashionMNIST and CIFAR10, respectively, compared to the state-of-the-art result of 98.12%, 86.33% and 59.34%. Under the freely adjusted hyperparameters, our scheme achieves even higher accuracies, 98.89%, 88.50% and 64.17%. We believe that our method has a great contribution for closing the accuracy gap between private and non-private image classification.
translated by 谷歌翻译
最近,人重新识别(REID)的隐私问题引起了越来越多的关注,并保留了REID方法使用的行人图像的隐私是必不可少的。去识别(DEID)方法通过删除与REID数据相关的身份来减轻隐私问题。但是,大多数现有的DEID方法倾向于删除所有与个人身份相关的信息,并损害REID任务上的识别数据的可用性。在本文中,我们旨在开发一种可以在REID人士的隐私保护和数据可用性之间实现良好权衡的技术。为了实现这一目标,我们提出了一种新颖的去识别方法,该方法是针对人雷德(Reid)明确设计的,命名人识别转移(PIS)。 PI在保留图像对之间的身份关系的同时,消除了行人图像中的绝对身份。通过利用变异自动编码器的插值属性,PI将每个行人图像从当前身份转移到具有新身份的另一个身份,从而导致图像仍然保留相对身份。实验结果表明,与现有的去识别方法相比,我们的方法在隐私保护和模型性能之间取决于更好的权衡,并且可以防御人类和模型攻击以确保数据隐私。
translated by 谷歌翻译
由于其高识别精度,包括移动设备的面部解锁,社区访问控制系统和城市监视,因此在许多领域都使用了面部识别技术。由于非常深的网络结构可以保证当前的高精度,因此通常需要将面部图像传输到具有高计算能力以进行推理的第三方服务器。但是,面部图像在视觉上揭示了用户的身份信息。在此过程中,不受信任的服务提供商和恶意用户都可以显着增加个人隐私漏洞的风险。当前的隐私识别方法通常伴随着许多副作用,例如推理时间的显着增加或明显的识别准确性下降。本文提出了使用频域中使用差异隐私的保护隐私面部识别方法。由于利用了差异隐私,它在理论上提供了隐私的保证。同时,准确性的丧失非常小。该方法首先将原始图像转换为频域,并删除称为DC的直接组件。然后,可以根据差异隐私框架内的后端面部识别网络的丢失来学习隐私预算分配方法。最后,它为频域特征添加了相应的噪声。根据广泛的实验,我们的方法在几个经典的面部识别测试集中表现出色。
translated by 谷歌翻译
在这项工作中,我们引入了一种差异性私有方法,用于从垂直分区的数据\ emph {i.e。}生成合成数据,其中同一个人的数据分布在多个数据持有人或各方之间。我们提出了一种差异性隐私随机梯度下降(DP-SGD)算法,以使用变异推理在此类分区数据上训练混合模型。我们修改了安全的多方计算(MPC)框架,以将MPC与差异隐私(DP)相结合,以便有效地使用差异化的私有MPC来学习DP下在此类垂直分区数据的DP下的概率生成模型。假设混合物组件不包含不同方面的依赖性,则可以将目标函数分解为当事方计算的贡献的产物之和。最后,MPC用于计算不同贡献之间的聚集体。此外,我们严格地定义了系统中不同玩家的隐私保证。为了证明我们的方法的准确性,我们从UCI机器学习存储库上运行算法在成人数据集上,在此我们获得与非分区案例的可比结果。
translated by 谷歌翻译
最近的研究表明,X射线射线照相表现出比聚合酶链反应(PCR)检测更高的准确性。因此,将深度学习模型应用于X射线和放射线照相图像增加了确定COVID-19病例的速度和准确性。但是,由于健康保险的可移植性和问责制(HIPAA),医院由于隐私问题而不愿意共享患者数据。为了维持隐私,我们提出了不同的私人深度学习模型,以保护患者的私人信息。来自Kaggle网站的数据集用于评估用于COVID-19检测的设计模型。根据其最高测试精度选择了EditivedNet模型版本。将差异隐私约束注入到最佳模型中以评估性能。通过改变可训练的层,隐私损失以及每个样本中的限制信息来指出准确性。在微调过程中,我们获得了84 \%准确性,而隐私损失为10。
translated by 谷歌翻译
深度神经网络(DNNS)铰接对大型数据集的可用性的最新成功;但是,对此类数据集的培训经常为敏感培训信息构成隐私风险。在本文中,我们的目标是探讨生成模型和梯度稀疏性的力量,并提出了一种可扩展的隐私保留生成模型数据标准。与标准展示隐私保留框架相比,允许教师对一维预测进行投票,在高维梯度向量上投票在隐私保存方面具有挑战性。随着需要尺寸减少技术,我们需要在(1)之间的改进之间导航精致的权衡空间,并进行SGD收敛的放缓。为了解决这一点,我们利用通信高效学习,并通过将顶-K压缩与相应的噪声注入机构相结合,提出一种新的噪声压缩和聚集方法TopAGG。理论上,我们证明了DataLens框架保证了其生成数据的差异隐私,并提供了其收敛性的分析。为了展示DataLens的实际使用情况,我们对不同数据集进行广泛的实验,包括Mnist,Fashion-Mnist和高维Celeba,并且我们表明,DataLens显着优于其他基线DP生成模型。此外,我们改进了所提出的Topagg方法,该方法是DP SGD培训的主要构建块之一,并表明它能够在大多数情况下实现比最先进的DP SGD方法更高的效用案件。我们的代码在HTTPS://github.com/ai-secure/datalens公开提供。
translated by 谷歌翻译
对于准确的模型,需要更少的数据,很少有射击学习表现出许多应用程序域中的鲁棒性和通用性。但是,在不信任的环境中部署少量模型可能会引起隐私问题,例如攻击或对手可能会违反用户提供的数据的隐私。本文通过建立一种新颖的隐私保存嵌入空间来维护数据的隐私空间,从而在不信任的环境中研究了少量学习的隐私增强,从而保留了数据的隐私并保持模型的准确性。我们研究了各种图像隐私方法的影响,例如模糊,像素化,高斯噪声和差异化私有像素化(DP-PIX)对几个图像分类的影响,并提出了一种通过关节损失学习隐私表示表示的方法。经验结果表明,如何为隐私增强的少数学习而谈判如何进行隐私性折衷。
translated by 谷歌翻译
虽然在巨大数据上培训的机器学习模型导致了几个领域的断路器,但由于限制数据的访问,他们在隐私敏感域中的部署仍然有限。在私有数据上具有隐私约束的生成模型可以避免此挑战,而是提供对私有数据的间接访问。我们提出DP-Sinkhorn,一种新的最优传输的生成方法,用于从具有差异隐私的私有数据学习数据分布。 DP-Sinkhorn以差别私人方式在模型和数据之间的模型和数据之间最小化陷阱的分歧,将计算上有效的近似值,并在模型和数据之间使用新技术来控制梯度估计的偏差差异的偏差折衷。与现有的培训方法不同,差异私人生成模型主要基于生成的对抗网络,我们不依赖于对抗性目标,这令人惊叹的难以优化,特别是在隐私约束所施加的噪声存在下。因此,DP-Sinkhorn易于训练和部署。通过实验,我们改进了多种图像建模基准的最先进,并显示了差异私有的信息RGB图像综合。项目页面:https://nv-tlabs.github.io/dp-sinkhorn。
translated by 谷歌翻译
Federated学习(FL)最近作为一种增强隐私的工具而受到了极大的关注,可以由多个参与者共同培训机器学习模型。FL的先前工作主要研究了如何在模型培训期间保护标签隐私。但是,FL中的模型评估也可能导致私人标签信息的潜在泄漏。在这项工作中,我们提出了一种评估算法,该算法可以准确计算使用FL中的标签差异隐私(DP)时,可以准确计算广泛使用的AUC(曲线下)度量。通过广泛的实验,我们显示我们的算法可以计算与地面真相相比的准确AUC。
translated by 谷歌翻译
我们有兴趣私有化近似后部推理算法,称为期望传播(EP)。 EP通过迭代地改进到局部可能性的近似近似后,并且已知提供比变差推断(VI)的更好的后不确定性。但是,使用EP对于大规模数据集在内存要求方面对挑战施加了挑战,因为它需要维护存储器中的每个局部近似值。为了克服这个问题,提出了随机期望繁殖(SEP),这仅考虑了一个独特的局部因素,捕获每个可能性术语对后后的平均效果,并以类似于EP的方式改进它。在隐私方面,SEP比EP更具易行,因为在一个因素的每个精炼步骤中,其余因子被固定到相同的值,并且不依赖于EP中的其他数据点,这使得敏感性分析成为易敏感性分析。我们在差异私有随机期望繁殖(DP-SEP)下的后验估计中提供了对隐私准确性权衡的理论分析。此外,我们展示了我们的DP-SEP算法在不同水平的保证隐私的后估计的质量方面评估的综合性和现实数据集。
translated by 谷歌翻译
为了保护培训生成的对抗网络(GaN)中的敏感数据,标准方法是使用差异的私有(DP)随机梯度下降方法,其中将受控噪声添加到梯度。输出合成样品的质量可能会受到不利影响,并且网络的训练甚至可能不会在这些噪声的存在下收敛。我们提出了差异私有的模型反演(DPMI)方法,其中私有数据首先通过公共发生器映射到潜在空间,然后是具有更好的收敛属性的低维DP-GaN。标准数据集CIFAR10和SVHN的实验结果以及自闭症筛选的面部地标数据集表明,我们的方法在同一隐私保证下,基于Incepion得分,FR \'Echet Inception距离和分类准确性的标准DP-GaN方法优于标准DP-GaN方法。
translated by 谷歌翻译
The ''Propose-Test-Release'' (PTR) framework is a classic recipe for designing differentially private (DP) algorithms that are data-adaptive, i.e. those that add less noise when the input dataset is nice. We extend PTR to a more general setting by privately testing data-dependent privacy losses rather than local sensitivity, hence making it applicable beyond the standard noise-adding mechanisms, e.g. to queries with unbounded or undefined sensitivity. We demonstrate the versatility of generalized PTR using private linear regression as a case study. Additionally, we apply our algorithm to solve an open problem from ''Private Aggregation of Teacher Ensembles (PATE)'' -- privately releasing the entire model with a delicate data-dependent analysis.
translated by 谷歌翻译
我们考虑如何私下分享客观扰动,使用每个实例差异隐私(PDP)所产生的个性化隐私损失。标准差异隐私(DP)为我们提供了一个最坏的绑定,可能是相对于固定数据集的特定个人的隐私丢失的数量级。PDP框架对目标个人的隐私保障提供了更细粒度的分析,但每个实例隐私损失本身可能是敏感数据的函数。在本文中,我们分析了通过客观扰动释放私人经验风险最小化器的每案隐私丧失,并提出一组私下和准确地公布PDP损失的方法,没有额外的隐私费用。
translated by 谷歌翻译
Machine learning techniques based on neural networks are achieving remarkable results in a wide variety of domains. Often, the training of models requires large, representative datasets, which may be crowdsourced and contain sensitive information. The models should not expose private information in these datasets. Addressing this goal, we develop new algorithmic techniques for learning and a refined analysis of privacy costs within the framework of differential privacy. Our implementation and experiments demonstrate that we can train deep neural networks with non-convex objectives, under a modest privacy budget, and at a manageable cost in software complexity, training efficiency, and model quality. * Google.† OpenAI. Work done while at Google.
translated by 谷歌翻译