机器学习和深度学习模型需要大量的培训过程数据,在某些情况下,可能会有一些敏感数据,例如涉及的客户信息,组织可能会犹豫要外包模型构建。一些隐私保护技术,例如差异隐私,同构加密和安全的多方计算,可以与不同的机器学习和深度学习算法集成,以为数据以及模型提供安全性。在本文中,我们建议使用完全同构的加密加密进行混乱的极端学习机及其加密形式,其中使用逻辑图而不是均匀分布生成权重和偏见。我们提出的方法在大多数数据集中都可以更好地或类似于传统的极限学习机器。
translated by 谷歌翻译
随着功能加密的出现,已经出现了加密数据计算的新可能性。功能加密使数据所有者能够授予第三方访问执行指定的计算,而无需透露其输入。与完全同态加密不同,它还提供了普通的计算结果。机器学习的普遍性导致在云计算环境中收集了大量私人数据。这引发了潜在的隐私问题,并需要更多私人和安全的计算解决方案。在保护隐私的机器学习(PPML)方面已做出了许多努力,以解决安全和隐私问题。有基于完全同态加密(FHE),安全多方计算(SMC)的方法,以及最近的功能加密(FE)。但是,与基于FHE的PPML方法相比,基于FE的PPML仍处于起步阶段,并且尚未受到很多关注。在本文中,我们基于FE总结文献中的最新作品提供了PPML作品的系统化。我们专注于PPML应用程序的内部产品FE和基于二次FE的机器学习模型。我们分析了可用的FE库的性能和可用性及其对PPML的应用。我们还讨论了基于FE的PPML方法的潜在方向。据我们所知,这是系统化基于FE的PPML方法的第一项工作。
translated by 谷歌翻译
Machine learning is widely used in practice to produce predictive models for applications such as image processing, speech and text recognition. These models are more accurate when trained on large amount of data collected from different sources. However, the massive data collection raises privacy concerns.In this paper, we present new and efficient protocols for privacy preserving machine learning for linear regression, logistic regression and neural network training using the stochastic gradient descent method. Our protocols fall in the two-server model where data owners distribute their private data among two non-colluding servers who train various models on the joint data using secure two-party computation (2PC). We develop new techniques to support secure arithmetic operations on shared decimal numbers, and propose MPC-friendly alternatives to non-linear functions such as sigmoid and softmax that are superior to prior work. We implement our system in C++. Our experiments validate that our protocols are several orders of magnitude faster than the state of the art implementations for privacy preserving linear and logistic regressions, and scale to millions of data samples with thousands of features. We also implement the first privacy preserving system for training neural networks.
translated by 谷歌翻译
网络威胁情报(CTI)共享是减少攻击者和捍卫者之间信息不对称的重要活动。但是,由于数据共享和机密性之间的紧张关系,这项活动带来了挑战,这导致信息保留通常会导致自由骑士问题。因此,共享的信息仅代表冰山一角。当前的文献假设访问包含所有信息的集中数据库,但是由于上述张力,这并不总是可行的。这会导致不平衡或不完整的数据集,需要使用技术扩展它们。我们展示了这些技术如何导致结果和误导性能期望。我们提出了一个新颖的框架,用于从分布式数据中提取有关事件,漏洞和妥协指标的分布式数据,并与恶意软件信息共享平台(MISP)一起证明其在几种实际情况下的使用。提出和讨论了CTI共享的政策影响。拟议的系统依赖于隐私增强技术和联合处理的有效组合。这使组织能够控制其CTI,并最大程度地减少暴露或泄漏的风险,同时为共享的好处,更准确和代表性的结果以及更有效的预测性和预防性防御能力。
translated by 谷歌翻译
Federated learning is a collaborative method that aims to preserve data privacy while creating AI models. Current approaches to federated learning tend to rely heavily on secure aggregation protocols to preserve data privacy. However, to some degree, such protocols assume that the entity orchestrating the federated learning process (i.e., the server) is not fully malicious or dishonest. We investigate vulnerabilities to secure aggregation that could arise if the server is fully malicious and attempts to obtain access to private, potentially sensitive data. Furthermore, we provide a method to further defend against such a malicious server, and demonstrate effectiveness against known attacks that reconstruct data in a federated learning setting.
translated by 谷歌翻译
机器学习中最困难的任务是解释训练有素的浅神经网络。深度神经网络(DNNS)为更多的任务提供了令人印象深刻的结果,但是通常不清楚这种训练有素的深神经网络如何做出决策。提供特征重要性是浅层神经网络中使用的最重要和流行的解释技术。在本文中,我们开发了一种算法,扩展了Garson算法的思想,以解释基于信念网络的自动编码器(DBNA)。它用于确定DBN中每个输入特征的贡献。它可用于具有许多隐藏层的任何神经网络。该方法的有效性在分类和从文献中获取的回归数据集进行了测试。将此方法鉴定出的重要特征与Wald Chi Square(\ c {hi} 2)获得的特征进行了比较。对于4个分类数据集中的2个和5个回归数据集中的2个,我们提出的方法导致识别更好质量的特征,从而导致统计上更重要的结果,相对于wald \ c {hi} 2。
translated by 谷歌翻译
医学事物互联网(IOMT)允许使用传感器收集生理数据,然后将其传输到远程服务器,这使医生和卫生专业人员可以连续,永久地分析这些数据,并在早期阶段检测疾病。但是,使用无线通信传输数据将其暴露于网络攻击中,并且该数据的敏感和私人性质可能代表了攻击者的主要兴趣。在存储和计算能力有限的设备上使用传统的安全方法无效。另一方面,使用机器学习进行入侵检测可以对IOMT系统的要求提供适应性的安全响应。在这种情况下,对基于机器学习(ML)的入侵检测系统如何解决IOMT系统中的安全性和隐私问题的全面调查。为此,提供了IOMT的通用三层体系结构以及IOMT系统的安全要求。然后,出现了可能影响IOMT安全性的各种威胁,并确定基于ML的每个解决方案中使用的优势,缺点,方法和数据集。最后,讨论了在IOMT的每一层中应用ML的一些挑战和局限性,这些挑战和局限性可以用作未来的研究方向。
translated by 谷歌翻译
神经网络的外包计算允许用户访问艺术模型的状态,而无需投资专门的硬件和专业知识。问题是用户对潜在的隐私敏感数据失去控制。通过同性恋加密(HE)可以在加密数据上执行计算,而不会显示其内容。在这种知识的系统化中,我们深入了解与隐私保留的神经网络相结合的方法。我们将更改分类为神经网络模型和架构,使其在他和这些变化的影响方面提供影响。我们发现众多挑战是基于隐私保留的深度学习,例如通过加密方案构成的计算开销,可用性和限制。
translated by 谷歌翻译
一个躺在胸腔里的心脏的四个基本腔腔对一个人的生存至关重要,但讽刺地证明是最脆弱的。心血管疾病(CVD)也通常被称为心脏病,在过去几十年中,人类在人类死亡原因中稳步发展。考虑到这一点统计,很明显,患有CVDS的患者需要快速且正确的诊断,以便于早期治疗来减少死亡的机会。本文试图利用提供的数据,以培训分类模型,如逻辑回归,k最近邻居,支持向量机,决策树,高斯天真贝叶斯,随机森林和多层感知(人工神经网络),最终使用柔软投票合奏技术,以便尽可能多地诊断。
translated by 谷歌翻译
科学合作受益于分布式来源的协作学习,但在数据敏感时仍然难以实现。近年来,已经广泛研究了隐私保护技术,以分析不同机构的分布数据,同时保护敏感信息。大多数现有的隐私保存技术旨在抵抗半冬季对手,并需要进行密集的计算来执行数据分析。对于可能偏离安全协议的恶意对手的存在,安全的协作学习非常困难。另一个挑战是通过隐私保护保持较高的计算效率。在本文中,矩阵加密应用于加密数据,以使安全方案反对恶意对手,包括选择的明文攻击,已知的明文攻击和勾结攻击。加密方案还实现了当地的差异隐私。此外,研究了交叉验证以防止过度拟合,而无需额外的沟通成本。现实世界数据集的经验实验表明,与现有针对恶意对手和半honest模型的现有技术相比,所提出的方案在计算上是有效的。
translated by 谷歌翻译
Today's AI still faces two major challenges. One is that in most industries, data exists in the form of isolated islands. The other is the strengthening of data privacy and security. We propose a possible solution to these challenges: secure federated learning. Beyond the federated learning framework first proposed by Google in 2016, we introduce a comprehensive secure federated learning framework, which includes horizontal federated learning, vertical federated learning and federated transfer learning. We provide definitions, architectures and applications for the federated learning framework, and provide a comprehensive survey of existing works on this subject. In addition, we propose building data networks among organizations based on federated mechanisms as an effective solution to allow knowledge to be shared without compromising user privacy.
translated by 谷歌翻译
随着机器学习到达不同的应用领域,与隐私和安全有关的问题正在越来越大。数据持有人希望在利用云中托管的加速器(例如GPU)的同时训练或推断私人数据。云系统容易受到损害数据隐私和计算完整性的攻击者的影响。应对这样的挑战需要将理论隐私算法统一使用硬件安全功能。本文介绍了Darknight,这是一个大型DNN培训的框架,同时保护输入隐私和计算完整性。 Darknight依赖于受信任的执行环境(TEE)和加速器之间的合作执行,其中TEE提供了隐私和完整性验证,而加速器则执行大部分线性代数计算以优化性能。特别是,Darknight使用基于矩阵掩码的自定义数据编码策略来在TEE中创建输入混淆。然后将混淆的数据卸载到GPU,以进行快速线性代数计算。 Darknight的数据混淆策略在云服务器中提供了可证明的数据隐私和计算完整性。虽然先前的作品应对推理隐私,并且不能用于培训,但Darknight的编码方案旨在支持培训和推理。
translated by 谷歌翻译
本文提出了一种非相互作用的端到端解决方案,用于使用完全同构加密(FHE)的生物识别模板的安全融合和匹配。给定一对加密的特征向量,我们执行以下密码操作,i)特征串联,ii)通过学习的线性投影降低融合和尺寸,iii)缩放到单位$ \ ell_2 $ -norm和iv)匹配分数计算。我们的方法被称为heft(生物识别模板的同派加密融合),是定制设计的,以克服FHE所施加的独特约束,即缺乏对非偏心操作的支持。从推论的角度来看,我们系统地探索了不同的数据包装方案,以进行计算有效的线性投影,并引入多项式近似来进行比例归一化。从训练的角度来看,我们引入了一种了解线性投影矩阵的FHE感知算法,以减轻近似归一化引起的错误。与各自的UNIBIOMETICTAINS相比,对面部和语音生物识别技术的模板融合和匹配的实验评估表明,(I)将生物识别验证性能提高了11.07%和9.58%的AUROC,同时将特征向量压缩为16(512d至32d), ,(ii)融合了一对加密的特征向量,并计算出在884毫秒内的1024个画廊的匹配分数。代码和数据可在https://github.com/human-analysis/crypted-biometric-fusion上获得
translated by 谷歌翻译
生成对抗网络(GAN)是机器学习领域(ML)中的深度学习生成模型,涉及使用相当大的数据集训练两个神经网络(NN)。在某些领域,例如医学领域,培训数据可能是在不同医院中存储的医院患者记录。经典的集中式方法将涉及将数据发送到将培训模型的集中式服务器。但是,这将涉及违反患者及其数据的隐私和机密性,这是不可接受的。因此,联合学习(FL)是一种在没有数据离开主机设备的情况下在分布式设置中训练ML模型的ML技术,将是集中选项的更好替代方法。在这种ML技术中,只能传达参数和某些元数据。尽管如此,仍然存在使用参数和元数据推断用户数据的攻击。完全保护隐私的解决方案涉及传达数据的同型加密(HE)。本文将重点介绍具有三种不同类型的同态加密的FL-GAN的性能丧失:部分同态加密(PHE),有点同构加密(SHE)和完全同构加密(FHE)。我们还将测试多方计算(MPC)的性能损失,因为它具有同构特性。表演将与无加密的FL-GAN的性能进行比较。我们的实验表明,加密方法越复杂,它花费的时间越长,与FL的基本情况相比,他花费的额外时间非常重要。
translated by 谷歌翻译
最近的研究表明,X射线射线照相表现出比聚合酶链反应(PCR)检测更高的准确性。因此,将深度学习模型应用于X射线和放射线照相图像增加了确定COVID-19病例的速度和准确性。但是,由于健康保险的可移植性和问责制(HIPAA),医院由于隐私问题而不愿意共享患者数据。为了维持隐私,我们提出了不同的私人深度学习模型,以保护患者的私人信息。来自Kaggle网站的数据集用于评估用于COVID-19检测的设计模型。根据其最高测试精度选择了EditivedNet模型版本。将差异隐私约束注入到最佳模型中以评估性能。通过改变可训练的层,隐私损失以及每个样本中的限制信息来指出准确性。在微调过程中,我们获得了84 \%准确性,而隐私损失为10。
translated by 谷歌翻译
分布式隐私的回归方案已在各个领域开发和扩展,在这些领域中,多方协作和私人运行优化算法,例如梯度下降,以学习一组最佳参数。但是,传统的基于梯度的方法无法解决包含具有L1正则化的客观功能的问题,例如LASSO回归。在本文中,我们介绍了一个名为FCD的新分布式方案联合坐标下降,旨在在多方场景下安全地解决此问题。具体而言,通过安全的聚合和添加的扰动,我们的方案确保:(1)没有向其他方泄漏本地信息,并且(2)全局模型参数不会暴露于云服务器。最终,各方可以消除附加的扰动,以得出具有高性能的全球模型。我们表明,FCD方案填补了多方安全坐标下降方法的空白,并且适用于一般线性回归,包括线性,脊和拉索回归。理论安全分析和实验结果表明,可以有效,有效地执行FCD,并以低MAE度量作为在现实世界UCI数据集的三种线性回归的任务下作为集中方法提供的低MAE度量。
translated by 谷歌翻译
在全球范围内,有实质性的未满足需要有效地诊断各种疾病。不同疾病机制的复杂性和患者人群的潜在症状具有巨大挑战,以发展早期诊断工具和有效治疗。机器学习(ML),人工智能(AI)区域,使研究人员,医师和患者能够解决这些问题的一些问题。基于相关研究,本综述解释了如何使用机器学习(ML)和深度学习(DL)来帮助早期识别许多疾病。首先,使用来自Scopus和Science(WOS)数据库的数据来给予所述出版物的生物计量研究。对1216个出版物的生物计量研究进行了确定,以确定最多产的作者,国家,组织和最引用的文章。此次审查总结了基于机器学习的疾病诊断(MLBDD)的最新趋势和方法,考虑到以下因素:算法,疾病类型,数据类型,应用和评估指标。最后,该文件突出了关键结果,并向未来的未来趋势和机遇提供了解。
translated by 谷歌翻译
我们解决了从培训数据中学习机器学习模型的问题,该模型源于多个数据所有者,同时提供有关保护每个所有者数据的正式隐私保证。基于差异隐私(DP)的现有解决方案以准确性下降为代价。基于安全多方计算(MPC)的解决方案不会引起这种准确性损失,而是在公开可用的训练模型时泄漏信息。我们提出了用于训练DP模型的MPC解决方案。我们的解决方案依赖于用于模型培训的MPC协议,以及以隐私保护方式以拉普拉斯噪声扰动训练有素的模型系数的MPC协议。所得的MPC+DP方法比纯DP方法获得了更高的准确性,同时提供相同的正式隐私保证。我们的工作在IDASH2021轨道III竞赛中获得了针对安全基因组分析的机密计算竞赛的第一名。
translated by 谷歌翻译
近年来,全球医学事物(IOMT)行业已经以极大的速度发展。由于IOMT网络的庞大规模和部署,安全和隐私是IOMT的关键问题。机器学习(ML)和区块链(BC)技术已大大提高了Healthcare 5.0的功能和设施,并产生了一个名为“ Smart Healthcare”的新领域。通过早期确定问题,智能医疗保健系统可以帮助避免长期损害。这将提高患者的生活质量,同时减少压力和医疗保健费用。 IOMT在信息技术领域中启用了一系列功能,其中之一是智能和互动的医疗保健。但是,将医疗数据合并到单个存储位置以训练强大的机器学习模型,这引起了人们对隐私,所有权和更加集中的遵守的担忧。联合学习(FL)通过利用集中式聚合服务器来传播全球学习模型,从而克服了前面的困难。同时,本地参与者可以控制患者信息,从而确保数据机密性和安全性。本文对与医疗保健中联邦学习纠缠的区块链技术的发现进行了全面分析。 5.0。这项研究的目的是利用区块链技术和入侵检测系统(IDS)在医疗保健5.0中构建安全的健康监测系统,以检测医疗保健网络中的任何恶意活动,并使医生能够通过医疗传感器监控患者并采取必要的措施。定期通过预测疾病。
translated by 谷歌翻译
Federated Learning (FL) has emerged as a promising distributed learning paradigm with an added advantage of data privacy. With the growing interest in having collaboration among data owners, FL has gained significant attention of organizations. The idea of FL is to enable collaborating participants train machine learning (ML) models on decentralized data without breaching privacy. In simpler words, federated learning is the approach of ``bringing the model to the data, instead of bringing the data to the mode''. Federated learning, when applied to data which is partitioned vertically across participants, is able to build a complete ML model by combining local models trained only using the data with distinct features at the local sites. This architecture of FL is referred to as vertical federated learning (VFL), which differs from the conventional FL on horizontally partitioned data. As VFL is different from conventional FL, it comes with its own issues and challenges. In this paper, we present a structured literature review discussing the state-of-the-art approaches in VFL. Additionally, the literature review highlights the existing solutions to challenges in VFL and provides potential research directions in this domain.
translated by 谷歌翻译