关于数据隐私和安全性的越来越多的担忧驱动了从孤立的数据源,即联合学习的隐私保留机学习的新兴领域。一类联合学习,\ Texit {垂直联合学习},不同的各方对共同用户的不同特征,具有促进许多领域企业之间各种业务合作的潜力。在机器学习中,诸如梯度提升决策树(GBDT)和随机森林等决策树集合被广泛应用强大的型号,具有高的可解释性和建模效率。然而,最先进的垂直联合学习框架适应匿名功能以避免可能的数据泄露,使模型受到损害的可解释性。为了解决推理过程中的这个问题,在本文中,我们首先在垂直联合学习中对客场党的特征披露含义的必要性进行了问题分析。然后,我们发现树的预测结果可以表示为所有各方持有的树的子模型结果的交叉点。利用这种关键观察,我们通过隐藏决策路径来保护数据隐私并允许公开特征含义,并适应推理输出的通信有效的安全计算方法。通过理论分析和广泛的数值结果,将证明FED-EINI的优点。我们通过披露特征的含义来提高模型的可解释性,同时确保效率和准确性。
translated by 谷歌翻译
越来越多的内容和机构努力使用外部数据来提高AI服务的性能。为了解决数据隐私和安全问题,联合学习吸引了学术界和工业的越来越多的关注,以安全地构建跨多个隔离数据提供商的AI模型。在本文中,我们研究了在现实世界应用中扩展广泛使用的XGBoost模型的效率问题,以垂直联合学习设置。最先进的垂直联合XGBoost框架需要大量的加密操作和密文传输,这使得模型培训比在本地培训XGBoost模型的效率更少。为了弥合这一差距,我们提出了一种新型批量均匀加密方法,以降低加密相关的计算和传输成本。这是通过将一阶导数和二阶导数编码成单个号码以进行加密,密文传输和同型添加操作来实现。可以从编码值的总和同时解码多个一阶导数和二阶导数的总和。我们在批量联合学习的Batchcrypt工作中受到了批量思想,并设计了一种新的批处理方法来解决允许相当数量的负数的限制。所提出的批处理方法的编码过程由四个步骤组成,包括转换,截断,量化和批量,而解码过程包括去量化和移位。通过理论分析和广泛的数值实验证明了我们的方法的优点。
translated by 谷歌翻译
Today's AI still faces two major challenges. One is that in most industries, data exists in the form of isolated islands. The other is the strengthening of data privacy and security. We propose a possible solution to these challenges: secure federated learning. Beyond the federated learning framework first proposed by Google in 2016, we introduce a comprehensive secure federated learning framework, which includes horizontal federated learning, vertical federated learning and federated transfer learning. We provide definitions, architectures and applications for the federated learning framework, and provide a comprehensive survey of existing works on this subject. In addition, we propose building data networks among organizations based on federated mechanisms as an effective solution to allow knowledge to be shared without compromising user privacy.
translated by 谷歌翻译
联合学习(FL)是以分散的方式共同训练机器学习算法的范式。 FL中的大多数研究都集中在基于神经网络的方法上,但是,由于克服算法的迭代和添加性特征的挑战,在联合学习中基于XGBoost的方法(例如XGBOOST)在联合学习中没有得到反应。基于决策树的模型,尤其是XGBoost,可以处理非IID数据,这对于联合学习框架中使用的算法很重要,因为数据的基本特征是分散的,并且具有本质上非IID的风险。在本文中,我们专注于研究通过对各种基于样本量的数据偏斜方案进行实验以及这些模型在各种非IID方案下的性能,通过非IID分布的影响如何受到非IID分布的影响。我们在多个不同的数据集中进行了一组广泛的实验,并进行了不同的数据偏斜分区。我们的实验结果表明,尽管有各种分区比率,但模型的性能保持一致,并且与以集中式方式训练的模型接近或同样良好。
translated by 谷歌翻译
在现代电力系统中,关于发电/消耗的实时数据及其相关特征存储在各种分布式方中,包括家用仪表,变压器站和外部组织。为了充分利用这些分布式数据的潜在模式,以进行准确的功率预测,需要联合学习作为协作但隐私保留培训方案。然而,目前的联合学习框架偏振朝向解决数据的水平或垂直分离,并且倾向于忽略两个存在的情况。此外,在主流级联联合学习框架中,仅采用人工神经网络来学习数据模式,与表格数据集的基于树的模型相比,该数据模式被认为是更准确和解释的。为此,我们提出了一种基于XGBoost的混合联合学习框架,用于从实时外部功能的分布式电源预测。除了引入提升的树木以提高准确性和可解释性之外,我们还结合了水平和垂直的联邦学习,以解决特征在当地异构各方分散的场景,并在各种当地地区分散样品。此外,我们设计了动态任务分配方案,使得各方获得公平的信息份额,并且每个方的计算能力可以充分利用促进培训效率。提出了一个后续案例研究,以证明采用拟议框架的必要性。还确认了拟议框架的优点,效率和精度性能。
translated by 谷歌翻译
随着智能传感器的部署和通信技术的进步,大数据分析在智能电网域中大大流行,告知利益相关者最好的电力利用策略。但是,这些电源相关数据被不同的各方存储和拥有。例如,功耗数据存储在跨城市的众多变压器站中;移动公司持有的人口的流动性数据,这是耗电量重要指标。直接数据分享可能会妥协党的福利,个人隐私甚至国家安全。灵感来自谷歌AI的联邦学习计划,我们向智能电网提出了联合学习框架,这使得能够协作学习功耗模式而不会泄漏各个电力迹线。当数据分散在样本空间中时,采用横向联合学习;另一方面,垂直联合学习是为散射在特征空间中的数据的情况而设计的。案例研究表明,通过适当的加密方案,如Paillier加密,从提出的框架构建的机器学习模型是无损,隐私保留和有效的。最后,讨论了智能电网其他方面的联合学习的有希望的未来,包括电动车辆,分布式发电/消费和集成能量系统。
translated by 谷歌翻译
联邦学习(FL)是一个有前途的机器学习范式,可以以隐私保留和法律规范的方式实现现实世界AI应用的交联数据合作。如何估值缔约方的数据是一个关键而挑战的流逝。在文献中,数据估值要么依赖于给定任务运行特定模型,或者只是任务无关;但是,在尚未确定的FL模型时,常常为派对选择的必要条件。因此,这项工作填补了差距并提出了\ {FedValue},以我们的最佳知识,第一个隐私保留,任务特定的任务,但无模型的无模式数据估值方法,用于垂直流动任务。具体而言,FedValue包含一种新的信息 - 理论度量,称为福普利-CMI,以评估来自游戏理论观点的多方的数据值。此外,一种新颖的服务器辅助联合计算机制被设计为计算Shapley-CMI,并且同时保护每个方免受数据泄漏。我们还提出了几种技术来加速福利-CMI计算在实践中。六个开放数据集的广泛实验验证了FedValue对垂直流动任务数据估值的效力和效率。特别是,福芙-CMI作为无模型度量,与依赖于运行良好的良好模型的集合的措施相当执行。
translated by 谷歌翻译
Federated Learning (FL) has emerged as a promising distributed learning paradigm with an added advantage of data privacy. With the growing interest in having collaboration among data owners, FL has gained significant attention of organizations. The idea of FL is to enable collaborating participants train machine learning (ML) models on decentralized data without breaching privacy. In simpler words, federated learning is the approach of ``bringing the model to the data, instead of bringing the data to the mode''. Federated learning, when applied to data which is partitioned vertically across participants, is able to build a complete ML model by combining local models trained only using the data with distinct features at the local sites. This architecture of FL is referred to as vertical federated learning (VFL), which differs from the conventional FL on horizontally partitioned data. As VFL is different from conventional FL, it comes with its own issues and challenges. In this paper, we present a structured literature review discussing the state-of-the-art approaches in VFL. Additionally, the literature review highlights the existing solutions to challenges in VFL and provides potential research directions in this domain.
translated by 谷歌翻译
联邦学习一直是一个热门的研究主题,使不同组织的机器学习模型的协作培训在隐私限制下。随着研究人员试图支持更多具有不同隐私方法的机器学习模型,需要开发系统和基础设施,以便于开发各种联合学习算法。类似于Pytorch和Tensorflow等深度学习系统,可以增强深度学习的发展,联邦学习系统(FLSS)是等效的,并且面临各个方面的面临挑战,如有效性,效率和隐私。在本调查中,我们对联合学习系统进行了全面的审查。为实现流畅的流动和引导未来的研究,我们介绍了联合学习系统的定义并分析了系统组件。此外,我们根据六种不同方面提供联合学习系统的全面分类,包括数据分布,机器学习模型,隐私机制,通信架构,联合集市和联合的动机。分类可以帮助设计联合学习系统,如我们的案例研究所示。通过系统地总结现有联合学习系统,我们展示了设计因素,案例研究和未来的研究机会。
translated by 谷歌翻译
Federated learning facilitates the collaborative training of models without the sharing of raw data. However, recent attacks demonstrate that simply maintaining data locality during training processes does not provide sufficient privacy guarantees. Rather, we need a federated learning system capable of preventing inference over both the messages exchanged during training and the final trained model while ensuring the resulting model also has acceptable predictive accuracy. Existing federated learning approaches either use secure multiparty computation (SMC) which is vulnerable to inference or differential privacy which can lead to low accuracy given a large number of parties with relatively small amounts of data each. In this paper, we present an alternative approach that utilizes both differential privacy and SMC to balance these trade-offs. Combining differential privacy with secure multiparty computation enables us to reduce the growth of noise injection as the number of parties increases without sacrificing privacy while maintaining a pre-defined rate of trust. Our system is therefore a scalable approach that protects against inference threats and produces models with high accuracy. Additionally, our system can be used to train a variety of machine learning models, which we validate with experimental results on 3 different machine learning algorithms. Our experiments demonstrate that our approach out-performs state of the art solutions. CCS CONCEPTS• Security and privacy → Privacy-preserving protocols; Trust frameworks; • Computing methodologies → Learning settings.
translated by 谷歌翻译
联合学习(FL)是一个系统,中央聚合器协调多个客户解决机器学习问题的努力。此设置允许分散培训数据以保护隐私。本文的目的是提供针对医疗保健的FL系统的概述。 FL在此根据其框架,架构和应用程序进行评估。这里显示的是,FL通过中央聚合器服务器通过共享的全球深度学习(DL)模型解决了前面的问题。本文研究了最新的发展,并提供了来自FL研究的快速增长的启发,列出了未解决的问题。在FL的背景下,描述了几种隐私方法,包括安全的多方计算,同态加密,差异隐私和随机梯度下降。此外,还提供了对各种FL类的综述,例如水平和垂直FL以及联合转移学习。 FL在无线通信,服务建议,智能医学诊断系统和医疗保健方面有应用,本文将在本文中进行讨论。我们还对现有的FL挑战进行了彻底的审查,例如隐私保护,沟通成本,系统异质性和不可靠的模型上传,然后是未来的研究指示。
translated by 谷歌翻译
网络威胁情报(CTI)共享是减少攻击者和捍卫者之间信息不对称的重要活动。但是,由于数据共享和机密性之间的紧张关系,这项活动带来了挑战,这导致信息保留通常会导致自由骑士问题。因此,共享的信息仅代表冰山一角。当前的文献假设访问包含所有信息的集中数据库,但是由于上述张力,这并不总是可行的。这会导致不平衡或不完整的数据集,需要使用技术扩展它们。我们展示了这些技术如何导致结果和误导性能期望。我们提出了一个新颖的框架,用于从分布式数据中提取有关事件,漏洞和妥协指标的分布式数据,并与恶意软件信息共享平台(MISP)一起证明其在几种实际情况下的使用。提出和讨论了CTI共享的政策影响。拟议的系统依赖于隐私增强技术和联合处理的有效组合。这使组织能够控制其CTI,并最大程度地减少暴露或泄漏的风险,同时为共享的好处,更准确和代表性的结果以及更有效的预测性和预防性防御能力。
translated by 谷歌翻译
K均值是实践中使用最广泛的聚类模型之一。由于数据隔离的问题和对高模型性能的要求,如何共同建立实用和安全的K均值为多方成为行业中许多应用程序的重要主题。现有的工作主要是两种类型。第一种类型具有效率优势,但是信息泄漏会增加潜在的隐私风险。第二种类型是可证明的,但对于大规模数据稀疏方案而言,效率低下,甚至无助。在本文中,我们提出了一个新的框架,用于具有三个特征的有效稀疏感k均值。首先,我们的框架分为独立于数据的离线阶段和更快的在线阶段,并且离线阶段允许预先计算几乎所有的加密操作。其次,我们利用在线和离线阶段中的矢量化技术。第三,我们采用稀疏的矩阵乘法,以进一步提高效率。我们对三个合成数据集进行了全面的实验,并将模型部署在现实世界中的欺诈检测任务中。我们的实验结果表明,与最先进的解决方案相比,我们的模型在运行时间和沟通规模方面都能达到竞争性能,尤其是在稀疏数据集上。
translated by 谷歌翻译
垂直联合学习(VFL)引起了越来越多的兴趣,因为它使多个政党具有非重叠功能来增强其机器学习模型,而无需透露其私人数据和模型参数。与其他机器学习算法相似,VFL面对公平性的需求和挑战,即,对某些具有敏感属性的群体,学习的模型可能具有不公平的歧视性。为了解决这个问题,我们在这项工作中提出了一个公平的VFL框架。首先,我们系统地制定了VFL中培训公平模型的问题,其中学习任务被建模为受约束的优化问题。要以联合和保护隐私的方式解决它,我们考虑了问题的等效双重形式,并开发出异步的梯度坐标坐标升级算法,其中一些活动的数据派对在每个通信中执行多个并行的本地化更新,以有效地减少数量的数量沟通回合。服务器发送给被动方的消息是故意设计的,以使本地更新所需的信息不会侵犯数据和敏感属性的隐私。当将算法应用于一般的非Convex-Concove Min-Max问题时,我们严格研究该算法的收敛性。我们证明该算法在$ \ Mathcal {o}中找到了双目标的$ \ delta $ stationary点(\ delta^{ - 4})$在温和条件下循环。最后,在三个基准数据集上进行的广泛实验证明了我们在培训公平模型中方法的出色性能。
translated by 谷歌翻译
我们提出了一种小说隐私保留的联邦对冲域适应方法($ \ textbf {prada} $),以解决在学习的下面但实际的跨筒仓联合域适应问题,其中目标域的一方在两个样本中不足和特色。通过通过常规联合学习将特征空间扩展到具有功能丰富的派对来解决缺乏特征问题,并通过从富含样品富裕的源党对目标方进行对抗域适应来解决样本稀缺问题。在这项工作中,我们专注于可解释性至关重要的财务应用。然而,现有的对抗域适配方法通常应用单个特征提取器来学习对于目标任务的低解释是低解释的特征表示。为了提高可解释性,我们利用域专业知识将要素空间拆分为多个组,每个组都保存相关功能,并且我们从每个功能组中学习语义有意义的高阶功能。此外,我们将特征提取器(以及域鉴别器以及域鉴别器一起)应用于每个特征组以启用细粒度的域自适应。我们设计一种安全的协议,以安全有效地执行PRADA。我们在两个表格数据集中评估我们的方法。实验表明了我们方法的有效性和实用性。
translated by 谷歌翻译
由于对隐私保护的关注不断增加,因此如何在不同数据源上建立机器学习(ML)模型具有安全保证,这越来越受欢迎。垂直联合学习(VFL)描述了这种情况,其中ML模型建立在不同参与方的私人数据上,该数据与同一集合相同的实例中拥有不相交的功能,这适合许多现实世界中的协作任务。但是,我们发现VFL现有的解决方案要么支持有限的输入功能,要么在联合执行过程中遭受潜在数据泄漏的损失。为此,本文旨在研究VFL方案中ML模式的功能和安全性。具体来说,我们介绍了BlindFL,这是VFL训练和推理的新型框架。首先,为了解决VFL模型的功能,我们建议联合源层团结不同各方的数据。联合源层可以有效地支持各种特征,包括密集,稀疏,数值和分类特征。其次,我们在联合执行期间仔细分析了安全性,并正式化了隐私要求。基于分析,我们设计了安全,准确的算法协议,并进一步证明了在理想真实的仿真范式下的安全保证。广泛的实验表明,BlindFL支持各种数据集和模型,同时获得强大的隐私保证。
translated by 谷歌翻译
分布式隐私的回归方案已在各个领域开发和扩展,在这些领域中,多方协作和私人运行优化算法,例如梯度下降,以学习一组最佳参数。但是,传统的基于梯度的方法无法解决包含具有L1正则化的客观功能的问题,例如LASSO回归。在本文中,我们介绍了一个名为FCD的新分布式方案联合坐标下降,旨在在多方场景下安全地解决此问题。具体而言,通过安全的聚合和添加的扰动,我们的方案确保:(1)没有向其他方泄漏本地信息,并且(2)全局模型参数不会暴露于云服务器。最终,各方可以消除附加的扰动,以得出具有高性能的全球模型。我们表明,FCD方案填补了多方安全坐标下降方法的空白,并且适用于一般线性回归,包括线性,脊和拉索回归。理论安全分析和实验结果表明,可以有效,有效地执行FCD,并以低MAE度量作为在现实世界UCI数据集的三种线性回归的任务下作为集中方法提供的低MAE度量。
translated by 谷歌翻译
本文提出并表征了联合学习(OARF)的开放应用程序存储库,是联合机器学习系统的基准套件。以前可用的联合学习基准主要集中在合成数据集上,并使用有限数量的应用程序。 OARF模仿更现实的应用方案,具有公开的数据集,如图像,文本和结构数据中的不同数据孤岛。我们的表征表明,基准套件在数据大小,分布,特征分布和学习任务复杂性中多样化。与参考实施的广泛评估显示了联合学习系统的重要方面的未来研究机会。我们开发了参考实现,并评估了联合学习的重要方面,包括模型准确性,通信成本,吞吐量和收敛时间。通过这些评估,我们发现了一些有趣的发现,例如联合学习可以有效地提高端到端吞吐量。
translated by 谷歌翻译
联合学习(FL)和分裂学习(SL)是两种新兴的协作学习方法,可能会极大地促进物联网(IoT)中无处不在的智能。联合学习使机器学习(ML)模型在本地培训的模型使用私人数据汇总为全球模型。分裂学习使ML模型的不同部分可以在学习框架中对不同工人进行协作培训。联合学习和分裂学习,每个学习都有独特的优势和各自的局限性,可能会相互补充,在物联网中无处不在的智能。因此,联合学习和分裂学习的结合最近成为一个活跃的研究领域,引起了广泛的兴趣。在本文中,我们回顾了联合学习和拆分学习方面的最新发展,并介绍了有关最先进技术的调查,该技术用于将这两种学习方法组合在基于边缘计算的物联网环境中。我们还确定了一些开放问题,并讨论了该领域未来研究的可能方向,希望进一步引起研究界对这个新兴领域的兴趣。
translated by 谷歌翻译
通过将多个计算设备连接到分散的系统中,解决了数据岛问题的联邦学习,已成为隐私保存机学习的有希望的范式。本文研究了垂直联合学习(VFL),该学习(VFL)解决了协作组织共享同一组用户但不相交的功能的方案。当代VFL方法主要用于活动方和被动方的静态场景中,从一开始就拥有所有数据,不会改变。但是,现实生活中的数据经常动态地改变。为了减轻这个问题,我们提出了一种新的垂直联合学习方法,DVFL,通过知识蒸馏来适应动态数据分布改变。在DVFL中,大多数计算都在本地保持,以提高数据安全性和模型效率。我们广泛的实验结果表明,DVFL不仅可以在静态场景中获得接近现有VFL方法的结果,还可以适应动态方案中数据分布的变化。
translated by 谷歌翻译