联合学习(FL)是以分散的方式共同训练机器学习算法的范式。 FL中的大多数研究都集中在基于神经网络的方法上,但是,由于克服算法的迭代和添加性特征的挑战,在联合学习中基于XGBoost的方法(例如XGBOOST)在联合学习中没有得到反应。基于决策树的模型,尤其是XGBoost,可以处理非IID数据,这对于联合学习框架中使用的算法很重要,因为数据的基本特征是分散的,并且具有本质上非IID的风险。在本文中,我们专注于研究通过对各种基于样本量的数据偏斜方案进行实验以及这些模型在各种非IID方案下的性能,通过非IID分布的影响如何受到非IID分布的影响。我们在多个不同的数据集中进行了一组广泛的实验,并进行了不同的数据偏斜分区。我们的实验结果表明,尽管有各种分区比率,但模型的性能保持一致,并且与以集中式方式训练的模型接近或同样良好。
translated by 谷歌翻译
联邦学习一直是一个热门的研究主题,使不同组织的机器学习模型的协作培训在隐私限制下。随着研究人员试图支持更多具有不同隐私方法的机器学习模型,需要开发系统和基础设施,以便于开发各种联合学习算法。类似于Pytorch和Tensorflow等深度学习系统,可以增强深度学习的发展,联邦学习系统(FLSS)是等效的,并且面临各个方面的面临挑战,如有效性,效率和隐私。在本调查中,我们对联合学习系统进行了全面的审查。为实现流畅的流动和引导未来的研究,我们介绍了联合学习系统的定义并分析了系统组件。此外,我们根据六种不同方面提供联合学习系统的全面分类,包括数据分布,机器学习模型,隐私机制,通信架构,联合集市和联合的动机。分类可以帮助设计联合学习系统,如我们的案例研究所示。通过系统地总结现有联合学习系统,我们展示了设计因素,案例研究和未来的研究机会。
translated by 谷歌翻译
本文提出并表征了联合学习(OARF)的开放应用程序存储库,是联合机器学习系统的基准套件。以前可用的联合学习基准主要集中在合成数据集上,并使用有限数量的应用程序。 OARF模仿更现实的应用方案,具有公开的数据集,如图像,文本和结构数据中的不同数据孤岛。我们的表征表明,基准套件在数据大小,分布,特征分布和学习任务复杂性中多样化。与参考实施的广泛评估显示了联合学习系统的重要方面的未来研究机会。我们开发了参考实现,并评估了联合学习的重要方面,包括模型准确性,通信成本,吞吐量和收敛时间。通过这些评估,我们发现了一些有趣的发现,例如联合学习可以有效地提高端到端吞吐量。
translated by 谷歌翻译
Federated learning facilitates the collaborative training of models without the sharing of raw data. However, recent attacks demonstrate that simply maintaining data locality during training processes does not provide sufficient privacy guarantees. Rather, we need a federated learning system capable of preventing inference over both the messages exchanged during training and the final trained model while ensuring the resulting model also has acceptable predictive accuracy. Existing federated learning approaches either use secure multiparty computation (SMC) which is vulnerable to inference or differential privacy which can lead to low accuracy given a large number of parties with relatively small amounts of data each. In this paper, we present an alternative approach that utilizes both differential privacy and SMC to balance these trade-offs. Combining differential privacy with secure multiparty computation enables us to reduce the growth of noise injection as the number of parties increases without sacrificing privacy while maintaining a pre-defined rate of trust. Our system is therefore a scalable approach that protects against inference threats and produces models with high accuracy. Additionally, our system can be used to train a variety of machine learning models, which we validate with experimental results on 3 different machine learning algorithms. Our experiments demonstrate that our approach out-performs state of the art solutions. CCS CONCEPTS• Security and privacy → Privacy-preserving protocols; Trust frameworks; • Computing methodologies → Learning settings.
translated by 谷歌翻译
Federated Learning (FL) has emerged as a promising distributed learning paradigm with an added advantage of data privacy. With the growing interest in having collaboration among data owners, FL has gained significant attention of organizations. The idea of FL is to enable collaborating participants train machine learning (ML) models on decentralized data without breaching privacy. In simpler words, federated learning is the approach of ``bringing the model to the data, instead of bringing the data to the mode''. Federated learning, when applied to data which is partitioned vertically across participants, is able to build a complete ML model by combining local models trained only using the data with distinct features at the local sites. This architecture of FL is referred to as vertical federated learning (VFL), which differs from the conventional FL on horizontally partitioned data. As VFL is different from conventional FL, it comes with its own issues and challenges. In this paper, we present a structured literature review discussing the state-of-the-art approaches in VFL. Additionally, the literature review highlights the existing solutions to challenges in VFL and provides potential research directions in this domain.
translated by 谷歌翻译
关于数据隐私和安全性的越来越多的担忧驱动了从孤立的数据源,即联合学习的隐私保留机学习的新兴领域。一类联合学习,\ Texit {垂直联合学习},不同的各方对共同用户的不同特征,具有促进许多领域企业之间各种业务合作的潜力。在机器学习中,诸如梯度提升决策树(GBDT)和随机森林等决策树集合被广泛应用强大的型号,具有高的可解释性和建模效率。然而,最先进的垂直联合学习框架适应匿名功能以避免可能的数据泄露,使模型受到损害的可解释性。为了解决推理过程中的这个问题,在本文中,我们首先在垂直联合学习中对客场党的特征披露含义的必要性进行了问题分析。然后,我们发现树的预测结果可以表示为所有各方持有的树的子模型结果的交叉点。利用这种关键观察,我们通过隐藏决策路径来保护数据隐私并允许公开特征含义,并适应推理输出的通信有效的安全计算方法。通过理论分析和广泛的数值结果,将证明FED-EINI的优点。我们通过披露特征的含义来提高模型的可解释性,同时确保效率和准确性。
translated by 谷歌翻译
通过将多个计算设备连接到分散的系统中,解决了数据岛问题的联邦学习,已成为隐私保存机学习的有希望的范式。本文研究了垂直联合学习(VFL),该学习(VFL)解决了协作组织共享同一组用户但不相交的功能的方案。当代VFL方法主要用于活动方和被动方的静态场景中,从一开始就拥有所有数据,不会改变。但是,现实生活中的数据经常动态地改变。为了减轻这个问题,我们提出了一种新的垂直联合学习方法,DVFL,通过知识蒸馏来适应动态数据分布改变。在DVFL中,大多数计算都在本地保持,以提高数据安全性和模型效率。我们广泛的实验结果表明,DVFL不仅可以在静态场景中获得接近现有VFL方法的结果,还可以适应动态方案中数据分布的变化。
translated by 谷歌翻译
联合学习(FL)是一个系统,中央聚合器协调多个客户解决机器学习问题的努力。此设置允许分散培训数据以保护隐私。本文的目的是提供针对医疗保健的FL系统的概述。 FL在此根据其框架,架构和应用程序进行评估。这里显示的是,FL通过中央聚合器服务器通过共享的全球深度学习(DL)模型解决了前面的问题。本文研究了最新的发展,并提供了来自FL研究的快速增长的启发,列出了未解决的问题。在FL的背景下,描述了几种隐私方法,包括安全的多方计算,同态加密,差异隐私和随机梯度下降。此外,还提供了对各种FL类的综述,例如水平和垂直FL以及联合转移学习。 FL在无线通信,服务建议,智能医学诊断系统和医疗保健方面有应用,本文将在本文中进行讨论。我们还对现有的FL挑战进行了彻底的审查,例如隐私保护,沟通成本,系统异质性和不可靠的模型上传,然后是未来的研究指示。
translated by 谷歌翻译
Today's AI still faces two major challenges. One is that in most industries, data exists in the form of isolated islands. The other is the strengthening of data privacy and security. We propose a possible solution to these challenges: secure federated learning. Beyond the federated learning framework first proposed by Google in 2016, we introduce a comprehensive secure federated learning framework, which includes horizontal federated learning, vertical federated learning and federated transfer learning. We provide definitions, architectures and applications for the federated learning framework, and provide a comprehensive survey of existing works on this subject. In addition, we propose building data networks among organizations based on federated mechanisms as an effective solution to allow knowledge to be shared without compromising user privacy.
translated by 谷歌翻译
联合学习(FL)和分裂学习(SL)是两种新兴的协作学习方法,可能会极大地促进物联网(IoT)中无处不在的智能。联合学习使机器学习(ML)模型在本地培训的模型使用私人数据汇总为全球模型。分裂学习使ML模型的不同部分可以在学习框架中对不同工人进行协作培训。联合学习和分裂学习,每个学习都有独特的优势和各自的局限性,可能会相互补充,在物联网中无处不在的智能。因此,联合学习和分裂学习的结合最近成为一个活跃的研究领域,引起了广泛的兴趣。在本文中,我们回顾了联合学习和拆分学习方面的最新发展,并介绍了有关最先进技术的调查,该技术用于将这两种学习方法组合在基于边缘计算的物联网环境中。我们还确定了一些开放问题,并讨论了该领域未来研究的可能方向,希望进一步引起研究界对这个新兴领域的兴趣。
translated by 谷歌翻译
越来越多的内容和机构努力使用外部数据来提高AI服务的性能。为了解决数据隐私和安全问题,联合学习吸引了学术界和工业的越来越多的关注,以安全地构建跨多个隔离数据提供商的AI模型。在本文中,我们研究了在现实世界应用中扩展广泛使用的XGBoost模型的效率问题,以垂直联合学习设置。最先进的垂直联合XGBoost框架需要大量的加密操作和密文传输,这使得模型培训比在本地培训XGBoost模型的效率更少。为了弥合这一差距,我们提出了一种新型批量均匀加密方法,以降低加密相关的计算和传输成本。这是通过将一阶导数和二阶导数编码成单个号码以进行加密,密文传输和同型添加操作来实现。可以从编码值的总和同时解码多个一阶导数和二阶导数的总和。我们在批量联合学习的Batchcrypt工作中受到了批量思想,并设计了一种新的批处理方法来解决允许相当数量的负数的限制。所提出的批处理方法的编码过程由四个步骤组成,包括转换,截断,量化和批量,而解码过程包括去量化和移位。通过理论分析和广泛的数值实验证明了我们的方法的优点。
translated by 谷歌翻译
在现代电力系统中,关于发电/消耗的实时数据及其相关特征存储在各种分布式方中,包括家用仪表,变压器站和外部组织。为了充分利用这些分布式数据的潜在模式,以进行准确的功率预测,需要联合学习作为协作但隐私保留培训方案。然而,目前的联合学习框架偏振朝向解决数据的水平或垂直分离,并且倾向于忽略两个存在的情况。此外,在主流级联联合学习框架中,仅采用人工神经网络来学习数据模式,与表格数据集的基于树的模型相比,该数据模式被认为是更准确和解释的。为此,我们提出了一种基于XGBoost的混合联合学习框架,用于从实时外部功能的分布式电源预测。除了引入提升的树木以提高准确性和可解释性之外,我们还结合了水平和垂直的联邦学习,以解决特征在当地异构各方分散的场景,并在各种当地地区分散样品。此外,我们设计了动态任务分配方案,使得各方获得公平的信息份额,并且每个方的计算能力可以充分利用促进培训效率。提出了一个后续案例研究,以证明采用拟议框架的必要性。还确认了拟议框架的优点,效率和精度性能。
translated by 谷歌翻译
通信技术和互联网的最新进展与人工智能(AI)启用了智能医疗保健。传统上,由于现代医疗保健网络的高性性和日益增长的数据隐私问题,AI技术需要集中式数据收集和处理,这可能在现实的医疗环境中可能是不可行的。作为一个新兴的分布式协作AI范例,通过协调多个客户(例如,医院)来执行AI培训而不共享原始数据,对智能医疗保健特别有吸引力。因此,我们对智能医疗保健的使用提供了全面的调查。首先,我们在智能医疗保健中展示了近期进程,动机和使用FL的要求。然后讨论了近期智能医疗保健的FL设计,从资源感知FL,安全和隐私感知到激励FL和个性化FL。随后,我们对关键医疗领域的FL新兴应用提供了最先进的综述,包括健康数据管理,远程健康监测,医学成像和Covid-19检测。分析了几个最近基于智能医疗保健项目,并突出了从调查中学到的关键经验教训。最后,我们讨论了智能医疗保健未来研究的有趣研究挑战和可能的指示。
translated by 谷歌翻译
对网络攻击的现代防御越来越依赖于主动的方法,例如,基于过去的事件来预测对手的下一个行动。建立准确的预测模型需要许多组织的知识; las,这需要披露敏感信息,例如网络结构,安全姿势和政策,这些信息通常是不受欢迎的或完全不可能的。在本文中,我们探讨了使用联合学习(FL)预测未来安全事件的可行性。为此,我们介绍了Cerberus,这是一个系统,可以为参与组织的复发神经网络(RNN)模型进行协作培训。直觉是,FL可能会在非私有方法之间提供中间地面,在非私有方法中,训练数据在中央服务器上合并,而仅训练本地模型的较低性替代方案。我们将Cerberus实例化在从一家大型安全公司的入侵预防产品中获得的数据集上,并评估其有关实用程序,鲁棒性和隐私性,以及参与者如何从系统中贡献和受益。总体而言,我们的工作阐明了将FL执行此任务的积极方面和挑战,并为部署联合方法以进行预测安全铺平了道路。
translated by 谷歌翻译
我们解决了联合学习(FL-HPO)的超参数优化(HPO)的相对未开发的问题。我们引入联邦损失表面聚合(Flora),该框架的第一个FL-HPO解决方案框架可以解决除了在流体文献中通常寻址的随机梯度下降/神经网络之外的表格数据和梯度提升训练算法的用例。该框架使单次FL-HPO能够首先识别**单次**培训中使用的良好的超参数集。因此,与没有HPO的FL训练相比,它使FL-HPO解决方案具有最小的额外通信开销。我们对七个OpenML数据集的梯度提升决策树Flora的实证评估表明,对所考虑的基线,以及越来越多的涉及FL-HPO培训的各方的鲁棒性,可以显着的模型准确性。
translated by 谷歌翻译
Federated learning involves training statistical models over remote devices or siloed data centers, such as mobile phones or hospitals, while keeping data localized. Training in heterogeneous and potentially massive networks introduces novel challenges that require a fundamental departure from standard approaches for large-scale machine learning, distributed optimization, and privacy-preserving data analysis. In this article, we discuss the unique characteristics and challenges of federated learning, provide a broad overview of current approaches, and outline several directions of future work that are relevant to a wide range of research communities.
translated by 谷歌翻译
In recent years, mobile devices are equipped with increasingly advanced sensing and computing capabilities. Coupled with advancements in Deep Learning (DL), this opens up countless possibilities for meaningful applications, e.g., for medical purposes and in vehicular networks. Traditional cloudbased Machine Learning (ML) approaches require the data to be centralized in a cloud server or data center. However, this results in critical issues related to unacceptable latency and communication inefficiency. To this end, Mobile Edge Computing (MEC) has been proposed to bring intelligence closer to the edge, where data is produced. However, conventional enabling technologies for ML at mobile edge networks still require personal data to be shared with external parties, e.g., edge servers. Recently, in light of increasingly stringent data privacy legislations and growing privacy concerns, the concept of Federated Learning (FL) has been introduced. In FL, end devices use their local data to train an ML model required by the server. The end devices then send the model updates rather than raw data to the server for aggregation. FL can serve as an enabling technology in mobile edge networks since it enables the collaborative training of an ML model and also enables DL for mobile edge network optimization. However, in a large-scale and complex mobile edge network, heterogeneous devices with varying constraints are involved. This raises challenges of communication costs, resource allocation, and privacy and security in the implementation of FL at scale. In this survey, we begin with an introduction to the background and fundamentals of FL. Then, we highlight the aforementioned challenges of FL implementation and review existing solutions. Furthermore, we present the applications of FL for mobile edge network optimization. Finally, we discuss the important challenges and future research directions in FL.
translated by 谷歌翻译
随着智能传感器的部署和通信技术的进步,大数据分析在智能电网域中大大流行,告知利益相关者最好的电力利用策略。但是,这些电源相关数据被不同的各方存储和拥有。例如,功耗数据存储在跨城市的众多变压器站中;移动公司持有的人口的流动性数据,这是耗电量重要指标。直接数据分享可能会妥协党的福利,个人隐私甚至国家安全。灵感来自谷歌AI的联邦学习计划,我们向智能电网提出了联合学习框架,这使得能够协作学习功耗模式而不会泄漏各个电力迹线。当数据分散在样本空间中时,采用横向联合学习;另一方面,垂直联合学习是为散射在特征空间中的数据的情况而设计的。案例研究表明,通过适当的加密方案,如Paillier加密,从提出的框架构建的机器学习模型是无损,隐私保留和有效的。最后,讨论了智能电网其他方面的联合学习的有希望的未来,包括电动车辆,分布式发电/消费和集成能量系统。
translated by 谷歌翻译
基于学习的网络入侵检测系统(NIDS)被广泛部署用于捍卫各种网络攻击。现有的基于学习的NID主要使用神经网络(NN)作为依赖于网络图克数据的质量和数量的分类器。这种基于NN的方法也很难解释提高效率和可扩展性。在本文中,我们通过组合可解释的梯度升压决策树(GBDT)和联合学习(FL)框架来设计一个新的本地全局计算范例,基于新的学习的NID。具体地,联合纤维公司由多个客户端组成,该客户端提取用于服务器的本地网络基地数据功能以培训模型和检测入侵。在Fedlorest中还提出了一种隐私增强技术,以进一步击败流动系统的隐私。关于4个网络内人数据集的广泛实验,不同任务表明,联邦纤维公司是有效,高效,可解释和可延伸的。 Fedlorest在中国大学生的协同学习和网络安全竞赛中排名第一。
translated by 谷歌翻译
作为保护隐私的协作机器学习范式,联邦学习在行业中越来越受到关注。随着需求的巨大增长,有许多联合学习平台使联邦参与者可以从头开始建立并建立联合模型。但是,退出的平台高度侵入性,复杂且难以与建造的机器学习模型集成。对于许多已经具有成熟服务模型的现实世界企业,现有的联合学习平台具有很高的进入障碍和发展成本。本文介绍了一个简单而实用的联合学习插件,其灵感来自合奏学习,被称为包装,使参与者能够以最低的成本建立/加入使用现有模型的联合系统。 Wrapperfl通过简单地将其连接到现有模型的输入和输出接口,而无需重新开发,从而大大减少了人力和资源的开销。我们在异质数据分布和异质模型下验证我们的建议方法。实验结果表明,在实际设置下,包装可以成功地应用于广泛的应用程序,并以低成本的联合学习改善本地模型。
translated by 谷歌翻译