联合学习(FL)已成为机器学习中的实用且流行的范式。但是,目前,没有系统的解决方案涵盖不同的用例。从业者经常面临如何为其用例选择匹配的FL框架的挑战。在这项工作中,我们提出了Unifed,这是对现有开源FL框架进行标准化评估的第一个统一基准。在15个评估方案中,我们从功能,可用性和系统性能的角度出发了9个现有流行开源的FL框架的定性和定量评估结果。我们还根据基准结论提供有关框架选择的建议,并指出未来的改进方向。
translated by 谷歌翻译
联邦学习一直是一个热门的研究主题,使不同组织的机器学习模型的协作培训在隐私限制下。随着研究人员试图支持更多具有不同隐私方法的机器学习模型,需要开发系统和基础设施,以便于开发各种联合学习算法。类似于Pytorch和Tensorflow等深度学习系统,可以增强深度学习的发展,联邦学习系统(FLSS)是等效的,并且面临各个方面的面临挑战,如有效性,效率和隐私。在本调查中,我们对联合学习系统进行了全面的审查。为实现流畅的流动和引导未来的研究,我们介绍了联合学习系统的定义并分析了系统组件。此外,我们根据六种不同方面提供联合学习系统的全面分类,包括数据分布,机器学习模型,隐私机制,通信架构,联合集市和联合的动机。分类可以帮助设计联合学习系统,如我们的案例研究所示。通过系统地总结现有联合学习系统,我们展示了设计因素,案例研究和未来的研究机会。
translated by 谷歌翻译
本文提出并表征了联合学习(OARF)的开放应用程序存储库,是联合机器学习系统的基准套件。以前可用的联合学习基准主要集中在合成数据集上,并使用有限数量的应用程序。 OARF模仿更现实的应用方案,具有公开的数据集,如图像,文本和结构数据中的不同数据孤岛。我们的表征表明,基准套件在数据大小,分布,特征分布和学习任务复杂性中多样化。与参考实施的广泛评估显示了联合学习系统的重要方面的未来研究机会。我们开发了参考实现,并评估了联合学习的重要方面,包括模型准确性,通信成本,吞吐量和收敛时间。通过这些评估,我们发现了一些有趣的发现,例如联合学习可以有效地提高端到端吞吐量。
translated by 谷歌翻译
联合学习(FL)作为边缘设备的有希望的技术,以协作学习共享预测模型,同时保持其训练数据,从而解耦了从需要存储云中的数据的机器学习的能力。然而,在规模和系统异质性方面,FL难以现实地实现。虽然有许多用于模拟FL算法的研究框架,但它们不支持在异构边缘设备上进行可扩展的流程。在本文中,我们呈现花 - 一种全面的FL框架,通过提供新的设施来执行大规模的FL实验并考虑丰富的异构流程来区分现有平台。我们的实验表明花卉可以仅使用一对高端GPU在客户尺寸下进行FL实验。然后,研究人员可以将实验无缝地迁移到真实设备中以检查设计空间的其他部分。我们认为花卉为社区提供了一个批判性的新工具,用于研究和发展。
translated by 谷歌翻译
Federated Learning (FL) has been widely accepted as the solution for privacy-preserving machine learning without collecting raw data. While new technologies proposed in the past few years do evolve the FL area, unfortunately, the evaluation results presented in these works fall short in integrity and are hardly comparable because of the inconsistent evaluation metrics and experimental settings. In this paper, we propose a holistic evaluation framework for FL called FedEval, and present a benchmarking study on seven state-of-the-art FL algorithms. Specifically, we first introduce the core evaluation taxonomy model, called FedEval-Core, which covers four essential evaluation aspects for FL: Privacy, Robustness, Effectiveness, and Efficiency, with various well-defined metrics and experimental settings. Based on the FedEval-Core, we further develop an FL evaluation platform with standardized evaluation settings and easy-to-use interfaces. We then provide an in-depth benchmarking study between the seven well-known FL algorithms, including FedSGD, FedAvg, FedProx, FedOpt, FedSTC, SecAgg, and HEAgg. We comprehensively analyze the advantages and disadvantages of these algorithms and further identify the suitable practical scenarios for different algorithms, which is rarely done by prior work. Lastly, we excavate a set of take-away insights and future research directions, which are very helpful for researchers in the FL area.
translated by 谷歌翻译
传统的深度学习方法(DL)需要在中央服务器上收集和处理的培训数据,这些中央服务器通常在保健等隐私敏感域中挑战。为此,提出了一种新的学习范式,称为联合学习(FL),在解决隐私和数据所有权问题的同时将DL的潜力带到了这些域。 FL使远程客户端能够在保持数据本地时学习共享ML模型。然而,传统的FL系统面临多种挑战,例如可扩展性,复杂的基础设施管理,并且由于空闲客户端而被浪费的计算和产生的成本。 FL系统的这些挑战与无服务器计算和功能 - AS-Service(FAAS)平台旨在解决的核心问题密切对齐。这些包括快速可扩展性,无基础设施管理,自动缩放为空闲客户端,以及每次使用付费计费模型。为此,我们为无服务器FL展示了一个新颖的系统和框架,称为不发烟。我们的系统支持多个商业和自主主机的FAAS提供商,可以在机构数据中心和边缘设备上部署在云端,内部部署。据我们所知,我们是第一个能够在一大面料的异构FAAS提供商中启用FL,同时提供安全性和差异隐私等重要功能。我们展示了全面的实验,即使用我们的系统可以成功地培训多达200个客户功能的不同任务,更容易实现。此外,我们通过将其与传统的FL系统进行比较来证明我们的方法的实际可行性,并表明它可以更便宜,更资源效率更便宜。
translated by 谷歌翻译
Federated learning (FL) enables the building of robust and generalizable AI models by leveraging diverse datasets from multiple collaborators without centralizing the data. We created NVIDIA FLARE as an open-source software development kit (SDK) to make it easier for data scientists to use FL in their research and real-world applications. The SDK includes solutions for state-of-the-art FL algorithms and federated machine learning approaches, which facilitate building workflows for distributed learning across enterprises and enable platform developers to create a secure, privacy-preserving offering for multiparty collaboration utilizing homomorphic encryption or differential privacy. The SDK is a lightweight, flexible, and scalable Python package, and allows researchers to bring their data science workflows implemented in any training libraries (PyTorch, TensorFlow, XGBoost, or even NumPy) and apply them in real-world FL settings. This paper introduces the key design principles of FLARE and illustrates some use cases (e.g., COVID analysis) with customizable FL workflows that implement different privacy-preserving algorithms. Code is available at https://github.com/NVIDIA/NVFlare.
translated by 谷歌翻译
我们展示了FedScale,这是一种多样化的挑战和现实的基准数据集,以便于可扩展,全面,可重复的联邦学习(FL)研究。 FedScale数据集是大规模的,包括不同的重要性范围,例如图像分类,对象检测,字预测和语音识别。对于每个数据集,我们使用逼真的数据拆分和评估度量提供统一的评估协议。为了满足在规模中繁殖现实流体的压力需求,我们还建立了一个有效的评估平台,以简化和标准化流程实验设置和模型评估的过程。我们的评估平台提供灵活的API来实现新的FL算法,并包括具有最小开发人员的新执行后端。最后,我们在这些数据集上执行深入的基准实验。我们的实验表明,在现实流动特征下,在系统的异质性感知协同优化和统计效率下提供了富有成效的机遇。 FedScale是具有允许许可的开放源,积极维护,我们欢迎来自社区的反馈和贡献。
translated by 谷歌翻译
本文介绍了FLSYS的设计,实施和评估,一种支持移动应用的深度学习模型的移动云联合学习(FL)系统。 Flsys是创建使用这些模型的FL模型和应用程序开放生态系统的关键组件。 FLSYS旨在使用在智能手机上收集的移动感应数据,平衡模型性能,在手机上使用资源消耗,容忍手机通信故障,并在云中实现可扩展性。在FLSYS中,可以通过不同的应用程序培训云中具有不同流量的不同DL模型,并通过不同的应用程序同时访问和访问。此外,Flsys为第三方应用程序开发人员提供了培训FL模型的共同API。 flsys是在Android和AWS云中实现的。我们在野生FL模型中与人类活动识别(HAR)共同设计了FLSYS。在五个月的时间内,在100+大学生手机的两个地区收集了掌握数据。我们实施了Har-Wild,一种针对移动设备定制的CNN模型,具有数据增强机制,以减轻非独立和相同分布的(非IID)数据的问题,这些数据影响野外的流动模型训练。情绪分析(SA)模型用于演示FLSYS如何有效地支持并发模型,并且它使用446个用户的DataSet具有46,000多个推文。我们对Android手机和仿真器进行了广泛的实验,表明Flsys实现了良好的模型实用性和实际系统性能。
translated by 谷歌翻译
联合学习(FL)的令人难以置信的发展使计算机视觉和自然语言处理领域的各种任务受益,而现有的TFF和FATE等现有框架使在现实应用程序中的部署变得容易。但是,即使图形数据很普遍,联合图形学习(FGL)由于其独特的特征和要求而没有得到很好的支持。缺乏与FGL相关的框架增加了完成可再现研究和在现实世界应用中部署的努力。在本文中,我们首先讨论了创建易于使用的FGL软件包的挑战,因此提出了我们实施的FederatedScope-GNN(FS-G)的包裹,该软件包提供了(1)统一的模块化视图并表达FGL算法; (2)用于开箱即用的FGL功能的综合数据和模型; (3)有效的模型自动调整组件; (4)现成的隐私攻击和防御能力。我们通过进行广泛的实验来验证FS-G的有效性,该实验同时获得了许多有关FGL的宝贵见解。此外,我们采用FS-G在现实世界中的电子商务方案中为FGL应用程序提供服务,在该场景中获得的改进表明了巨大的潜在业务利益。我们在https://github.com/alibaba/federatedscope上公开发布FS-G,作为FederatedScope的子模型,以促进FGL的研究,并启用由于缺乏专用包装而无法无视的广泛应用。
translated by 谷歌翻译
尽管现有联合学习平台(FL)平台已取得了显着的进展,以提供开发基础架构,但这些平台可能无法很好地应对各种异质性带来的挑战,包括参与者本地数据,资源,行为和学习目标中的异质性。为了填补这一空白,在本文中,我们提出了一个名为FederatedScope的新型FL平台,该平台采用事件驱动的架构为用户提供极大的灵活性,以独立描述不同参与者的行为。这样的设计使用户可以轻松地描述参与者具有各种本地培训过程,学习目标和后端,并通过同步或异步培训策略将其协调为FL课程。 FederatedScope为易于使用和灵活的平台提供了丰富类型的插入操作和组件,以有效地进行进一步开发,并且我们实施了几个重要组件,以更好地帮助用户进行隐私保护,攻击模拟和自动调整。我们已经在https://github.com/alibaba/federatedscope上发布了FederatedScope,以在各种情况下促进联邦学习的学术研究和工业部署。
translated by 谷歌翻译
随着物联网,AI和ML/DL算法的出现,数据驱动的医疗应用已成为一种有前途的工具,用于从医学数据设计可靠且可扩展的诊断和预后模型。近年来,这引起了从学术界到工业的广泛关注。这无疑改善了医疗保健提供的质量。但是,由于这些基于AI的医疗应用程序在满足严格的安全性,隐私和服务标准(例如低延迟)方面的困难,因此仍然采用较差。此外,医疗数据通常是分散的和私人的,这使得在人群之间产生强大的结果具有挑战性。联邦学习(FL)的最新发展使得以分布式方式训练复杂的机器学习模型成为可能。因此,FL已成为一个积极的研究领域,尤其是以分散的方式处理网络边缘的医疗数据,以保护隐私和安全问题。为此,本次调查论文重点介绍了数据共享是重大负担的医疗应用中FL技术的当前和未来。它还审查并讨论了当前的研究趋势及其设计可靠和可扩展模型的结果。我们概述了FL将军的统计问题,设备挑战,安全性,隐私问题及其在医疗领域的潜力。此外,我们的研究还集中在医疗应用上,我们重点介绍了全球癌症的负担以及有效利用FL来开发计算机辅助诊断工具来解决这些诊断工具。我们希望这篇评论是一个检查站,以彻底的方式阐明现有的最新最新作品,并为该领域提供开放的问题和未来的研究指示。
translated by 谷歌翻译
Federated Learning is a distributed machine learning approach which enables model training on a large corpus of decentralized data. We have built a scalable production system for Federated Learning in the domain of mobile devices, based on TensorFlow. In this paper, we describe the resulting high-level design, sketch some of the challenges and their solutions, and touch upon the open problems and future directions.
translated by 谷歌翻译
Federated learning (FL) has been proposed as a privacy-preserving approach in distributed machine learning. A federated learning architecture consists of a central server and a number of clients that have access to private, potentially sensitive data. Clients are able to keep their data in their local machines and only share their locally trained model's parameters with a central server that manages the collaborative learning process. FL has delivered promising results in real-life scenarios, such as healthcare, energy, and finance. However, when the number of participating clients is large, the overhead of managing the clients slows down the learning. Thus, client selection has been introduced as a strategy to limit the number of communicating parties at every step of the process. Since the early na\"{i}ve random selection of clients, several client selection methods have been proposed in the literature. Unfortunately, given that this is an emergent field, there is a lack of a taxonomy of client selection methods, making it hard to compare approaches. In this paper, we propose a taxonomy of client selection in Federated Learning that enables us to shed light on current progress in the field and identify potential areas of future research in this promising area of machine learning.
translated by 谷歌翻译
机器学习中的隐私和安全挑战(ML)已成为ML普遍的开发以及最近对大型攻击表面的展示,已成为一个关键的话题。作为一种成熟的以系统为导向的方法,在学术界和行业中越来越多地使用机密计算来改善各种ML场景的隐私和安全性。在本文中,我们将基于机密计算辅助的ML安全性和隐私技术的发现系统化,以提供i)保密保证和ii)完整性保证。我们进一步确定了关键挑战,并提供有关ML用例现有可信赖的执行环境(TEE)系统中限制的专门分析。我们讨论了潜在的工作,包括基础隐私定义,分区的ML执行,针对ML的专用发球台设计,TEE Awawe Aware ML和ML Full Pipeline保证。这些潜在的解决方案可以帮助实现强大的TEE ML,以保证无需引入计算和系统成本。
translated by 谷歌翻译
由于机器学习(ML)技术和应用正在迅速改变许多计算领域,以及与ML相关的安全问题也在出现。在系统安全领域中,已经进行了许多努力,以确保ML模型和数据机密性。ML计算通常不可避免地在不受信任的环境中执行,并因此需要复杂的多方安全要求。因此,研究人员利用可信任的执行环境(TEES)来构建机密ML计算系统。本文通过在不受信任的环境中分类攻击向量和缓解攻击载体和缓解来进行系统和全面的调查,分析多方ML安全要求,并讨论相关工程挑战。
translated by 谷歌翻译
联合学习(FL)已成为边缘设备的一种有前途的技术,可以协作学习共享的机器学习模型,同时将培训数据保留在设备上,从而消除了在云中存储和访问完整数据的需求。但是,考虑到公共边缘设备设置中的异质性,FL很难实施,测试和部署在实践中,从而使研究人员从根本上难以有效原型和测试其优化算法。在这项工作中,我们的目的是通过引入FL_PYTORCH:用Python编写的一套开源软件来减轻此问题,该软件以最受欢迎的研究深度学习(DL)框架Pytorch为基础。我们构建了FL_PYTORCH作为FL的研究模拟器,以实现快速开发,原型制作和实验新的和现有的FL优化算法。我们的系统支持摘要,为研究人员提供足够的灵活性,以实验现有和新颖的方法以推进最先进的方法。此外,FL_PYTORCH是一个易于使用的控制台系统,允许使用本地CPU或GPU同时运行多个客户端,甚至可以远程计算设备,而无需用户提供的任何分布式实现。 FL_PYTORCH还提供图形用户界面。对于新方法,研究人员仅提供其算法的集中实施。为了展示系统的可能性和实用性,我们尝试了几种著名的最先进的FL算法和一些最常见的FL数据集。
translated by 谷歌翻译
联合学习(FL)为培训机器学习模型打开了新的观点,同时将个人数据保存在用户场所上。具体而言,在FL中,在用户设备上训练了模型,并且仅将模型更新(即梯度)发送到中央服务器以进行聚合目的。但是,近年来发表的一系列推理攻击泄漏了私人数据,这强调了需要设计有效的保护机制来激励FL的大规模采用。尽管存在缓解服务器端的这些攻击的解决方案,但几乎没有采取任何措施来保护用户免受客户端执行的攻击。在这种情况下,在客户端使用受信任的执行环境(TEE)是最建议的解决方案之一。但是,现有的框架(例如,Darknetz)需要静态地将机器学习模型的很大一部分放入T恤中,以有效防止复杂的攻击或攻击组合。我们提出了GradSec,该解决方案允许在静态或动态上仅在机器学习模型的TEE上进行保护,因此将TCB的大小和整体训练时间降低了30%和56%,相比之下 - 艺术竞争者。
translated by 谷歌翻译
作为保护隐私的协作机器学习范式,联邦学习在行业中越来越受到关注。随着需求的巨大增长,有许多联合学习平台使联邦参与者可以从头开始建立并建立联合模型。但是,退出的平台高度侵入性,复杂且难以与建造的机器学习模型集成。对于许多已经具有成熟服务模型的现实世界企业,现有的联合学习平台具有很高的进入障碍和发展成本。本文介绍了一个简单而实用的联合学习插件,其灵感来自合奏学习,被称为包装,使参与者能够以最低的成本建立/加入使用现有模型的联合系统。 Wrapperfl通过简单地将其连接到现有模型的输入和输出接口,而无需重新开发,从而大大减少了人力和资源的开销。我们在异质数据分布和异质模型下验证我们的建议方法。实验结果表明,在实际设置下,包装可以成功地应用于广泛的应用程序,并以低成本的联合学习改善本地模型。
translated by 谷歌翻译
随着机器学习的出现,在医疗保健和能源等关键基础设施的应用中,隐私是利益相关者的思想中越来越令人担忧。它是衡量的,确保模型和数据都不能用于提取攻击者对个人使用的敏感信息或通过利用关键基础设施来伤害整个社会。由于缺乏关于透明度和隐私约束的信任,机器学习在这些域中的适用性主要是有限的。各种安全关键用例(主要依赖于时间序列数据)目前在隐私相关的考虑因素方面受到了代表性。通过评估有关其在时间序列数据的适用性的若干隐私保留方法,我们验证了加密对深度学习的影响,差异隐私的强大数据集依赖性以及联合方法的广泛适用性。
translated by 谷歌翻译