作为保护隐私的协作机器学习范式,联邦学习在行业中越来越受到关注。随着需求的巨大增长,有许多联合学习平台使联邦参与者可以从头开始建立并建立联合模型。但是,退出的平台高度侵入性,复杂且难以与建造的机器学习模型集成。对于许多已经具有成熟服务模型的现实世界企业,现有的联合学习平台具有很高的进入障碍和发展成本。本文介绍了一个简单而实用的联合学习插件,其灵感来自合奏学习,被称为包装,使参与者能够以最低的成本建立/加入使用现有模型的联合系统。 Wrapperfl通过简单地将其连接到现有模型的输入和输出接口,而无需重新开发,从而大大减少了人力和资源的开销。我们在异质数据分布和异质模型下验证我们的建议方法。实验结果表明,在实际设置下,包装可以成功地应用于广泛的应用程序,并以低成本的联合学习改善本地模型。
translated by 谷歌翻译
联邦学习一直是一个热门的研究主题,使不同组织的机器学习模型的协作培训在隐私限制下。随着研究人员试图支持更多具有不同隐私方法的机器学习模型,需要开发系统和基础设施,以便于开发各种联合学习算法。类似于Pytorch和Tensorflow等深度学习系统,可以增强深度学习的发展,联邦学习系统(FLSS)是等效的,并且面临各个方面的面临挑战,如有效性,效率和隐私。在本调查中,我们对联合学习系统进行了全面的审查。为实现流畅的流动和引导未来的研究,我们介绍了联合学习系统的定义并分析了系统组件。此外,我们根据六种不同方面提供联合学习系统的全面分类,包括数据分布,机器学习模型,隐私机制,通信架构,联合集市和联合的动机。分类可以帮助设计联合学习系统,如我们的案例研究所示。通过系统地总结现有联合学习系统,我们展示了设计因素,案例研究和未来的研究机会。
translated by 谷歌翻译
Federated learning has recently been applied to recommendation systems to protect user privacy. In federated learning settings, recommendation systems can train recommendation models only collecting the intermediate parameters instead of the real user data, which greatly enhances the user privacy. Beside, federated recommendation systems enable to collaborate with other data platforms to improve recommended model performance while meeting the regulation and privacy constraints. However, federated recommendation systems faces many new challenges such as privacy, security, heterogeneity and communication costs. While significant research has been conducted in these areas, gaps in the surveying literature still exist. In this survey, we-(1) summarize some common privacy mechanisms used in federated recommendation systems and discuss the advantages and limitations of each mechanism; (2) review some robust aggregation strategies and several novel attacks against security; (3) summarize some approaches to address heterogeneity and communication costs problems; (4)introduce some open source platforms that can be used to build federated recommendation systems; (5) present some prospective research directions in the future. This survey can guide researchers and practitioners understand the research progress in these areas.
translated by 谷歌翻译
Federated Learning (FL) has been widely accepted as the solution for privacy-preserving machine learning without collecting raw data. While new technologies proposed in the past few years do evolve the FL area, unfortunately, the evaluation results presented in these works fall short in integrity and are hardly comparable because of the inconsistent evaluation metrics and experimental settings. In this paper, we propose a holistic evaluation framework for FL called FedEval, and present a benchmarking study on seven state-of-the-art FL algorithms. Specifically, we first introduce the core evaluation taxonomy model, called FedEval-Core, which covers four essential evaluation aspects for FL: Privacy, Robustness, Effectiveness, and Efficiency, with various well-defined metrics and experimental settings. Based on the FedEval-Core, we further develop an FL evaluation platform with standardized evaluation settings and easy-to-use interfaces. We then provide an in-depth benchmarking study between the seven well-known FL algorithms, including FedSGD, FedAvg, FedProx, FedOpt, FedSTC, SecAgg, and HEAgg. We comprehensively analyze the advantages and disadvantages of these algorithms and further identify the suitable practical scenarios for different algorithms, which is rarely done by prior work. Lastly, we excavate a set of take-away insights and future research directions, which are very helpful for researchers in the FL area.
translated by 谷歌翻译
为了调查现实世界中联邦学习的异质性,我们将经典的联合学习概括为联合的异性任务学习,这强调了参与者在数据分布和学习任务方面的联盟学习中的不一致性。我们还提出了B-FHTL,这是一种联合的杂项任务学习基准,该基准包括模拟数据集,FL协议和统一的评估机制。 B-FHTL数据集包含三个精心设计的联合学习任务,异质性增加。每个任务都使用不同的非IID数据和学习任务模拟客户端。为了确保不同的FL算法之间的公平比较,B-FHTL通过提供高级API来避免隐私泄漏,在整个FL协议中构建,并预设跨越不同的学习任务的最常见评估指标,例如回归,分类,文本,文本,文本此外,我们还比较了B-FHTL中联合多任务学习,联合个性化和联合元学习领域的FL算法,并突出了联盟异质任务学习的异质性和困难的影响。我们的基准测试,包括联合数据集,协议,评估机制和初步实验,可在https://github.com/alibaba/federatedscope/tree/master/master/master/benchmark/b-fhtl上开放。
translated by 谷歌翻译
Federated learning (FL) enables the building of robust and generalizable AI models by leveraging diverse datasets from multiple collaborators without centralizing the data. We created NVIDIA FLARE as an open-source software development kit (SDK) to make it easier for data scientists to use FL in their research and real-world applications. The SDK includes solutions for state-of-the-art FL algorithms and federated machine learning approaches, which facilitate building workflows for distributed learning across enterprises and enable platform developers to create a secure, privacy-preserving offering for multiparty collaboration utilizing homomorphic encryption or differential privacy. The SDK is a lightweight, flexible, and scalable Python package, and allows researchers to bring their data science workflows implemented in any training libraries (PyTorch, TensorFlow, XGBoost, or even NumPy) and apply them in real-world FL settings. This paper introduces the key design principles of FLARE and illustrates some use cases (e.g., COVID analysis) with customizable FL workflows that implement different privacy-preserving algorithms. Code is available at https://github.com/NVIDIA/NVFlare.
translated by 谷歌翻译
The increasing privacy concerns on personal private text data promote the development of federated learning (FL) in recent years. However, the existing studies on applying FL in NLP are not suitable to coordinate participants with heterogeneous or private learning objectives. In this study, we further broaden the application scope of FL in NLP by proposing an Assign-Then-Contrast (denoted as ATC) framework, which enables clients with heterogeneous NLP tasks to construct an FL course and learn useful knowledge from each other. Specifically, the clients are suggested to first perform local training with the unified tasks assigned by the server rather than using their own learning objectives, which is called the Assign training stage. After that, in the Contrast training stage, clients train with different local learning objectives and exchange knowledge with other clients who contribute consistent and useful model updates. We conduct extensive experiments on six widely-used datasets covering both Natural Language Understanding (NLU) and Natural Language Generation (NLG) tasks, and the proposed ATC framework achieves significant improvements compared with various baseline methods. The source code is available at \url{https://github.com/alibaba/FederatedScope/tree/master/federatedscope/nlp/hetero_tasks}.
translated by 谷歌翻译
尽管结果令人印象深刻,但深度学习的技术还引起了经常在数据中心进行的培训程序引起的严重隐私和环境问题。作为回应,已经出现了集中培训的替代方案,例如联邦学习(FL)。也许出乎意料的是,FL开始在全球范围内部署,这些公司必须遵守源自倡导隐私保护的政府和社会团体的新法律要求和政策。 \ textit {但是,与FL有关的潜在环境影响仍然不清楚和未开发。本文提供了有关佛罗里达碳足迹的首次系统研究。然后,我们将FL的碳足迹与传统的集中学习进行了比较。我们的发现表明,根据配置,FL可以比集中的机器学习高达两个数量级。但是,在某些情况下,由于嵌入式设备的能源消耗减少,它可以与集中学习相提并论。我们使用FL进行了不同类型的数据集,设置和各种深度学习模型的广泛实验。最后,我们强调并将报告的结果与FL的未来挑战和趋势联系起来,以减少其环境影响,包括算法效率,硬件能力和更强的行业透明度。
translated by 谷歌翻译
联合学习(FL)作为边缘设备的有希望的技术,以协作学习共享预测模型,同时保持其训练数据,从而解耦了从需要存储云中的数据的机器学习的能力。然而,在规模和系统异质性方面,FL难以现实地实现。虽然有许多用于模拟FL算法的研究框架,但它们不支持在异构边缘设备上进行可扩展的流程。在本文中,我们呈现花 - 一种全面的FL框架,通过提供新的设施来执行大规模的FL实验并考虑丰富的异构流程来区分现有平台。我们的实验表明花卉可以仅使用一对高端GPU在客户尺寸下进行FL实验。然后,研究人员可以将实验无缝地迁移到真实设备中以检查设计空间的其他部分。我们认为花卉为社区提供了一个批判性的新工具,用于研究和发展。
translated by 谷歌翻译
本文提出并表征了联合学习(OARF)的开放应用程序存储库,是联合机器学习系统的基准套件。以前可用的联合学习基准主要集中在合成数据集上,并使用有限数量的应用程序。 OARF模仿更现实的应用方案,具有公开的数据集,如图像,文本和结构数据中的不同数据孤岛。我们的表征表明,基准套件在数据大小,分布,特征分布和学习任务复杂性中多样化。与参考实施的广泛评估显示了联合学习系统的重要方面的未来研究机会。我们开发了参考实现,并评估了联合学习的重要方面,包括模型准确性,通信成本,吞吐量和收敛时间。通过这些评估,我们发现了一些有趣的发现,例如联合学习可以有效地提高端到端吞吐量。
translated by 谷歌翻译
Federated learning is a popular paradigm for machine learning. Ideally, federated learning works best when all clients share a similar data distribution. However, it is not always the case in the real world. Therefore, the topic of federated learning on heterogeneous data has gained more and more effort from both academia and industry. In this project, we first do extensive experiments to show how data skew and quantity skew will affect the performance of state-of-art federated learning algorithms. Then we propose a new algorithm FedMix which adjusts existing federated learning algorithms and we show its performance. We find that existing state-of-art algorithms such as FedProx and FedNova do not have a significant improvement in all testing cases. But by testing the existing and new algorithms, it seems that tweaking the client side is more effective than tweaking the server side.
translated by 谷歌翻译
随着对数据隐私和数据量迅速增加的越来越关注,联邦学习(FL)已成为重要的学习范式。但是,在FL环境中共同学习深层神经网络模型被证明是一项非平凡的任务,因为与神经网络相关的复杂性,例如跨客户的各种体系结构,神经元的置换不变性以及非线性的存在每一层的转换。这项工作介绍了一个新颖的联合异质神经网络(FEDHENN)框架,该框架允许每个客户构建个性化模型,而无需在跨客户范围内实施共同的架构。这使每个客户都可以优化本地数据并计算约束,同时仍能从其他(可能更强大)客户端的学习中受益。 Fedhenn的关键思想是使用从同行客户端获得的实例级表示,以指导每个客户的同时培训。广泛的实验结果表明,Fedhenn框架能够在跨客户的同质和异质体系结构的设置中学习更好地表现客户的模型。
translated by 谷歌翻译
有效分布式参数的快速全局聚合对于联邦学习(FL)至关重要,这需要足够的带宽来进行参数通信和足够的用户数据以进行本地培训。否则,FL可能会花费过多的训练时间来收敛并产生不准确的模型。在本文中,我们提出了一个全新的FL框架,即Pressfl,该框架将联合模型培训取代联合的及时培训,即让联邦参与者培训提示而不是共享模型,以同时实现有效的全球聚合和本地培训通过以分布式方式利用基础模型(FM)的功率来利用数据不足。 ProSTERFL将现成的FM(即剪辑)运送到分布式客户端,这些客户将根据很少的本地数据进行合作培训共享的软提示。由于提示fl只需要更新提示而不是整个模型,因此本地培训和全局聚合都可以大大加速。经过大规模数据训练的FM可以通过训练有素的软提示为分布式用户任务提供强大的适应能力。我们通过广泛的实验对提示进行了经验分析,并在系统的可行性,用户隐私和性能方面表现出了优势。
translated by 谷歌翻译
最近,事物的人工智能(Aiot)一直在引起人们的关注,具有通过事物的网络连接提供高度智能服务的有趣愿景,从而导致了先进的AI驱动生态。但是,对数据隐私的最新监管限制排除将敏感的本地数据上传到数据中心,并以集中式方法利用它们。在这种情况下,直接应用联合学习算法几乎不能满足效率和准确性的工业要求。因此,我们在面部识别应用方面为AIOT提出了一个有效的工业联合学习框架。具体而言,我们建议利用转移学习的概念来加快设备上的联合培训,并进一步介绍私人投影仪的新颖设计,该设计有助于保护共享梯度,而不会产生额外的记忆消耗或计算成本。对亚洲私人面部数据集的实证研究表明,我们的方法仅在20轮沟通中就可以实现高认识的准确性,这表明了其在预测和培训方面的有效性。
translated by 谷歌翻译
联合学习(FL)是分布式学习范例,可以从边缘设备上的分散数据集中学习全局或个性化模型。然而,在计算机视觉域中,由于统一的流行框架缺乏探索,FL的模型性能远远落后于集中培训。在诸如物体检测和图像分割之类的高级计算机视觉任务中,FL很少有效地说明。为了弥合差距并促进电脑视觉任务的流动,在这项工作中,我们提出了一个联邦学习库和基准框架,命名为FEDCV,评估了三个最具代表性的计算机视觉任务:图像分类,图像分割,和物体检测。我们提供非I.I.D。基准测试数据集,模型和各种参考FL算法。我们的基准研究表明,存在多种挑战值得未来的探索:集中式培训技巧可能不会直接申请fl;非i.i.d。 DataSet实际上将模型精度降级到不同的任务中的某种程度;给出了联合培训的系统效率,具有挑战性,鉴于大量参数和每个客户端记忆成本。我们认为,这种图书馆和基准以及可比的评估设置是必要的,以便在计算机视觉任务中进行有意义的进展。 Fedcv公开可用:https://github.com/fedml-ai/fedcv。
translated by 谷歌翻译
将知识蒸馏应用于个性化的跨筒仓联合学习,可以很好地减轻用户异质性的问题。然而,这种方法需要一个代理数据集,这很难在现实世界中获得。此外,基于参数平均的全球模型将导致用户隐私的泄漏。我们介绍了一个分布式的三位玩家GaN来实现客户之间的DataFree共蒸馏。该技术减轻了用户异质性问题,更好地保护用户隐私。我们证实,GaN产生的方法可以使联合蒸馏更有效和稳健,并且在获得全球知识的基础上,共蒸馏可以为各个客户达到良好的性能。我们对基准数据集的广泛实验证明了与最先进的方法的卓越的泛化性能。
translated by 谷歌翻译
联邦学习(FL)是一种在分布在大量可能异构客户端的私人数据上培训机器学习模型的方法,例如移动电话和物联网设备。在这项工作中,我们提出了一个名为Heterofl的新联合学习框架来解决具有较差的计算和通信能力的异构客户端。我们的解决方案可以实现具有不同计算复杂性的异构本地模型,并仍然产生单一的全局推理模型。我们的方法是挑战本地模型必须与全球模型共享相同的架构的现有工作的潜在工作。我们展示了提高流行培训的几种策略,并进行广泛的经验评估,包括三个数据集三个模型架构的五个计算复杂性水平。我们表明,根据客户端的功能,自适应分配子网是计算和通信有效的。
translated by 谷歌翻译
本文介绍了FLSYS的设计,实施和评估,一种支持移动应用的深度学习模型的移动云联合学习(FL)系统。 Flsys是创建使用这些模型的FL模型和应用程序开放生态系统的关键组件。 FLSYS旨在使用在智能手机上收集的移动感应数据,平衡模型性能,在手机上使用资源消耗,容忍手机通信故障,并在云中实现可扩展性。在FLSYS中,可以通过不同的应用程序培训云中具有不同流量的不同DL模型,并通过不同的应用程序同时访问和访问。此外,Flsys为第三方应用程序开发人员提供了培训FL模型的共同API。 flsys是在Android和AWS云中实现的。我们在野生FL模型中与人类活动识别(HAR)共同设计了FLSYS。在五个月的时间内,在100+大学生手机的两个地区收集了掌握数据。我们实施了Har-Wild,一种针对移动设备定制的CNN模型,具有数据增强机制,以减轻非独立和相同分布的(非IID)数据的问题,这些数据影响野外的流动模型训练。情绪分析(SA)模型用于演示FLSYS如何有效地支持并发模型,并且它使用446个用户的DataSet具有46,000多个推文。我们对Android手机和仿真器进行了广泛的实验,表明Flsys实现了良好的模型实用性和实际系统性能。
translated by 谷歌翻译
高效联合学习是在边缘设备上培训和部署AI模型的关键挑战之一。然而,在联合学习中维护数据隐私提出了几种挑战,包括数据异质性,昂贵的通信成本和有限的资源。在本文中,我们通过(a)通过基于本地客户端的深度增强学习引入突出参数选择代理的上述问题,并在中央服务器上聚合所选择的突出参数,(b)分割正常的深度学习模型〜 (例如,CNNS)作为共享编码器和本地预测器,并通过联合学习训练共享编码器,同时通过本地自定义预测器将其知识传送到非IID客户端。所提出的方法(a)显着降低了联合学习的通信开销,并加速了模型推断,而方法(b)则在联合学习中解决数据异质性问题。此外,我们利用梯度控制机制来校正客户之间的梯度异质性。这使得训练过程更稳定并更快地收敛。实验表明,我们的方法产生了稳定的训练过程,并与最先进的方法相比实现了显着的结果。在培训VGG-11时,我们的方法明显降低了通信成本最高108 GB,并在培训Reset-20时需要7.6美元的通信开销,同时通过减少高达39.7 \%$ 39.7 \%$ vgg- 11.
translated by 谷歌翻译
随着物联网,AI和ML/DL算法的出现,数据驱动的医疗应用已成为一种有前途的工具,用于从医学数据设计可靠且可扩展的诊断和预后模型。近年来,这引起了从学术界到工业的广泛关注。这无疑改善了医疗保健提供的质量。但是,由于这些基于AI的医疗应用程序在满足严格的安全性,隐私和服务标准(例如低延迟)方面的困难,因此仍然采用较差。此外,医疗数据通常是分散的和私人的,这使得在人群之间产生强大的结果具有挑战性。联邦学习(FL)的最新发展使得以分布式方式训练复杂的机器学习模型成为可能。因此,FL已成为一个积极的研究领域,尤其是以分散的方式处理网络边缘的医疗数据,以保护隐私和安全问题。为此,本次调查论文重点介绍了数据共享是重大负担的医疗应用中FL技术的当前和未来。它还审查并讨论了当前的研究趋势及其设计可靠和可扩展模型的结果。我们概述了FL将军的统计问题,设备挑战,安全性,隐私问题及其在医疗领域的潜力。此外,我们的研究还集中在医疗应用上,我们重点介绍了全球癌症的负担以及有效利用FL来开发计算机辅助诊断工具来解决这些诊断工具。我们希望这篇评论是一个检查站,以彻底的方式阐明现有的最新最新作品,并为该领域提供开放的问题和未来的研究指示。
translated by 谷歌翻译