当可用的硬件无法满足内存和计算要求以有效地训练高性能的机器学习模型时,需要妥协训练质量或模型复杂性。在联合学习(FL)中,节点是比传统服务器级硬件更具限制的数量级,并且通常是电池供电的,严重限制了可以在此范式下训练的模型的复杂性。尽管大多数研究都集中在设计更好的聚合策略上以提高收敛速度并减轻FL的沟通成本,但更少的努力致力于加快设备培训。这样的阶段重复数百次(即每回合)并可能涉及数千个设备,这是培训联合模型所需的大部分时间,以及客户端的全部能源消耗。在这项工作中,我们介绍了第一个研究在FL工作负载中培训时间引入稀疏性时出现的独特方面的研究。然后,我们提出了Zerofl,该框架依赖于高度稀疏的操作来加快设备训练。与通过将最先进的稀疏训练框架适应FL设置相比,接受Zerofl和95%稀疏性训练的模型高达2.3%的精度。
translated by 谷歌翻译
尽管结果令人印象深刻,但深度学习的技术还引起了经常在数据中心进行的培训程序引起的严重隐私和环境问题。作为回应,已经出现了集中培训的替代方案,例如联邦学习(FL)。也许出乎意料的是,FL开始在全球范围内部署,这些公司必须遵守源自倡导隐私保护的政府和社会团体的新法律要求和政策。 \ textit {但是,与FL有关的潜在环境影响仍然不清楚和未开发。本文提供了有关佛罗里达碳足迹的首次系统研究。然后,我们将FL的碳足迹与传统的集中学习进行了比较。我们的发现表明,根据配置,FL可以比集中的机器学习高达两个数量级。但是,在某些情况下,由于嵌入式设备的能源消耗减少,它可以与集中学习相提并论。我们使用FL进行了不同类型的数据集,设置和各种深度学习模型的广泛实验。最后,我们强调并将报告的结果与FL的未来挑战和趋势联系起来,以减少其环境影响,包括算法效率,硬件能力和更强的行业透明度。
translated by 谷歌翻译
联合学习(FL)可以从云到资源限制的边缘设备分发机器学习工作负载。遗憾的是,当前的深网络不仅对边缘设备的推理和培训造成了太重,而且对于在带宽约束网络上传送更新,也太大了。在本文中,我们开发,实施和实验验证了所谓的联合动态稀疏训练(FEDDST)的新型FL框架,通过该训练可以通过该培训和培训复杂的神经网络,在设备上计算和网络内通信中具有基本上提高的效率。在FEDDST的核心是一个动态过程,可以从目标完整网络中提取和列出稀疏子网。通过这个方案,“两只鸟类用一块石头杀死:”而不是完整的模型,每个客户端都会对自己的稀疏网络进行有效的培训,并且在设备和云之间仅传输稀疏网络。此外,我们的结果表明,在流动训练期间的动态稀疏性更灵活地容纳比固定的共用稀疏面具的局部异质性。此外,动态稀疏性自然地引入了培训动态的“时间自化效应”,即使通过密集训练也会提高流程。在一个现实和挑战的非I.I.D。 FL Setting,FEDDST始终如一地优于我们的实验中的竞争算法:例如,在非IID CIFAR-10上的任何固定上传数据帽时,在给定相同的上传数据帽时,它会在FedVGM上获得令人印象深刻的精度优势;即使在上传数据帽2倍,也可以进一步展示FEDDST的疗效,即使FEDAVGM为2X,即使将FEDAVGM提供精度差距也会保持3%。代码可用:https://github.com/bibikar/feddst。
translated by 谷歌翻译
客户的计算和通信能力有限,在资源有限的边缘节点上对联邦学习(FL)提出了重大挑战。解决此问题的一种潜在解决方案是部署现成的稀疏学习算法,该算法在每个客户端对二进制稀疏面膜进行训练,并期望训练一致的稀疏服务器掩码。但是,正如我们在本文中调查的那样,与使用密集的模型相比,这种天真的部署与FL相比,尤其是在低客户资源预算的情况下,其准确性下降了。特别是,我们的调查表明,对客户的训练有素的面具之间存在严重的共识,这阻止了服务器面罩上的收敛,并可能导致模型性能大大下降。基于这样的关键观察,我们提出了联合彩票意识到的稀疏狩猎(Flash),这是一个统一的稀疏学习框架,可以使服务器以稀疏的子模型赢得彩票,从而在高度资源有限的客户设置下可以极大地提高性能。此外,为了解决设备异质性的问题,我们利用我们的发现来提出异性恋,在此,客户可以根据其设备资源限制拥有不同的目标稀疏预算。各种数据集(IID和非IID)上有多个模型的广泛实验评估显示了我们模型的优势,最多可屈服$ \ Mathord {\ sim} 10.1 \%$ $提高精度,$ \ mathord {\ sim} 10.26 \ times与现有替代方案相比,在类似的高参数设置中,沟通成本少于$较少。
translated by 谷歌翻译
联邦学习(FL)最近由于其在保留隐私而使用分散数据的能力,最近引起了人们的关注。但是,这也提出了与参与设备的异质性有关的其他挑战,无论是在其计算能力和贡献数据方面。同时,神经体系结构搜索(NAS)已成功用于集中式数据集,从而产生了最新的结果,从而获得了受限(硬件意识)和不受约束的设置。但是,即使是在NAS和FL的交集的最新工作,也假定了与数据中心硬件的均匀计算环境,并且无法解决使用受约束,异质设备的问题。结果,在联合环境中对NAS的实际用法仍然是我们在工作中解决的一个空旷的问题。我们设计我们的系统Fedoras,在处理具有非IID分布数据的不同功能的设备时发现和培训有希望的体系结构,并提供了其在不同环境中有效性的经验证据。具体而言,我们在跨越三种不同模式(视觉,语音,文本)的数据集中评估了Fedoras,并且与最先进的联合解决方案相比,其性能更好,同时保持资源效率。
translated by 谷歌翻译
Neural network pruning has been a well-established compression technique to enable deep learning models on resource-constrained devices. The pruned model is usually specialized to meet specific hardware platforms and training tasks (defined as deployment scenarios). However, existing pruning approaches rely heavily on training data to trade off model size, efficiency, and accuracy, which becomes ineffective for federated learning (FL) over distributed and confidential datasets. Moreover, the memory- and compute-intensive pruning process of most existing approaches cannot be handled by most FL devices with resource limitations. In this paper, we develop FedTiny, a novel distributed pruning framework for FL, to obtain specialized tiny models for memory- and computing-constrained participating devices with confidential local data. To alleviate biased pruning due to unseen heterogeneous data over devices, FedTiny introduces an adaptive batch normalization (BN) selection module to adaptively obtain an initially pruned model to fit deployment scenarios. Besides, to further improve the initial pruning, FedTiny develops a lightweight progressive pruning module for local finer pruning under tight memory and computational budgets, where the pruning policy for each layer is gradually determined rather than evaluating the overall deep model structure. Extensive experimental results demonstrate the effectiveness of FedTiny, which outperforms state-of-the-art baseline approaches, especially when compressing deep models to extremely sparse tiny models.
translated by 谷歌翻译
最近联合学习(FL)范式的潜在假设是本地模型通常与全局模型共享与全局模型相同的网络架构,这对于具有不同的硬件和基础架构的移动和IOT设备变得不切实际。可扩展的联合学习框架应该解决配备不同计算和通信功能的异构客户端。为此,本文提出了一种新的联合模型压缩框架,它将异构低级模型分配给客户端,然后将它们聚合到全局全级模型中。我们的解决方案使得能够培训具有不同计算复杂性的异构本地模型,并汇总单个全局模型。此外,FEDHM不仅降低了设备的计算复杂性,而且还通过使用低秩模型来降低通信成本。广泛的实验结果表明,我们提出的\ System在测试顶-1精度(平均精度4.6%的精度增益)方面优于现行修剪的液体方法,在各种异构流域下较小的型号尺寸(平均较小为1.5倍) 。
translated by 谷歌翻译
高效联合学习是在边缘设备上培训和部署AI模型的关键挑战之一。然而,在联合学习中维护数据隐私提出了几种挑战,包括数据异质性,昂贵的通信成本和有限的资源。在本文中,我们通过(a)通过基于本地客户端的深度增强学习引入突出参数选择代理的上述问题,并在中央服务器上聚合所选择的突出参数,(b)分割正常的深度学习模型〜 (例如,CNNS)作为共享编码器和本地预测器,并通过联合学习训练共享编码器,同时通过本地自定义预测器将其知识传送到非IID客户端。所提出的方法(a)显着降低了联合学习的通信开销,并加速了模型推断,而方法(b)则在联合学习中解决数据异质性问题。此外,我们利用梯度控制机制来校正客户之间的梯度异质性。这使得训练过程更稳定并更快地收敛。实验表明,我们的方法产生了稳定的训练过程,并与最先进的方法相比实现了显着的结果。在培训VGG-11时,我们的方法明显降低了通信成本最高108 GB,并在培训Reset-20时需要7.6美元的通信开销,同时通过减少高达39.7 \%$ 39.7 \%$ vgg- 11.
translated by 谷歌翻译
Federated Learning allows multiple parties to jointly train a deep learning model on their combined data, without any of the participants having to reveal their local data to a centralized server. This form of privacy-preserving collaborative learning however comes at the cost of a significant communication overhead during training. To address this problem, several compression methods have been proposed in the distributed training literature that can reduce the amount of required communication by up to three orders of magnitude. These existing methods however are only of limited utility in the Federated Learning setting, as they either only compress the upstream communication from the clients to the server (leaving the downstream communication uncompressed) or only perform well under idealized conditions such as iid distribution of the client data, which typically can not be found in Federated Learning. In this work, we propose Sparse Ternary Compression (STC), a new compression framework that is specifically designed to meet the requirements of the Federated Learning environment. STC extends the existing compression technique of top-k gradient sparsification with a novel mechanism to enable downstream compression as well as ternarization and optimal Golomb encoding of the weight updates. Our experiments on four different learning tasks demonstrate that STC distinctively outperforms Federated Averaging in common Federated Learning scenarios where clients either a) hold non-iid data, b) use small batch sizes during training, or where c) the number of clients is large and the participation rate in every communication round is low. We furthermore show that even if the clients hold iid data and use medium sized batches for training, STC still behaves paretosuperior to Federated Averaging in the sense that it achieves fixed target accuracies on our benchmarks within both fewer training iterations and a smaller communication budget. These results advocate for a paradigm shift in Federated optimization towards high-frequency low-bitwidth communication, in particular in bandwidth-constrained learning environments.
translated by 谷歌翻译
分布式深度学习框架,如联合学习(FL)及其变体都是在广泛的Web客户端和移动/ IOT设备上实现个性化体验。然而,由于模型参数的爆炸增长(例如,十亿参数模型),基于FL的框架受到客户的计算资源的限制。拆分学习(SL),最近的框架,通过拆分客户端和服务器之间的模型培训来减少客户端计算负载。这种灵活性对于低计算设置非常有用,但通常以带宽消耗的增加成本而实现,并且可能导致次优化会聚,尤其是当客户数据异构时。在这项工作中,我们介绍了adasplit,通过降低带宽消耗并提高异构客户端的性能,使得能够将SL有效地缩放到低资源场景。为了捕获和基准的分布式深度学习的多维性质,我们还介绍了C3分数,是评估资源预算下的性能。我们通过与强大联邦和分裂学习基线的大量实验比较进行了大量实验比较,验证了adasplit在有限的资源下的有效性。我们还展示了adasplit中关键设计选择的敏感性分析,该选择验证了adasplit在可变资源预算中提供适应性权衡的能力。
translated by 谷歌翻译
联合学习(FL)作为边缘设备的有希望的技术,以协作学习共享预测模型,同时保持其训练数据,从而解耦了从需要存储云中的数据的机器学习的能力。然而,在规模和系统异质性方面,FL难以现实地实现。虽然有许多用于模拟FL算法的研究框架,但它们不支持在异构边缘设备上进行可扩展的流程。在本文中,我们呈现花 - 一种全面的FL框架,通过提供新的设施来执行大规模的FL实验并考虑丰富的异构流程来区分现有平台。我们的实验表明花卉可以仅使用一对高端GPU在客户尺寸下进行FL实验。然后,研究人员可以将实验无缝地迁移到真实设备中以检查设计空间的其他部分。我们认为花卉为社区提供了一个批判性的新工具,用于研究和发展。
translated by 谷歌翻译
联合学习用于大量(数百万)边缘移动设备的机器学习模型的分散培训。它充满挑战,因为移动设备通常具有有限的通信带宽和本地计算资源。因此,提高联合学习的效率对于可扩展性和可用性至关重要。在本文中,我们建议利用部分训练的神经网络,该网络在整个训练过程中冻结了一部分模型参数,以降低对模型性能的影响几乎没有影响的通信成本。通过广泛的实验,我们经验证明,部分培训的神经网络(FEDPT)的联合学习可能导致卓越的通信准确性权衡,通信成本高达46美元,以小的准确度成本。我们的方法还实现了更快的培训,具有较小的内存占用空间,更好的效用,以便强​​大的差异隐私保证。对于推动设备上学习中的过度参数化的局限性,所提出的FEDPT方法可以特别有趣。
translated by 谷歌翻译
联邦学习(FL)一直在不同的ML任务中获得显着的牵引力,从视野到键盘预测。在大规模的部署中,客户异质性是一个事实,并构成公平,培训性能和准确性的主要问题。虽然已经进行了统计数据异质性的重大努力,但是作为系统异质性称为客户端的处理能力和网络带宽的多样性仍然很大程度上是未开发的。当前解决方案无论是忽略大部分可用的设备,也无限制地设定均匀限制,由最低能力的参与者限制。在这项工作中,我们介绍了有序的辍学,这是一种机制,实现了深度神经网络(DNN)中的有序,嵌套的知识表示,并且能够在不需要再培训的情况下提取较低的脚印子模型。我们进一步表明,对于线性地图,我们的订购辍学等同于SVD。我们采用这种技术,以及一种自蒸馏方法,在一个叫做峡湾的框架中。 Fjord通过将模型宽度定制到客户端的功能来减轻客户体系异质性的问题。在各种方式上对CNN和RNN的广泛评估表明,峡湾始终如一地导致最先进的基线的显着性能,同时保持其嵌套结构。
translated by 谷歌翻译
联合学习(FL)允许相互不信任的客户可以协作培训通用的机器学习模型,而无需共享其私人/专有培训数据。不幸的是,FL很容易受到恶意客户的中毒,他们旨在通过在FL培训过程中发送恶意模型更新来阻碍常见训练的模型的准确性。我们认为,对现有FL系统的中毒攻击成功的关键因素是客户可用的模型更新空间,使恶意客户可以通过解决优化问题来搜索最有毒的模型更新。为了解决这个问题,我们提出了联合排名学习(FRL)。 FRL将标准FL中的模型参数更新(浮点数连续空间)从模型参数更新(一个连续的空间)缩小到参数排名的空间(整数值的离散空间)。为了能够使用参数等级(而不是参数权重)训练全球模型,FRL利用了最近的SuperMasks培训机制的想法。具体而言,FRL客户端根据其本地培训数据对随机初始化的神经网络(由服务器提供)的参数进行排名。 FRL Server使用投票机制来汇总客户在每个培训时期提交的参数排名,以生成下一个培训时期的全球排名。从直觉上讲,我们基于投票的聚合机制阻止中毒客户对全球模型进行重大的对抗性修改,因为每个客户都会进行一次投票!我们通过分析证明和实验证明了FRL对中毒的鲁棒性。我们还显示了FRL的高沟通效率。我们的实验证明了FRL在现实世界中的优势。
translated by 谷歌翻译
大规模的神经网络具有相当大的表现力。它们非常适合工业应用中的复杂学习任务。但是,在当前联邦学习(FL)范式下,大型模型对训练构成了重大挑战。现有的有效FL训练的方法通常利用模型参数辍学。但是,操纵单个模型参数不仅在训练大规模FL模型时有意义地减少通信开销效率低下,而且还可能不利于缩放工作和模型性能,如最近的研究所示。为了解决这些问题,我们提出了联合的机会障碍辍学方法(FEDOBD)方法。关键的新颖性是,它将大规模模型分解为语义块,以便FL参与者可以机会上传量化的块,这些块被认为对训练该模型非常重要,以供FL服务器进行聚合。基于多个现实世界数据集的五种最先进方法评估FEDOBD的广泛实验表明,与最佳性能基线方法相比,它将整体通信开销降低了70%以上,同时达到了最高的测试准确性。据我们所知,FEDOBD是在块级别而不是在单个参数级别上执行FL模型上辍学的第一种方法。
translated by 谷歌翻译
在联合学习(FL)的新兴范式中,大量客户端(例如移动设备)用于在各自的数据上训练可能的高维模型。由于移动设备的带宽低,分散的优化方法需要将计算负担从那些客户端转移到计算服务器,同时保留隐私和合理的通信成本。在本文中,我们专注于深度,如多层神经网络的培训,在FL设置下。我们提供了一种基于本地模型的层状和维度更新的新型联合学习方法,减轻了非凸起和手头优化任务的多层性质的新型联合学习方法。我们为Fed-Lamb提供了一种彻底的有限时间收敛性分析,表征其渐变减少的速度有多速度。我们在IID和非IID设置下提供实验结果,不仅可以证实我们的理论,而且与最先进的方法相比,我们的方法的速度更快。
translated by 谷歌翻译
联合学习仅通过将本地模型更新传输到中央服务器来减轻分布式学习的隐私风险。但是,它面临着挑战,包括客户数据集的统计异质性以及客户设备的资源限制,这严重影响了培训性能和用户体验。先前的工作通过将个性化与模型压缩方案结合起来解决了这些挑战,包括量化和修剪。但是,修剪是数据依赖性的,因此必须在客户端进行,这需要相当大的计算成本。此外,修剪通常会在\ {0,1 \} $中训练二进制超级卸义$ \,这显着限制了模型容量,但没有计算益处。因此,培训需要高计算成本,并且需要很长时间才能收敛,而模型性能则没有回报。在这项工作中,我们提出了Hidenseek,该HIDENSEK在初始化时采用单次数据不合稳定的修剪来获得基于权重的突触显着性的子网。然后,每个客户端优化了\ { - 1,+1 \} $乘以未经修复的权重的标志Super-Mask $ \,以允许更快的收敛速度与最先进的压缩率相同。三个数据集的经验结果表明,与最先进的hidenseek相比,Hidenseek将推论精度提高了40.6 \%,同时将沟通成本和培训时间分别降低了39.7 \%和46.8%。
translated by 谷歌翻译
Federated Learning (FL) is a machine learning paradigm that enables the training of a shared global model across distributed clients while keeping the training data local. While most prior work on designing systems for FL has focused on using stateful always running components, recent work has shown that components in an FL system can greatly benefit from the usage of serverless computing and Function-as-a-Service technologies. To this end, distributed training of models with severless FL systems can be more resource-efficient and cheaper than conventional FL systems. However, serverless FL systems still suffer from the presence of stragglers, i.e., slow clients due to their resource and statistical heterogeneity. While several strategies have been proposed for mitigating stragglers in FL, most methodologies do not account for the particular characteristics of serverless environments, i.e., cold-starts, performance variations, and the ephemeral stateless nature of the function instances. Towards this, we propose FedLesScan, a novel clustering-based semi-asynchronous training strategy, specifically tailored for serverless FL. FedLesScan dynamically adapts to the behaviour of clients and minimizes the effect of stragglers on the overall system. We implement our strategy by extending an open-source serverless FL system called FedLess. Moreover, we comprehensively evaluate our strategy using the 2nd generation Google Cloud Functions with four datasets and varying percentages of stragglers. Results from our experiments show that compared to other approaches FedLesScan reduces training time and cost by an average of 8% and 20% respectively while utilizing clients better with an average increase in the effective update ratio of 17.75%.
translated by 谷歌翻译
跨设备联合学习是一种越来越受欢迎的机器学习设置,可以通过利用大量具有高隐私和安全保证的客户设备来培训模型。但是,在将联合学习扩展到生产环境时,沟通效率仍然是一个主要的瓶颈,尤其是由于上行链路沟通过程中的带宽限制。在本文中,我们在安全的聚合原始词下正式化并解决了压缩客户对服务器模型更新的问题,这是联合学习管道的核心组成部分,该管道允许服务器汇总客户端更新而不单独访问它们。特别是,我们调整标准标量量化和修剪方法以确保聚合并提出安全索引,这是一个安全聚合的变体,支持量化以进行极端压缩。我们在安全联合学习设置中建立了最新的叶基准测试结果,与未压缩基线相比,在上行链路通信中最多40美元$ \ times $ compression,无意义的损失。
translated by 谷歌翻译
Federated learning (FL) on deep neural networks facilitates new applications at the edge, especially for wearable and Internet-of-Thing devices. Such devices capture a large and diverse amount of data, but they have memory, compute, power, and connectivity constraints which hinder their participation in FL. We propose Centaur, a multitier FL framework, enabling ultra-constrained devices to efficiently participate in FL on large neural nets. Centaur combines two major ideas: (i) a data selection scheme to choose a portion of samples that accelerates the learning, and (ii) a partition-based training algorithm that integrates both constrained and powerful devices owned by the same user. Evaluations, on four benchmark neural nets and three datasets, show that Centaur gains ~10% higher accuracy than local training on constrained devices with ~58% energy saving on average. Our experimental results also demonstrate the superior efficiency of Centaur when dealing with imbalanced data, client participation heterogeneity, and various network connection probabilities.
translated by 谷歌翻译