Federated learning enables cooperative training among massively distributed clients by sharing their learned local model parameters. However, with increasing model size, deploying federated learning requires a large communication bandwidth, which limits its deployment in wireless networks. To address this bottleneck, we introduce a residual-based federated learning framework (ResFed), where residuals rather than model parameters are transmitted in communication networks for training. In particular, we integrate two pairs of shared predictors for the model prediction in both server-to-client and client-to-server communication. By employing a common prediction rule, both locally and globally updated models are always fully recoverable in clients and the server. We highlight that the residuals only indicate the quasi-update of a model in a single inter-round, and hence contain more dense information and have a lower entropy than the model, comparing to model weights and gradients. Based on this property, we further conduct lossy compression of the residuals by sparsification and quantization and encode them for efficient communication. The experimental evaluation shows that our ResFed needs remarkably less communication costs and achieves better accuracy by leveraging less sensitive residuals, compared to standard federated learning. For instance, to train a 4.08 MB CNN model on CIFAR-10 with 10 clients under non-independent and identically distributed (Non-IID) setting, our approach achieves a compression ratio over 700X in each communication round with minimum impact on the accuracy. To reach an accuracy of 70%, it saves around 99% of the total communication volume from 587.61 Mb to 6.79 Mb in up-streaming and to 4.61 Mb in down-streaming on average for all clients.
translated by 谷歌翻译
我们介绍了一个新颖的联合学习框架FedD3,该框架减少了整体沟通量,并开放了联合学习的概念,从而在网络受限的环境中进行了更多的应用程序场景。它通过利用本地数据集蒸馏而不是传统的学习方法(i)大大减少沟通量,并(ii)将转移限制为一击通信,而不是迭代的多路交流来实现这一目标。 FedD3允许连接的客户独立提炼本地数据集,然后汇总那些去中心化的蒸馏数据集(通常以几个无法识别的图像,通常小于模型小于模型),而不是像其他联合学习方法共享模型更新,而是允许连接的客户独立提炼本地数据集。在整个网络上仅一次形成最终模型。我们的实验结果表明,FedD3在所需的沟通量方面显着优于其他联合学习框架,同时,根据使用情况或目标数据集,它为能够在准确性和沟通成本之间的权衡平衡。例如,要在具有10个客户的非IID CIFAR-10数据集上训练Alexnet模型,FedD3可以通过相似的通信量增加准确性超过71%,或者节省98%的通信量,同时达到相同的准确性与其他联合学习方法相比。
translated by 谷歌翻译
Federated Learning allows multiple parties to jointly train a deep learning model on their combined data, without any of the participants having to reveal their local data to a centralized server. This form of privacy-preserving collaborative learning however comes at the cost of a significant communication overhead during training. To address this problem, several compression methods have been proposed in the distributed training literature that can reduce the amount of required communication by up to three orders of magnitude. These existing methods however are only of limited utility in the Federated Learning setting, as they either only compress the upstream communication from the clients to the server (leaving the downstream communication uncompressed) or only perform well under idealized conditions such as iid distribution of the client data, which typically can not be found in Federated Learning. In this work, we propose Sparse Ternary Compression (STC), a new compression framework that is specifically designed to meet the requirements of the Federated Learning environment. STC extends the existing compression technique of top-k gradient sparsification with a novel mechanism to enable downstream compression as well as ternarization and optimal Golomb encoding of the weight updates. Our experiments on four different learning tasks demonstrate that STC distinctively outperforms Federated Averaging in common Federated Learning scenarios where clients either a) hold non-iid data, b) use small batch sizes during training, or where c) the number of clients is large and the participation rate in every communication round is low. We furthermore show that even if the clients hold iid data and use medium sized batches for training, STC still behaves paretosuperior to Federated Averaging in the sense that it achieves fixed target accuracies on our benchmarks within both fewer training iterations and a smaller communication budget. These results advocate for a paradigm shift in Federated optimization towards high-frequency low-bitwidth communication, in particular in bandwidth-constrained learning environments.
translated by 谷歌翻译
由于参与客户的异构特征,联邦学习往往受到不稳定和缓慢的收敛。当客户参与比率低时,这种趋势加剧了,因为从每个轮的客户收集的信息容易更加不一致。为了解决挑战,我们提出了一种新的联合学习框架,这提高了服务器端聚合步骤的稳定性,这是通过将客户端发送与全局梯度估计的加速模型来引导本地梯度更新来实现的。我们的算法自然地聚合并将全局更新信息与没有额外的通信成本的参与者传达,并且不需要将过去的模型存储在客户端中。我们还规范了本地更新,以进一步降低偏差并提高本地更新的稳定性。我们根据各种设置执行了关于实际数据的全面实证研究,与最先进的方法相比,在准确性和通信效率方面表现出了拟议方法的显着性能,特别是具有低客户参与率。我们的代码可在https://github.com/ninigapa0 / fedagm获得
translated by 谷歌翻译
Unlike traditional distributed machine learning, federated learning stores data locally for training and then aggregates the models on the server, which solves the data security problem that may arise in traditional distributed machine learning. However, during the training process, the transmission of model parameters can impose a significant load on the network bandwidth. It has been pointed out that the vast majority of model parameters are redundant during model parameter transmission. In this paper, we explore the data distribution law of selected partial model parameters on this basis, and propose a deep hierarchical quantization compression algorithm, which further compresses the model and reduces the network load brought by data transmission through the hierarchical quantization of model parameters. And we adopt a dynamic sampling strategy for the selection of clients to accelerate the convergence of the model. Experimental results on different public datasets demonstrate the effectiveness of our algorithm.
translated by 谷歌翻译
The statistical heterogeneity of the non-independent and identically distributed (non-IID) data in local clients significantly limits the performance of federated learning. Previous attempts like FedProx, SCAFFOLD, MOON, FedNova and FedDyn resort to an optimization perspective, which requires an auxiliary term or re-weights local updates to calibrate the learning bias or the objective inconsistency. However, in addition to previous explorations for improvement in federated averaging, our analysis shows that another critical bottleneck is the poorer optima of client models in more heterogeneous conditions. We thus introduce a data-driven approach called FedSkip to improve the client optima by periodically skipping federated averaging and scattering local models to the cross devices. We provide theoretical analysis of the possible benefit from FedSkip and conduct extensive experiments on a range of datasets to demonstrate that FedSkip achieves much higher accuracy, better aggregation efficiency and competing communication efficiency. Source code is available at: https://github.com/MediaBrain-SJTU/FedSkip.
translated by 谷歌翻译
联合学习的一个关键挑战是客户之间的数据异质性和失衡,这导致本地网络与全球模型不稳定的融合之间的不一致。为了减轻局限性,我们提出了一种新颖的建筑正则化技术,该技术通过在几个不同级别上接管本地和全球子网,在每个本地模型中构建多个辅助分支通过在线知识蒸馏。该提出的技术即使在非IID环境中也可以有效地鲁棒化,并且适用于各种联合学习框架,而不会产生额外的沟通成本。与现有方法相比,我们进行了全面的经验研究,并在准确性和效率方面表现出显着的性能提高。源代码可在我们的项目页面上找到。
translated by 谷歌翻译
随着对用户数据隐私的越来越关注,联合学习(FL)已被开发为在边缘设备上训练机器学习模型的独特培训范式,而无需访问敏感数据。传统的FL和现有方法直接在云服务器的同一型号和培训设备的所有边缘上采用聚合方法。尽管这些方法保护了数据隐私,但它们不能具有模型异质性,甚至忽略了异质的计算能力,也可以忽略陡峭的沟通成本。在本文中,我们目的是将资源感知的FL汇总为从边缘模型中提取的本地知识的集合,而不是汇总每个本地模型的权重,然后将其蒸馏成一个强大的全局知识,作为服务器模型通过知识蒸馏。通过深入的相互学习,将本地模型和全球知识提取到很小的知识网络中。这种知识提取使Edge客户端可以部署资源感知模型并执行多模型知识融合,同时保持沟通效率和模型异质性。经验结果表明,在异质数据和模型中的通信成本和概括性能方面,我们的方法比现有的FL算法有了显着改善。我们的方法将VGG-11的沟通成本降低了102美元$ \ times $和Resnet-32,当培训Resnet-20作为知识网络时,最多可达30美元$ \ times $。
translated by 谷歌翻译
当可用的硬件无法满足内存和计算要求以有效地训练高性能的机器学习模型时,需要妥协训练质量或模型复杂性。在联合学习(FL)中,节点是比传统服务器级硬件更具限制的数量级,并且通常是电池供电的,严重限制了可以在此范式下训练的模型的复杂性。尽管大多数研究都集中在设计更好的聚合策略上以提高收敛速度并减轻FL的沟通成本,但更少的努力致力于加快设备培训。这样的阶段重复数百次(即每回合)并可能涉及数千个设备,这是培训联合模型所需的大部分时间,以及客户端的全部能源消耗。在这项工作中,我们介绍了第一个研究在FL工作负载中培训时间引入稀疏性时出现的独特方面的研究。然后,我们提出了Zerofl,该框架依赖于高度稀疏的操作来加快设备训练。与通过将最先进的稀疏训练框架适应FL设置相比,接受Zerofl和95%稀疏性训练的模型高达2.3%的精度。
translated by 谷歌翻译
联合学习(FL)以来已提议已应用于许多领域,例如信用评估,医疗等。由于网络或计算资源的差异,客户端可能不会同时更新其渐变可能需要花费等待或闲置的时间。这就是为什么需要异步联合学习(AFL)方法。AFL中的主要瓶颈是沟通。如何在模型性能和通信成本之间找到平衡是AFL的挑战。本文提出了一种新的AFL框架VAFL。我们通过足够的实验验证了算法的性能。实验表明,VAFL可以通过48.23 \%的平均通信压缩速率降低约51.02 \%的通信时间,并允许模型更快地收敛。代码可用于\ url {https://github.com/robai-lab/vafl}
translated by 谷歌翻译
最近联合学习(FL)范式的潜在假设是本地模型通常与全局模型共享与全局模型相同的网络架构,这对于具有不同的硬件和基础架构的移动和IOT设备变得不切实际。可扩展的联合学习框架应该解决配备不同计算和通信功能的异构客户端。为此,本文提出了一种新的联合模型压缩框架,它将异构低级模型分配给客户端,然后将它们聚合到全局全级模型中。我们的解决方案使得能够培训具有不同计算复杂性的异构本地模型,并汇总单个全局模型。此外,FEDHM不仅降低了设备的计算复杂性,而且还通过使用低秩模型来降低通信成本。广泛的实验结果表明,我们提出的\ System在测试顶-1精度(平均精度4.6%的精度增益)方面优于现行修剪的液体方法,在各种异构流域下较小的型号尺寸(平均较小为1.5倍) 。
translated by 谷歌翻译
分布式深度学习框架,如联合学习(FL)及其变体都是在广泛的Web客户端和移动/ IOT设备上实现个性化体验。然而,由于模型参数的爆炸增长(例如,十亿参数模型),基于FL的框架受到客户的计算资源的限制。拆分学习(SL),最近的框架,通过拆分客户端和服务器之间的模型培训来减少客户端计算负载。这种灵活性对于低计算设置非常有用,但通常以带宽消耗的增加成本而实现,并且可能导致次优化会聚,尤其是当客户数据异构时。在这项工作中,我们介绍了adasplit,通过降低带宽消耗并提高异构客户端的性能,使得能够将SL有效地缩放到低资源场景。为了捕获和基准的分布式深度学习的多维性质,我们还介绍了C3分数,是评估资源预算下的性能。我们通过与强大联邦和分裂学习基线的大量实验比较进行了大量实验比较,验证了adasplit在有限的资源下的有效性。我们还展示了adasplit中关键设计选择的敏感性分析,该选择验证了adasplit在可变资源预算中提供适应性权衡的能力。
translated by 谷歌翻译
在这项工作中,我们提出了FedSSO,这是一种用于联合学习的服务器端二阶优化方法(FL)。与以前朝这个方向的工作相反,我们在准牛顿方法中采用了服务器端近似,而无需客户的任何培训数据。通过这种方式,我们不仅将计算负担从客户端转移到服务器,而且还消除了客户和服务器之间二阶更新的附加通信。我们为我们的新方法的收敛提供了理论保证,并从经验上证明了我们在凸面和非凸面设置中的快速收敛和沟通节省。
translated by 谷歌翻译
高效联合学习是在边缘设备上培训和部署AI模型的关键挑战之一。然而,在联合学习中维护数据隐私提出了几种挑战,包括数据异质性,昂贵的通信成本和有限的资源。在本文中,我们通过(a)通过基于本地客户端的深度增强学习引入突出参数选择代理的上述问题,并在中央服务器上聚合所选择的突出参数,(b)分割正常的深度学习模型〜 (例如,CNNS)作为共享编码器和本地预测器,并通过联合学习训练共享编码器,同时通过本地自定义预测器将其知识传送到非IID客户端。所提出的方法(a)显着降低了联合学习的通信开销,并加速了模型推断,而方法(b)则在联合学习中解决数据异质性问题。此外,我们利用梯度控制机制来校正客户之间的梯度异质性。这使得训练过程更稳定并更快地收敛。实验表明,我们的方法产生了稳定的训练过程,并与最先进的方法相比实现了显着的结果。在培训VGG-11时,我们的方法明显降低了通信成本最高108 GB,并在培训Reset-20时需要7.6美元的通信开销,同时通过减少高达39.7 \%$ 39.7 \%$ vgg- 11.
translated by 谷歌翻译
联合学习(FL)已成为协作分布式学习的隐私解决方案,客户直接在其设备上训练AI模型,而不是与集中式(潜在的对手)服务器共享数据。尽管FL在某种程度上保留了本地数据隐私,但已显示有关客户数据的信息仍然可以从模型更新中推断出来。近年来,已经制定了各种隐私计划来解决这种隐私泄漏。但是,它们通常以牺牲模型性能或系统效率为代价提供隐私,而在实施FL计划时,平衡这些权衡是一个至关重要的挑战。在本手稿中,我们提出了一个保护隐私的联合学习(PPFL)框架,该框架建立在控制理论中的矩阵加密和系统沉浸工具的协同作用上。这个想法是将学习算法(随机梯度体面(SGD))浸入更高维度的系统(所谓的目标系统)中,并设计目标系统的动力学,以便:浸入原始SGD的轨迹: /嵌入其轨迹中,并在加密数据上学习(在这里我们使用随机矩阵加密)。矩阵加密是在服务器上重新重新格式化的,作为将原始参数映射到更高维的参数空间的坐标的随机更改,并强制执行目标SGD收敛到原始SGD Optiral解决方案的加密版本。服务器使用浸入式地图的左侧逆汇总模型解密。我们表明,我们的算法提供与标准FL相同的准确性和收敛速度,而计算成本可忽略不计,同时却没有透露有关客户数据的信息。
translated by 谷歌翻译
联邦学习(FL)试图在本地客户端分发模型培训,而无需在集中式数据中心收集数据,从而消除了数据私人关系问题。 FL的一个主要挑战是数据异质性(每个客户的数据分布可能会有所不同),因为它可能导致本地客户的权重差异并减慢全球融合。当前专为数据异质性设计的SOTA FL方法通常会施加正则化以限制非IID数据的影响,并且是状态算法,即它们随着时间的推移维持局部统计数据。尽管有效,但这些方法只能用于FL的特殊情况,仅涉及少数可靠的客户。对于fl的更典型应用,客户端数量很大(例如,边缘设备和移动应用程序),这些方法无法应用,激发了对任何可用于任何数量客户端使用的无状态方法的无状态方法的需求。我们得出了一阶梯度正则化,以惩罚由于本地数据异质性而导致的本地更新不一致。具体而言,为了减轻权重差异,我们将全局数据分布的一阶近似引入本地目标,该目标凭直觉地惩罚了与全局更新相反方向的更新。最终结果是一种无状态的FL算法,可实现1)在非IID数据分布下,比SOTA方法明显更快地收敛(即较少的通信回合)和2)总体融合性能更高。重要的是,我们的方法不会对客户大小施加不切实际的限制,从而可以从大多数FL应用程序中向大量客户学习。
translated by 谷歌翻译
大规模的神经网络具有相当大的表现力。它们非常适合工业应用中的复杂学习任务。但是,在当前联邦学习(FL)范式下,大型模型对训练构成了重大挑战。现有的有效FL训练的方法通常利用模型参数辍学。但是,操纵单个模型参数不仅在训练大规模FL模型时有意义地减少通信开销效率低下,而且还可能不利于缩放工作和模型性能,如最近的研究所示。为了解决这些问题,我们提出了联合的机会障碍辍学方法(FEDOBD)方法。关键的新颖性是,它将大规模模型分解为语义块,以便FL参与者可以机会上传量化的块,这些块被认为对训练该模型非常重要,以供FL服务器进行聚合。基于多个现实世界数据集的五种最先进方法评估FEDOBD的广泛实验表明,与最佳性能基线方法相比,它将整体通信开销降低了70%以上,同时达到了最高的测试准确性。据我们所知,FEDOBD是在块级别而不是在单个参数级别上执行FL模型上辍学的第一种方法。
translated by 谷歌翻译
Federated learning is a popular paradigm for machine learning. Ideally, federated learning works best when all clients share a similar data distribution. However, it is not always the case in the real world. Therefore, the topic of federated learning on heterogeneous data has gained more and more effort from both academia and industry. In this project, we first do extensive experiments to show how data skew and quantity skew will affect the performance of state-of-art federated learning algorithms. Then we propose a new algorithm FedMix which adjusts existing federated learning algorithms and we show its performance. We find that existing state-of-art algorithms such as FedProx and FedNova do not have a significant improvement in all testing cases. But by testing the existing and new algorithms, it seems that tweaking the client side is more effective than tweaking the server side.
translated by 谷歌翻译
联合学习(FL)引发了高通信开销,这可以通过压缩模型更新而大大缓解。然而,网络环境中压缩和模型精度之间的权衡仍不清楚,为简单起见,大多数实现仅采用固定压缩率。在本文中,我们首次系统地检查了该权衡,识别压缩误差对最终模型精度的影响,相对于学习率。具体而言,我们将每个全局迭代的压缩误差因其强大凸面和非凸损耗下的收敛速度分析。然后,我们通过策略性地调整每次迭代中的压缩速率来提高最终模型精度来最大化最终模型精度的适应框架。我们讨论了具有代表压缩算法的实用网络中框架的关键实施问题。对流行的MNIST和CIFAR-10数据集的实验证实,我们的解决方案有效地降低了网络流量,但在FL中保持了高模型精度。
translated by 谷歌翻译
物联网(IoT)的扩散以及对设备进行感应,计算和通信功能的广泛使用,激发了人工智能增强的智能应用程序。经典人工智能算法需要集中的数据收集和处理,这些数据收集和处理在现实的智能物联网应用程序中,由于日益增长的数据隐私问题和分布式数据集。联合学习(FL)已成为一个分布式隐私的学习框架,该框架使IoT设备能够通过共享模型参数训练全局模型。但是,由于频繁的参数传输引起的效率低下会大大降低FL性能。现有的加速算法由两种主要类型组成,包括本地更新,考虑通信与计算之间的权衡以及参数压缩之间的权衡,考虑到通信和精度之间的权衡。共同考虑这两个权衡并适应平衡其对融合的影响尚未解决。为了解决该问题,本文提出了一种新型有效的自适应联合优化(EAFO)算法,以提高FL的效率,该算法通过共同考虑两个变量(包括本地更新和参数压缩)来最大程度地减少学习误差,并使FL能够自适应地调整两个变量和两个变量和两个变量。计算,沟通和精确度之间的平衡权衡。实验结果表明,与最先进的算法相比,提出的EAFO可以更快地实现更高的精度。
translated by 谷歌翻译