用于解决具有量化消息传递的实际边缘计算系统中的一般机器学习(ML)问题的联邦学习(FL)算法的最佳设计仍然是一个打开问题。本文考虑了服务器和工人在发送消息之前具有不同的计算和通信能力以及使用量化的优势计算系统。为了探讨这种优势计算系统中的FL的全部潜力,我们首先介绍一般的FL算法,即GenQSGD,由全局和局部迭代,迷你批量大小和步骤尺寸序列参数化。然后,我们分析其对任意步长序列的融合,并指定三个常用的步大规则下的收敛结果,即常数,指数和递减的步长规则。接下来,我们优化算法参数,以最小化时间约束和收敛误差约束下的能量成本,重点是FL的整体实施过程。具体地,对于在每个考虑的步长规则下的任何给定的步骤尺寸序列,我们优化全局和本地迭代和迷你批量大小的数量,以最佳地实现具有预设步长序列的应用程序的FL。我们还优化了步骤序列以及这些算法参数,以探索FL的全部潜力。由此产生的优化问题是具有非可分性约束函数的非凸面问题。我们提出了使用通用内近似(GIA)的迭代算法来获得KKT点和用于解决互补几何编程(CGP)的技巧。最后,我们用现有的FL算法用优化的算法参数进行了数值展示了GenQSGD的显着收益,并揭示了最佳地设计了一般FL算法的重要性。
translated by 谷歌翻译
用于联合学习(FL)的最佳算法设计仍然是一个打开的问题。本文探讨了实用边缘计算系统中FL的全部潜力,其中工人可能具有不同的计算和通信功能,并且在服务器和工人之间发送量化的中间模型更新。首先,我们介绍了FL,即GenQSGD的一般量化并行迷你批量随机梯度下降(SGD)算法,即GenQSGD,其由全球迭代的数量参数化,所有工人的本地迭代的数量以及迷你批量大小。我们还分析了其算法参数的任何选择的收敛误差。然后,我们优化算法参数,以最小化时间约束和收敛误差约束下的能量成本。优化问题是具有非可分辨率约束函数的具有挑战性的非凸面问题。我们提出了一种迭代算法,可以使用高级优化技术获得KKT点。数值结果证明了现有的GenQSGD的显着增益,并揭示了最佳设计的重要性FL算法。
translated by 谷歌翻译
联邦学习(FL)已成为一个热门研究领域,以在拥有敏感本地数据的多个客户中对机器学习模型进行协作培训。然而,主要使用随机梯度下降(SGD)研究了不受约束的联邦优化,该梯度下降可能会缓慢收敛,并且限制了联邦优化的优化,这更具挑战性,迄今尚未研究。本文分别研究了基于样本和基于特征的联合优化,并考虑了每个人的无限制和约束非凸问题。首先,我们建议使用随机连续的凸近似(SSCA)和迷你批次技术提出FL算法。这些算法可以充分利用目标和约束函数的结构,并逐步利用样品。我们表明,所提出的FL算法分别收敛到固定点和相应不受约束和约束的非凸问题的固定点和Karush-Kuhn-Tucker(KKT)点。接下来,我们提供算法示例,每回合具有吸引人的计算复杂性和通信负载。我们表明,未约束的联邦优化算法示例与动量SGD相同,与FL算法相同,并在SSCA和动量SGD之间提供分析连接。最后,数值实验证明了在收敛速度,通信和计算成本以及模型规范中提出算法的固有优势。
translated by 谷歌翻译
联合学习(FL)能够通过定期聚合培训的本地参数来在多个边缘用户执行大的分布式机器学习任务。为了解决在无线迷雾云系统上实现支持的关键挑战(例如,非IID数据,用户异质性),我们首先基于联合平均(称为FedFog)的高效流行算法来执行梯度参数的本地聚合在云端的FOG服务器和全球培训更新。接下来,我们通过调查新的网络知识的流动系统,在无线雾云系统中雇用FEDFog,这促使了全局损失和完成时间之间的平衡。然后开发了一种迭代算法以获得系统性能的精确测量,这有助于设计有效的停止标准以输出适当数量的全局轮次。为了缓解级体效果,我们提出了一种灵活的用户聚合策略,可以先培训快速用户在允许慢速用户加入全局培训更新之前获得一定程度的准确性。提供了使用若干现实世界流行任务的广泛数值结果来验证FEDFOG的理论融合。我们还表明,拟议的FL和通信的共同设计对于在实现学习模型的可比准确性的同时,基本上提高资源利用是必要的。
translated by 谷歌翻译
联合学习(FL)使移动设备能够在保留本地数据的同时协作学习共享的预测模型。但是,实际上在移动设备上部署FL存在两个主要的研究挑战:(i)频繁的无线梯度更新v.s.频谱资源有限,以及(ii)培训期间渴望的FL通信和本地计算V.S.电池约束的移动设备。为了应对这些挑战,在本文中,我们提出了一种新型的多位空天空计算(MAIRCOMP)方法,用于FL中本地模型更新的频谱有效聚合,并进一步介绍用于移动的能源有效的FL设计设备。具体而言,高精度数字调制方案是在MAIRCOMP中设计和合并的,允许移动设备同时在多访问通道中同时在所选位置上传模型更新。此外,我们理论上分析了FL算法的收敛性。在FL收敛分析的指导下,我们制定了联合传输概率和局部计算控制优化,旨在最大程度地减少FL移动设备的总体能源消耗(即迭代局部计算 +多轮通信)。广泛的仿真结果表明,我们提出的方案在频谱利用率,能源效率和学习准确性方面优于现有计划。
translated by 谷歌翻译
Federated learning is a distributed framework according to which a model is trained over a set of devices, while keeping data localized. This framework faces several systemsoriented challenges which include (i) communication bottleneck since a large number of devices upload their local updates to a parameter server, and (ii) scalability as the federated network consists of millions of devices. Due to these systems challenges as well as issues related to statistical heterogeneity of data and privacy concerns, designing a provably efficient federated learning method is of significant importance yet it remains challenging. In this paper, we present FedPAQ, a communication-efficient Federated Learning method with Periodic Averaging and Quantization. FedPAQ relies on three key features: (1) periodic averaging where models are updated locally at devices and only periodically averaged at the server; (2) partial device participation where only a fraction of devices participate in each round of the training; and (3) quantized messagepassing where the edge nodes quantize their updates before uploading to the parameter server. These features address the communications and scalability challenges in federated learning. We also show that FedPAQ achieves near-optimal theoretical guarantees for strongly convex and non-convex loss functions and empirically demonstrate the communication-computation tradeoff provided by our method.
translated by 谷歌翻译
联邦元学习(FML)已成为应对当今边缘学习竞技场中的数据限制和异质性挑战的承诺范式。然而,其性能通常受到缓慢的收敛性和相应的低通信效率的限制。此外,由于可用的无线电频谱和物联网设备的能量容量通常不足,因此在在实际无线网络中部署FML时,控制资源分配和能量消耗是至关重要的。为了克服挑战,在本文中,我们严格地分析了每个设备对每轮全球损失减少的贡献,并使用非统一的设备选择方案开发FML算法(称为Nufm)以加速收敛。之后,我们制定了集成NuFM在多通道无线系统中的资源分配问题,共同提高收敛速率并最小化壁钟时间以及能量成本。通过逐步解构原始问题,我们设计了一个联合设备选择和资源分配策略,以解决理论保证问题。此外,我们表明Nufm的计算复杂性可以通过$ O(d ^ 2)$至$ o(d)$(使用模型维度$ d $)通过组合两个一阶近似技术来降低。广泛的仿真结果表明,与现有基线相比,所提出的方法的有效性和优越性。
translated by 谷歌翻译
联合学习(FL)已成为跨无线边缘设备分配机器学习的流行方法。在这项工作中,我们考虑在设备 - 服务器通信延迟和设备计算异质性下优化FL的模型性能和资源利用之间的权衡。我们提出的StofedDelav算法将本地 - 全局模型组合器包含到FL同步步骤中。我们理论上表征了Stofeddelav的收敛行为,并获得了最佳的组合权重,这考虑了每个设备的全局模型延迟和预期的局部梯度误差。然后,我们制定了一种网络感知优化问题,该问题调整设备的小靶尺寸,以共同最大限度地减少能量消耗和机器学习训练丢失,并通过一系列凸起近似来解决非凸面问题。我们的模拟表明,当调整小批准和组合重量时,STOFeddelav在模型收敛速度和网络资源利用方面优于目前的艺术。此外,我们的方法可以减少模型训练期间所需的上行链路通信轮的数量,以达到相同的精度。
translated by 谷歌翻译
个性化联合学习(PFL)是一种新的联邦学习(FL)方法,可解决分布式用户设备(UES)生成的数据集的异质性问题。但是,大多数现有的PFL实现都依赖于同步培训来确保良好的收敛性能,这可能会导致严重的散乱问题,在这种情况下,训练时间大量延长了最慢的UE。为了解决这个问题,我们提出了一种半同步PFL算法,被称为半同步个性化的FederatedAveraging(Perfeds $^2 $),而不是移动边缘网络。通过共同优化无线带宽分配和UE调度策略,它不仅减轻了Straggler问题,而且还提供了收敛的培训损失保证。我们根据每回合的参与者数量和回合数量来得出Perfeds2收敛速率的上限。在此基础上,可以使用分析解决方案解决带宽分配问题,并且可以通过贪婪算法获得UE调度策略。实验结果与同步和异步PFL算法相比,验证了Perfeds2在节省训练时间和保证训练损失的收敛方面的有效性。
translated by 谷歌翻译
预计未来的无线网络将支持各种移动服务,包括人工智能(AI)服务和无处不在的数据传输。联合学习(FL)作为一种革命性的学习方法,可以跨分布式移动边缘设备进行协作AI模型培训。通过利用多访问通道的叠加属性,无线计算允许同时通过同一无线电资源从大型设备上传,因此大大降低了FL的通信成本。在本文中,我们研究了移动边缘网络中的无线信息和传统信息传输(IT)的共存。我们提出了一个共存的联合学习和信息传输(CFLIT)通信框架,其中FL和IT设备在OFDM系统中共享无线频谱。在此框架下,我们旨在通过优化长期无线电资源分配来最大化IT数据速率并确保给定的FL收敛性能。限制共存系统频谱效率的主要挑战在于,由于服务器和边缘设备之间的频繁通信以进行FL模型聚合,因此发生的大开销。为了应对挑战,我们严格地分析了计算与通信比对无线褪色通道中无线FL融合的影响。该分析揭示了存在最佳计算与通信比率的存在,该比率最大程度地降低了空中FL所需的无线电资源量,以收敛到给定的错误公差。基于分析,我们提出了一种低复杂性在线算法,以共同优化FL设备和IT设备的无线电资源分配。广泛的数值模拟验证了FL和IT设备在无线蜂窝系统中共存的拟议设计的出色性能。
translated by 谷歌翻译
在本文中,提出了一个绿色,量化的FL框架,该框架在本地培训和上行链路传输中代表具有有限精度水平的数据。在这里,有限的精度级别是通过使用量化的神经网络(QNN)来捕获的,该神经网络(QNN)以固定精确格式量化权重和激活。在考虑的FL模型中,每个设备训练其QNN并将量化的训练结果传输到基站。严格得出了局部训练和传输的能量模型。为了同时最大程度地减少能耗和交流的数量,相对于本地迭代的数量,选定设备的数量以及本地培训和传输的精确级别,在确保融合的同时,提出了多目标优化问题目标准确性约束。为了解决此问题,相对于系统控制变量,分析得出所提出的FL系统的收敛速率。然后,该问题的帕累托边界被表征为使用正常边界检查方法提供有效的解决方案。通过使用NASH讨价还价解决方案并分析派生的收敛速率,从两个目标之间平衡了两种目标之间的权衡的洞察力。仿真结果表明,与代表完全精确的数据相比,提出的FL框架可以减少能源消耗,直到收敛高达52%。
translated by 谷歌翻译
有限的通信资源,例如带宽和能源以及设备之间的数据异质性是联合学习的两个主要瓶颈(FL)。为了应对这些挑战,我们首先使用部分模型聚合(PMA)设计了一个新颖的FL框架,该框架仅汇总负责特征提取的神经网络的下层,而与复杂模式识别相对应的上层仍保留在个性化设备上。提出的PMA-FL能够解决数据异质性并减少无线通道中的传输信息。然后,我们在非convex损耗函数设置下获得了框架的收敛结合。借助此界限,我们定义了一个新的目标函数,名为“计划数据样本量”,以将原始的不明智优化问题转移到可用于设备调度,带宽分配,计算和通信时间分配的可拖动问题中。我们的分析表明,当PMA-FL的沟通和计算部分具有相同的功率时,可以实现最佳时段。我们还开发了一种二级方法来解决最佳带宽分配策略,并使用SET扩展算法来解决最佳设备调度。与最先进的基准测试相比,提议的PMA-FL在两个典型的异质数据集(即Minist和CIFAR-10)上提高了2.72%和11.6%的精度。此外,提出的联合动态设备调度和资源优化方法的精度比考虑的基准略高,但它们提供了令人满意的能量和时间缩短:MNIST的29%能量或20%的时间缩短; CIFAR-10的能量和25%的能量或12.5%的时间缩短。
translated by 谷歌翻译
Emerging technologies and applications including Internet of Things (IoT), social networking, and crowd-sourcing generate large amounts of data at the network edge. Machine learning models are often built from the collected data, to enable the detection, classification, and prediction of future events. Due to bandwidth, storage, and privacy concerns, it is often impractical to send all the data to a centralized location. In this paper, we consider the problem of learning model parameters from data distributed across multiple edge nodes, without sending raw data to a centralized place. Our focus is on a generic class of machine learning models that are trained using gradientdescent based approaches. We analyze the convergence bound of distributed gradient descent from a theoretical point of view, based on which we propose a control algorithm that determines the best trade-off between local update and global parameter aggregation to minimize the loss function under a given resource budget. The performance of the proposed algorithm is evaluated via extensive experiments with real datasets, both on a networked prototype system and in a larger-scale simulated environment. The experimentation results show that our proposed approach performs near to the optimum with various machine learning models and different data distributions.
translated by 谷歌翻译
分布式学习的主要重点之一是沟通效率,因为每一轮训练的模型聚集可能包括数百万到数十亿个参数。已经提出了几种模型压缩方法,例如梯度量化和稀疏方法,以提高模型聚合的通信效率。但是,对于给定梯度估计器的给定扭曲的信息理论的最低通信成本仍然未知。在本文中,我们研究了从率延伸的角度研究分布式学习中模型聚集的基本限制。通过将模型聚合作为矢量高斯首席执行官问题,我们得出了模型聚合问题的速率区域和总成绩 - 距离函数,这揭示了在特定梯度失真上限处的最小通信速率。我们还根据现实世界数据集的梯度统计数据,分析了每次迭代和总通信成本的通信成本和总通信成本。发现通过利用工人节点之间的相关性来获得沟通增益,对于符号来说是显着的,并且梯度估计器的高扭曲可以实现梯度压缩中的较低总通信成本。
translated by 谷歌翻译
由于其在数据隐私保护,有效的沟通和并行数据处理方面的好处,联邦学习(FL)近年来引起了人们的兴趣。同样,采用适当的算法设计,可以实现fl中收敛效应的理想线性加速。但是,FL上的大多数现有作品仅限于I.I.D.的系统。数据和集中参数服务器以及与异质数据集分散的FL上的结果仍然有限。此外,在完全分散的FL下,与数据异质性在完全分散的FL下,可以实现收敛的线性加速仍然是一个悬而未决的问题。在本文中,我们通过提出一种称为Net-Fleet的新算法,以解决具有数据异质性的完全分散的FL系统,以解决这些挑战。我们算法的关键思想是通过合并递归梯度校正技术来处理异质数据集,以增强FL(最初旨在用于通信效率)的本地更新方案。我们表明,在适当的参数设置下,所提出的净型算法实现了收敛的线性加速。我们进一步进行了广泛的数值实验,以评估所提出的净化算法的性能并验证我们的理论发现。
translated by 谷歌翻译
Federated learning (FL) is a decentralized and privacy-preserving machine learning technique in which a group of clients collaborate with a server to learn a global model without sharing clients' data. One challenge associated with FL is statistical diversity among clients, which restricts the global model from delivering good performance on each client's task. To address this, we propose an algorithm for personalized FL (pFedMe) using Moreau envelopes as clients' regularized loss functions, which help decouple personalized model optimization from the global model learning in a bi-level problem stylized for personalized FL. Theoretically, we show that pFedMe's convergence rate is state-of-the-art: achieving quadratic speedup for strongly convex and sublinear speedup of order 2/3 for smooth nonconvex objectives. Experimentally, we verify that pFedMe excels at empirical performance compared with the vanilla FedAvg and Per-FedAvg, a meta-learning based personalized FL algorithm.
translated by 谷歌翻译
Federated Learning (FL) is a collaborative machine learning (ML) framework that combines on-device training and server-based aggregation to train a common ML model among distributed agents. In this work, we propose an asynchronous FL design with periodic aggregation to tackle the straggler issue in FL systems. Considering limited wireless communication resources, we investigate the effect of different scheduling policies and aggregation designs on the convergence performance. Driven by the importance of reducing the bias and variance of the aggregated model updates, we propose a scheduling policy that jointly considers the channel quality and training data representation of user devices. The effectiveness of our channel-aware data-importance-based scheduling policy, compared with state-of-the-art methods proposed for synchronous FL, is validated through simulations. Moreover, we show that an "age-aware" aggregation weighting design can significantly improve the learning performance in an asynchronous FL setting.
translated by 谷歌翻译
联合学习(FL)是一种在不获取客户私有数据的情况下培训全球模型的协同机器学习技术。 FL的主要挑战是客户之间的统计多样性,客户设备之间的计算能力有限,以及服务器和客户之间的过度沟通开销。为解决这些挑战,我们提出了一种通过最大化FEDMAC的相关性稀疏个性化联合学习计划。通过将近似的L1-norm和客户端模型与全局模型之间的相关性结合到标准流失函数中,提高了统计分集数据的性能,并且与非稀疏FL相比,网络所需的通信和计算负载减少。收敛分析表明,FEDMAC中的稀疏约束不会影响全球模型的收敛速度,理论结果表明,FEDMAC可以实现良好的稀疏个性化,这比基于L2-NOM的个性化方法更好。实验,我们展示了与最先进的个性化方法相比的这种稀疏个性化建筑的益处(例如,FEDMAC分别达到98.95%,99.37%,99.37%,99.37%,99.37%,99.37%,99.37%,99.37%,99.37%,99.37%,99.37%,99.37%,高精度,FMNIST,CIFAR-100和非IID变体下的合成数据集)。
translated by 谷歌翻译
Federated learning (FL) has emerged as an instance of distributed machine learning paradigm that avoids the transmission of data generated on the users' side. Although data are not transmitted, edge devices have to deal with limited communication bandwidths, data heterogeneity, and straggler effects due to the limited computational resources of users' devices. A prominent approach to overcome such difficulties is FedADMM, which is based on the classical two-operator consensus alternating direction method of multipliers (ADMM). The common assumption of FL algorithms, including FedADMM, is that they learn a global model using data only on the users' side and not on the edge server. However, in edge learning, the server is expected to be near the base station and have direct access to rich datasets. In this paper, we argue that leveraging the rich data on the edge server is much more beneficial than utilizing only user datasets. Specifically, we show that the mere application of FL with an additional virtual user node representing the data on the edge server is inefficient. We propose FedTOP-ADMM, which generalizes FedADMM and is based on a three-operator ADMM-type technique that exploits a smooth cost function on the edge server to learn a global model parallel to the edge devices. Our numerical experiments indicate that FedTOP-ADMM has substantial gain up to 33\% in communication efficiency to reach a desired test accuracy with respect to FedADMM, including a virtual user on the edge server.
translated by 谷歌翻译
通过具有资源约束设备的无线网络部署联合学习(FL)需要平衡精度,能量效率和精度之间。现有技术在FL上经常需要设备使用32位精度级别来培训深神经网络(DNN)以进行数据表示以提高精度。然而,由于DNN可能需要执行数百万运算,因此这些算法对于资源受限设备来说是不切实际的。因此,培训具有高精度水平的DNN,对FL的高能量成本引起。在本文中,提出了一种量化的FL框架,其表示在本地训练和上行链路传输中具有有限精度的有限精度的数据。这里,通过使用量化的神经网络(QNN)以固定精度格式量化的量化神经网络(QNN)来捕获有限的精度。在所考虑的流域中,每个设备列举其QNN并将量化的训练结果传输到基站。用于本地训练的能源模型和具有量化的传输经过严格导出。在确保收敛的同时,相对于精度的水平配制了能量最小化问题。为了解决问题,我们首先分析了流量收敛速度并使用了线路搜索方法。仿真结果表明,与标准FL模型相比,我们的FL框架可以将能耗降低至53%。结果在无线网络上的精度,能量和准确性之间的权衡之间还阐明了借调。
translated by 谷歌翻译