我们考虑开放的联合学习(FL)系统,客户可以在FL过程中加入和/或离开系统。鉴于当前客户端数量的差异,在开放系统中不能保证与固定模型的收敛性。取而代之的是,我们求助于一个新的性能指标,该指标称我们的开放式FL系统的稳定性为量,该指标量化了开放系统中学习模型的幅度。在假设本地客户端的功能强烈凸出和平滑的假设下,我们从理论上量化了两种FL算法的稳定性半径,即本地SGD和本地ADAM。我们观察到此半径依赖于几个关键参数,包括功能条件号以及随机梯度的方差。通过对合成和现实世界基准数据集的数值模拟,我们的理论结果得到了进一步验证。
translated by 谷歌翻译
数据异构联合学习(FL)系统遭受了两个重要的收敛误差来源:1)客户漂移错误是由于在客户端执行多个局部优化步骤而引起的,以及2)部分客户参与错误,这是一个事实,仅一小部分子集边缘客户参加每轮培训。我们发现其中,只有前者在文献中受到了极大的关注。为了解决这个问题,我们提出了FedVarp,这是在服务器上应用的一种新颖的差异算法,它消除了由于部分客户参与而导致的错误。为此,服务器只是将每个客户端的最新更新保持在内存中,并将其用作每回合中非参与客户的替代更新。此外,为了减轻服务器上的内存需求,我们提出了一种新颖的基于聚类的方差降低算法clusterfedvarp。与以前提出的方法不同,FedVarp和ClusterFedVarp均不需要在客户端上进行其他计算或其他优化参数的通信。通过广泛的实验,我们表明FedVarp优于最先进的方法,而ClusterFedVarp实现了与FedVarp相当的性能,并且记忆要求较少。
translated by 谷歌翻译
标准联合优化方法成功地适用于单层结构的随机问题。然而,许多当代的ML问题 - 包括对抗性鲁棒性,超参数调整和参与者 - 批判性 - 属于嵌套的双层编程,这些编程包含微型型和组成优化。在这项工作中,我们提出了\ fedblo:一种联合交替的随机梯度方法来解决一般的嵌套问题。我们在存在异质数据的情况下为\ fedblo建立了可证明的收敛速率,并引入了二聚体,最小值和组成优化的变化。\ fedblo引入了多种创新,包括联邦高级计算和降低方差,以解决内部级别的异质性。我们通过有关超参数\&超代理学习和最小值优化的实验来补充我们的理论,以证明我们方法在实践中的好处。代码可在https://github.com/ucr-optml/fednest上找到。
translated by 谷歌翻译
联合学习(FL)算法通常在每个圆数(部分参与)大并且服务器的通信带宽有限时对每个轮子(部分参与)进行分数。近期对FL的收敛分析的作品专注于无偏见的客户采样,例如,随机均匀地采样,由于高度的系统异质性和统计异质性而均匀地采样。本文旨在设计一种自适应客户采样算法,可以解决系统和统计异质性,以最小化壁时钟收敛时间。我们获得了具有任意客户端采样概率的流动算法的新的遗传融合。基于界限,我们分析了建立了总学习时间和采样概率之间的关系,这导致了用于训练时间最小化的非凸优化问题。我们设计一种高效的算法来学习收敛绑定中未知参数,并开发低复杂性算法以大致解决非凸面问题。硬件原型和仿真的实验结果表明,与几个基线采样方案相比,我们所提出的采样方案显着降低了收敛时间。值得注意的是,我们的硬件原型的方案比均匀的采样基线花费73%,以达到相同的目标损失。
translated by 谷歌翻译
作为一个普遍的分布式学习范式,联邦学习(FL)训练了大量通信的大量设备的全球模型。本文研究了FL设置中的一类复合优化和统计恢复问题,其损失函数由数据依赖的平滑损耗和非平滑正常器组成。示例包括使用套索的稀疏线性回归,使用核标准正则化等等的低级矩阵恢复等。在现有文献中,联合复合优化算法仅从优化的角度设计,而无需任何统计保证。此外,他们不考虑在统计恢复问题中常用(受限)强凸度。从优化和统计角度来看,我们都会推进此问题的前沿。从优化的前期,我们提出了一种名为\ textit {快速联合双平均}的新算法,用于强烈凸出和平滑损失,并在复合设置中建立最新的迭代和通信复杂性。特别是,我们证明它具有快速的速度,线性加速和减少的沟通回合。从统计前期开始,对于受限制的强烈凸出和平滑损失,我们设计了另一种算法,即\ textIt {多阶段联合双重平均},并证明了与线性加速绑定到最佳统计精度的高概率复杂性。合成数据和真实数据的实验表明,我们的方法的性能优于其他基线。据我们所知,这是为FL中复合问题提供快速优化算法和统计恢复保证的第一项工作。
translated by 谷歌翻译
联合学习(FL)旨在最大程度地减少培训模型的沟通复杂性,而不是在许多客户中分发的异质数据。一种常见的方法是本地方法,在与服务器通信之前,客户端在本地数据(例如FedAvg)之前对本地数据进行了多个优化步骤。本地方法可以利用客户数据之间的相似性。但是,在现有的分析中,这是以依赖对通信的数量的依赖为代价的。另一方面,全球方法,客户只是在每个回合中返回梯度向量(例如,SGD) ,以R的速度更快,但即使客户均匀,也无法利用客户之间的相似性。我们提出了FedChain,这是一种算法框架,结合了本地方法和全球方法的优势,以实现R的快速收敛,同时利用客户之间的相似性。使用Fedchain,我们实例化了在一般凸和PL设置中先前已知的速率改进的算法,并且在满足强凸度的问题方面几乎是最佳的(通过我们显示的算法独立的下限)。经验结果支持现有方法的理论增益。
translated by 谷歌翻译
众所周知,客户师沟通可能是联邦学习中的主要瓶颈。在这项工作中,我们通过一种新颖的客户端采样方案解决了这个问题,我们将允许的客户数量限制为将其更新传达给主节点的数量。在每个通信回合中,所有参与的客户都会计算他们的更新,但只有具有“重要”更新的客户可以与主人通信。我们表明,可以仅使用更新的规范来衡量重要性,并提供一个公式以最佳客户参与。此公式将所有客户参与的完整更新与我们有限的更新(参与客户数量受到限制)之间的距离最小化。此外,我们提供了一种简单的算法,该算法近似于客户参与的最佳公式,该公式仅需要安全的聚合,因此不会损害客户的隐私。我们在理论上和经验上都表明,对于分布式SGD(DSGD)和联合平均(FedAvg),我们的方法的性能可以接近完全参与,并且优于基线,在参与客户均匀地采样的基线。此外,我们的方法与现有的减少通信开销(例如本地方法和通信压缩方法)的现有方法兼容。
translated by 谷歌翻译
联合学习(FL)是分布式学习的一种变体,其中Edge设备可以协作学习模型,而无需与中央服务器或彼此共享数据。我们将使用公共客户库作为多模型FL的联合设置中同时培训多个独立模型的过程。在这项工作中,我们提出了用于多模型FL的流行FedAvg算法的两个变体,并具有可证明的收敛保证。我们进一步表明,对于相同数量的计算,多模型FL可以比单独训练每个模型具有更好的性能。我们通过在强凸,凸和非凸面设置中进行实验来补充理论结果。
translated by 谷歌翻译
从经验上证明,在跨客户聚集之前应用多个本地更新的实践是克服联合学习(FL)中的通信瓶颈的成功方法。在这项工作中,我们提出了一种通用食谱,即FedShuffle,可以更好地利用FL中的本地更新,尤其是在异质性方面。与许多先前的作品不同,FedShuffle在每个设备的更新数量上没有任何统一性。我们的FedShuffle食谱包括四种简单的功能成分:1)数据的本地改组,2)调整本地学习率,3)更新加权,4)减少动量方差(Cutkosky and Orabona,2019年)。我们对FedShuffle进行了全面的理论分析,并表明从理论和经验上讲,我们的方法都不遭受FL方法中存在的目标功能不匹配的障碍,这些方法假设在异质FL设置中,例如FedAvg(McMahan等人,McMahan等, 2017)。此外,通过将上面的成分结合起来,FedShuffle在Fednova上改善(Wang等,2020),以前提议解决此不匹配。我们还表明,在Hessian相似性假设下,通过降低动量方差的FedShuffle可以改善非本地方法。最后,通过对合成和现实世界数据集的实验,我们说明了FedShuffle中使用的四种成分中的每种如何有助于改善FL中局部更新的使用。
translated by 谷歌翻译
我们展示了一个联合学习框架,旨在强大地提供具有异构数据的各个客户端的良好预测性能。所提出的方法对基于SuperQualile的学习目标铰接,捕获异构客户端的误差分布的尾统计。我们提出了一种随机训练算法,其与联合平均步骤交织差异私人客户重新重量步骤。该提出的算法支持有限时间收敛保证,保证覆盖凸和非凸面设置。关于联邦学习的基准数据集的实验结果表明,我们的方法在平均误差方面与古典误差竞争,并且在误差的尾统计方面优于它们。
translated by 谷歌翻译
In federated optimization, heterogeneity in the clients' local datasets and computation speeds results in large variations in the number of local updates performed by each client in each communication round. Naive weighted aggregation of such models causes objective inconsistency, that is, the global model converges to a stationary point of a mismatched objective function which can be arbitrarily different from the true objective. This paper provides a general framework to analyze the convergence of federated heterogeneous optimization algorithms. It subsumes previously proposed methods such as FedAvg and FedProx and provides the first principled understanding of the solution bias and the convergence slowdown due to objective inconsistency. Using insights from this analysis, we propose Fed-Nova, a normalized averaging method that eliminates objective inconsistency while preserving fast error convergence.
translated by 谷歌翻译
Federated Averaging (FEDAVG) has emerged as the algorithm of choice for federated learning due to its simplicity and low communication cost. However, in spite of recent research efforts, its performance is not fully understood. We obtain tight convergence rates for FEDAVG and prove that it suffers from 'client-drift' when the data is heterogeneous (non-iid), resulting in unstable and slow convergence.As a solution, we propose a new algorithm (SCAFFOLD) which uses control variates (variance reduction) to correct for the 'client-drift' in its local updates. We prove that SCAFFOLD requires significantly fewer communication rounds and is not affected by data heterogeneity or client sampling. Further, we show that (for quadratics) SCAFFOLD can take advantage of similarity in the client's data yielding even faster convergence. The latter is the first result to quantify the usefulness of local-steps in distributed optimization.
translated by 谷歌翻译
我们提出了一个新颖的框架,以研究异步联合学习优化,并在梯度更新中延迟。我们的理论框架通过引入随机聚合权重来表示客户更新时间的可变性,从而扩展了标准的FedAvg聚合方案,例如异质硬件功能。我们的形式主义适用于客户具有异质数据集并至少执行随机梯度下降(SGD)的一步。我们证明了这种方案的收敛性,并为相关最小值提供了足够的条件,使其成为联邦问题的最佳选择。我们表明,我们的一般框架适用于现有的优化方案,包括集中学习,FedAvg,异步FedAvg和FedBuff。这里提供的理论允许绘制有意义的指南,以设计在异质条件下的联合学习实验。特别是,我们在这项工作中开发了FedFix,这是FedAvg的新型扩展,从而实现了有效的异步联合训练,同时保留了同步聚合的收敛稳定性。我们在一系列实验上凭经验证明了我们的理论,表明异步FedAvg以稳定性为代价导致快速收敛,我们最终证明了FedFix比同步和异步FedAvg的改善。
translated by 谷歌翻译
Federated learning (FL) is a decentralized and privacy-preserving machine learning technique in which a group of clients collaborate with a server to learn a global model without sharing clients' data. One challenge associated with FL is statistical diversity among clients, which restricts the global model from delivering good performance on each client's task. To address this, we propose an algorithm for personalized FL (pFedMe) using Moreau envelopes as clients' regularized loss functions, which help decouple personalized model optimization from the global model learning in a bi-level problem stylized for personalized FL. Theoretically, we show that pFedMe's convergence rate is state-of-the-art: achieving quadratic speedup for strongly convex and sublinear speedup of order 2/3 for smooth nonconvex objectives. Experimentally, we verify that pFedMe excels at empirical performance compared with the vanilla FedAvg and Per-FedAvg, a meta-learning based personalized FL algorithm.
translated by 谷歌翻译
A key assumption in most existing works on FL algorithms' convergence analysis is that the noise in stochastic first-order information has a finite variance. Although this assumption covers all light-tailed (i.e., sub-exponential) and some heavy-tailed noise distributions (e.g., log-normal, Weibull, and some Pareto distributions), it fails for many fat-tailed noise distributions (i.e., ``heavier-tailed'' with potentially infinite variance) that have been empirically observed in the FL literature. To date, it remains unclear whether one can design convergent algorithms for FL systems that experience fat-tailed noise. This motivates us to fill this gap in this paper by proposing an algorithmic framework called FAT-Clipping (\ul{f}ederated \ul{a}veraging with \ul{t}wo-sided learning rates and \ul{clipping}), which contains two variants: FAT-Clipping per-round (FAT-Clipping-PR) and FAT-Clipping per-iteration (FAT-Clipping-PI). Specifically, for the largest $\alpha \in (1,2]$ such that the fat-tailed noise in FL still has a bounded $\alpha$-moment, we show that both variants achieve $\mathcal{O}((mT)^{\frac{2-\alpha}{\alpha}})$ and $\mathcal{O}((mT)^{\frac{1-\alpha}{3\alpha-2}})$ convergence rates in the strongly-convex and general non-convex settings, respectively, where $m$ and $T$ are the numbers of clients and communication rounds. Moreover, at the expense of more clipping operations compared to FAT-Clipping-PR, FAT-Clipping-PI further enjoys a linear speedup effect with respect to the number of local updates at each client and being lower-bound-matching (i.e., order-optimal). Collectively, our results advance the understanding of designing efficient algorithms for FL systems that exhibit fat-tailed first-order oracle information.
translated by 谷歌翻译
联合学习(FL)是机器学习的一个子领域,在该子机学习中,多个客户试图在通信约束下通过网络进行协作学习模型。我们考虑在二阶功能相似性条件和强凸度下联合优化的有限和联合优化,并提出了两种新算法:SVRP和催化的SVRP。这种二阶相似性条件最近越来越流行,并且在包括分布式统计学习和差异性经验风险最小化在内的许多应用中得到满足。第一种算法SVRP结合了近似随机点评估,客户采样和降低方差。我们表明,当功能相似性足够高时,SVRP是沟通有效的,并且在许多现有算法上取得了卓越的性能。我们的第二个算法,催化的SVRP,是SVRP的催化剂加速变体,在二阶相似性和强凸度下,现有的联合优化算法可实现更好的性能,并均匀地改善了现有的算法。在分析这些算法的过程中,我们提供了可能具有独立关注的随机近端方法(SPPM)的新分析。我们对SPPM的分析很简单,允许进行近似近端评估,不需要任何平滑度假设,并且在通信复杂性上比普通分布式随机梯度下降显示出明显的好处。
translated by 谷歌翻译
客户端之间的非独立和相同分布(非IID)数据分布被视为降低联合学习(FL)性能的关键因素。处理非IID数据(如个性化FL和联邦多任务学习(FMTL)的几种方法对研究社区有很大兴趣。在这项工作中,首先,我们使用Laplacian正规化制定FMTL问题,明确地利用客户模型之间的关系进行多任务学习。然后,我们介绍了FMTL问题的新视图,首次表明配制的FMTL问题可用于传统的FL和个性化FL。我们还提出了两种算法FEDU和DFEDU,分别解决了通信集中和分散方案中的配制FMTL问题。从理论上讲,我们证明了两种算法的收敛速率实现了用于非凸起目标的强大凸起和载位加速的线性加速。实验,我们表明我们的算法优于FL设置的传统算法FedVG,在FMTL设置中的Mocha,以及个性化流程中的PFEDME和PER-FEDAVG。
translated by 谷歌翻译
联合学习(FL)是一个新的分布式机器学习框架,可以在不收集用户的私人数据的情况下获得可靠的协作培训。但是,由于FL的频繁沟通和平均聚合策略,他们会遇到挑战统计多样性数据和大规模模型。在本文中,我们提出了一个个性化的FL框架,称为基于Tensor分解的个性化联合学习(TDPFED),在该框架中,我们设计了一种具有张力的线性层和卷积层的新颖的张力局部模型,以降低交流成本。 TDPFED使用双级损失函数来通过控制个性化模型和张力的本地模型之间的差距来使全球模型学习的个性化模型优化。此外,有效的分布式学习策略和两种不同的模型聚合策略是为拟议的TDPFED框架设计的。理论融合分析和彻底的实验表明,我们提出的TDPFED框架在降低交流成本的同时实现了最新的性能。
translated by 谷歌翻译
现有理论预测,数据异质性将降低联邦平均(FedAvg)算法在联合学习中的性能。但是,实际上,简单的FedAvg算法的收敛良好。本文解释了与以前的理论预测相矛盾的FedAvg的看似不合理的有效性。我们发现,在以前的理论分析中,有界梯度差异的关键假设太悲观了,无法表征实际应用中的数据异质性。对于一个简单的二次问题,我们证明存在很大的梯度差异对FedAvg的收敛性没有任何负面影响。在这一观察结果的推动下,我们提出了一个新的数量,最佳的平均漂移,以衡量数据异质性的效果,并明确使用它来提出对FedAvg的新理论分析。我们表明,在许多实际联合训练任务中,最佳的平均漂移几乎为零,而梯度差异可能很大。我们的新分析表明,FedAvg可以在均质和异质数据设置中具有相同的收敛速率,因此可以更好地理解其经验成功。
translated by 谷歌翻译
我们研究迭代矢量字段(与自己组成的矢量字段)是保守的。我们提供了这种自我构成保存保守主义的传染媒介领域的明确示例。值得注意的是,这包括与一些广义线性模型相关联的损耗函数的梯度矢量字段。正如我们所展示的那样,表征满足这种条件的传染媒体字段集导致非琐碎的几何问题。在联合学习的背景下,我们表明,当客户端有损耗函数时,其梯度满足这种情况,联合平均相当于代理损失函数上的梯度下降。我们利用这一点来派生联邦学习的新型融合结果。相比之下,我们证明了当客户损失违反此属性时,联合平均可以产生从集中优化不同的行为。最后,我们讨论了我们对联邦学习的分析框架提升的理论和实践问题。
translated by 谷歌翻译