在联合学习(FL)问题中,客户采样在训练算法的收敛速度中起着关键作用。然而,虽然是FL中的一个重要问题,但客户采样缺乏研究。在本文中,我们提出了在线学习,使用强盗反馈框架来了解FL中的客户采样问题。通过调整在线随机镜血清序列算法,以最小化梯度估计的方差,我们提出了一种新的自适应客户端采样算法。此外,我们使用在线集合方法和加倍技巧来自动选择算法中的调整参数。从理论上讲,我们将动态遗憾与比较器相结合,作为理论上最佳采样序列;我们还包括在我们的上限中的该序列的总变化,这是对问题的内在难度的自然度量。据我们所知,这些理论贡献对现有文献进行了新颖。此外,通过实施合成和真实数据实验,我们展示了我们所提出的算法在广泛使用的统一采样中的优势以及以前研究的其他在线学习的采样策略的实证证据。我们还检查其对调谐参数的选择的鲁棒性。最后,我们讨论其可能的延伸,而无需更换和个性化的流动。虽然原始目标是解决客户的采样问题,但这项工作在随机梯度下降和随机坐标序列方法上具有更大的应用。
translated by 谷歌翻译
联合学习(FL)算法通常在每个圆数(部分参与)大并且服务器的通信带宽有限时对每个轮子(部分参与)进行分数。近期对FL的收敛分析的作品专注于无偏见的客户采样,例如,随机均匀地采样,由于高度的系统异质性和统计异质性而均匀地采样。本文旨在设计一种自适应客户采样算法,可以解决系统和统计异质性,以最小化壁时钟收敛时间。我们获得了具有任意客户端采样概率的流动算法的新的遗传融合。基于界限,我们分析了建立了总学习时间和采样概率之间的关系,这导致了用于训练时间最小化的非凸优化问题。我们设计一种高效的算法来学习收敛绑定中未知参数,并开发低复杂性算法以大致解决非凸面问题。硬件原型和仿真的实验结果表明,与几个基线采样方案相比,我们所提出的采样方案显着降低了收敛时间。值得注意的是,我们的硬件原型的方案比均匀的采样基线花费73%,以达到相同的目标损失。
translated by 谷歌翻译
从经验上证明,在跨客户聚集之前应用多个本地更新的实践是克服联合学习(FL)中的通信瓶颈的成功方法。在这项工作中,我们提出了一种通用食谱,即FedShuffle,可以更好地利用FL中的本地更新,尤其是在异质性方面。与许多先前的作品不同,FedShuffle在每个设备的更新数量上没有任何统一性。我们的FedShuffle食谱包括四种简单的功能成分:1)数据的本地改组,2)调整本地学习率,3)更新加权,4)减少动量方差(Cutkosky and Orabona,2019年)。我们对FedShuffle进行了全面的理论分析,并表明从理论和经验上讲,我们的方法都不遭受FL方法中存在的目标功能不匹配的障碍,这些方法假设在异质FL设置中,例如FedAvg(McMahan等人,McMahan等, 2017)。此外,通过将上面的成分结合起来,FedShuffle在Fednova上改善(Wang等,2020),以前提议解决此不匹配。我们还表明,在Hessian相似性假设下,通过降低动量方差的FedShuffle可以改善非本地方法。最后,通过对合成和现实世界数据集的实验,我们说明了FedShuffle中使用的四种成分中的每种如何有助于改善FL中局部更新的使用。
translated by 谷歌翻译
我们在非静止环境中调查在线凸优化,然后选择\ emph {动态后悔}作为性能测量,定义为在线算法产生的累积损失与任何可行比较器序列之间的差异。让$ t $是$ p_t $ be的路径长度,基本上反映了环境的非平稳性,最先进的动态遗憾是$ \ mathcal {o}(\ sqrt {t( 1 + p_t)})$。虽然这一界限被证明是凸函数最佳的最低限度,但在本文中,我们证明可以进一步提高一些简单的问题实例的保证,特别是当在线功能平滑时。具体而言,我们提出了新的在线算法,可以利用平滑度并替换动态遗憾的$ t $替换依据\ {问题依赖性}数量:损耗函数梯度的变化,比较器序列的累积损失,以及比较器序列的累积损失最低术语的最低限度。这些数量是大多数$ \ mathcal {o}(t)$,良性环境中可能更小。因此,我们的结果适应了问题的内在难度,因为边界比现有结果更严格,以便在最坏的情况下保证相同的速率。值得注意的是,我们的算法只需要\ emph {一个}渐变,这与开发的方法共享相同的渐变查询复杂性,以优化静态遗憾。作为进一步的应用,我们将来自全信息设置的结果扩展到具有两点反馈的强盗凸优化,从而达到此类强盗任务的第一个相关的动态遗憾。
translated by 谷歌翻译
我们展示了一个联合学习框架,旨在强大地提供具有异构数据的各个客户端的良好预测性能。所提出的方法对基于SuperQualile的学习目标铰接,捕获异构客户端的误差分布的尾统计。我们提出了一种随机训练算法,其与联合平均步骤交织差异私人客户重新重量步骤。该提出的算法支持有限时间收敛保证,保证覆盖凸和非凸面设置。关于联邦学习的基准数据集的实验结果表明,我们的方法在平均误差方面与古典误差竞争,并且在误差的尾统计方面优于它们。
translated by 谷歌翻译
In federated optimization, heterogeneity in the clients' local datasets and computation speeds results in large variations in the number of local updates performed by each client in each communication round. Naive weighted aggregation of such models causes objective inconsistency, that is, the global model converges to a stationary point of a mismatched objective function which can be arbitrarily different from the true objective. This paper provides a general framework to analyze the convergence of federated heterogeneous optimization algorithms. It subsumes previously proposed methods such as FedAvg and FedProx and provides the first principled understanding of the solution bias and the convergence slowdown due to objective inconsistency. Using insights from this analysis, we propose Fed-Nova, a normalized averaging method that eliminates objective inconsistency while preserving fast error convergence.
translated by 谷歌翻译
众所周知,客户师沟通可能是联邦学习中的主要瓶颈。在这项工作中,我们通过一种新颖的客户端采样方案解决了这个问题,我们将允许的客户数量限制为将其更新传达给主节点的数量。在每个通信回合中,所有参与的客户都会计算他们的更新,但只有具有“重要”更新的客户可以与主人通信。我们表明,可以仅使用更新的规范来衡量重要性,并提供一个公式以最佳客户参与。此公式将所有客户参与的完整更新与我们有限的更新(参与客户数量受到限制)之间的距离最小化。此外,我们提供了一种简单的算法,该算法近似于客户参与的最佳公式,该公式仅需要安全的聚合,因此不会损害客户的隐私。我们在理论上和经验上都表明,对于分布式SGD(DSGD)和联合平均(FedAvg),我们的方法的性能可以接近完全参与,并且优于基线,在参与客户均匀地采样的基线。此外,我们的方法与现有的减少通信开销(例如本地方法和通信压缩方法)的现有方法兼容。
translated by 谷歌翻译
标准联合优化方法成功地适用于单层结构的随机问题。然而,许多当代的ML问题 - 包括对抗性鲁棒性,超参数调整和参与者 - 批判性 - 属于嵌套的双层编程,这些编程包含微型型和组成优化。在这项工作中,我们提出了\ fedblo:一种联合交替的随机梯度方法来解决一般的嵌套问题。我们在存在异质数据的情况下为\ fedblo建立了可证明的收敛速率,并引入了二聚体,最小值和组成优化的变化。\ fedblo引入了多种创新,包括联邦高级计算和降低方差,以解决内部级别的异质性。我们通过有关超参数\&超代理学习和最小值优化的实验来补充我们的理论,以证明我们方法在实践中的好处。代码可在https://github.com/ucr-optml/fednest上找到。
translated by 谷歌翻译
作为一个普遍的分布式学习范式,联邦学习(FL)训练了大量通信的大量设备的全球模型。本文研究了FL设置中的一类复合优化和统计恢复问题,其损失函数由数据依赖的平滑损耗和非平滑正常器组成。示例包括使用套索的稀疏线性回归,使用核标准正则化等等的低级矩阵恢复等。在现有文献中,联合复合优化算法仅从优化的角度设计,而无需任何统计保证。此外,他们不考虑在统计恢复问题中常用(受限)强凸度。从优化和统计角度来看,我们都会推进此问题的前沿。从优化的前期,我们提出了一种名为\ textit {快速联合双平均}的新算法,用于强烈凸出和平滑损失,并在复合设置中建立最新的迭代和通信复杂性。特别是,我们证明它具有快速的速度,线性加速和减少的沟通回合。从统计前期开始,对于受限制的强烈凸出和平滑损失,我们设计了另一种算法,即\ textIt {多阶段联合双重平均},并证明了与线性加速绑定到最佳统计精度的高概率复杂性。合成数据和真实数据的实验表明,我们的方法的性能优于其他基线。据我们所知,这是为FL中复合问题提供快速优化算法和统计恢复保证的第一项工作。
translated by 谷歌翻译
Federated Averaging (FEDAVG) has emerged as the algorithm of choice for federated learning due to its simplicity and low communication cost. However, in spite of recent research efforts, its performance is not fully understood. We obtain tight convergence rates for FEDAVG and prove that it suffers from 'client-drift' when the data is heterogeneous (non-iid), resulting in unstable and slow convergence.As a solution, we propose a new algorithm (SCAFFOLD) which uses control variates (variance reduction) to correct for the 'client-drift' in its local updates. We prove that SCAFFOLD requires significantly fewer communication rounds and is not affected by data heterogeneity or client sampling. Further, we show that (for quadratics) SCAFFOLD can take advantage of similarity in the client's data yielding even faster convergence. The latter is the first result to quantify the usefulness of local-steps in distributed optimization.
translated by 谷歌翻译
Federated learning (FL) is a decentralized and privacy-preserving machine learning technique in which a group of clients collaborate with a server to learn a global model without sharing clients' data. One challenge associated with FL is statistical diversity among clients, which restricts the global model from delivering good performance on each client's task. To address this, we propose an algorithm for personalized FL (pFedMe) using Moreau envelopes as clients' regularized loss functions, which help decouple personalized model optimization from the global model learning in a bi-level problem stylized for personalized FL. Theoretically, we show that pFedMe's convergence rate is state-of-the-art: achieving quadratic speedup for strongly convex and sublinear speedup of order 2/3 for smooth nonconvex objectives. Experimentally, we verify that pFedMe excels at empirical performance compared with the vanilla FedAvg and Per-FedAvg, a meta-learning based personalized FL algorithm.
translated by 谷歌翻译
联合学习(FL)是一种新兴学习范例,可以通过确保边缘设备上的客户端数据局部性来保护隐私。由于学习系统的多样性和异质性,FL的优化在实践中具有挑战性。尽管最近的研究努力改善异构数据的优化,但时间不断变化的异构数据在现实世界方案中的影响,例如改变客户数据或在训练期间留下或离开的间歇性客户,并未得到很好地研究。在这项工作中,我们提出了持续的联邦学习(CFL),灵活的框架,以捕获FL的时间不正常性。 CFL涵盖复杂和现实的情景 - 在之前的流派中评估了挑战 - 通过提取过去的本地数据集的信息并近似当地目标函数。从理论上讲,我们证明CFL方法在时间不断发展的场景中实现了比\ FEDAVG更快的会聚率,其中益处依赖于近似质量。在一系列实验中,我们表明数值调查结果与收敛分析相匹配,CFL方法显着优于其他SOTA FL基线。
translated by 谷歌翻译
我们扩展并结合了一些文献的工具,以设计快速,自适应,随时和无规模的在线学习算法。无尺寸的遗憾界限必须以最大损失线性缩放,既朝向大损失,缺乏较小亏损。自适应遗憾界限表明,算法可以利用易于数据,并且可能具有恒定的遗憾。我们寻求开发快速算法,依赖于尽可能少的参数,特别是它们应该是随时随地的,因此不依赖于时间范围。我们的第一和主要工具,IsoTuning是平衡遗憾权衡的想法的概括。我们开发了一套工具来轻松设计和分析这些学习率,并表明它们自动适应遗憾(无论是常量,$ O(\ log t)$,$ o(\ sqrt {t})$,在Hindsight的最佳学习率的因子2中,对于相同的观察量的因子2中。第二种工具是在线校正,其允许我们获得许多算法的中心界限,以防止当域太大或仅部分约束时遗憾地被空隙。最后一个工具null更新,防止算法执行过多的更大的更新,这可能导致无限的后悔,甚至无效更新。我们使用这些工具开发一般理论并将其应用于几种标准算法。特别是,我们(几乎完全)恢复对无限域的FTRL的小损失的适应性,设计和证明无镜面下降的无缝的自适应保证(至少当Bregman发散在其第二个参数中凸出),延伸Adapt-ML-PROSIA令无规模的保证,并为Prod,Adahedge,Boa和软贝内斯提供了其他几个小贡献。
translated by 谷歌翻译
数据异构联合学习(FL)系统遭受了两个重要的收敛误差来源:1)客户漂移错误是由于在客户端执行多个局部优化步骤而引起的,以及2)部分客户参与错误,这是一个事实,仅一小部分子集边缘客户参加每轮培训。我们发现其中,只有前者在文献中受到了极大的关注。为了解决这个问题,我们提出了FedVarp,这是在服务器上应用的一种新颖的差异算法,它消除了由于部分客户参与而导致的错误。为此,服务器只是将每个客户端的最新更新保持在内存中,并将其用作每回合中非参与客户的替代更新。此外,为了减轻服务器上的内存需求,我们提出了一种新颖的基于聚类的方差降低算法clusterfedvarp。与以前提出的方法不同,FedVarp和ClusterFedVarp均不需要在客户端上进行其他计算或其他优化参数的通信。通过广泛的实验,我们表明FedVarp优于最先进的方法,而ClusterFedVarp实现了与FedVarp相当的性能,并且记忆要求较少。
translated by 谷歌翻译
我们考虑开放的联合学习(FL)系统,客户可以在FL过程中加入和/或离开系统。鉴于当前客户端数量的差异,在开放系统中不能保证与固定模型的收敛性。取而代之的是,我们求助于一个新的性能指标,该指标称我们的开放式FL系统的稳定性为量,该指标量化了开放系统中学习模型的幅度。在假设本地客户端的功能强烈凸出和平滑的假设下,我们从理论上量化了两种FL算法的稳定性半径,即本地SGD和本地ADAM。我们观察到此半径依赖于几个关键参数,包括功能条件号以及随机梯度的方差。通过对合成和现实世界基准数据集的数值模拟,我们的理论结果得到了进一步验证。
translated by 谷歌翻译
在线优化是一个完善的优化范式,旨在鉴于对以前的决策任务的正确答案,旨在做出一系列正确的决策。二重编程涉及一个分层优化问题,其中所谓的外部问题的可行区域受内部问题的解决方案集映射的限制。本文将这两个想法汇总在一起,并研究了在线双层优化设置,其中一系列随时间变化的二聚体问题又一个接一个地揭示了一个。我们将已知的单层在线算法的已知遗憾界限扩展到双重设置。具体而言,我们引入了新的杂种遗憾概念,开发了一种在线交替的时间平均梯度方法,该方法能够利用光滑度,并根据内部和外部极型序列的长度提供遗憾的界限。
translated by 谷歌翻译
在随着时间变化的组合环境中的在线决策激励,我们研究了将离线算法转换为其在线对应物的问题。我们专注于使用贪婪算法对局部错误的贪婪算法进行恒定因子近似的离线组合问题。对于此类问题,我们提供了一个通用框架,该框架可有效地将稳健的贪婪算法转换为使用Blackwell的易近算法。我们证明,在完整信息设置下,由此产生的在线算法具有$ O(\ sqrt {t})$(近似)遗憾。我们进一步介绍了Blackwell易接近性的强盗扩展,我们称之为Bandit Blackwell的可接近性。我们利用这一概念将贪婪的稳健离线算法转变为匪(t^{2/3})$(近似)$(近似)的遗憾。展示了我们框架的灵活性,我们将脱机之间的转换应用于收入管理,市场设计和在线优化的几个问题,包括在线平台中的产品排名优化,拍卖中的储备价格优化以及supperular tossodular最大化。 。我们还将还原扩展到连续优化的类似贪婪的一阶方法,例如用于最大化连续强的DR单调下调功能,这些功能受到凸约束的约束。我们表明,当应用于这些应用程序时,我们的转型会导致新的后悔界限或改善当前已知界限。我们通过为我们的两个应用进行数值模拟来补充我们的理论研究,在这两种应用中,我们都观察到,转换的数值性能在实际情况下优于理论保证。
translated by 谷歌翻译
联合学习(FL)是一种在不获取客户私有数据的情况下培训全球模型的协同机器学习技术。 FL的主要挑战是客户之间的统计多样性,客户设备之间的计算能力有限,以及服务器和客户之间的过度沟通开销。为解决这些挑战,我们提出了一种通过最大化FEDMAC的相关性稀疏个性化联合学习计划。通过将近似的L1-norm和客户端模型与全局模型之间的相关性结合到标准流失函数中,提高了统计分集数据的性能,并且与非稀疏FL相比,网络所需的通信和计算负载减少。收敛分析表明,FEDMAC中的稀疏约束不会影响全球模型的收敛速度,理论结果表明,FEDMAC可以实现良好的稀疏个性化,这比基于L2-NOM的个性化方法更好。实验,我们展示了与最先进的个性化方法相比的这种稀疏个性化建筑的益处(例如,FEDMAC分别达到98.95%,99.37%,99.37%,99.37%,99.37%,99.37%,99.37%,99.37%,99.37%,99.37%,99.37%,99.37%,高精度,FMNIST,CIFAR-100和非IID变体下的合成数据集)。
translated by 谷歌翻译
调整Quand参数是机器学习管道的重要而艰巨的部分。在联合学习中,封锁率优化更具挑战性,在多均匀设备的分布式网络上学习模型;在这里,需要保留设备上的数据并执行本地培训使得难以有效地培训和评估配置。在这项工作中,我们调查联邦封面调整的问题。我们首先识别关键挑战,并展示标准方法如何适应联合环境的基线。然后,通过与重量共享的神经结构搜索技术进行新颖的连接,我们介绍了一种新的方法,联邦快递,以加速联合的超参数调整,该调整适用于广泛使用的联合优化方法,例如FADVG和最近的变体。从理论上讲,我们表明联邦快递器在跨设备的在线凸优化的设置中正确调整了在设备上的学习速率。凭经验,我们表明,联邦快递可以在莎士比亚,春头和CIFAR-10基准上的几个百分点占据联邦封面调整的自然基线,使用相同的培训预算获得更高的准确性。
translated by 谷歌翻译
The increasing size of data generated by smartphones and IoT devices motivated the development of Federated Learning (FL), a framework for on-device collaborative training of machine learning models. First efforts in FL focused on learning a single global model with good average performance across clients, but the global model may be arbitrarily bad for a given client, due to the inherent heterogeneity of local data distributions. Federated multi-task learning (MTL) approaches can learn personalized models by formulating an opportune penalized optimization problem. The penalization term can capture complex relations among personalized models, but eschews clear statistical assumptions about local data distributions. In this work, we propose to study federated MTL under the flexible assumption that each local data distribution is a mixture of unknown underlying distributions. This assumption encompasses most of the existing personalized FL approaches and leads to federated EM-like algorithms for both client-server and fully decentralized settings. Moreover, it provides a principled way to serve personalized models to clients not seen at training time. The algorithms' convergence is analyzed through a novel federated surrogate optimization framework, which can be of general interest. Experimental results on FL benchmarks show that our approach provides models with higher accuracy and fairness than state-of-the-art methods.
translated by 谷歌翻译