在本文中,我们提出\ texttt {fgpr}:一个联合高斯进程($ \ mathcal {gp} $)回归框架,它使用了用于本地客户端计算的模型聚合和随机梯度血缘的平均策略。值得注意的是,由此产生的全局模型在个性化中excels作为\ texttt {fgpr}共同学习所有客户端之前的全局$ \ mathcal {gp} $。然后通过利用该本地数据来获得预测后的后退,并在从特定客户端编码个性化功能的本地数据获得。从理论上讲,我们显示\ texttt {fgpr}会聚到完整对数似然函数的关键点,但符合统计误差。通过广泛的案例研究,我们展示了\ TextTT {FGPR}在广泛的应用中擅长,并且是隐私保留多保真数据建模的有希望的方法。
translated by 谷歌翻译
随机梯度下降(SGD)及其变体已经建立为具有独立样本的大型机器学习问题的进入算法,由于其泛化性能和内在的计算优势。然而,随机梯度是具有相关样本的全梯度的偏置估计的事实导致了对SGD在相关环境中的表现和阻碍其在这种情况下使用的理解缺乏理论理解。在本文中,我们专注于高斯过程(GP)的近似参数估计,并通过证明小纤维SGD收敛到完整日志似然丢失功能的关键点来打破屏障的一步,并恢复速率$率的模型超参数o(\ frac {1} {k})$ k $迭代,达到统计误差术语,具体取决于小靶大小。我们的理论担保仍然存在,内核功能表现出指数或多项式EIGENDECAY,这是通过GPS常用的各种核的满足。模拟和实时数据集的数值研究表明,Minibatch SGD在最先进的GP方法上具有更好的推广,同时降低了计算负担并开启了GPS的新的,先前未开发的数据大小制度。
translated by 谷歌翻译
随着边缘设备变得越来越强大,数据分析逐渐从集中式转移到分散的制度,在该制度中,利用边缘计算资源以在本地处理更多数据。这种分析制度被认为是联合数据分析(FDA)。尽管FDA最近有成功的案例,但大多数文献都专注于深度神经网络。在这项工作中,我们退后一步,为最基本的统计模型之一开发了FDA处理:线性回归。我们的处理是建立在层次建模的基础上,该模型允许多个组借用强度。为此,我们提出了两个联合的层次模型结构,它们在跨设备之间提供共享表示以促进信息共享。值得注意的是,我们提出的框架能够提供不确定性量化,可变选择,假设测试以及对新看不见数据的快速适应。我们在一系列现实生活中验证了我们的方法,包括对飞机发动机的条件监控。结果表明,我们对线性模型的FDA处理可以作为联合算法未来开发的竞争基准模型。
translated by 谷歌翻译
This study investigates clustered federated learning (FL), one of the formulations of FL with non-i.i.d. data, where the devices are partitioned into clusters and each cluster optimally fits its data with a localized model. We propose a novel clustered FL framework, which applies a nonconvex penalty to pairwise differences of parameters. This framework can automatically identify clusters without a priori knowledge of the number of clusters and the set of devices in each cluster. To implement the proposed framework, we develop a novel clustered FL method called FPFC. Advancing from the standard ADMM, our method is implemented in parallel, updates only a subset of devices at each communication round, and allows each participating device to perform a variable amount of work. This greatly reduces the communication cost while simultaneously preserving privacy, making it practical for FL. We also propose a new warmup strategy for hyperparameter tuning under FL settings and consider the asynchronous variant of FPFC (asyncFPFC). Theoretically, we provide convergence guarantees of FPFC for general nonconvex losses and establish the statistical convergence rate under a linear model with squared loss. Our extensive experiments demonstrate the advantages of FPFC over existing methods.
translated by 谷歌翻译
从经验上证明,在跨客户聚集之前应用多个本地更新的实践是克服联合学习(FL)中的通信瓶颈的成功方法。在这项工作中,我们提出了一种通用食谱,即FedShuffle,可以更好地利用FL中的本地更新,尤其是在异质性方面。与许多先前的作品不同,FedShuffle在每个设备的更新数量上没有任何统一性。我们的FedShuffle食谱包括四种简单的功能成分:1)数据的本地改组,2)调整本地学习率,3)更新加权,4)减少动量方差(Cutkosky and Orabona,2019年)。我们对FedShuffle进行了全面的理论分析,并表明从理论和经验上讲,我们的方法都不遭受FL方法中存在的目标功能不匹配的障碍,这些方法假设在异质FL设置中,例如FedAvg(McMahan等人,McMahan等, 2017)。此外,通过将上面的成分结合起来,FedShuffle在Fednova上改善(Wang等,2020),以前提议解决此不匹配。我们还表明,在Hessian相似性假设下,通过降低动量方差的FedShuffle可以改善非本地方法。最后,通过对合成和现实世界数据集的实验,我们说明了FedShuffle中使用的四种成分中的每种如何有助于改善FL中局部更新的使用。
translated by 谷歌翻译
我们展示了一个联合学习框架,旨在强大地提供具有异构数据的各个客户端的良好预测性能。所提出的方法对基于SuperQualile的学习目标铰接,捕获异构客户端的误差分布的尾统计。我们提出了一种随机训练算法,其与联合平均步骤交织差异私人客户重新重量步骤。该提出的算法支持有限时间收敛保证,保证覆盖凸和非凸面设置。关于联邦学习的基准数据集的实验结果表明,我们的方法在平均误差方面与古典误差竞争,并且在误差的尾统计方面优于它们。
translated by 谷歌翻译
联邦学习(FL)是一种越来越受欢迎的机器学习范式,其中多个节点在隐私,通信和多个异质性约束下尝试协同学习。联邦学习中的持续存在问题是,不清楚优化目标应该:监督学习的标准平均风险最小化在处理联合学习的几个主要限制方面是不充分的,例如沟通适应性和个性化控制。我们在联合学习的框架中识别几个关键的Desiderata,并介绍了一个新的框架,Flix,考虑到联合学习所带来的独特挑战。 Flix具有标准的有限和形式,使从业者能够利用分布式优化的现有(潜在非本地)方法的巨大财富。通过不需要任何通信的智能初始化,Flix不需要使用本地步骤,但仍然可以通过本地方法执行不一致的正则化。我们提供了几种用于在通信约束下有效解决FLIX制剂的算法。最后,我们通过广泛的实验证实了我们的理论结果。
translated by 谷歌翻译
在分布式机器学习实践中越来越受欢迎,在分布式机器学习实践中越来越受欢迎,在不共享本地数据的情况下,对算法进行了算法培训的联合学习。通常,图形结构$ g $存在于本地设备以进行通信。在这项工作中,我们考虑使用数据分布和通信异质性以及本地设备的计算能力有限的联合学习中的参数估计。我们通过在本地设备上参数化分布来编码分布异质性,并具有一组不同的$ p $维矢量。然后,我们建议在$ m $估算框架下与融合套索正则化的所有设备共同估计所有设备的参数,从而鼓励对$ g $中连接的设备上的参数进行平等估计。根据$ G $,我们可以为估计器提供一般结果,可以进一步校准以获得各种特定问题设置的收敛率。令人惊讶的是,我们的估计器在$ g $上的某些图保真度条件下达到了最佳率,就好像我们可以汇总所有共享相同分布的样本一样。如果未满足图形保真度条件,我们通过多次测试提出一个边缘选择过程,以确保最佳性。为了减轻本地计算的负担,提供了一个分散的随机版本的ADMM,收敛速率$ o(t^{ - 1} \ log t)$,其中$ t $表示迭代的数量。我们强调,我们的算法在每次迭代时仅沿$ g $的边缘传输参数,而无需保留隐私的中央机器。我们将其进一步扩展到在训练过程中随机无法接近设备的情况,并具有类似的算法收敛保证。模拟实验和2020年美国总统选举数据集证明了我们方法的计算和统计效率。
translated by 谷歌翻译
我们提出了一种在异质环境中联合学习的沟通有效方法。在存在$ k $不同的数据分布的情况下,系统异质性反映了,每个用户仅从$ k $分布中的一个中采样数据。所提出的方法只需要在用户和服务器之间进行一次通信,从而大大降低了通信成本。此外,提出的方法通过在样本量方面实现最佳的于点错误(MSE)率,即在异质环境中提供强大的学习保证相同的数据分布,前提是,每个用户的数据点数量高于我们从系统参数方面明确表征的阈值。值得注意的是,这是可以实现的,而无需任何了解基础分布,甚至不需要任何分布数量$ k $。数值实验说明了我们的发现并强调了所提出的方法的性能。
translated by 谷歌翻译
联合学习(FL)使大量优化的优势计算设备(例如,移动电话)联合学习全局模型而无需数据共享。在FL中,数据以分散的方式产生,具有高异质性。本文研究如何在联邦设置中对统计估算和推断进行统计估算和推理。我们分析所谓的本地SGD,这是一种使用间歇通信来提高通信效率的多轮估计过程。我们首先建立一个{\ IT功能的中央极限定理},显示了本地SGD的平均迭代弱融合到重新定位的布朗运动。我们接下来提供两个迭代推断方法:{\ IT插件}和{\ IT随机缩放}。随机缩放通过沿整个本地SGD路径的信息构造推断的渐近枢转统计。这两种方法都是通信高效且适用于在线数据。我们的理论和经验结果表明,本地SGD同时实现了统计效率和通信效率。
translated by 谷歌翻译
Federated Averaging (FEDAVG) has emerged as the algorithm of choice for federated learning due to its simplicity and low communication cost. However, in spite of recent research efforts, its performance is not fully understood. We obtain tight convergence rates for FEDAVG and prove that it suffers from 'client-drift' when the data is heterogeneous (non-iid), resulting in unstable and slow convergence.As a solution, we propose a new algorithm (SCAFFOLD) which uses control variates (variance reduction) to correct for the 'client-drift' in its local updates. We prove that SCAFFOLD requires significantly fewer communication rounds and is not affected by data heterogeneity or client sampling. Further, we show that (for quadratics) SCAFFOLD can take advantage of similarity in the client's data yielding even faster convergence. The latter is the first result to quantify the usefulness of local-steps in distributed optimization.
translated by 谷歌翻译
标准联合优化方法成功地适用于单层结构的随机问题。然而,许多当代的ML问题 - 包括对抗性鲁棒性,超参数调整和参与者 - 批判性 - 属于嵌套的双层编程,这些编程包含微型型和组成优化。在这项工作中,我们提出了\ fedblo:一种联合交替的随机梯度方法来解决一般的嵌套问题。我们在存在异质数据的情况下为\ fedblo建立了可证明的收敛速率,并引入了二聚体,最小值和组成优化的变化。\ fedblo引入了多种创新,包括联邦高级计算和降低方差,以解决内部级别的异质性。我们通过有关超参数\&超代理学习和最小值优化的实验来补充我们的理论,以证明我们方法在实践中的好处。代码可在https://github.com/ucr-optml/fednest上找到。
translated by 谷歌翻译
作为一个普遍的分布式学习范式,联邦学习(FL)训练了大量通信的大量设备的全球模型。本文研究了FL设置中的一类复合优化和统计恢复问题,其损失函数由数据依赖的平滑损耗和非平滑正常器组成。示例包括使用套索的稀疏线性回归,使用核标准正则化等等的低级矩阵恢复等。在现有文献中,联合复合优化算法仅从优化的角度设计,而无需任何统计保证。此外,他们不考虑在统计恢复问题中常用(受限)强凸度。从优化和统计角度来看,我们都会推进此问题的前沿。从优化的前期,我们提出了一种名为\ textit {快速联合双平均}的新算法,用于强烈凸出和平滑损失,并在复合设置中建立最新的迭代和通信复杂性。特别是,我们证明它具有快速的速度,线性加速和减少的沟通回合。从统计前期开始,对于受限制的强烈凸出和平滑损失,我们设计了另一种算法,即\ textIt {多阶段联合双重平均},并证明了与线性加速绑定到最佳统计精度的高概率复杂性。合成数据和真实数据的实验表明,我们的方法的性能优于其他基线。据我们所知,这是为FL中复合问题提供快速优化算法和统计恢复保证的第一项工作。
translated by 谷歌翻译
在本文中,我们利用过度参数化来设计高维单索索引模型的无规矩算法,并为诱导的隐式正则化现象提供理论保证。具体而言,我们研究了链路功能是非线性且未知的矢量和矩阵单索引模型,信号参数是稀疏向量或低秩对称矩阵,并且响应变量可以是重尾的。为了更好地理解隐含正规化的角色而没有过度的技术性,我们假设协变量的分布是先验的。对于载体和矩阵设置,我们通过采用分数函数变换和专为重尾数据的强大截断步骤来构造过度参数化最小二乘损耗功能。我们建议通过将无规则化的梯度下降应用于损耗函数来估计真实参数。当初始化接近原点并且步骤中足够小时,我们证明了所获得的解决方案在载体和矩阵案件中实现了最小的收敛统计速率。此外,我们的实验结果支持我们的理论调查结果,并表明我们的方法在$ \ ell_2 $ -staticatisticated率和变量选择一致性方面具有明确的正则化的经验卓越。
translated by 谷歌翻译
与训练数据中心的训练传统机器学习(ML)模型相反,联合学习(FL)训练ML模型,这些模型在资源受限的异质边缘设备上包含的本地数据集上。现有的FL算法旨在为所有参与的设备学习一个单一的全球模型,这对于所有参与培训的设备可能没有帮助,这是由于整个设备的数据的异质性。最近,Hanzely和Richt \'{A} Rik(2020)提出了一种新的配方,以培训个性化的FL模型,旨在平衡传统的全球模型与本地模型之间的权衡,该模型可以使用其私人数据对单个设备进行培训只要。他们得出了一种称为无环梯度下降(L2GD)的新算法,以解决该算法,并表明该算法会在需要更多个性化的情况下,可以改善沟通复杂性。在本文中,我们为其L2GD算法配备了双向压缩机制,以进一步减少本地设备和服务器之间的通信瓶颈。与FL设置中使用的其他基于压缩的算法不同,我们的压缩L2GD算法在概率通信协议上运行,在概率通信协议中,通信不会按固定的时间表进行。此外,我们的压缩L2GD算法在没有压缩的情况下保持与香草SGD相似的收敛速率。为了验证算法的效率,我们在凸和非凸问题上都进行了多种数值实验,并使用各种压缩技术。
translated by 谷歌翻译
在本文中,我们建议在分散的设置中解决一个正规化的分布鲁棒性学习问题,并考虑到数据分配的变化。通过将Kullback-Liebler正则化功能添加到可靠的Min-Max优化问题中,可以将学习问题降低到修改的可靠最小化问题并有效地解决。利用新配制的优化问题,我们提出了一个强大的版本的分散的随机梯度下降(DSGD),分布在分布方面具有强大的分散性随机梯度下降(DR-DSGD)。在一些温和的假设下,前提是正则化参数大于一个,我们从理论上证明DR-DSGD达到了$ \ MATHCAL {O} \ left的收敛速率$,其中$ k $是设备的数量,而$ t $是迭代次数。仿真结果表明,我们提出的算法可以提高最差的分配测试精度,最高$ 10 \%$。此外,DR-DSGD比DSGD更有效,因为它需要更少的沟通回合(最高$ 20 $ $倍)才能达到相同的最差分配测试准确性目标。此外,进行的实验表明,在测试准确性方面,DR-DSGD会导致整个设备的性能更公平。
translated by 谷歌翻译
跨核心联合学习(FL)已成为医疗保健机器学习应用程序中有前途的工具。它允许医院/机构在数据私有时使用足够的数据培训模型。为了确保FL模型在FL客户之间面对异质数据时,大多数努力都集中在为客户个性化模型上。但是,客户数据之间的潜在关系被忽略了。在这项工作中,我们专注于一个特殊的非IID FL问题,称为域混合FL,其中每个客户的数据分布都被认为是几个预定域的混合物。认识到域的多样性和域内的相似性,我们提出了一种新颖的方法Feddar,该方法以脱钩的方式学习了域共享表示形式和域名个性化的预测头。对于简化的线性回归设置,我们从理论上证明了Feddar具有线性收敛速率。对于一般环境,我们对合成和现实世界医学数据集进行了深入的经验研究,这些研究表明了其优越性比先前的FL方法。
translated by 谷歌翻译
The increasing size of data generated by smartphones and IoT devices motivated the development of Federated Learning (FL), a framework for on-device collaborative training of machine learning models. First efforts in FL focused on learning a single global model with good average performance across clients, but the global model may be arbitrarily bad for a given client, due to the inherent heterogeneity of local data distributions. Federated multi-task learning (MTL) approaches can learn personalized models by formulating an opportune penalized optimization problem. The penalization term can capture complex relations among personalized models, but eschews clear statistical assumptions about local data distributions. In this work, we propose to study federated MTL under the flexible assumption that each local data distribution is a mixture of unknown underlying distributions. This assumption encompasses most of the existing personalized FL approaches and leads to federated EM-like algorithms for both client-server and fully decentralized settings. Moreover, it provides a principled way to serve personalized models to clients not seen at training time. The algorithms' convergence is analyzed through a novel federated surrogate optimization framework, which can be of general interest. Experimental results on FL benchmarks show that our approach provides models with higher accuracy and fairness than state-of-the-art methods.
translated by 谷歌翻译
我们提出了一个新颖的框架,以研究异步联合学习优化,并在梯度更新中延迟。我们的理论框架通过引入随机聚合权重来表示客户更新时间的可变性,从而扩展了标准的FedAvg聚合方案,例如异质硬件功能。我们的形式主义适用于客户具有异质数据集并至少执行随机梯度下降(SGD)的一步。我们证明了这种方案的收敛性,并为相关最小值提供了足够的条件,使其成为联邦问题的最佳选择。我们表明,我们的一般框架适用于现有的优化方案,包括集中学习,FedAvg,异步FedAvg和FedBuff。这里提供的理论允许绘制有意义的指南,以设计在异质条件下的联合学习实验。特别是,我们在这项工作中开发了FedFix,这是FedAvg的新型扩展,从而实现了有效的异步联合训练,同时保留了同步聚合的收敛稳定性。我们在一系列实验上凭经验证明了我们的理论,表明异步FedAvg以稳定性为代价导致快速收敛,我们最终证明了FedFix比同步和异步FedAvg的改善。
translated by 谷歌翻译
联邦学习(FL)是大规模分布式学习的范例,它面临两个关键挑战:(i)从高度异构的用户数据和(ii)保护参与用户的隐私的高效培训。在这项工作中,我们提出了一种新颖的流动方法(DP-SCaffold)来通过将差异隐私(DP)约束结合到流行的脚手架算法中来解决这两个挑战。我们专注于有挑战性的环境,用户在没有任何可信中介的情况下与“诚实但奇怪的”服务器沟通,这需要确保隐私不仅可以访问最终模型的第三方,而且还要对服务器观察所有用户通信。使用DP理论的高级结果,我们建立了凸面和非凸面目标算法的融合。我们的分析清楚地突出了数据异质性下的隐私式折衷,并且当局部更新的数量和异质性水平增长时,展示了在最先进的算法DP-Fedivg上的DP-Scaffold的优越性。我们的数值结果证实了我们的分析,并表明DP-Scaffold在实践中提供了重大的收益。
translated by 谷歌翻译