分布式机器学习实现可扩展性和计算卸载,但需要大量的通信。因此,分布式学习设置中的沟通效率是一个重要的考虑因素,尤其是当通信是无线且采用电池驱动设备时。在本文中,我们开发了一种基于审查的重球(CHB)方法,用于在服务器工作者体系结构中分布式学习。除非其本地梯度与先前传播的梯度完全不同,否则每个工人的自我审查员。 HB学习问题的显着实际优势是众所周知的,但是尚未解决降低通信的问题。 CHB充分利用HB平滑来消除报告的微小变化,并证明达到了与经典HB方法相当的线性收敛速率,以平滑和强烈凸出目标函数。 CHB的收敛保证在理论上是合理的,对于凸和非凸案。此外,我们证明,在某些情况下,至少可以消除所有通信的一半,而不会对收敛率产生任何影响。广泛的数值结果验证了CHB在合成和真实数据集(凸,非凸和非不同情况)上的通信效率。鉴于目标准确性,与现有算法相比,CHB可以显着减少通信数量,从而实现相同的精度而不减慢优化过程。
translated by 谷歌翻译
数据爆炸和模型尺寸的增加推动了大规模机器学习的显着进步,但也使模型训练时间耗时和模型存储变得困难。为了解决具有较高计算效率和设备限制的分布式模型培训设置中的上述问题,仍然存在两个主要困难。一方面,交换信息的沟通成本,例如,不同工人之间的随机梯度是分布式培训效率的关键瓶颈。另一方面,较少的参数模型容易用于存储和通信,但是损坏模型性能的风险。为了同时平衡通信成本,模型容量和模型性能,我们提出了量化的复合镜下降自适应亚基(QCMD Adagrad),并量化正规化双平均平均自适应亚级别(QRDA ADAGRAD)进行分布式培训。具体来说,我们探讨了梯度量化和稀疏模型的组合,以降低分布式培训中每次迭代的通信成本。构建了基于量化梯度的自适应学习率矩阵,以在沟通成本,准确性和模型稀疏性之间达到平衡。此外,从理论上讲,我们发现大量化误差会引起额外的噪声,从而影响模型的收敛性和稀疏性。因此,在QCMD Adagrad和QRDA Adagrad中采用了具有相对较小误差的阈值量化策略,以提高信噪比并保留模型的稀疏性。理论分析和经验结果都证明了所提出的算法的功效和效率。
translated by 谷歌翻译
Federated learning is a distributed framework according to which a model is trained over a set of devices, while keeping data localized. This framework faces several systemsoriented challenges which include (i) communication bottleneck since a large number of devices upload their local updates to a parameter server, and (ii) scalability as the federated network consists of millions of devices. Due to these systems challenges as well as issues related to statistical heterogeneity of data and privacy concerns, designing a provably efficient federated learning method is of significant importance yet it remains challenging. In this paper, we present FedPAQ, a communication-efficient Federated Learning method with Periodic Averaging and Quantization. FedPAQ relies on three key features: (1) periodic averaging where models are updated locally at devices and only periodically averaged at the server; (2) partial device participation where only a fraction of devices participate in each round of the training; and (3) quantized messagepassing where the edge nodes quantize their updates before uploading to the parameter server. These features address the communications and scalability challenges in federated learning. We also show that FedPAQ achieves near-optimal theoretical guarantees for strongly convex and non-convex loss functions and empirically demonstrate the communication-computation tradeoff provided by our method.
translated by 谷歌翻译
对以联邦学习(FL)的名义进行的分布式优化框架越来越感兴趣。特别是,在通信资源(例如,带宽)和数据分布方面,网络非常异质的情况下,网络是强烈的。在这些情况下,本地机器(代理)和中央服务器(主)之间的通信是主要考虑因素。在这项工作中,我们提出了棚屋,这是一种原始的通信限制在这种异质场景中旨在加速FL的牛顿型(NT)算法。棚子是通过设计强大到非i.i.d.数据分布,处理代理通信资源的异质性(CRS),仅需要零星的Hessian计算,并实现超级线性收敛。这是可能的,这是基于当地Hessian矩阵的特征分配的增量策略,该矩阵(可能)(可能)过时的二阶信息。通过评估(i)收敛所需的通信回合的数量,(ii)传输的数据总量以及(iii)本地Hessian计算的数量,可以在实际数据集上进行彻底验证所提出的解决方案。对于所有这些指标,提出的方法显示出对巨人和FedNL等最新技术的卓越性能。
translated by 谷歌翻译
In large-scale distributed learning, security issues have become increasingly important. Particularly in a decentralized environment, some computing units may behave abnormally, or even exhibit Byzantine failures-arbitrary and potentially adversarial behavior. In this paper, we develop distributed learning algorithms that are provably robust against such failures, with a focus on achieving optimal statistical performance. A main result of this work is a sharp analysis of two robust distributed gradient descent algorithms based on median and trimmed mean operations, respectively. We prove statistical error rates for three kinds of population loss functions: strongly convex, nonstrongly convex, and smooth non-convex. In particular, these algorithms are shown to achieve order-optimal statistical error rates for strongly convex losses. To achieve better communication efficiency, we further propose a median-based distributed algorithm that is provably robust, and uses only one communication round. For strongly convex quadratic loss, we show that this algorithm achieves the same optimal error rate as the robust distributed gradient descent algorithms.
translated by 谷歌翻译
我们介绍了一个框架 - Artemis-,以解决分布式或联合设置中的学习问题,并具有通信约束和设备部分参与。几位工人(随机抽样)使用中央服务器执行优化过程来汇总其计算。为了减轻通信成本,Artemis允许在两个方向上(从工人到服务器,相反)将发送的信息与内存机制相结合。它改进了仅考虑单向压缩(对服务器)的现有算法,或在压缩操作员上使用非常强大的假设,并且通常不考虑设备的部分参与。我们在非I.I.D中的随机梯度(仅在最佳点界定的噪声方差)提供了快速的收敛速率(线性最高到阈值)。设置,突出显示内存对单向和双向压缩的影响,分析Polyak-Ruppert平均。我们在分布中使用收敛性,以获得渐近方差的下限,该方差突出了实际的压缩极限。我们提出了两种方法,以解决设备部分参与的具有挑战性的案例,并提供实验结果以证明我们的分析有效性。
translated by 谷歌翻译
我们考虑主人想要在$ n $ Workers上运行分布式随机梯度下降(SGD)算法的设置,每个算法都有一个数据子集。分布式SGD可能会遭受散乱者的影响,即导致延迟的缓慢或反应迟钝的工人。文献中研究的一种解决方案是在更新模型之前等待每次迭代的最快$ k <n $工人的响应,其中$ k $是固定的参数。 $ k $的价值的选择提供了SGD的运行时(即收敛率)与模型错误之间的权衡。为了优化误差折衷,我们研究了在整个算法的运行时,以自适应〜$ k $(即不同的$ k $)调查分布式SGD。我们首先设计了一种自适应策略,用于改变$ k $,该策略根据我们得出的墙壁通行时间的函数,基于上限的上限来优化这种权衡。然后,我们建议并实施一种基于统计启发式的自适应分布式SGD的算法。我们的结果表明,与非自适应实现相比,分布式SGD的自适应版本可以在更少的时间内达到较低的误差值。此外,结果还表明,自适应版本是沟通效率的,其中主人与工人之间所需的通信量小于非自适应版本的沟通量。
translated by 谷歌翻译
在过去的几年中,各种通信压缩技术已经出现为一个不可或缺的工具,有助于缓解分布式学习中的通信瓶颈。然而,尽管{\ em偏见}压缩机经常在实践中显示出卓越的性能,但与更多的研究和理解的{\ EM无偏见}压缩机相比,非常少见。在这项工作中,我们研究了三类偏置压缩操作员,其中两个是新的,并且它们在施加到(随机)梯度下降和分布(随机)梯度下降时的性能。我们首次展示偏置压缩机可以在单个节点和分布式设置中导致线性收敛速率。我们证明了具有错误反馈机制的分布式压缩SGD方法,享受ergodic速率$ \ mathcal {o} \ left(\ delta l \ exp [ - \ frac {\ mu k} {\ delta l}] + \ frac {(c + \ delta d)} {k \ mu} \右)$,其中$ \ delta \ ge1 $是一个压缩参数,它在应用更多压缩时增长,$ l $和$ \ mu $是平滑性和强凸常数,$ C $捕获随机渐变噪声(如果在每个节点上计算完整渐变,则$ C = 0 $如果在每个节点上计算),则$ D $以最佳($ d = 0 $ for over参数化模型)捕获渐变的方差)。此外,通过对若干合成和经验的通信梯度分布的理论研究,我们阐明了为什么和通过多少偏置压缩机优于其无偏的变体。最后,我们提出了几种具有有希望理论担保和实际表现的新型偏置压缩机。
translated by 谷歌翻译
我们考虑了分布式随机优化问题,其中$ n $代理想要最大程度地减少代理本地函数总和给出的全局函数,并专注于当代理的局部函数在非i.i.i.d上定义时,专注于异质设置。数据集。我们研究本地SGD方法,在该方法中,代理执行许多局部随机梯度步骤,并偶尔与中央节点进行通信以改善其本地优化任务。我们分析了本地步骤对局部SGD的收敛速率和通信复杂性的影响。特别是,我们允许在$ i $ th的通信回合($ h_i $)期间允许在所有通信回合中进行固定数量的本地步骤。我们的主要贡献是将本地SGD的收敛速率表征为$ \ {h_i \} _ {i = 1}^r $在强烈凸,convex和nonconvex local函数下的函数,其中$ r $是沟通总数。基于此特征,我们在序列$ \ {h_i \} _ {i = 1}^r $上提供足够的条件,使得本地SGD可以相对于工人数量实现线性加速。此外,我们提出了一种新的沟通策略,将本地步骤提高,优于现有的沟通策略,以突出局部功能。另一方面,对于凸和非凸局局功能,我们认为固定的本地步骤是本地SGD的最佳通信策略,并恢复了最新的收敛速率结果。最后,我们通过广泛的数值实验证明我们的理论结果是合理的。
translated by 谷歌翻译
非凸优化的马鞍点避免问题在大规模分布式学习框架中非常具有挑战性,例如联邦学习,特别是在拜占庭工作者的存在。 「庆祝的立方规范化牛顿方法\ Cite {Nest}是避免标准集中(非分布式)设置中的马鞍点的最优雅方式之一。在本文中,我们将立方正规化的牛顿方法扩展到分布式框架,同时解决了几种实际挑战,如通信瓶颈和拜占庭攻击。请注意,由于流氓机器可以在丢失功能的鞍点附近创建\ emph {假本地最小值},因此在丢失函数的鞍点附近,尚未创建拜占机器的存在,避免问题在拜占庭机器的情况下变得更加重要。作为二阶算法,我们的迭代复杂性远低于第一订单对应物。此外,我们使用像$ \ delta $类似的压缩(或稀疏)技术,以便进行通信效率。我们在包括近似(子采样)梯度和黑森州的若干环境下获得理论担保。此外,我们通过使用标准数据集和几种类型的拜占庭攻击进行实验验证了我们的理论调查结果,并在迭代复杂性中获得了25 \%$ 25 \%$的提高。
translated by 谷歌翻译
我们开发了一种新方法来解决中央服务器中分布式学习问题中的通信约束。我们提出和分析了一种执行双向压缩的新算法,并仅使用uplink(从本地工人到中央服务器)压缩达到与算法相同的收敛速率。为了获得此改进,我们设计了MCM,一种算法,使下行链路压缩仅影响本地模型,而整体模型则保留。结果,与以前的工作相反,本地服务器上的梯度是在干扰模型上计算的。因此,融合证明更具挑战性,需要精确控制这种扰动。为了确保它,MCM还将模型压缩与存储机制相结合。该分析打开了新的门,例如纳入依赖工人的随机模型和部分参与。
translated by 谷歌翻译
Federated learning has shown its advances recently but is still facing many challenges, such as how algorithms save communication resources and reduce computational costs, and whether they converge. To address these critical issues, we propose a hybrid federated learning algorithm (FedGiA) that combines the gradient descent and the inexact alternating direction method of multipliers. The proposed algorithm is more communication- and computation-efficient than several state-of-the-art algorithms theoretically and numerically. Moreover, it also converges globally under mild conditions.
translated by 谷歌翻译
This study investigates clustered federated learning (FL), one of the formulations of FL with non-i.i.d. data, where the devices are partitioned into clusters and each cluster optimally fits its data with a localized model. We propose a novel clustered FL framework, which applies a nonconvex penalty to pairwise differences of parameters. This framework can automatically identify clusters without a priori knowledge of the number of clusters and the set of devices in each cluster. To implement the proposed framework, we develop a novel clustered FL method called FPFC. Advancing from the standard ADMM, our method is implemented in parallel, updates only a subset of devices at each communication round, and allows each participating device to perform a variable amount of work. This greatly reduces the communication cost while simultaneously preserving privacy, making it practical for FL. We also propose a new warmup strategy for hyperparameter tuning under FL settings and consider the asynchronous variant of FPFC (asyncFPFC). Theoretically, we provide convergence guarantees of FPFC for general nonconvex losses and establish the statistical convergence rate under a linear model with squared loss. Our extensive experiments demonstrate the advantages of FPFC over existing methods.
translated by 谷歌翻译
由于分布式和联合学习的高通信成本,依赖压缩通信的方法变得越来越受欢迎。此外,最好的理论上和实际上表演梯度类型方法总是依赖某种形式的加速/动量来减少通信数量(更快的收敛)(更快的收敛),例如,Nesterov的加速梯度下降(Nesterov,1983,2004)和Adam(Kingma和Kingma) BA,2014)。为了结合通信压缩和收敛加速的好处,我们提出了基于Anita(Li,2021)的Anita {压缩和加速}梯度方法进行分布式优化,我们称之为CANITA。我们的Canita实现了\ emph {First加速率} $ o \ bigg(\ sqrt {\ big(1+ \ sqrt {\ frac {\ oomega ^ 3} {n}} \ big)\ frac {l} {\ epsilon }} + \ oomega \ big(\ frac {1} {\ epsilon} \ big)^ {\ frac {1} {3}} {3}} \ bigg)$,从而提高了最先进的非加速RAY $ o \ left((1+ \ frac {\ oomega} {n})\ frac {l} {\ epsilon} + \ frac {\ oomega ^ 2 + \ oomega} {\ omega + n} \ frac {1 } {\ epsilon} \右)美元(khaled等,2020)用于分布式一般凸面问题,其中$ \ epsilon $是目标错误,$ l $是目标的平滑参数,$ n $机器/设备的数量和$ \ omega $是压缩参数(较大的$ \ omega $意味着可以应用更多压缩,并且没有压缩意味着$ \ omega = 0 $)。我们的结果表明,只要设备数量为$ n $很大(在分布式/联合学习中经常是真实的),或者压缩$ \ omega $不是很高,Canita达到了更快的收敛速度$ o \ big(\ sqrt {\ frac {l} {\ epsilon}} \ big)$,即通信轮的数量是$ o \ big(\ sqrt {\ frac {l} {\ epsilon}} \ big)$(与$ o \ big(\ frac {l} {\ epsilon} \ big)通过以前的作品实现)。因此,天堂岛享有压缩(每轮压缩通信)和加速度(较少的通信轮)的优点。
translated by 谷歌翻译
最近的一些实证研究表明,重要的机器学习任务,例如训练深神网络,表现出低级别的结构,其中损耗函数仅在输入空间的几个方向上差异很大。在本文中,我们利用这种低级结构来降低基于规范梯度的方法(例如梯度下降(GD))的高计算成本。我们提出的\ emph {低率梯度下降}(lrgd)算法找到了$ \ epsilon $ - approximate的固定点$ p $ - 维功能,首先要识别$ r \ r \ leq p $重要的方向,然后估算真实的方向每次迭代的$ p $维梯度仅通过计算$ r $方向来计算定向衍生物。我们确定强烈凸和非convex目标函数的LRGD的“定向甲骨文复杂性”是$ \ Mathcal {o}(r \ log(1/\ epsilon) + rp) + rp)$ and $ \ Mathcal {o}(R /\ epsilon^2 + rp)$。当$ r \ ll p $时,这些复杂性小于$ \ mathcal {o}的已知复杂性(p \ log(1/\ epsilon))$和$ \ mathcal {o}(p/\ epsilon^2) {\ gd}的$分别在强凸和非凸口设置中。因此,LRGD显着降低了基于梯度的方法的计算成本,以实现足够低级别的功能。在分析过程中,我们还正式定义和表征精确且近似级别函数的类别。
translated by 谷歌翻译
联邦学习(FL)是一种越来越受欢迎的机器学习范式,其中多个节点在隐私,通信和多个异质性约束下尝试协同学习。联邦学习中的持续存在问题是,不清楚优化目标应该:监督学习的标准平均风险最小化在处理联合学习的几个主要限制方面是不充分的,例如沟通适应性和个性化控制。我们在联合学习的框架中识别几个关键的Desiderata,并介绍了一个新的框架,Flix,考虑到联合学习所带来的独特挑战。 Flix具有标准的有限和形式,使从业者能够利用分布式优化的现有(潜在非本地)方法的巨大财富。通过不需要任何通信的智能初始化,Flix不需要使用本地步骤,但仍然可以通过本地方法执行不一致的正则化。我们提供了几种用于在通信约束下有效解决FLIX制剂的算法。最后,我们通过广泛的实验证实了我们的理论结果。
translated by 谷歌翻译
沟通是大规模机器学习模型的分布式培训中的关键瓶颈之一,而交换信息(例如随机梯度或模型)的有损压缩是减轻此问题的最有效工具之一。研究最多的压缩技术之一是无偏压缩操作员的类别,其方差为我们希望压缩的向量的平方规范的倍数界定。根据设计,该方差可能保持较高,并且只有在输入向量接近零时才会减少。但是,除非被训练的模型过度参数化,否则我们希望在经典方法的迭代(例如分布式压缩{\ sf sgd}的迭代术中,我们希望压缩的矢量有A的理由,对收敛产生不利影响速度。由于这个问题,最近提出了一些更详尽且看似截然不同的算法,目的是规避了这个问题。这些方法基于在我们通常希望压缩的向量和一些辅助向量之间压缩{\ em差异}的想法,这些辅助向量会在整个迭代过程中变化。在这项工作中,我们退后一步,并在概念上和理论上开发了研究此类方法的统一框架。我们的框架结合了使用无偏和有偏的压缩机压缩梯度和模型的方法,并阐明了辅助向量的构造。此外,我们的一般框架可以改善几种现有算法,并可以产生新的算法。最后,我们进行了几个数字实验,以说明和支持我们的理论发现。
translated by 谷歌翻译
我们在限制下研究了一阶优化算法,即使用每个维度的$ r $ bits预算进行量化下降方向,其中$ r \ in(0,\ infty)$。我们提出了具有收敛速率的计算有效优化算法,与信息理论性能匹配:(i):(i)具有访问精确梯度甲骨文的平稳且强烈的符合目标,以及(ii)一般凸面和非平滑目标访问嘈杂的亚级别甲骨文。这些算法的关键是一种多项式复杂源编码方案,它在量化它之前将矢量嵌入随机子空间中。这些嵌入使得具有很高的概率,它们沿着转换空间的任何规范方向的投影很小。结果,量化这些嵌入,然后对原始空间进行逆变换产生一种源编码方法,具有最佳的覆盖效率,同时仅利用每个维度的$ r $ bits。我们的算法保证了位预算$ r $的任意值的最佳性,其中包括次线性预算制度($ r <1 $),以及高预算制度($ r \ geq 1 $),虽然需要$ o \ left(n^2 \右)$乘法,其中$ n $是尺寸。我们还提出了使用Hadamard子空间对这种编码方案的有效放松扩展以显着提高梯度稀疏方案的性能。数值模拟验证我们的理论主张。我们的实现可在https://github.com/rajarshisaha95/distoptconstrocncomm上获得。
translated by 谷歌翻译
最近已经提出了压缩的随机梯度下降(SGD)算法,以解决分布式和分散的优化问题(例如在联合机器学习中出现的问题)中的通信瓶颈。现有的压缩SGD算法假定使用非自适应的阶梯尺寸(恒定或减小)来提供理论收敛保证。通常,在实践中对数据集和学习算法进行微调,以提供良好的经验性能。在许多学习方案中,这种微调可能是不切实际的,因此,使用自适应阶梯尺寸研究压缩SGD是很感兴趣的。由SGD在未压缩环境中有效训练神经网络的自适应阶梯尺寸方法的先前工作的激励,我们为压缩SGD开发了一种自适应阶梯尺寸方法。特别是,我们在压缩SGD中引入了一种缩放技术,我们用来在插值条件下为凸 - 平滑和强凸 - 平滑目标建立订单 - 最佳收敛速率,并在强烈的增长下为健康)状况。我们还通过仿真示例显示,如果没有这种缩放,算法就无法收敛。我们介绍了现实世界数据集的深神经网络的实验结果,并将我们提出的算法的性能与先前提出的文献压缩SGD方法进行比较,并在Resnet-18,Resnet-34和Densenet架构上的CIFAR-100架构上的性能提高了和CIFAR-10数据集的各种压缩级别。
translated by 谷歌翻译
我们考虑在培训深度学习模型的通信约束下分布式优化。我们提出了一种新的算法,其参数更新依赖于两个力量:常规渐变步骤,以及当前最佳性能的工人(领导者)决定的纠正方向。我们的方法以多种方式与参数平均方案EASGD不同:(i)我们的客观制定与原始优化问题相比,我们的客观制定不会改变静止点的位置; (ii)我们避免通过将彼此不同局部最小值下降的本地工人拉动的融合减速(即其参数的平均值); (iii)我们的设计更新破坏了对称性的诅咒(被困在对称非凸景观中的透过透过透过次优溶液中的现象); (iv)我们的方法更加沟通高效,因为它仅广播领导者而不是所有工人的参数。我们提供了对所提出的算法的批量版本的理论分析,我们称之为领导者梯度下降(LGD)及其随机变体(LSGD)。最后,我们实现了算法的异步版本,并将其扩展到多领导者设置,我们组成的工人组,每个人都由自己的本地领导者(组中最佳表现者)表示,并使用纠正措施更新每个工作人员方向由两个有吸引力的力量组成:一个到当地,一个到全球领导者(所有工人中最好的表演者)。多引导设置与当前的硬件架构良好对齐,其中形成组的本地工人位于单个计算节点内,不同的组对应于不同的节点。对于培训卷积神经网络,我们经验证明了我们的方法对最先进的基线比较。
translated by 谷歌翻译